過(guò)去12個(gè)月,硅谷有127億美元砸進(jìn)了智能體(Agentic AI)賽道。錢(qián)燒得越多,架構(gòu)師們的表情越熟悉——這套分布式推理的坑,20年前Spark團(tuán)隊(duì)已經(jīng)踩過(guò)一遍。
這不是比喻。是同一套數(shù)學(xué)結(jié)構(gòu)在不同硬件上的復(fù)刻。
1990年代我們拆存儲(chǔ),2000年代拆算力,2010年代用Spark拆數(shù)據(jù)處理。每次都要回答三個(gè)問(wèn)題:怎么切分任務(wù)?協(xié)調(diào)成本怎么控?局部故障怎么不拖垮全局?2026年輪到第四個(gè)版本:怎么拆"思考"本身。
從Spark到智能體:同一套劇本的第四次拍攝
Apache Spark的核心設(shè)計(jì)叫RDD(彈性分布式數(shù)據(jù)集,Resilient Distributed Datasets)。簡(jiǎn)單說(shuō),就是把大任務(wù)切成小任務(wù),丟到不同機(jī)器上跑,哪臺(tái)崩了就從上一個(gè)檢查點(diǎn)重啟,不用全盤(pán)重來(lái)。
智能體架構(gòu)現(xiàn)在玩的幾乎是同一套。你把一個(gè)復(fù)雜問(wèn)題扔給AI,它不會(huì)自己硬算——而是拆成子任務(wù),調(diào)度給不同專長(zhǎng)的子代理(Sub-agent):有的查數(shù)據(jù)庫(kù),有的寫(xiě)代碼,有的做驗(yàn)證。每個(gè)子代理就是一個(gè)"執(zhí)行節(jié)點(diǎn)",主代理是"驅(qū)動(dòng)程序"(Driver)。
Spark的窄依賴(Narrow Dependency)和寬依賴(Wide Dependency)之分,在智能體里變成了"串行推理"和"分支探索"。窄依賴是A做完B才能做,寬依賴是A的結(jié)果要廣播給B、C、D同時(shí)啟動(dòng)。智能體的"思維鏈"(Chain-of-Thought)對(duì)應(yīng)窄依賴,多路徑并行搜索對(duì)應(yīng)寬依賴。
連故障恢復(fù)的邏輯都一模一樣。Spark用血統(tǒng)(Lineage)重建丟失的分區(qū),智能體用"執(zhí)行日志+狀態(tài)快照"讓崩潰的代理從斷點(diǎn)續(xù)跑。2024年OpenAI的Swarm框架、2025年Anthropic的MCP協(xié)議,底層都在復(fù)刻這個(gè)思路。
協(xié)調(diào)成本:智能體時(shí)代的"Shuffle地獄"
Spark最頭疼的是Shuffle——數(shù)據(jù)要在節(jié)點(diǎn)間大規(guī)模搬運(yùn),網(wǎng)絡(luò)帶寬和序列化開(kāi)銷(xiāo)能吃掉一半性能。智能體現(xiàn)在面臨的是"認(rèn)知Shuffle":子代理之間的中間結(jié)果傳遞、上下文窗口的反復(fù)壓縮解壓、多輪對(duì)話的狀態(tài)同步。
一個(gè)典型場(chǎng)景:主代理讓代碼代理寫(xiě)函數(shù),測(cè)試代理報(bào)bug,代碼代理修改,測(cè)試代理再驗(yàn)。三輪下來(lái),上下文里塞滿了冗余的中間版本,token消耗指數(shù)級(jí)膨脹。這和Spark里"把同一個(gè)RDD算三遍"的蠢事,本質(zhì)上是同一種資源浪費(fèi)。
更隱蔽的是調(diào)度延遲。Spark的DAG調(diào)度器(Directed Acyclic Graph,有向無(wú)環(huán)圖)要權(quán)衡數(shù)據(jù)本地性和負(fù)載均衡,智能體的"推理調(diào)度器"現(xiàn)在也在糾結(jié):該讓哪個(gè)模型處理這個(gè)子任務(wù)?GPT-4太貴,Claude 3.5夠用嗎?要不要降級(jí)到本地小模型?這個(gè)決策本身的延遲,可能已經(jīng)超過(guò)子任務(wù)的執(zhí)行時(shí)間。
2025年某頭部AI公司的內(nèi)部數(shù)據(jù)顯示,其智能體系統(tǒng)30%的端到端延遲花在了"決定誰(shuí)來(lái)干活"上,而不是干活本身。
狀態(tài)管理:從Checkpoint到"思維快照"
Spark靠周期性Checkpoint把狀態(tài)刷到持久存儲(chǔ),崩潰后回滾。智能體需要更細(xì)粒度的方案——因?yàn)?思考"是連續(xù)的,不能像批處理那樣等階段結(jié)束再存盤(pán)。
現(xiàn)在的主流做法是"流式Checkpoint":每完成一個(gè)推理步驟,就把代理的內(nèi)部狀態(tài)(包括記憶、工具調(diào)用歷史、待辦事項(xiàng))序列化存起來(lái)。代價(jià)是存儲(chǔ)爆炸。一個(gè)復(fù)雜任務(wù)可能產(chǎn)生上千個(gè)中間狀態(tài),每個(gè)都是幾MB的JSON blob。
有團(tuán)隊(duì)在嘗試"差異Checkpoint",只存狀態(tài)變化量。這和Spark的增量持久化異曲同工,但智能體的狀態(tài)結(jié)構(gòu)遠(yuǎn)比數(shù)據(jù)分區(qū)復(fù)雜——包含非結(jié)構(gòu)化的自然語(yǔ)言記憶、工具調(diào)用的副作用、甚至"置信度"這種模糊變量。序列化一次的開(kāi)銷(xiāo),可能趕上一次輕量級(jí)推理。
一個(gè)未公開(kāi)的技術(shù)細(xì)節(jié):某開(kāi)源智能體框架在v0.8版本引入了"惰性Checkpoint",只在檢測(cè)到子代理可能失敗時(shí)才觸發(fā)。結(jié)果故障恢復(fù)成功率從92%跌到67%——省下的存儲(chǔ)成本,換成了不可接受的可靠性缺口。
2026年的真正挑戰(zhàn):當(dāng)"推理"變成基礎(chǔ)設(shè)施
Spark花了8年時(shí)間(2010-2018)才從"能跑"進(jìn)化到"好跑"。智能體沒(méi)有這么奢侈——市場(chǎng)窗口期可能只有18個(gè)月。
當(dāng)前最緊迫的工程問(wèn)題是"推理本地化"。Spark可以把計(jì)算推到數(shù)據(jù)旁邊(Data Locality),智能體需要把"思考"推到信息旁邊。一個(gè)查詢數(shù)據(jù)庫(kù)的子代理,不應(yīng)該把整張表拉到上下文里再分析,而應(yīng)該讓數(shù)據(jù)庫(kù)先聚合,只返回摘要。這要求智能體架構(gòu)和存儲(chǔ)層深度耦合,而現(xiàn)在的主流框架還在用REST API這種粗粒度接口。
另一個(gè)暗礁是"代理間的信任假設(shè)"。Spark的節(jié)點(diǎn)由同一套集群管理器調(diào)度,可以默認(rèn)誠(chéng)實(shí)。智能體的子代理可能來(lái)自不同廠商、運(yùn)行在不同安全域,甚至部分是人類(lèi)外包團(tuán)隊(duì)。驗(yàn)證一個(gè)子代理的輸出,比驗(yàn)證一個(gè)Map任務(wù)的輸出難幾個(gè)數(shù)量級(jí)。
2025年底,某金融公司的智能體系統(tǒng)被曝用了一個(gè)"優(yōu)化":讓便宜的子代理先出草案,貴的模型只審閱修改。結(jié)果便宜代理在利率計(jì)算環(huán)節(jié)系統(tǒng)性地漏掉閏年調(diào)整,審計(jì)時(shí)才發(fā)現(xiàn)損失已累積數(shù)月。
老架構(gòu)師的新戰(zhàn)場(chǎng)
如果你2015年調(diào)過(guò)Spark的executor內(nèi)存配比,2026年調(diào)智能體的上下文預(yù)算會(huì)有強(qiáng)烈的既視感。那些關(guān)于"多少數(shù)據(jù)該廣播、多少該Shuffle"的直覺(jué),直接平移到"多少背景該塞進(jìn)提示詞、多少該讓工具去查"。
一個(gè)值得玩味的細(xì)節(jié):Spark創(chuàng)始人Matei Zaharia現(xiàn)在領(lǐng)導(dǎo)的Databricks,2024年悄悄收購(gòu)了一家智能體編排初創(chuàng)公司。官方說(shuō)法是"補(bǔ)充AI能力",但內(nèi)部工程師的猜測(cè)更直接——他們想把Photon引擎的向量化執(zhí)行經(jīng)驗(yàn),復(fù)用到LLM的批推理優(yōu)化上。
歷史不會(huì)重復(fù),但押韻的方式越來(lái)越直白。當(dāng)年Spark用"延遲計(jì)算+血統(tǒng)追溯"解決了分布式數(shù)據(jù)處理的可靠性,現(xiàn)在同一套抽象正在智能體里重建"分布式思考"的可靠性。區(qū)別在于,數(shù)據(jù)不會(huì)自己改主意,而智能體的每一步輸出都帶概率。
當(dāng)2026年的架構(gòu)師們終于把這套系統(tǒng)調(diào)穩(wěn),他們會(huì)不會(huì)也像2018年的Spark用戶那樣,忘記底層的復(fù)雜,只覺(jué)得"這東西本來(lái)就該好用"?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.