2022年11月30日,OpenAI發布了ChatGPT,轟動一時。
到今天,只不過三年多。但很多人的體感里,AI好像已經換了好幾個世代。
這幾年里,大語言模型已經從技術圈里的新鮮東西,變成了幾乎每天都在刷屏的基礎技術。ChatGPT、Claude、Gemini、DeepSeek、Qwen、Kimi,各種模型名字層出不窮;預訓練、微調、RLHF、Scaling Law、MoE、RAG、Agent、Reasoning Model,各種技術詞也越堆越高。很多人關心AI,卻被這些名詞追著跑,越看越亂。
這篇文章想做一件事:把Transformer架構出現以來,大語言模型技術發展的主線講清楚。
本文不會覆蓋每一個模型、每一篇論文、每一個創業公司。那樣寫出來只會變成技術名詞年表。真正重要的是那幾次關鍵轉向:語言模型怎么從“預測下一個詞”走到通用智能入口,為什么規模會變成核心變量,ChatGPT到底改變了什么,開源模型為什么突然追上來,推理模型又意味著什么。
本文伴隨者你,把這幾年大語言模型的發展從一堆散亂名詞,整理成一條清楚的主線。
一、架構的勝利(2017–2020)
1.1 一個為翻譯而生的架構
Google翻譯不是從神經網絡開始的。它2006年上線,最早做的是大規模短語統計機器翻譯:先從海量雙語文本里統計詞組和詞組之間的對應關系,再把句子切成一段段短語拼起來。這個方法撐了Google翻譯差不多十年。
到2016年,Google開始把核心系統切到基于神經網絡的GNMT(Google Neural Machine Translation)。GNMT用的是RNN和它的升級版LSTM,不再只是一段段短語匹配,而是把整句作為序列讀進去。這套辦法是從左到右一個詞一個詞處理,比如,"我喜歡北京的烤鴨"要先讀"我",再合"喜歡",再合"北京",最后用末尾的隱藏狀態生成翻譯。兩個工程硬傷顯而易見:處理是串行的,GPU的并行能力用不起來;長句子里前面的詞到了后面會被稀釋,距離一長信號就糊了。
![]()
Long short-term memory架構
2017年6月,Google翻譯組的八個人發了一篇叫《Attention Is All You Need》的論文。標題里的"All You Need"是挑釁:他們提議把RNN這套循環結構整個扔掉,只留下注意力機制。這套新架構他們叫Transformer。
Transformer是一個堆疊式神經網絡。所謂堆疊,就是把同樣結構的"層"重復放很多次,讓每一層都在上一層的結果上繼續加工。原論文里為了做機器翻譯,encoder和decoder各堆了6層。每層只有兩個核心模塊:self-attention(自注意力)和feed-forward(前饋網絡)。輸入塞一段文字,輸出端就拿到每個詞的"上下文向量",也就是這個詞在這句話里的意思被周圍所有詞調整之后的表征。
Figure 1: From ‘Attention Is All You Need’ by Vaswani et al.
![]()
Attention是這套架構里最關鍵的一步。還是拿"我喜歡北京的烤鴨"舉例。"烤鴨"兩個字單獨看就是"烤的鴨子",但這句話里它特指"北京烤鴨"。模型怎么把"北京"那層意思塞進"烤鴨"里?辦法是讓"烤鴨"環顧一圈,給每個詞打分:"北京"最高,"喜歡"中等,"我"和"的"幾乎為零。再按這套分數把每個詞的信息按比例吸收過來。"烤鴨"原本那個泛指"烤的鴨子"的向量,就被改寫成"這句話里那只我喜歡的北京烤鴨",它從此知道自己在這一句里的精確含義。句子里6個詞同時各做一遍,一輪跑完,每個詞都從通用含義升級成了"在這句話里的具體含義"。這就是attention這一步的產出。
![]()
跟RNN比一下就能看出狠在哪里。RNN處理同一句話是這樣:先讀"我"記一筆,讀"喜歡"合并進來,讀"北京"再合并,一路滾到"烤鴨",最后只剩一筆總結。這里有兩個毛病:必須一個詞一個詞串著讀,前一步沒算完后一步動不了,GPU幾千個核心閑著干瞪眼;等滾到"烤鴨"時,"我"已經被壓縮了5次,信號早就糊了,想回頭看清楚已經看不到。Attention把兩件事一次解掉,每個詞一步直達每個詞,沒有壓縮也沒有先后,6個詞的計算打包成一次大矩陣乘法塞給GPU,并行完成。這就是 "Attention Is All You Need" 那句標題的真正意思:扔掉RNN的循環結構,問題反而都解決了。
原始Transformer分兩半。Encoder(編碼器)負責"讀原文":用6層self-attention把英文每個詞的上下文榨出來,輸出一組"原文向量"。Decoder(解碼器)負責"寫譯文":每生成一個詞做兩件事,一是看自己已經生成的前面那些詞(self-attention加遮罩,不讓偷看未來),二是看encoder輸出的原文向量(cross-attention,把譯文跟原文對齊)。讀 + 寫連起來就是機器翻譯的天然分工。
論文發出來當年,Transformer在WMT標準翻譯測試上一下把英德、英法的BLEU分推到新高。BLEU是機器翻譯里常用的自動評分,粗略說,就是看機器譯文和人工參考譯文有多接近。它的訓練成本也只用之前SOTA模型的幾分之一。SOTA是state of the art的縮寫,意思是當時公開結果里最強的模型。學術界很快意識到這套架構的潛力,2018年起就有人開始把它從翻譯里搬出來,試著改造給別的任務用。
1.2 兩半分家,兩個學派
Transformer原本是為翻譯設計的,天然分成兩半:encoder負責讀原文,decoder負責寫譯文。2018年之后,大家很快發現,這兩半其實可以拆開,各自發展成一條路線。
![]()
Google先拿走了encoder那一半。原因很直接:當時NLP里最值錢的問題不是"寫一段話",而是"讀懂一段話"。比如判斷兩句話是不是矛盾,找出一句話里的公司名、人名、地名,或者在一段材料里回答問題。這類任務不需要模型從左到右生成新文本,更需要模型把整句話、甚至整段話看明白。
這就是BERT的出發點。BERT全稱是Bidirectional Encoder Representations from Transformers,直譯過來就是"來自Transformer的雙向編碼器表示"。重點有兩個詞:encoder和bidirectional。encoder說明它只用Transformer左邊那半套讀文本的結構;bidirectional說明它讀一個詞時,可以同時看左邊和右邊的上下文。
BERT的訓練方式像完形填空。給一段話,隨機遮住一些詞,讓模型猜被遮住的是什么。比如"我喜歡北京的[MASK]",模型要從"我、喜歡、北京、的"這些上下文里猜出"烤鴨"這類詞。它還做過另一個訓練任務,叫next sentence prediction,讓模型判斷兩句話是不是自然相鄰。后來的模型不一定保留這個任務,但BERT最早就是靠這兩件事訓練出來的。
所以BERT并不是簡單做一個固定embedding。早期NLP里的word2vec、GloVe更像是給每個詞發一張固定身份證:"蘋果"這個詞無論出現在"吃蘋果"還是"蘋果公司"里,向量大體是同一個。BERT做的是contextual embedding,也就是上下文相關的表示。同一個"蘋果",放在水果句子里和公司句子里,最后出來的向量不一樣。
BERT出來之后,使用方式主要有兩種。第一種是fine-tuning:在BERT后面接一個很小的任務頭,然后把整個模型拿去微調,做分類、問答、命名實體識別、自然語言推理。第二種是feature extraction:把BERT當成一個強大的文本特征提取器,抽出某一層或者幾層的向量,再交給別的模型使用。
OpenAI走了另一條路。他們拿走的是decoder那一半。decoder和encoder最大的區別,是它不能偷看未來。它生成第N+1個詞時,只能看前面已經出現的詞。這正好適合一個極其簡單的訓練目標:給你前N個詞,猜第N+1個詞。
這就是GPT系列的起點。GPT是Generative Pre-trained Transformer的縮寫。Generative表示它是生成式模型,目標是繼續往后寫;Pre-trained表示它先在大量無標注文本上預訓練,再拿去適配具體任務;Transformer表示它用的是Transformer架構。這個名字其實把路線說得很清楚:先用海量文本訓練一個會續寫的Transformer,再看這個續寫能力能不能遷移到各種語言任務上。
OpenAI為什么要反著BERT干?三個理由。一是BERT那條路Google已經占住了,OpenAI當時是小玩家,跟Google同方向硬拼資源拼不過,必須找一條Google沒在做的路。二是生成比理解更難:BERT的完形填空左右兩邊的上下文都給你,相當于做選擇題;GPT只能看左邊猜右邊,是開放題。能把開放題做好,做選擇題是順帶的事。三是BERT不能生成、GPT能;當時大多數人覺得"生成"用處不大,OpenAI賭的是只要模型夠大,"生成"才是通用智能的入口。
這里把"預訓練"是什么也說清楚。預訓練就是用海量沒標注過的文本,讓模型從零開始學語言。"訓練"調的是Transformer里所有矩陣的參數(attention里的W_Q、W_K、W_V,feed-forward里的權重,加起來幾億到幾千億個數),最開始是隨機的,訓完會被調成能完成任務的狀態。GPT的訓練數據是從互聯網扒來的幾千億token文本(Common Crawl、Wikipedia、書、論文),訓練任務只有一個:根據前面的詞預測下一個詞,預測錯了就反向傳播微調那幾千億個參數。整個過程只用decoder那半,encoder被扔掉。
OpenAI在2018年6月發布了GPT-1,論文題目是《Improving Language Understanding by Generative Pre-Training》。GPT-1只有1.17億參數,按今天標準很小,但它提出了一個關鍵思路:先用"預測下一個詞"做通用預訓練,再用少量標注數據做任務微調。2019年2月,OpenAI發布GPT-2,參數漲到15億,訓練數據換成約40GB互聯網文本。GPT-2的重點不再只是做分類任務,而是展示模型可以寫出長段落,甚至在沒有專門訓練的情況下,表現出一點問答、摘要、翻譯的能力。
那GPT-1和GPT-2在benchmark上打得過BERT嗎?打不過。GPT-1比BERT早4個月發布,在少數任務上短暫拿過SOTA,但2018年10月BERT一出來就被全面壓過。2019年GPT-2漲到15億參數,但同期Facebook發的RoBERTa(優化版BERT,只有3.55億參數)反過來在GLUE、SQuAD這些主流榜單上把GPT-2繼續壓著。從參數量看GPT-2大4倍,從分數看反而輸。
GPT-2真正出圈靠的是另外兩件事。一是文本生成質量肉眼可見地強,能寫出連貫的長段落、風格切換自如,能以假亂真。二是OpenAI當時聲稱模型"太危險不能完全開源",分階段放出權重,一時刷屏。但在NLP學術圈眼里,整個2018到2020年,學界主流的判斷仍然偏向BERT那派:理解和生成是兩件事,應該分開設計。BERT負責"讀懂",GPT負責"續寫"。在當時很多人眼里,BERT更像正經NLP,GPT更像好玩的文字接龍。這其實是一個上層的理論判斷:理解要專門學理解,生成要專門學生成。后來GPT-3真正推翻的,就是這個判斷。
1.3 GPT-3 的賭注:先要有望遠鏡
OpenAI內部有一群人想賭一件跟主流認知不同的事:如果模型大到上千億參數,光"猜下一個詞"這一招會不會自己長出新能力?沒錯,這就是俗話說的“大力出奇跡”,這是可能的嗎?
這個賭注的核心信徒是當時OpenAI的首席科學家Ilya Sutskever。他從AlexNet那個年代就堅信深度學習的進步主要靠規模,算法創新次要。這個觀點在OpenAI內部爭議過幾年,CEO Sam Altman和研究負責人Dario Amodei(后來Anthropic的創始人)最終拍板押下去。
技術上給這個賭注提供數學依據的,是Jared Kaplan等人2020年1月發的《Scaling Laws for Neural Language Models》。這篇論文證明模型loss會隨參數、數據、算力按可預測的冪律下降。換句話說,多大算力換多少能力,事前可以算出來。這給了OpenAI押1750億這個具體數字的底氣。
但工程上他們不是一步到位的。GPT-1(1.17億參數,2018年)幾張GPU就夠。GPT-2(15億參數,2019年)開始吃力,但還撐得住。等到2020年要沖到1750億參數,之前那套訓練工具鏈根本頂不住。
先算一筆賬。1750億參數光把權重存下就要約350GB(用16位浮點數算),加上反向傳播要保存的中間結果和優化器狀態,實際需要2到3TB內存。當時NVIDIA最強的訓練卡V100每張才32GB顯存,怎么都裝不下。
有人會問:Google不是有TPU嗎,性能秒殺GPU?但TPU只在Google自己數據中心里跑,外人用不了,OpenAI這種Google對手更不可能碰。OpenAI那時跟微軟綁定,能拿到的就是Azure上的NVIDIA GPU。而且就算給TPU用,單顆也只有16GB高速內存,照樣塞不下1750億參數。所以問題跟單卡多快沒關系,瓶頸在另一頭:一個單卡塞不下的模型,怎么拆開分到幾千張卡上同步訓練、還要算得對?這是個軟件工程問題。
要解決它需要三套工程突破,2018到2019年三家公司各破一關。
第一關是模型放不下一張卡。
一個transformer層里的權重矩陣動輒幾億個數字,單GPU裝不下。NVIDIA 2019年9月發的Megatron-LM給出答案:把單個權重矩陣橫著切成N份,N張GPU各算一塊再匯總。這叫張量并行。打個比方,一張大試卷一個人寫不完,撕成4份讓4個人同時寫。
第二關是層數堆起來還是裝不下。
GPT-3有96層transformer,就算每層都切了,整個疊起來還是太大。Google 2018年底發的GPipe給出答案:不同層放到不同GPU,GPU 1管前12層,GPU 2管13到24層,數據像流水線一樣從第一張卡流到最后一張。這叫流水線并行。
第三關是優化器狀態吃天量內存。
訓大模型用的Adam優化器每個參數還要額外存兩個數字(動量、方差)。1750億參數光優化器狀態就要1.4TB,每張GPU都存一份完整副本再多卡也救不了。微軟2019年發的ZeRO給出答案:優化器狀態、梯度、參數本身全部按GPU數量切開,每張卡只存1/N,需要時臨時通信交換。N張卡的顯存就此合起來變成一個虛擬的大顯存。
三招組合起來叫"3D并行":張量并行切單層(橫著切)、流水線并行切層堆(豎著切)、ZeRO切優化器狀態和數據。三維同時切,1750億參數才真的能塞進一千多張卡的集群里。少任何一個都不行:光張量并行96層疊不下;光流水線單層裝不下;不上ZeRO,光優化器狀態就溢出。
![]()
硬件這邊,NVIDIA 2017年發布的V100是當時最強的訓練卡。Microsoft給OpenAI在Azure上專門搭了一臺超級計算機,把約1萬張V100 GPU串在一起,2020年5月19日在Microsoft Build大會上公布,是當時全球前五的超算之一。3D并行的軟件方案加上這臺超算,萬事俱備,只欠東風。
2020年上半年,OpenAI在這臺超算上跑了幾個月,5月28日發表了里程碑論文:GPT-3《Language Models are Few-Shot Learners》。
![]()
OpenAI想做的實驗本身是個理論問題:規模夠大會不會涌現新能力?但要回答這個問題,得先把"訓練1750億參數"這件事本身工程化。三家公司各解一道題,加上硬件剛好升級,工程窗口才打開。
1610年伽利略把自制望遠鏡對準夜空,看見木星周圍有四顆衛星在轉。這是人類第一次親眼看到地球之外的天體圍繞別的天體運行,日心說從此有了實證,天文學被改寫。
望遠鏡先造好,原本看不見的天空才看得見。
1.4 范式轉移
GPT-3論文的核心論點一句話講完:模型大到一定程度,新能力會自己冒出來。
它展示的最關鍵能力叫in-context learning(上下文學習)。模型不必為每個任務專門微調,只要在prompt里給兩三個示范,它就能照著做這個任務。給兩三個示范就照做的叫few-shot;什么示范都不給直接做的叫zero-shot。
具體效果有多炸?論文里幾個讓人下巴掉下來的結果:GPT-3在SuperGLUE、TriviaQA這些benchmark上的few-shot分數,跟專門fine-tune過的模型差不多甚至更好;它能寫出像樣的新聞文章,OpenAI做過測試,人類讀者區分真假的識別率只比扔硬幣高一點;它能從自然語言描述生成簡單代碼、做基礎算術、回答一些沒見過的常識題。
這種能力在小模型里完全看不到。GPT-2(15億參數)也能續寫,但給它兩三個示范它學不會照做。GPT-3(1750億參數)燒到那個臨界值,新行為整個浮上來。這是發生了相變,像水燒到100度才沸騰。
但更大的影響在工作方式層面。GPT-3觸發了整個NLP行業從老范式到新范式的整體轉移。
老范式是這樣:2018到2020年,做NLP的標準動作是拿一個預訓練好的模型(多半是BERT),針對你要做的任務,收集一批帶標注的數據(幾千到幾萬條),在這批數據上fine-tune一遍。每個任務都要單獨標數據、單獨微調、單獨部署一個模型。一家公司想做客服分類 + 自動翻譯 + 文檔摘要 + 內容審核,就得養四個不同的模型。NLP圈那幾年大量論文都在卷這件事:怎么fine-tune得更高效、用更少標注數據得到更好效果。研究的最小單位是"任務 + 數據集"。
GPT-3把這個工作流整個掀了。模型不為任何具體任務訓練,只學一件事,預測下一個詞。要它做翻譯就寫prompt:"把下面英文翻成中文:Hello world →";要它做情感分析就寫:"判斷這段評論的情緒是正面還是負面:[評論] →";要它做摘要就寫:"把下面文章總結成三句話:[文章] →"。
轉移落到5個具體維度:
![]()
這套從"訓練時綁定任務"到"使用時綁定任務"的轉移,后來被叫做foundation model(基礎模型)范式。Stanford HAI在2021年專門發了一篇《On the Opportunities and Risks of Foundation Models》給這套范式命名。一個名字能立起來,說明業界已經默認這就是新的工作單位。
但學術圈不是立刻全盤接受,反應分了三波。
第一波是懷疑。很多研究者認為GPT-3只是"模式匹配加大數據記憶",不算真理解。它會在長文里說錯事實、做錯算術、自相矛盾,幾個月里出了一堆"GPT-3做不到X"的論文。OpenAI把模型藏在API后面不放權重,也加深了質疑。
第二波很快蓋過第一波。拿到API真用過的人都被它的通用能力震到。AI Dungeon這個游戲直接用GPT-3做后端,玩家發現它能記住幾千字劇情、生成不重樣的對話。2021年6月GitHub Copilot發布,底子是GPT-3的代碼訓練版Codex,程序員第一次體會到"AI寫代碼"是什么感覺。"一個模型解所有任務"從論文圖表變成了能跑的產品。
第三波是前沿實驗室和大廠開始跟進。GPT-3發布后,2021年起,Google、DeepMind、Microsoft/NVIDIA、華為、百度、Meta、智譜等玩家陸續推出百億到千億級語言模型。到2023年ChatGPT爆紅之后,這件事才從前沿實驗室競賽,變成整個行業的集體軍備競賽。BERT那派"理解和生成必須分開"的理論判斷就此被證偽。從GPT-3之后,所有前沿大模型(GPT、Claude、Gemini、LLaMA、DeepSeek、Qwen)都是decoder-only Transformer的后代。
當然,BERT沒有死。它在產業界仍然是分類、檢索、向量embedding這些窄場景的主力。Google搜索后端、文檔分類系統、電商推薦里的語義匹配,今天還在跑BERT派的模型。它們小、快、便宜,專門做一件事比叫一個千億大模型來做劃算得多。但"前沿AI"這條賽道的主線,從GPT-3起徹底換了。
這是AI歷史上第一次,一個上層的理論判斷被一個大規模實驗整個推翻。這件事能發生,前提是工程已經把這個實驗做成可能。
二、從能力到可用(2022)
2.1 能力不等于好用:RLHF 的登場
GPT-3論文發完,2020年6月OpenAI把它做成商業API上線,相當貴:起步價0.06美元1000 token。一年里上百家公司圍著這個API做產品:Jasper做營銷文案,Copy.ai做帶貨文案,AI Dungeon做交互小說,Replika做陪伴聊天。但絕大多數嘗試很快撞墻。
模型什么都會,但什么都不聽話。你讓它寫一份正經報告,它會扯到段子上;你讓它客觀回答問題,它會編造數據;你問它一個敏感話題,它會給你一段不合適的回答。最典型的事故是AI Dungeon:2020年7月接入GPT-3后體驗質變,但很快出現大量不可控生成(露骨、暴力、兒童內容),OpenAI在2021年4月威脅切斷API訪問,逼著AI Dungeon加各種過濾器,社區隨后流失大半。
這暴露了一個此前沒被認真理論化的鴻溝:模型"知道什么"和模型"愿意做什么"之間,隔著一層。光把模型變大不夠,必須再做一層"對齊"。圈里管這種現象叫alignment problem。
GPT-3之后的兩年多,OpenAI沒有發新的旗艦底座模型。中間發生的事,主要就是把這個對齊層補上。
轉折點是OpenAI 2022年3月發的InstructGPT論文《Training language models to follow instructions with human feedback》。這篇論文給出了RLHF(Reinforcement Learning from Human Feedback,基于人類反饋的強化學習)的標準三段論。
![]()
先做監督微調(SFT,Supervised Fine-Tuning)。OpenAI雇了40多個標注員,讓他們針對幾萬條真實用戶prompt親手寫出"理想回答"。然后拿這批人寫的對照集去微調GPT-3。模型第一次學到"什么樣的回答符合期待"。
把模型微調過一輪之后,需要一個"裁判"來給后續回答打分。OpenAI讓模型對同一個prompt生成4到9個不同回答,標注員從好到壞排序。用這批排序數據訓一個獨立的獎勵模型(Reward Model),它本身不答題,但能給任何回答打分,專門預測"哪個回答更受人喜歡"。
獎勵模型就位之后,最后一步用強化學習。讓GPT-3一遍遍生成回答、被獎勵模型打分、根據分數調整自己。算法叫PPO(Proximal Policy Optimization),讓模型按獎勵模型的口味打磨自己。
實驗結果非常硬:13億參數的InstructGPT在人類偏好打分上擊敗了1750億參數的原版GPT-3,參數差了一百三十多倍。這件事對整個行業沖擊巨大:讓模型變好用跟把模型變大幾乎是兩條不同的路。
InstructGPT上線8個月后,2022年11月30日OpenAI發布ChatGPT。背后的模型叫GPT-3.5,是InstructGPT路線訓出來的進一步版本:先在GPT-3基礎上做了一輪代碼增強訓練(叫code-davinci-002),再做完整的RLHF。ChatGPT一發就在整個社會爆火,5天破百萬用戶,2個月破1億月活,刷新了所有消費產品的增長記錄。讓ChatGPT從"會續寫"變成"能對話"的,正是InstructGPT那一套RLHF。
順便看一眼GPT系列的訓練數據演化:
![]()
預訓練數據從GPT-1到GPT-3漲了100倍,是scaling假說的直接體現。但到GPT-3.5這一步,新增數據更關鍵的變化在性質上。GPT-3訓練用的是從互聯網爬下來的隨機文本;GPT-3.5多出來的那一萬多條示范和三萬多條排序,量級跟預訓練完全不在一個數量級,但全部是帶人類價值判斷的對齊數據,專門告訴模型"應該怎么回答"。這是一種全新的訓練數據。
這件事催生了一個新概念:后訓練(post-training)。
預訓練是用海量無標注文本讓模型學會語言和世界知識。后訓練是預訓練之后所有進一步調整模型的工作,包括SFT、RLHF、安全調優、風格調優等。從InstructGPT這一刻起,"后訓練"第一次和"預訓練"擺到同一張桌上。后來Anthropic的Constitutional AI、各家的RLAIF、DPO,都是在后訓練這層做新文章。
預訓練給模型知識;后訓練給模型性格。兩層加起來,才是今天我們用的ChatGPT、Claude、Gemini這種"懂事的"大模型。
2.2 ChatGPT 背后的工程窗口
InstructGPT用40個標注員手寫了幾萬條對齊數據,訓出第一版"聽話"的GPT-3.5。但要讓模型繼續進步,下一個問題就來了:再雇40個標注員?再雇400個?還是有更狠的辦法?
OpenAI的答案是把用戶當標注員。模型每跟人對話一次,潛在地都是一次訓練信號——用戶哪個回答覺得有用、哪個回答點了thumbs down、哪個回答讓用戶重新問了一遍、哪個回答被復制走用了。這些信號天然帶價值判斷,比專門請人寫好答案便宜得多、規模也大得多。但要規模化拿到這種信號,前提是億級用戶能用得起、用得起天天用,模型得能免費、推理還要跑得動。
這又是工程問題。早期GPT推理一次的成本貴到沒法做免費產品。三件工程突破趕著做出來:
第一件是FlashAttention(Stanford HazyResearch組的Tri Dao的研究)。原版attention要把中間的N×N大矩陣反復在GPU的慢內存(HBM)和算力核心之間搬運,瓶頸不在算而在搬。FlashAttention把attention拆成塊,每塊的Q、K、V直接塞進GPU里更快的SRAM一次算完,只把最終結果寫回HBM。數學上跟原版完全等價,純靠IO重寫就讓attention這一步提速超過七倍。
第二件是KV cache,autoregressive生成時,每個新token都要attention前面所有token,每次重算K和V太浪費;緩存下來下次直接復用,對話越長省得越多。這不是單篇論文的功勞,是Megatron-LM、NVIDIA FasterTransformer、HuggingFace Transformers等開源框架在2019到2021年陸續把它做成標準操作。
第三件是權重量化,把模型權重從FP16壓到INT8、INT4甚至FP4,單卡能裝下更大的模型,推理速度也成倍提升。
這一輪工程突破到位之后,ChatGPT才發得出去。
ChatGPT表面上是個產品,底下它是工程打開的另一扇窗:讓"用戶反饋"從40人小作坊一躍變成億級用戶的大規模訓練信號。每天上億條對話經過過濾、采樣、人工二次評分,回灌到下一輪RLHF。InstructGPT那40個標注員一年的工作量,ChatGPT上線后大約每小時就能產生一份。模型幾個月一個明顯躍遷。
OpenAI那時以為自己有了一條牢固的數據護城河:用戶越多 → 反饋越多 → 模型進步越快 → 用戶越愿意來。一年內ChatGPT月活破億,看起來競品很難追平。
![]()
但事后回看,這條護城河沒站住。Anthropic用Constitutional AI不靠億級用戶也追上來,DeepSeek、Llama-3、Qwen用合成數據加DPO等更便宜的辦法把開源前沿推到接近閉源。行業漸漸意識到,RLHF數據的質量比數量重要,億級原始反饋里大部分是噪音。OpenAI從這個飛輪拿到的真正紅利是2023那一整年的獨占窗口,給了它一年的產品先發優勢,模型能力優勢卻沒維持住。
三、ChatGPT 之后:百花齊放(2023–2024)
ChatGPT在2022年11月點燃了整個行業。2023到2024這兩年成了大語言模型的爆發期:閉源前沿玩家加碼追趕OpenAI,開源浪潮起來,中國玩家集體下場,整個生態從"OpenAI一家獨大"變成多極混戰。
3.1 Anthropic:從 OpenAI 出走的另一條對齊路線
Anthropic的故事得從OpenAI內部的一次分裂說起。
2020年底到2021年初,OpenAI研究部門一批人先后離職,包括研究VP Dario Amodei、運營VP Daniela Amodei兄妹,加上GPT-3論文一作Tom Brown、Scaling Laws論文一作Jared Kaplan、安全研究員Sam McCandlish、政策負責人Jack Clark、可解釋性研究員Chris Olah等核心人員。他們2021年1月在舊金山成立了Anthropic。
公開說法是"對OpenAI的方向有不同看法",實際矛盾大致有以下幾條:2019年OpenAI接受微軟10億美元投資、改成"利潤上限"公司結構,讓原本"非盈利"的初心變了味;2020年GPT-3商業化太快,安全研究分到的資源不夠;這批人覺得AI安全和能力研究應該綁在一起做,OpenAI把它們分開了。Dario那撥人想做的是"safety-first的前沿模型實驗室",跟OpenAI越來越商業化的路線分道揚鑣。
Anthropic成立之后,拿了不少投資:2021年5月1.24億美元A輪,2022年5.8億美元B輪,2023年Google投了3億多,Amazon陸續投到40億,估值一路沖到600億美元以上。
Anthropic的代表作是Constitutional AI(CAI)。2022年12月發的論文《Constitutional AI: Harmlessness from AI Feedback》給出了一條不依賴億級用戶的對齊路徑:寫一套明文原則("憲法"),讓模型自己用這套原則評估、批評、改寫自己的回答,再用這些改寫后的對照數據訓自己。把RLHF里"人類反饋"那一環換成"AI自反饋",規模化的瓶頸一下消除了。
CAI的思路有清晰的源流。RLHF本身就是Christiano、Amodei這些人在OpenAI時期搞出來的,2017年的《Deep Reinforcement Learning from Human Preferences》是RLHF的開山論文,Amodei是作者之一。到OpenAI做InstructGPT時他們已經發現RLHF靠人標既貴又慢。Anthropic成立后沿著這條線推進:2021年12月發《A General Language Assistant as a Laboratory for Alignment》,2022年4月發《Training a Helpful and Harmless Assistant with RLHF》,2022年12月發CAI。三篇論文連續遞進:先做helpful + harmless的RLHF,再發現harmless這一頭特別費人,再用AI自反饋替掉那一段。
CAI對Anthropic尤其重要。他們當時只有一兩年時間,沒有OpenAI那種億級用戶的反饋來源;如果死磕RLHF原版方案,永遠追不上。CAI讓他們用很小的標注預算就能訓出可控的對齊效果。
但要老實說一句:早期Claude跟同期OpenAI旗艦模型差距明顯,"追上"是慢慢發生的事。
2023年3月發的Claude 1,大致跟ChatGPT(GPT-3.5)一個量級,但同月發布的GPT-4是另一個層次,Claude 1跟它差距明顯。2023年7月Claude 2、11月Claude 2.1,提升肉眼可見但仍在GPT-4之下。整個2023年,Claude在工程師圈里是"小眾替代",不是主流選擇。
真正縮到平起平坐是2024年3月的Claude 3系列(Opus / Sonnet / Haiku三檔)。Opus在多項基準上跟GPT-4打平或小幅領先,是Anthropic第一次拿出能跟OpenAI旗艦對壘的模型。2024年6月Claude 3.5 Sonnet在代碼任務上明顯超過GPT-4,工程師圈大批人切到Claude,Cursor、Claude Code這些產品起飛,根子就是這一代。
也就是說,Anthropic用Constitutional AI這條路真正追平OpenAI花了大約三年(2021創立到2024年3月Claude 3)。Claude今天那種相對克制、愿意承認"我不知道"的性格,根子就在CAI。
Anthropic的故事說明一件事:RLHF的護城河沒OpenAI想的那么寬,對齊工程可以不靠用戶飛輪。但走通這條路花了兩到三年,期間一直在第二梯隊。
3.2 LLaMA:開源浪潮的引爆點
Meta在2023年2月發了LLaMA-1,參數從7億到650億,覆蓋消費級到工作站級顯卡。本來只對學術研究開放,但權重在發布一周內就被"泄漏"到4chan,整個開源社區瞬間上車。
架構上LLaMA跟GPT、Claude沒本質區別,都是decoder-only Transformer。LLaMA用的幾個優化(SwiGLU激活、RoPE位置編碼、RMSNorm、Llama-2起加GQA)后來被各家普遍采用。真正的不同在訓練配方:參數壓小、數據加多(13B模型喂1萬億token),跟GPT-3那種"參數大、數據相對少"的路線相反。這個配方為什么對、為什么有效,3.5節會解釋。
但LLaMA也有明顯短板:后訓練這一頭Meta一直比OpenAI / Anthropic弱。Meta沒有ChatGPT的億級用戶飛輪,也沒像Anthropic那樣下重注做Constitutional AI。LLaMA放出來"夠用",但拿來做產品體驗跟Claude / GPT差著一檔。
![]()
接下來一年,LLaMA衍生模型像爆米花一樣冒出來:Stanford的Alpaca(用GPT生成的指令數據微調LLaMA-7B)、Berkeley的Vicuna(用ShareGPT對話數據微調)、WizardLM、Lit-LLaMA、Dolly。這些里大多都用ChatGPT或GPT-4的輸出當訓練數據,技術上違反OpenAI的服務條款,但實際很難追查,等于借閉源模型的對齊能力訓出開源模型的對齊版本。
![]()
為什么衍生模型偏偏圍著LLaMA轉?因為OpenAI和Anthropic全程閉源。GPT-4、Claude在外人手里只是API接口,權重拿不到、不能微調、不能本地部署,連基本的"看一眼模型里到底學了什么"都不可能。它們的服務條款還明確禁止"用我們的輸出訓練競品模型"。開源社區想做衍生,必須有一個"前沿水平 + 開放權重"的底子。2023年初這種東西不存在,BLOOM、GPT-J、Pythia這些早期開源模型能力都跟GPT-3差一檔。LLaMA是第一個把"前沿"和"開放權重"兩件事同時做到的。底座一就位,整個生態瞬間起來。
"衍生"在開源社區里有兩種含義。Alpaca、Vicuna、WizardLM這些是直接拿LLaMA權重微調的真衍生品。但后來主流的開源模型(Mistral、Qwen、DeepSeek、Yi、智譜GLM)都是從零自己訓的,只是架構家族繼承了LLaMA(decoder-only + RoPE + RMSNorm那套),權重獨立。LLaMA真正的貢獻是證明了"小參數 + 多數據 + 開放權重"這條路走得通,給后來所有開源玩家兜底,不是大家直接復制粘貼它。
2023年7月Meta發LLaMA-2,把許可證改成"商用可用"(每月活躍用戶超7億的公司除外),算是把開源水龍頭徹底打開。2024年4月Llama-3發布,70B版本基準接近GPT-4;2024年7月Llama-3.1的405B開源版直接打到當時GPT-4o水平。
但LLaMA系列的高光時刻就停在了Llama-3.1。2025年4月發的Llama-4口碑很糟,小尺寸(Scout / Maverick)沒明顯超過同期對手,最大尺寸Behemoth干脆沒正式發布。這段時間DeepSeek V3 / R1接管了開源前沿位置,Qwen也持續強勢,LLaMA從開源前沿滑到第二梯隊。這件事跟商用授權無關(Llama-2起就給了商用授權),主要原因是Meta節奏明顯慢了:首席科學家Yann LeCun公開質疑LLM路線、關鍵研究員流失到Anthropic和xAI、Meta內部對"是否要贏這場"本來動力就不強(Meta不靠賣AI賺錢,靠社交廣告)。
Meta這一系列開源的戰略意圖很清楚:讓開源生態足夠強,OpenAI、Anthropic的閉源溢價就被抹掉。這是最純粹的"商品化對手核心產品"打法。模型對Meta來說是基礎設施而非產品,自家不靠賣模型賺錢。但也正因如此,2025年起當其他玩家(DeepSeek、Qwen)能更好完成"商品化"這個任務時,Meta就讓出了位置。
3.3 全球玩家入場:美中歐三方分化
ChatGPT之后兩年,閉源前沿之外的玩家從美中歐三個方向集體入場。全球版圖從OpenAI單極,變成多條路線同時追。
美國這邊,Google反應慢了一拍但沒缺席。2023年2月倉促發了Bard應對ChatGPT,效果一般,被嘲諷過幾個月。2023年12月,Google推出Gemini 1.0替換Bard,2024年2月推出Gemini 1.5,主打百萬級上下文窗口,2024年12月又推出Gemini 2.0。從2024年起,Google在多模態和長上下文這兩塊開始壓住OpenAI。
![]()
馬斯克的xAI是后來者。它2023年7月成立,2023年11月推出Grok-1,2024年3月開源Grok-1權重,隨后推出Grok-1.5和Grok-2。到2025年2月,xAI又推出Grok-3,開始正式加入前沿模型競賽。它的特殊之處不在論文路線,而在資源組織:一邊吃X平臺的實時內容和用戶反饋,一邊用極端速度堆GPU集群。xAI走的是"社交平臺入口 + 實時數據 + 大算力"的路線,跟OpenAI和Anthropic不是一個打法。
![]()
歐洲方面以Mistral為代表。法國Mistral 2023年5月成立,幾個月內開源Mistral 7B和Mixtral 8x7B。三個創始人來自DeepMind和Meta FAIR,確實熟悉LLaMA那套訓練經驗。Mistral不是LLaMA微調品,權重是自己訓的。它的定位也很清楚:模型要小、快、便宜,能本地部署,也能進歐洲企業的私有化場景。
![]()
中國這一輪反應相當迅速。2023年3月百度發文心一言,4月阿里發通義千問,6月智譜發ChatGLM-2,8月字節發豆包,10月Moonshot AI發Kimi,11月零一萬物發Yi。2023年大模型研發層面已經是"百模大戰",到2024年備案上線、能對公眾提供服務的國產生成式AI大模型接近200個。
![]()
![]()
![]()
早期玩家很多,真正殺出來的是少數幾家。阿里Qwen靠開源和工程完整度進入全球開發者社區。DeepSeek靠V3和R1把成本、MoE、推理能力一起打到海外圈面前。智譜GLM在政企和國產生態里站住位置。月之暗面Kimi押長上下文。字節豆包靠App入口和流量規模做產品化。中國不是2023年才"知道有LLM",但確實是ChatGPT之后,才以公司戰略和產品形態集體沖上來。
這里還有一個很現實的傳播機制,叫"打榜"。Hugging Face的Open LLM Leaderboard當時是開源模型社區最常看的榜單之一,開發者會拿它判斷一個模型值不值得下載、微調和二次開發。2023年11月,零一萬物的Yi-34B剛發布幾天就沖到Hugging Face榜首,參數只有340億,卻壓過了Llama 2 70B。2023年12月,阿里Qwen-72B又以73.6的平均分登上預訓練模型第一。打榜不能代表真實產品體驗,但它給了海外開發者一個很直觀的信號:中國模型不再只是中文圈自嗨,已經能在全球開源模型的同一張桌子上比成績了。
這些新模型算不算原創?要分層看。架構上,大家基本都住在同一棟房子里:decoder-only Transformer,也就是前面講過的"只用decoder、一路預測下一個詞"。這不是Qwen、DeepSeek、Mistral重新發明的東西,源頭是Transformer和GPT路線。LLaMA的作用,是把這套路線做成了一個高質量、開放、方便后來者研究的樣板。
但這不等于它們是在復制LLaMA。一個模型真正值錢的部分,是訓練出來的參數,也就是所謂權重。Qwen、DeepSeek、GLM、Yi、Mistral、Grok、Gemini大多是自己收數據、自己訓練、自己做后訓練,不是拿LLaMA權重改個名字,也不可能直接復制OpenAI的閉源權重。
它們借鑒的主要是公開路線和工程經驗:怎樣把decoder堆得更深,怎樣讓attention算得更省,怎樣喂更多更干凈的數據,怎樣像OpenAI的RLHF那樣把模型訓得更聽指令,怎樣像Anthropic那樣減少人工標注、更多利用AI反饋。這些東西有的來自公開論文,有的來自LLaMA這種開源模型暴露出來的成功配方,有的來自OpenAI、Anthropic這些閉源公司的論文、產品和方向暗示。
所以更準確的說法是:這些模型在大架構上不原創,在權重和工程實現上是原創。它們不是從零發明一套新架構,也不是簡單復制別人模型,而是在同一個公共技術底座上,各自重新訓練、調參、做產品化。
到2025年,全球大模型格局基本是中美兩極。美國占閉源前沿,OpenAI、Anthropic、Google、xAI各有打法。中國占開源前沿,DeepSeek、Qwen、GLM、Yi等模型把開放權重和低成本路線推到全球開發者面前。歐洲有Mistral,但總體體量不夠。其他地區也有國家隊和本地模型,還沒有穩定進入前沿模型主戰場。
3.4 閉源 vs 開源的二元格局
把這些玩家放在一起看,最重要的變化不是榜單變長了,而是生態分裂了。到2024年底,前沿模型已經不再是一家公司、一條路線、一種商業模式,而是分成兩套完全不同的產業系統。
閉源前沿把模型當云服務賣。GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro、Grok這些模型不開放權重,用戶通過App和API使用,企業按token、席位、調用量付費。它的優勢是體驗穩定、產品整合快、安全和合規有人兜底。它的代價也很明顯:價格由模型公司說了算,數據和工作流要交給平臺,底層能力永遠隔著一層黑箱。
這套生態最適合美國。OpenAI有微軟,Anthropic有Amazon和Google,Google自己有TPU、搜索、Android、Workspace,xAI背后有X和馬斯克的融資能力。閉源模型真正拼的不是單個benchmark,而是算力、資本、云、分發、企業銷售和用戶反饋的總和。美國互聯網巨頭正好把這些東西都攥在手里。
開源前沿走的是另一套邏輯。Llama、DeepSeek、Qwen、Mistral這類模型把權重放出來,開發者可以本地部署、私有化部署、微調,也可以拿來繼續訓練。它的價值不只在"免費",而在可控。金融、政企、制造、醫療這些行業不一定愿意把數據交給OpenAI,但愿意把一個開放權重模型搬進自己的機房。
中國能在這條線上起來,靠的是幾件事一起發生。阿里、字節、騰訊、百度這種本土大廠能持續投入。中文互聯網數據自成一池,給中國模型一個獨立數據來源。美國對華GPU限制反而逼出DeepSeek那種工程效率,把MoE、FP8、強化學習配方壓到更極致。"AI主權"敘事跟中國"必須自主"的政治邏輯天然契合。百模大戰又逼出了開源競爭,DeepSeek、Qwen直接放權重,迅速在國際社區累積口碑。
歐洲沒起來,原因正好相反。Mistral很強,但歐洲沒有Google、Meta、阿里、騰訊這種千億級本土平臺長期兜底。EU AI Act提高了前沿模型的合規成本。頂級AI研究員長期被美國大廠吸走,本地留人困難。歐洲多語言、多國家,市場分散,也沒有中國那種統一大市場反哺模型。
其他地區情況類似歐洲。日本Sakana AI 2024年漲了一陣,但定位"小而美"不沖前沿。韓國LG、Naver各有模型,沒出圈。印度和中東主要是建數據中心,給美國玩家提供算力和市場。這些地區2025年的角色更接近"模型用戶"而非"模型生產者"。
這就是今天大模型生態的基本形狀:美國把閉源模型做成云和應用,中國把開源模型做成工程和成本優勢,歐洲守住Mistral這個少數前沿入口,其他地區更多是在接入、部署、采購和算力承接。OpenAI的"先發優勢"還在,但"獨家優勢"已經沒了。大語言模型從一家公司的一款產品,變成了全球互聯網產業的新底座。
![]()
3.5 Chinchilla 修正了 scaling law
百花齊放發生得這么快,背后有兩個關鍵修正撐著。第一個是Chinchilla。它討論的是一個很樸素的問題:同樣一筆算力預算,到底應該拿去堆參數,還是拿去喂更多訓練文本?
GPT-3出來之后,行業的直覺很簡單:模型越大越聰明。OpenAI 2020年的scaling law也強化了這個判斷。大家開始拼參數,1750億、2800億、萬億參數,數字越喊越大。問題是,參數變大之后,如果訓練文本沒有跟上,模型就像一個腦容量很大但書沒讀夠的人,潛力沒吃滿。
DeepMind 2022年的Chinchilla論文把這個問題重新算了一遍。他們比較了大量"參數規模 × 訓練數據"組合,結論很直接:同樣的算力,不該只顧著把模型做大,也要讓模型讀足夠多的文本。參數和數據要一起漲,甚至很多時候,少堆一點參數、多喂一點數據,效果反而更好。
最有說服力的例子是Chinchilla自己。它只有700億參數,比DeepMind之前的Gopher小很多,但訓練數據多得多。結果這個更小的模型,在一堆評測上反而超過了2800億參數的Gopher,也超過了GPT-3。
這件事改變了開源模型的打法。開源社區很難一上來就訓GPT-3那種1750億參數模型,但可以訓練一個更小的模型,再給它喂足夠多、足夠干凈的數據。LLaMA就是這條路線的標志性成果:參數沒有夸張到天上去,訓練數據卻吃得很足,最后做到"小模型打大模型"。
所以Chinchilla真正修正的是"規模"這個詞的含義。規模不只是參數規模,也包括訓練數據規模。開源模型后來能追得這么快,一個重要原因就是大家終于知道了算力預算該怎么花。
3.6 MoE:大模型怎么變得更便宜
第二個修正是MoE。這個詞全稱叫Mixture of Experts,中文通常翻譯成"混合專家"。名字聽著玄,其實想法很直觀:一個問題來了,不必讓所有人一起上,只要找最相關的幾個專家處理。
放到Transformer里也是這個意思。前面講過,decoder里有attention,負責看上下文。attention后面還有一段網絡,負責把剛看完的信息再加工一下。普通模型每次都會動用同一整套網絡。MoE把這套網絡拆成很多個"專家",再加一個很小的"調度員"。每個token進來,調度員只挑其中一兩個專家來處理。
這樣做的好處是賬面上模型可以很大,真正干活的部分卻不必每次都全部啟動。比如一個模型總共有幾千億參數,但處理某個token時只激活其中幾十億參數。總容量變大了,推理成本沒有跟著等比例變大。
這個想法很早就有人做過,但長期不好用。難點不在概念,而在工程。調度員如果分配不好,有的專家忙死,有的專家閑著,訓練就會不穩定。模型分布在很多GPU上,專家之間還要互相傳數據,通信成本也會把收益吃掉。所以MoE沉了幾年,看起來像一條漂亮但麻煩的岔路。
到2023年以后,情況變了。訓練框架、GPU通信、低精度訓練都成熟了,MoE終于穩得住、訓得動。Mistral的Mixtral 8×7B是一個重要信號:它有八個專家,每次只激活兩個,效果可以壓過不少更大的稠密模型。DeepSeek V3把這條路推得更遠,總參數做到6710億,但每個token只激活370億左右,成本和效果同時變得很有競爭力。
MoE回答的是另一個關于規模的問題:模型容量能不能變大,但每次使用的成本別跟著一起爆炸?它的答案是可以,只要每次只讓一小部分專家上場。
把Chinchilla和MoE合起來看,邏輯就順了。Chinchilla告訴大家,同樣算力下別盲目堆參數,要讓模型讀夠數據。MoE告訴大家,模型可以有很大的總容量,但每次推理只用一部分。一個讓"小模型也能很強"成為可能,一個讓"大模型也能相對便宜"成為可能。開源社區能在2023到2024年追得這么快,背后很大一部分原因就在這里。
![]()
Credit:
https://www.dailydoseofds.com/p/transformer-vs-mixture-of-experts-in-llms/
四、新維度與系統化(2024 至今)
4.1 推理模型:一個全新的 scaling 軸
先說清楚scaling law到底是什么。它不是某條神秘定律,更像一條經驗曲線:模型參數更多、訓練數據更多、訓練算力更多,模型能力通常會跟著提高。GPT-3時代最讓行業興奮的地方就在這里,原來很多能力不是單獨寫規則寫出來的,而是把模型、數據、算力一起放大之后自然冒出來的。
這就是所謂"大力出奇跡"。但它不能無條件一直下去。參數越大,訓練越貴,電力、芯片、數據質量都會變成瓶頸。更麻煩的是邊際收益會下降:同樣多花一倍錢,早期可能帶來巨大躍遷,后面只換來一點點提升。Chinchilla已經提醒過一次,光堆參數不夠,數據也要跟上。到2024年,大家開始意識到,預訓練這條路還會繼續,但不再是唯一的放大方向。
新的方向叫"推理時算力"(test-time compute)。以前模型回答問題,基本是看到問題就往下生成。推理模型會先花更多時間在內部推演,試幾條路,檢查哪里錯了,再給出最終答案。簡單說,過去主要是在訓練時多花算力,把模型訓得更強;現在是在回答時也多花算力,讓模型多想一會兒。
OpenAI 2024年9月發布o1 preview,是這條路線第一次大規模進入公眾視野。它的核心說法很直白:模型可以在回答前多花時間思考,數學、編程、科學題會明顯變好。背后的訓練方式也變了,尤其適合數學和代碼這種有標準答案的任務。數學題能驗算,代碼能跑測試,模型做對了就獎勵,做錯了就懲罰,這比讓人類主觀判斷"哪個回答更好"干凈得多。
這不是OpenAI憑空發明了"思考"。chain of thought、讓模型一步步推理、用強化學習訓練模型解題,這些想法之前都存在。OpenAI的貢獻,是把它做成了一個前沿產品,并且證明"回答時多花算力"本身也能成為新的scaling軸。隨后這個方向很快被整個行業追上:Google在2024年12月放出Gemini 2.0 Flash Thinking,DeepSeek在2025年1月發布R1,Anthropic在2025年2月發布Claude 3.7 Sonnet的extended thinking,xAI的Grok-3也加入了Think和Big Brain這類推理模式。
![]()
這里要把幾種算力分清楚。預訓練最重,通常跑在大規模NVIDIA A100/H100/H200/B200 GPU集群上,Google會大量用自家的TPU。它要連續吃海量文本,時間長、規模大、通信要求高。后訓練輕一些,但還是跑在同類GPU或TPU上,包括指令微調、RLHF、偏好訓練這些步驟。推理模型的訓練更特殊,它不只要訓練,還要讓模型大量試題、做題、驗證答案,所以也會消耗不少訓練和采樣算力。
平時我們聊天、API調用、讓模型寫代碼,這叫推理或服務。它也跑在GPU、TPU或專門的推理加速芯片上,但不一定用最頂級的訓練芯片。大模型、高并發、推理模式仍然會吃H100、H200這類強卡。普通模型、低成本服務、本地部署,則常常用更便宜、更省電、專門為推理優化的芯片。目標從"訓練一個新模型"變成"把已經訓練好的模型跑得快、便宜、穩定"。普通聊天消耗的是一次生成的token。推理模式更貴,因為模型在最終回答前還會生成大量內部思考token,占用芯片更久。你看到的是一句答案,機器背后可能已經跑過一大段推演。
所以,推理模型真正改變的是算力花錢的位置。過去主要把錢花在訓練階段,訓好之后盡量便宜地服務用戶。現在多了一種買法:每次遇到難題,就臨時多買一點思考時間。大力出奇跡沒有消失,只是從"訓練時大力"擴展到了"回答時也大力"。
4.2 Coding:一條支線如何融進主線
(參考我寫的另外一篇文章 《兩萬字科普:AI為什么會編程——原理、歷史與未來》)
2025年初,Andrej Karpathy提出了一個很快傳開的詞,叫Vibe Coding。意思大概是:你不再一行行手寫代碼,而是用自然語言把意圖說出來,讓AI生成代碼,再通過運行、報錯、繼續提示來迭代。這個詞有點玩笑意味,但它抓住了一個真實變化:程序員和代碼之間,多了一層會寫代碼的模型。
代碼對LLM來講是一種特殊的文本,因為它有明確的對錯。能不能編譯過、能不能跑、單元測試過不過,全是機器自動可判。給模型一道編程題,它寫一份代碼,跑一下,對了就獎勵,錯了就懲罰。這個反饋比"這段回答是不是更好"清楚得多,所以代碼自然變成了推理范式的最佳試驗場。
過去兩年,AI coding能力進入暴漲期。SWE-bench這種"真實開源項目修bug"的榜單上,前沿模型的正確率從2023年的個位數百分比,走到2025年的60%到70%區間。Cursor、GitHub Copilot、Claude Code這些工具底下吃的都是同一套主線:模型更會讀代碼庫,更會定位bug,更會調用測試,也更會把錯誤反饋重新寫進下一輪修改。
這正在改變程序員生態。最淺的一層,是補全代碼、生成樣板、解釋報錯,初級工作被自動化掉一大塊。再往深一層,AI開始進入代碼審查、重構、測試生成、依賴升級、文檔維護這些日常工程流程。更深的一層,是非程序員也能做出小工具和原型,產品經理、設計師、運營人員都可以用提示詞把想法變成一個能跑的版本。
但這不等于程序員不重要了。變化更像是分工重排:寫語法的價值下降,定義問題、拆任務、看架構、控質量、補測試、管安全的價值上升。Vibe Coding很適合原型和小工具,但到了生產系統,代碼質量、權限、數據、監控、回滾、團隊協作還是繞不過去。AI把"寫代碼"的門檻壓低了,也把"負責一套軟件系統"的要求抬高了。
所以coding不是LLM的一條獨立支線。它和數學、邏輯、推理是同一棵樹,只是它最早把這棵樹種進了真實工作流。AI Coding對程序員生態的影響還在進行中,今天看到的只是第一波。
4.3 RAG:模型開始接外部知識庫
RAG不算2025年的最新熱點,源頭是2020年Facebook AI那篇Retrieval-Augmented Generation論文。真正變成工程標配,是ChatGPT火了之后,企業開始把大模型接進自己的文檔、知識庫和數據庫。
RAG的思路很簡單:先檢索,再生成。用戶問一個問題,系統先去外部資料里找相關片段,比如公司制度、產品文檔、客服記錄、合同條款。然后把這些片段塞進模型上下文,讓模型基于材料回答。
這解決的是LLM最要命的幾個現實問題。模型訓練完之后,知識就固定在參數里,沒法知道公司昨天剛更新的政策,也不知道你內部Wiki里的內容。它還會編造,回答完也說不清依據來自哪里。RAG把外部材料拉進來,至少讓回答有出處、有上下文,也更容易更新。
所以2023到2024年,很多企業AI應用先從RAG知識庫問答做起,再往Agent走。客服機器人查產品手冊,法務助手查合同模板,銷售助手查客戶資料,員工問公司制度,背后常常都是同一套結構:文檔切塊,向量化,檢索,塞給模型,再生成回答。
RAG的價值也有邊界。檢索錯了,模型就會基于錯材料回答。權限沒做好,內部資料可能被不該看到的人問出來。文檔太舊,答案也會舊。很多公司后來發現,RAG不是把文檔丟進向量庫就完事,它需要數據治理、權限、版本管理、評測和人工維護。
但RAG的歷史位置很重要。它讓模型第一次大規模接上企業外部知識。后面的tool calling、computer use、Agent,都是在這個方向上繼續往前走:RAG讓模型會查資料,工具調用讓模型會辦事,Agent再把查資料和辦事串成一個任務流程。
4.4 從prompt到harness:模型外面的工程殼
早期大家講prompt engineering,重點是怎么把一句話問清楚。比如給模型設角色、給格式、給例子、讓它一步步想。這一套有用,但它解決的是"怎么跟模型說話"的問題。
到了企業場景,只會寫prompt很快不夠。模型每次回答前,到底該看哪些材料?用戶上一輪說了什么?公司制度該不該塞進去?RAG檢索出來的十段材料,哪三段最該進上下文?工具返回的結果怎么壓縮?這些問題合在一起,就是后來大家說的context engineering。
Context engineering的核心,在于把正確的信息,在正確時間塞給模型。一個客服Agent回答退款問題,可能要同時看到用戶問題、訂單狀態、退貨政策、歷史工單、當前權限、禁止承諾的規則。少一塊,它會答錯;多一堆無關材料,它也會被干擾。
再往前一步,就是tool calling。2023年6月,OpenAI在API里加入function calling,意思是開發者可以把外部函數描述給模型。模型不再只能生成一段自然語言,而是可以輸出一段結構化參數,告訴系統:"現在該查訂單""現在該調退款接口""現在該發一封郵件"。
這件事把LLM從聊天框里拉了出來。過去模型的輸出就是文字,文字給人看。tool calling之后,模型的輸出可以變成軟件系統的輸入,直接觸發數據庫查詢、API調用、代碼執行和業務流程。
但每接一個工具都手寫一套接口,工程上會很亂。Anthropic在2024年11月開源MCP(Model Context Protocol),想解決的就是這個問題。MCP可以理解成AI應用和外部系統之間的一套通用插頭:文檔庫、GitHub、數據庫、Slack、瀏覽器、內部系統,都按同一套協議把資源和工具暴露出來,模型客戶端按同一套方式接入。
MCP不會讓模型本身突然更聰明。它真正改變的是連接成本。過去每個Agent都要為每個系統寫定制膠水代碼;有了統一協議,工具、數據源和模型客戶端可以分開演進。Claude Code、Cursor、企業內部Agent平臺喜歡這套東西,原因就在這里。
這就到了harness engineering。Harness這個詞直譯是"馬具"或"安全帶",放在LLM里,可以理解成套在模型外面的一整圈工程殼。它包括上下文組裝、工具列表、權限控制、模型路由、日志、評測、重試、人工審批、失敗回滾。
真正上線的AI系統,靠的往往不是一個裸模型。裸模型只是中間那顆發動機。外面這層harness決定它看什么、能做什么、做到哪一步必須停下來問人、出錯之后怎么恢復。Agent能不能進生產,很多時候就卡在這層。
4.5 長上下文和記憶:模型開始帶著歷史工作
RAG解決的是外部知識問題,長上下文解決的是另一件事:模型一次能讀多少東西。所謂context window,就是模型在一次請求里能看到的token上限。窗口越大,它一次能讀的文檔、代碼、聊天記錄、視頻轉錄就越多。
早期GPT模型的上下文窗口只有幾千token,一篇長論文、一份合同、一個稍微復雜的代碼庫,很快就塞不進去。用戶只好把材料切碎,一段段問。模型也容易前面剛讀過,后面就忘了。
2024年,長上下文變成一條明確賽道。Google在Gemini 1.5 Pro里把上下文窗口推到100萬token,官方舉的例子包括長文檔、長音頻、視頻和代碼庫。Claude、GPT、Qwen、Kimi也都在往長上下文走。Kimi在中文用戶里出圈,很大一部分原因就是"能讀很長的文件"這件事特別好理解。
長上下文改變了很多產品體驗。以前讀年報、讀論文、讀合同、讀代碼庫,經常要先做切分和檢索。現在很多材料可以直接整包塞進去,讓模型在同一輪里看完。這對法律、研究、咨詢、代碼理解都很有用。
但長上下文不會替代RAG。窗口越長,推理成本和延遲越高,模型也未必真的能平均關注每個細節。企業知識庫有上萬份文檔時,全部塞進上下文也不現實。更常見的做法是兩者配合:RAG先把相關材料找出來,長上下文負責一次讀進更多片段、更長對話和更完整任務狀態。
記憶又是第三件事。長上下文解決"這一輪能讀多少",memory解決"跨會話能不能記住"。2024年OpenAI開始給ChatGPT做memory,讓它記住用戶偏好、寫作格式、工作背景。到2025年,ChatGPT的memory進一步擴展,可以參考過去更多聊天歷史。
這對個人助理和Agent很關鍵。一個長期幫你寫文章的模型,如果記得你不喜歡什么句式、常寫哪些主題、引用格式怎么放,下一次就不用從零交代。一個企業Agent如果記得項目背景、客戶偏好、歷史決策,也更像一個持續工作的同事,不再像每次都失憶的問答框。
memory也帶來新問題。它可能記錯,可能記住不該記的敏感信息,也可能讓用戶不知道模型為什么突然"懂"自己。企業里還要處理權限、合規、數據留存和刪除。記憶越強,治理要求越高。
把RAG、長上下文和memory放在一起看,LLM正在補三種"記憶能力"。RAG讓模型查外部資料,長上下文讓模型一次讀更多現場材料,memory讓模型跨任務記住長期背景。Agent要穩定工作,離不開這三層。
五、最新進展:從模型競賽到應用競賽
到這里,故事的重心開始換地方。
前面幾章講的,主要是模型怎么變強。架構、預訓練、后訓練、開源、MoE、推理時算力,所有努力都圍著"模型本身"轉。2025年之后,另一個問題變得更急:模型已經夠強了,它到底能替人干什么?
這就是新一輪競爭的起點。模型公司不再滿足于只賣API,SaaS公司也不再滿足于只加一個AI按鈕。大家都在往同一個方向擠:把模型接進真實工作流,讓它能調用工具、讀寫數據、執行動作、交付結果。
5.1 Agent的產品化:套殼、SaaS和基礎模型公司下場
先把"套殼"說清楚。這個詞比Agent更寬,指的是一類很薄的AI應用:底層直接調用OpenAI、Anthropic、Gemini這類模型API,外面包一層界面、提示詞模板、賬號系統和收費頁。早期很多AI創業公司做的就是這個,換個垂直場景,寫幾組prompt,就說自己是AI寫作、AI客服、AI銷售、AI律師。
這種套殼更接近AI-powered SaaS,未必是Agent。它本質上還是傳統軟件,只是在某個環節調用模型生成一段話、總結一份材料、回答一個問題。套殼也可以偽裝成Agent:給模型一個循環,讓它自己喊"我在計劃、我在執行",但沒有穩定工具、沒有權限系統、沒有任務狀態、沒有評測和回滾,實際只能演示,進不了生產。
真正的Agent要多幾層東西。它要能理解目標,拆出步驟,選擇工具,調用API,讀取結果,發現錯誤,再決定下一步。它還要接權限、日志、審批、記憶、數據源和評測系統。模型只是腦子,Agent產品還需要手、腳、眼睛、記錄本和剎車。
2023年,這條路已經冒頭。OpenAI在3月推出ChatGPT plugins,讓ChatGPT可以接瀏覽器、代碼解釋器和第三方服務。6月,function calling進入API,開發者可以把外部函數描述給模型,讓模型判斷什么時候調用。開源社區那邊,LangChain把prompt、模型調用、向量數據庫、工具、外部API、記憶、鏈式流程包裝成開發者熟悉的組件。AutoGPT也在2023年出圈,它不穩定、容易跑偏、燒token,但把"模型循環執行任務"這件事推到公眾面前。
2025年之后,變化更明顯。過去很多創業公司在應用層套殼,現在基礎模型公司直接下場做應用層。OpenAI先做Operator,讓模型用自己的瀏覽器點網頁,后來又把Operator、Deep Research、代碼執行整合進ChatGPT agent。Anthropic把Claude Code、computer use、MCP一路往工具和開發者工作流里推。Google也在把Gemini往Workspace、Cloud和企業Agent平臺里塞。
這里的壓力很現實。基礎模型只賣token,容易變成云服務里的算力商品。應用層才離用戶預算更近,也離企業流程更近。模型公司自己做Agent,本質上是在往SaaS和企業軟件的地盤走。
![]()
Agent會不會取代SaaS?短期看,更像是重寫SaaS的入口。CRM、ERP、財務、人事系統仍然保存數據、權限、審計、合規和歷史記錄,這些后臺不會憑空消失。但用戶不一定還需要一層層點頁面。未來很多操作會從"打開系統、找菜單、填表單",變成"說目標、確認計劃、批準執行"。被替代最快的,是那些只靠薄界面和簡單流程收費的SaaS套殼。真正有數據、有流程、有客戶關系的SaaS,會被迫Agent化。
5.2 Coding Agent和程序員生態的重塑
Coding Agent最先跑通,原因很直接。代碼場景天然適合Agent。它有文件系統,有終端,有測試,有編譯器,有Git,有issue,有CI。模型改完代碼之后,系統可以立刻告訴它對了還是錯了。
這和很多辦公場景不一樣。寫一封銷售郵件好不好,往往要等客戶反應。做一份戰略報告好不好,判斷很主觀。代碼更干脆:能不能編譯,測試過不過,bug有沒有復現,PR能不能合進去。這給Agent提供了天然反饋回路。
所以AI coding工具很快從"補全一行代碼"走到"處理一個任務"。Cursor、GitHub Copilot、Claude Code這類工具,已經開始讀整個代碼庫、定位相關文件、修改多處代碼、運行測試、根據報錯繼續修。程序員給的輸入,也從"幫我寫一個函數",變成"這個issue幫我修一下"。
這就是Agent產品化最清楚的樣子。模型負責理解代碼和提出修改,軟件工程系統負責文件、測試、版本控制和權限。人還在回路里,但角色變了:少寫一些重復代碼,多做任務拆分、架構判斷、代碼審查和風險控制。
那科技公司會不會大規模裁員?答案不能簡單歸因給AI。2024到2026年的科技裁員,本來就有疫情后過度招聘回調、利率上升、資本市場要求利潤、業務增長放慢這些因素。AI加進來之后,管理層多了一個更順手的理由:同樣的產品和工程任務,能不能用更少的人完成?
對程序員來說,沖擊最先落在入門層。過去很多初級崗位的訓練路徑,是改小bug、寫腳手架、補測試、搬數據、寫簡單接口。現在這些任務正好是AI最擅長的部分。Stanford在2025年的研究就指出,受AI影響最大的職業里,年輕、低經驗員工的就業機會下降更明顯,軟件開發和客服都在名單上。
但這不等于程序員這個職業要消失。美國勞工統計局對2024到2034年的預測軟件開發、測試和QA崗位仍然增長15%,遠高于整體職業平均水平。這個數字說明一件事:軟件需求還在漲,只是公司需要的人變了。
未來的程序員生態會更分層。只會按需求寫代碼的人,會被Coding Agent壓得很厲害。能把業務問題拆成工程任務、能判斷架構取舍、能設計測試、能審AI寫出的代碼、能處理安全和線上事故的人,反而會更值錢。公司少招一些"代碼勞動力",多要一些能帶著AI交付系統的人。
入口會變窄,這是最現實的變化。過去初級程序員靠寫重復代碼積累經驗,現在重復代碼被AI吃掉,新人少了練手場。公司如果只保留高級工程師和AI工具,短期效率可能上去,長期人才梯隊會斷。這個矛盾還沒解決,也是整個行業接下來幾年要付學費的地方。
Coding Agent也解釋了為什么未來Agent不會一下子橫掃所有行業。它要有工具,要有反饋,要有邊界。代碼場景這些條件最齊,所以先成熟。其他行業要復制這件事,先得把流程、數據、權限和評測補起來。
5.3 多模態和computer use:模型開始操作世界的界面
這篇文章主要講LLM,因為文字是大語言模型的主戰場。但另一條線也在快速推進:圖像、音頻、視頻這些生成式AI,已經從玩具走到產品。Midjourney、DALL-E、Stable Diffusion把圖像生成推到大眾面前。Sora把文本生成視頻這件事推到公眾視野。Google的Veo 3又把視頻和音頻一起生成,連對白、環境聲、音樂都放進同一個生成過程里。
![]()
這讓我想起90年代的"多媒體"。那個詞今天聽起來有點老,但當年很重要。電腦不再只處理文字和表格,而是開始同時處理圖片、聲音、動畫、視頻。CD-ROM、網頁、游戲、教育軟件,全都在講多媒體。
今天的AI也在走類似方向,只是角色反過來了。90年代的多媒體,是人通過電腦消費更多類型的信息。現在的多模態AI,是模型自己能讀圖、聽聲音、看視頻、理解屏幕,還能反過來生成圖像、語音和視頻。它的工作范圍正在從文本回答,擴展到人類真實使用的軟件和媒體界面。
Computer use就是這個趨勢的另一半。很多現實軟件沒有好用API,只有網頁、按鈕、輸入框、彈窗和桌面應用。過去模型想調用工具,最好有結構化接口。computer use讓模型看屏幕、移動鼠標、敲鍵盤,像人一樣操作舊軟件。OpenAI的Operator、ChatGPT agent,Anthropic的computer use和Claude Code里的桌面操作,都在往這個方向走。
把多模態和computer use合起來看,未來Agent會有更完整的輸入輸出。它能讀合同PDF,看儀表盤截圖,聽會議錄音,生成PPT,操作瀏覽器,甚至剪一段視頻。LLM仍然是中樞,但它周圍會接上視覺、語音、視頻和操作系統界面。模型開始從"會說話"走向"會看、會聽、會點、會做"。
5.4 公司AI提效:從賣token到賣任務
公司為什么突然都在談AI提效?原因不復雜。2023年,企業先把ChatGPT當個人效率工具,寫郵件、寫文檔、總結會議、查資料。2024年,很多公司開始把它接進客服、銷售、研發、法務和內部知識庫。到2025年,Agent和工作流自動化成了流行詞,因為模型終于開始能連續處理多步任務。
McKinsey在2025年的全球AI調查里說,62%的受訪組織已經在實驗AI agents,但接近三分之二還沒有把AI規模化推到全企業。這個數字很真實:大家都在試,但真正改流程很難。Gartner的判斷更激進,它預計到2026年底,40%的企業應用會集成面向具體任務的AI agents,而2025年這個比例還不到5%。
公司提效主要有兩條路。淺的一條是個人效率提升,員工用AI寫、查、總結、翻譯、改代碼。深的一條是決策和流程自動化:客服工單自動分流,銷售線索自動評分,財務異常自動提醒,供應鏈風險自動掃描,研發任務自動拆分。前者提升個人速度,后者改公司運轉方式。
真正值錢的是后者。一個客服少寫幾句回復,價值有限。一個客服系統能自動識別問題、查知識庫、調用訂單系統、生成解決方案、判斷是否升級人工,價值就不一樣了。AI從"幫某個人更快完成一步"走到"讓一整條流程少掉三步",公司才會認真付錢。
商業模式也會跟著變。互聯網時代賣流量和廣告,云計算時代賣算力,基礎模型公司現在主要賣訂閱、API和token。SaaS公司賣席位、模塊和企業合同。到了Agent和工作流自動化階段,錢會流向更靠近業務結果的地方。
這也是為什么咨詢公司、系統集成商和企業軟件公司重新變重要。買一個模型API很容易,真正難的是把公司數據接進去,把權限理清楚,把流程重寫,把安全和審計做好,把員工培訓起來。AI提效經常是一場流程改造,單純買工具解決不了。麥肯錫、埃森哲、德勤這類公司,以及各類垂直行業服務商,都會在這層收錢。
未來還可能出現更多結果計費。收費單位會從token,轉向解決一個工單、生成一個合格銷售線索、完成一次對賬、修好一個bug、交付一份研究報告。這個模式還沒成熟,但方向很清楚:企業最終不想買"模型調用次數",企業想買更低成本、更快速度和更少錯誤。
這里也要潑一點冷水。Gartner在2025年提醒過,很多Agent項目會因為成本高、價值不清、風險控制差而停掉。公司的AI提效不會靠喊口號發生,它需要數據、流程、權限、評測和組織改造一起到位。真正能留下來的Agent,最后要看它能不能在真實流程里穩定省錢,演示做得酷沒有用。
結語
回頭看這八年,大語言模型的發展可以壓成一句話:一個為機器翻譯設計的架構,被一路放大、馴服、商品化,最后變成了軟件世界的新接口。
第一步是架構。Transformer本來只是解決RNN在翻譯里的兩個老問題:串行太慢,長距離關系容易丟。Attention把所有詞之間的關系一次攤開,讓GPU可以并行處理,也讓模型更容易抓住長句里的依賴關系。2017年那篇論文真正打開的,后來成了整個LLM時代的計算底座。
第二步是路線分叉。Google拿encoder做BERT,主攻理解、分類、檢索、問答。OpenAI拿decoder做GPT,押注生成和預測下一個詞。當時看,BERT更像正統NLP,GPT更像文字接龍。GPT-3之后,這個判斷反過來了:只要模型足夠大,生成能力會吃掉很多原本被認為需要專門設計的任務。
第三步是規模。GPT-3證明了一個反直覺事實:很多能力不需要逐項手寫規則,也不需要每個任務單獨訓練,規模上去之后,模型會出現in-context learning這樣的新行為。但規模不是一句“大力出奇跡”就完事。Megatron、GPipe、ZeRO、FlashAttention、KV cache、量化這些工程積累,才讓大模型真的訓得動、跑得起、用得上。
第四步是對齊。GPT-3很強,但不好用。InstructGPT和ChatGPT解決的是另一個問題:模型怎么聽人話、按指令做事、少胡來。RLHF把人類偏好塞進訓練流程,Anthropic的Constitutional AI又證明,對齊不一定只能靠海量用戶反饋。預訓練給模型知識,后訓練把模型調成一個可以被普通人使用的產品。
第五步是生態。ChatGPT爆紅之后,閉源和開源很快分成兩套系統。OpenAI、Anthropic、Google、xAI把模型做成云服務、App和API,拼的是算力、產品、分發和企業銷售。Meta、Mistral、DeepSeek、Qwen這些開源或開放權重路線,把模型變成開發者和企業可以本地部署、微調、私有化的基礎設施。今天的大模型競爭,早就超出了benchmark分數,開始比一整套產業組織能力。
第六步是效率。Chinchilla提醒大家,參數不是唯一尺度,數據也要跟上。MoE提醒大家,模型可以有很大總容量,但每次只激活一部分。DeepSeek、Qwen、Mistral這些玩家能快速追上來,靠的不只是“追隨前沿”,也靠更會算賬:同樣的算力預算,怎么訓得更久、喂得更準、跑得更便宜。
第七步是新scaling軸。o1之后,推理時算力變成新的變量。過去主要在訓練階段砸錢,訓出一個盡量強的模型;現在遇到數學、代碼、科學題,還可以在回答階段多花算力,讓模型多試幾條路、多檢查幾次。DeepSeek R1、Gemini Thinking、Claude extended thinking,都在說明這條路已經不屬于一家公司的獨門技巧。
第八步是系統化。RAG、長上下文、memory、tool calling、MCP、harness engineering,這些詞看起來雜,其實都在回答同一個問題:模型怎么進入真實工作流。RAG讓模型查企業知識庫,長上下文讓它一次讀更多材料,memory讓它跨任務記住背景,tool calling讓它調用系統,harness讓它在權限、日志、評測和回滾里運行。模型開始從“會回答問題”變成“能嵌進軟件系統里做事”。
所以這篇文章最后落到Agent,原因很簡單:它把前面所有線索都收在了一起。沒有強模型,Agent只會胡說。沒有RAG和長上下文,它不知道該看什么。沒有工具調用,它只能寫建議,不能執行動作。沒有harness,它進不了生產環境。沒有業務流程改造,它也省不下真錢。
這也是為什么2025年之后,競爭重心開始從模型競賽移到應用競賽。基礎模型公司往應用層走,SaaS公司往Agent化走,咨詢公司和系統集成商重新變重要。企業最終不會為“更會聊天”長期付高價,企業愿意為更低成本、更快流程、更少錯誤付錢。
模型能力當然還會繼續漲,但邊際收益正在變小。更大的空間,可能在系統層:怎樣把一個模型、幾個小模型、外部工具、知識庫、業務系統和人類審批組合成穩定流程。過去十年,AI工程的主角是“訓練一個更強的模型”。接下來幾年,主角會越來越像“圍繞模型搭一套能交付結果的系統”。
![]()
這篇文章主要講LLM,因為文字是Transformer這條線最清楚的主戰場。圖像和視頻還有另一條技術史,擴散模型撐起了Midjourney、Stable Diffusion、DALL-E、Sora這一路;音樂和語音也有自己的路線。它們正在和LLM匯合到多模態AI里,但如果展開講,就已經是另一篇文章。
今天的大語言模型還遠沒有定型。它像早期互聯網,也像早期云計算:底層技術還在變,商業模式還在試,泡沫和真需求混在一起。但有一點已經很清楚,LLM不會只是一類聊天產品。它更像一層新的軟件抽象,往下接數據、工具和算力,往上接人、流程和公司決策。
這就是過去八年真正發生的事:語言模型從一個會續寫文本的神經網絡,變成了一個可以被調用、被約束、被組合、被部署的通用計算零件。它還不穩定,也不便宜,更談不上萬能。但它已經足夠強,強到整個軟件工業都必須圍著它重新排一遍位置。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.