網易首頁 > 網易號 > 正文申請入駐

一篇文章講清大語言模型發展史

2026-05-31 21:24:05　來源: 知識圈

北京舉報

分享至

2022年11月30日，OpenAI發布了ChatGPT，轟動一時。

到今天，只不過三年多。但很多人的體感里，AI好像已經換了好幾個世代。

這幾年里，大語言模型已經從技術圈里的新鮮東西，變成了幾乎每天都在刷屏的基礎技術。ChatGPT、Claude、Gemini、DeepSeek、Qwen、Kimi，各種模型名字層出不窮；預訓練、微調、RLHF、Scaling Law、MoE、RAG、Agent、Reasoning Model，各種技術詞也越堆越高。很多人關心AI，卻被這些名詞追著跑，越看越亂。

這篇文章想做一件事：把Transformer架構出現以來，大語言模型技術發展的主線講清楚。

本文不會覆蓋每一個模型、每一篇論文、每一個創業公司。那樣寫出來只會變成技術名詞年表。真正重要的是那幾次關鍵轉向：語言模型怎么從“預測下一個詞”走到通用智能入口，為什么規模會變成核心變量，ChatGPT到底改變了什么，開源模型為什么突然追上來，推理模型又意味著什么。

本文伴隨者你，把這幾年大語言模型的發展從一堆散亂名詞，整理成一條清楚的主線。

一、架構的勝利（2017–2020）

1.1 一個為翻譯而生的架構

Google翻譯不是從神經網絡開始的。它2006年上線，最早做的是大規模短語統計機器翻譯：先從海量雙語文本里統計詞組和詞組之間的對應關系，再把句子切成一段段短語拼起來。這個方法撐了Google翻譯差不多十年。

到2016年，Google開始把核心系統切到基于神經網絡的GNMT（Google Neural Machine Translation）。GNMT用的是RNN和它的升級版LSTM，不再只是一段段短語匹配，而是把整句作為序列讀進去。這套辦法是從左到右一個詞一個詞處理，比如，"我喜歡北京的烤鴨"要先讀"我"，再合"喜歡"，再合"北京"，最后用末尾的隱藏狀態生成翻譯。兩個工程硬傷顯而易見：處理是串行的，GPU的并行能力用不起來；長句子里前面的詞到了后面會被稀釋，距離一長信號就糊了。

Long short-term memory架構

2017年6月，Google翻譯組的八個人發了一篇叫《Attention Is All You Need》的論文。標題里的"All You Need"是挑釁：他們提議把RNN這套循環結構整個扔掉，只留下注意力機制。這套新架構他們叫Transformer。

Transformer是一個堆疊式神經網絡。所謂堆疊，就是把同樣結構的"層"重復放很多次，讓每一層都在上一層的結果上繼續加工。原論文里為了做機器翻譯，encoder和decoder各堆了6層。每層只有兩個核心模塊：self-attention（自注意力）和feed-forward（前饋網絡）。輸入塞一段文字，輸出端就拿到每個詞的"上下文向量"，也就是這個詞在這句話里的意思被周圍所有詞調整之后的表征。

Figure 1: From ‘Attention Is All You Need’ by Vaswani et al.

Attention是這套架構里最關鍵的一步。還是拿"我喜歡北京的烤鴨"舉例。"烤鴨"兩個字單獨看就是"烤的鴨子"，但這句話里它特指"北京烤鴨"。模型怎么把"北京"那層意思塞進"烤鴨"里？辦法是讓"烤鴨"環顧一圈，給每個詞打分："北京"最高，"喜歡"中等，"我"和"的"幾乎為零。再按這套分數把每個詞的信息按比例吸收過來。"烤鴨"原本那個泛指"烤的鴨子"的向量，就被改寫成"這句話里那只我喜歡的北京烤鴨"，它從此知道自己在這一句里的精確含義。句子里6個詞同時各做一遍，一輪跑完，每個詞都從通用含義升級成了"在這句話里的具體含義"。這就是attention這一步的產出。

跟RNN比一下就能看出狠在哪里。RNN處理同一句話是這樣：先讀"我"記一筆，讀"喜歡"合并進來，讀"北京"再合并，一路滾到"烤鴨"，最后只剩一筆總結。這里有兩個毛病：必須一個詞一個詞串著讀，前一步沒算完后一步動不了，GPU幾千個核心閑著干瞪眼；等滾到"烤鴨"時，"我"已經被壓縮了5次，信號早就糊了，想回頭看清楚已經看不到。Attention把兩件事一次解掉，每個詞一步直達每個詞，沒有壓縮也沒有先后，6個詞的計算打包成一次大矩陣乘法塞給GPU，并行完成。這就是 "Attention Is All You Need" 那句標題的真正意思：扔掉RNN的循環結構，問題反而都解決了。

原始Transformer分兩半。Encoder（編碼器）負責"讀原文"：用6層self-attention把英文每個詞的上下文榨出來，輸出一組"原文向量"。Decoder（解碼器）負責"寫譯文"：每生成一個詞做兩件事，一是看自己已經生成的前面那些詞（self-attention加遮罩，不讓偷看未來），二是看encoder輸出的原文向量（cross-attention，把譯文跟原文對齊）。讀 + 寫連起來就是機器翻譯的天然分工。

論文發出來當年，Transformer在WMT標準翻譯測試上一下把英德、英法的BLEU分推到新高。BLEU是機器翻譯里常用的自動評分，粗略說，就是看機器譯文和人工參考譯文有多接近。它的訓練成本也只用之前SOTA模型的幾分之一。SOTA是state of the art的縮寫，意思是當時公開結果里最強的模型。學術界很快意識到這套架構的潛力，2018年起就有人開始把它從翻譯里搬出來，試著改造給別的任務用。

1.2 兩半分家，兩個學派

Transformer原本是為翻譯設計的，天然分成兩半：encoder負責讀原文，decoder負責寫譯文。2018年之后，大家很快發現，這兩半其實可以拆開，各自發展成一條路線。

Google先拿走了encoder那一半。原因很直接：當時NLP里最值錢的問題不是"寫一段話"，而是"讀懂一段話"。比如判斷兩句話是不是矛盾，找出一句話里的公司名、人名、地名，或者在一段材料里回答問題。這類任務不需要模型從左到右生成新文本，更需要模型把整句話、甚至整段話看明白。

這就是BERT的出發點。BERT全稱是Bidirectional Encoder Representations from Transformers，直譯過來就是"來自Transformer的雙向編碼器表示"。重點有兩個詞：encoder和bidirectional。encoder說明它只用Transformer左邊那半套讀文本的結構；bidirectional說明它讀一個詞時，可以同時看左邊和右邊的上下文。

BERT的訓練方式像完形填空。給一段話，隨機遮住一些詞，讓模型猜被遮住的是什么。比如"我喜歡北京的[MASK]"，模型要從"我、喜歡、北京、的"這些上下文里猜出"烤鴨"這類詞。它還做過另一個訓練任務，叫next sentence prediction，讓模型判斷兩句話是不是自然相鄰。后來的模型不一定保留這個任務，但BERT最早就是靠這兩件事訓練出來的。

所以BERT并不是簡單做一個固定embedding。早期NLP里的word2vec、GloVe更像是給每個詞發一張固定身份證："蘋果"這個詞無論出現在"吃蘋果"還是"蘋果公司"里，向量大體是同一個。BERT做的是contextual embedding，也就是上下文相關的表示。同一個"蘋果"，放在水果句子里和公司句子里，最后出來的向量不一樣。

BERT出來之后，使用方式主要有兩種。第一種是fine-tuning：在BERT后面接一個很小的任務頭，然后把整個模型拿去微調，做分類、問答、命名實體識別、自然語言推理。第二種是feature extraction：把BERT當成一個強大的文本特征提取器，抽出某一層或者幾層的向量，再交給別的模型使用。

OpenAI走了另一條路。他們拿走的是decoder那一半。decoder和encoder最大的區別，是它不能偷看未來。它生成第N+1個詞時，只能看前面已經出現的詞。這正好適合一個極其簡單的訓練目標：給你前N個詞，猜第N+1個詞。

這就是GPT系列的起點。GPT是Generative Pre-trained Transformer的縮寫。Generative表示它是生成式模型，目標是繼續往后寫；Pre-trained表示它先在大量無標注文本上預訓練，再拿去適配具體任務；Transformer表示它用的是Transformer架構。這個名字其實把路線說得很清楚：先用海量文本訓練一個會續寫的Transformer，再看這個續寫能力能不能遷移到各種語言任務上。

OpenAI為什么要反著BERT干？三個理由。一是BERT那條路Google已經占住了，OpenAI當時是小玩家，跟Google同方向硬拼資源拼不過，必須找一條Google沒在做的路。二是生成比理解更難：BERT的完形填空左右兩邊的上下文都給你，相當于做選擇題；GPT只能看左邊猜右邊，是開放題。能把開放題做好，做選擇題是順帶的事。三是BERT不能生成、GPT能；當時大多數人覺得"生成"用處不大，OpenAI賭的是只要模型夠大，"生成"才是通用智能的入口。

這里把"預訓練"是什么也說清楚。預訓練就是用海量沒標注過的文本，讓模型從零開始學語言。"訓練"調的是Transformer里所有矩陣的參數（attention里的W_Q、W_K、W_V，feed-forward里的權重，加起來幾億到幾千億個數），最開始是隨機的，訓完會被調成能完成任務的狀態。GPT的訓練數據是從互聯網扒來的幾千億token文本（Common Crawl、Wikipedia、書、論文），訓練任務只有一個：根據前面的詞預測下一個詞，預測錯了就反向傳播微調那幾千億個參數。整個過程只用decoder那半，encoder被扔掉。

OpenAI在2018年6月發布了GPT-1，論文題目是《Improving Language Understanding by Generative Pre-Training》。GPT-1只有1.17億參數，按今天標準很小，但它提出了一個關鍵思路：先用"預測下一個詞"做通用預訓練，再用少量標注數據做任務微調。2019年2月，OpenAI發布GPT-2，參數漲到15億，訓練數據換成約40GB互聯網文本。GPT-2的重點不再只是做分類任務，而是展示模型可以寫出長段落，甚至在沒有專門訓練的情況下，表現出一點問答、摘要、翻譯的能力。

那GPT-1和GPT-2在benchmark上打得過BERT嗎？打不過。GPT-1比BERT早4個月發布，在少數任務上短暫拿過SOTA，但2018年10月BERT一出來就被全面壓過。2019年GPT-2漲到15億參數，但同期Facebook發的RoBERTa（優化版BERT，只有3.55億參數）反過來在GLUE、SQuAD這些主流榜單上把GPT-2繼續壓著。從參數量看GPT-2大4倍，從分數看反而輸。

GPT-2真正出圈靠的是另外兩件事。一是文本生成質量肉眼可見地強，能寫出連貫的長段落、風格切換自如，能以假亂真。二是OpenAI當時聲稱模型"太危險不能完全開源"，分階段放出權重，一時刷屏。但在NLP學術圈眼里，整個2018到2020年，學界主流的判斷仍然偏向BERT那派：理解和生成是兩件事，應該分開設計。BERT負責"讀懂"，GPT負責"續寫"。在當時很多人眼里，BERT更像正經NLP，GPT更像好玩的文字接龍。這其實是一個上層的理論判斷：理解要專門學理解，生成要專門學生成。后來GPT-3真正推翻的，就是這個判斷。

1.3 GPT-3 的賭注：先要有望遠鏡

OpenAI內部有一群人想賭一件跟主流認知不同的事：如果模型大到上千億參數，光"猜下一個詞"這一招會不會自己長出新能力？沒錯，這就是俗話說的“大力出奇跡”，這是可能的嗎？

這個賭注的核心信徒是當時OpenAI的首席科學家Ilya Sutskever。他從AlexNet那個年代就堅信深度學習的進步主要靠規模，算法創新次要。這個觀點在OpenAI內部爭議過幾年，CEO Sam Altman和研究負責人Dario Amodei（后來Anthropic的創始人）最終拍板押下去。

技術上給這個賭注提供數學依據的，是Jared Kaplan等人2020年1月發的《Scaling Laws for Neural Language Models》。這篇論文證明模型loss會隨參數、數據、算力按可預測的冪律下降。換句話說，多大算力換多少能力，事前可以算出來。這給了OpenAI押1750億這個具體數字的底氣。

但工程上他們不是一步到位的。GPT-1（1.17億參數，2018年）幾張GPU就夠。GPT-2（15億參數，2019年）開始吃力，但還撐得住。等到2020年要沖到1750億參數，之前那套訓練工具鏈根本頂不住。

先算一筆賬。1750億參數光把權重存下就要約350GB（用16位浮點數算），加上反向傳播要保存的中間結果和優化器狀態，實際需要2到3TB內存。當時NVIDIA最強的訓練卡V100每張才32GB顯存，怎么都裝不下。

有人會問：Google不是有TPU嗎，性能秒殺GPU？但TPU只在Google自己數據中心里跑，外人用不了，OpenAI這種Google對手更不可能碰。OpenAI那時跟微軟綁定，能拿到的就是Azure上的NVIDIA GPU。而且就算給TPU用，單顆也只有16GB高速內存，照樣塞不下1750億參數。所以問題跟單卡多快沒關系，瓶頸在另一頭：一個單卡塞不下的模型，怎么拆開分到幾千張卡上同步訓練、還要算得對？這是個軟件工程問題。

要解決它需要三套工程突破，2018到2019年三家公司各破一關。

第一關是模型放不下一張卡。

一個transformer層里的權重矩陣動輒幾億個數字，單GPU裝不下。NVIDIA 2019年9月發的Megatron-LM給出答案：把單個權重矩陣橫著切成N份，N張GPU各算一塊再匯總。這叫張量并行。打個比方，一張大試卷一個人寫不完，撕成4份讓4個人同時寫。

第二關是層數堆起來還是裝不下。

GPT-3有96層transformer，就算每層都切了，整個疊起來還是太大。Google 2018年底發的GPipe給出答案：不同層放到不同GPU，GPU 1管前12層，GPU 2管13到24層，數據像流水線一樣從第一張卡流到最后一張。這叫流水線并行。

第三關是優化器狀態吃天量內存。

訓大模型用的Adam優化器每個參數還要額外存兩個數字（動量、方差）。1750億參數光優化器狀態就要1.4TB，每張GPU都存一份完整副本再多卡也救不了。微軟2019年發的ZeRO給出答案：優化器狀態、梯度、參數本身全部按GPU數量切開，每張卡只存1/N，需要時臨時通信交換。N張卡的顯存就此合起來變成一個虛擬的大顯存。

三招組合起來叫"3D并行"：張量并行切單層（橫著切）、流水線并行切層堆（豎著切）、ZeRO切優化器狀態和數據。三維同時切，1750億參數才真的能塞進一千多張卡的集群里。少任何一個都不行：光張量并行96層疊不下；光流水線單層裝不下；不上ZeRO，光優化器狀態就溢出。

硬件這邊，NVIDIA 2017年發布的V100是當時最強的訓練卡。Microsoft給OpenAI在Azure上專門搭了一臺超級計算機，把約1萬張V100 GPU串在一起，2020年5月19日在Microsoft Build大會上公布，是當時全球前五的超算之一。3D并行的軟件方案加上這臺超算，萬事俱備，只欠東風。

2020年上半年，OpenAI在這臺超算上跑了幾個月，5月28日發表了里程碑論文：GPT-3《Language Models are Few-Shot Learners》。

OpenAI想做的實驗本身是個理論問題：規模夠大會不會涌現新能力？但要回答這個問題，得先把"訓練1750億參數"這件事本身工程化。三家公司各解一道題，加上硬件剛好升級，工程窗口才打開。

1610年伽利略把自制望遠鏡對準夜空，看見木星周圍有四顆衛星在轉。這是人類第一次親眼看到地球之外的天體圍繞別的天體運行，日心說從此有了實證，天文學被改寫。

望遠鏡先造好，原本看不見的天空才看得見。

1.4 范式轉移

GPT-3論文的核心論點一句話講完：模型大到一定程度，新能力會自己冒出來。

它展示的最關鍵能力叫in-context learning（上下文學習）。模型不必為每個任務專門微調，只要在prompt里給兩三個示范，它就能照著做這個任務。給兩三個示范就照做的叫few-shot；什么示范都不給直接做的叫zero-shot。

具體效果有多炸？論文里幾個讓人下巴掉下來的結果：GPT-3在SuperGLUE、TriviaQA這些benchmark上的few-shot分數，跟專門fine-tune過的模型差不多甚至更好；它能寫出像樣的新聞文章，OpenAI做過測試，人類讀者區分真假的識別率只比扔硬幣高一點；它能從自然語言描述生成簡單代碼、做基礎算術、回答一些沒見過的常識題。

這種能力在小模型里完全看不到。GPT-2（15億參數）也能續寫，但給它兩三個示范它學不會照做。GPT-3（1750億參數）燒到那個臨界值，新行為整個浮上來。這是發生了相變，像水燒到100度才沸騰。

但更大的影響在工作方式層面。GPT-3觸發了整個NLP行業從老范式到新范式的整體轉移。

老范式是這樣：2018到2020年，做NLP的標準動作是拿一個預訓練好的模型（多半是BERT），針對你要做的任務，收集一批帶標注的數據（幾千到幾萬條），在這批數據上fine-tune一遍。每個任務都要單獨標數據、單獨微調、單獨部署一個模型。一家公司想做客服分類 + 自動翻譯 + 文檔摘要 + 內容審核，就得養四個不同的模型。NLP圈那幾年大量論文都在卷這件事：怎么fine-tune得更高效、用更少標注數據得到更好效果。研究的最小單位是"任務 + 數據集"。

GPT-3把這個工作流整個掀了。模型不為任何具體任務訓練，只學一件事，預測下一個詞。要它做翻譯就寫prompt："把下面英文翻成中文：Hello world →"；要它做情感分析就寫："判斷這段評論的情緒是正面還是負面：[評論] →"；要它做摘要就寫："把下面文章總結成三句話：[文章] →"。

轉移落到5個具體維度：

這套從"訓練時綁定任務"到"使用時綁定任務"的轉移，后來被叫做foundation model（基礎模型）范式。Stanford HAI在2021年專門發了一篇《On the Opportunities and Risks of Foundation Models》給這套范式命名。一個名字能立起來，說明業界已經默認這就是新的工作單位。

但學術圈不是立刻全盤接受，反應分了三波。

第一波是懷疑。很多研究者認為GPT-3只是"模式匹配加大數據記憶"，不算真理解。它會在長文里說錯事實、做錯算術、自相矛盾，幾個月里出了一堆"GPT-3做不到X"的論文。OpenAI把模型藏在API后面不放權重，也加深了質疑。

第二波很快蓋過第一波。拿到API真用過的人都被它的通用能力震到。AI Dungeon這個游戲直接用GPT-3做后端，玩家發現它能記住幾千字劇情、生成不重樣的對話。2021年6月GitHub Copilot發布，底子是GPT-3的代碼訓練版Codex，程序員第一次體會到"AI寫代碼"是什么感覺。"一個模型解所有任務"從論文圖表變成了能跑的產品。

第三波是前沿實驗室和大廠開始跟進。GPT-3發布后，2021年起，Google、DeepMind、Microsoft/NVIDIA、華為、百度、Meta、智譜等玩家陸續推出百億到千億級語言模型。到2023年ChatGPT爆紅之后，這件事才從前沿實驗室競賽，變成整個行業的集體軍備競賽。BERT那派"理解和生成必須分開"的理論判斷就此被證偽。從GPT-3之后，所有前沿大模型（GPT、Claude、Gemini、LLaMA、DeepSeek、Qwen）都是decoder-only Transformer的后代。

當然，BERT沒有死。它在產業界仍然是分類、檢索、向量embedding這些窄場景的主力。Google搜索后端、文檔分類系統、電商推薦里的語義匹配，今天還在跑BERT派的模型。它們小、快、便宜，專門做一件事比叫一個千億大模型來做劃算得多。但"前沿AI"這條賽道的主線，從GPT-3起徹底換了。

這是AI歷史上第一次，一個上層的理論判斷被一個大規模實驗整個推翻。這件事能發生，前提是工程已經把這個實驗做成可能。

二、從能力到可用（2022）

2.1 能力不等于好用：RLHF 的登場

GPT-3論文發完，2020年6月OpenAI把它做成商業API上線，相當貴：起步價0.06美元1000 token。一年里上百家公司圍著這個API做產品：Jasper做營銷文案，Copy.ai做帶貨文案，AI Dungeon做交互小說，Replika做陪伴聊天。但絕大多數嘗試很快撞墻。

模型什么都會，但什么都不聽話。你讓它寫一份正經報告，它會扯到段子上；你讓它客觀回答問題，它會編造數據；你問它一個敏感話題，它會給你一段不合適的回答。最典型的事故是AI Dungeon：2020年7月接入GPT-3后體驗質變，但很快出現大量不可控生成（露骨、暴力、兒童內容），OpenAI在2021年4月威脅切斷API訪問，逼著AI Dungeon加各種過濾器，社區隨后流失大半。

這暴露了一個此前沒被認真理論化的鴻溝：模型"知道什么"和模型"愿意做什么"之間，隔著一層。光把模型變大不夠，必須再做一層"對齊"。圈里管這種現象叫alignment problem。

GPT-3之后的兩年多，OpenAI沒有發新的旗艦底座模型。中間發生的事，主要就是把這個對齊層補上。

轉折點是OpenAI 2022年3月發的InstructGPT論文《Training language models to follow instructions with human feedback》。這篇論文給出了RLHF（Reinforcement Learning from Human Feedback，基于人類反饋的強化學習）的標準三段論。

先做監督微調（SFT，Supervised Fine-Tuning）。OpenAI雇了40多個標注員，讓他們針對幾萬條真實用戶prompt親手寫出"理想回答"。然后拿這批人寫的對照集去微調GPT-3。模型第一次學到"什么樣的回答符合期待"。

把模型微調過一輪之后，需要一個"裁判"來給后續回答打分。OpenAI讓模型對同一個prompt生成4到9個不同回答，標注員從好到壞排序。用這批排序數據訓一個獨立的獎勵模型（Reward Model），它本身不答題，但能給任何回答打分，專門預測"哪個回答更受人喜歡"。

獎勵模型就位之后，最后一步用強化學習。讓GPT-3一遍遍生成回答、被獎勵模型打分、根據分數調整自己。算法叫PPO（Proximal Policy Optimization），讓模型按獎勵模型的口味打磨自己。

實驗結果非常硬：13億參數的InstructGPT在人類偏好打分上擊敗了1750億參數的原版GPT-3，參數差了一百三十多倍。這件事對整個行業沖擊巨大：讓模型變好用跟把模型變大幾乎是兩條不同的路。

InstructGPT上線8個月后，2022年11月30日OpenAI發布ChatGPT。背后的模型叫GPT-3.5，是InstructGPT路線訓出來的進一步版本：先在GPT-3基礎上做了一輪代碼增強訓練（叫code-davinci-002），再做完整的RLHF。ChatGPT一發就在整個社會爆火，5天破百萬用戶，2個月破1億月活，刷新了所有消費產品的增長記錄。讓ChatGPT從"會續寫"變成"能對話"的，正是InstructGPT那一套RLHF。

順便看一眼GPT系列的訓練數據演化：

預訓練數據從GPT-1到GPT-3漲了100倍，是scaling假說的直接體現。但到GPT-3.5這一步，新增數據更關鍵的變化在性質上。GPT-3訓練用的是從互聯網爬下來的隨機文本；GPT-3.5多出來的那一萬多條示范和三萬多條排序，量級跟預訓練完全不在一個數量級，但全部是帶人類價值判斷的對齊數據，專門告訴模型"應該怎么回答"。這是一種全新的訓練數據。

這件事催生了一個新概念：后訓練（post-training）。

預訓練是用海量無標注文本讓模型學會語言和世界知識。后訓練是預訓練之后所有進一步調整模型的工作，包括SFT、RLHF、安全調優、風格調優等。從InstructGPT這一刻起，"后訓練"第一次和"預訓練"擺到同一張桌上。后來Anthropic的Constitutional AI、各家的RLAIF、DPO，都是在后訓練這層做新文章。

預訓練給模型知識；后訓練給模型性格。兩層加起來，才是今天我們用的ChatGPT、Claude、Gemini這種"懂事的"大模型。

2.2 ChatGPT 背后的工程窗口

InstructGPT用40個標注員手寫了幾萬條對齊數據，訓出第一版"聽話"的GPT-3.5。但要讓模型繼續進步，下一個問題就來了：再雇40個標注員？再雇400個？還是有更狠的辦法？

OpenAI的答案是把用戶當標注員。模型每跟人對話一次，潛在地都是一次訓練信號——用戶哪個回答覺得有用、哪個回答點了thumbs down、哪個回答讓用戶重新問了一遍、哪個回答被復制走用了。這些信號天然帶價值判斷，比專門請人寫好答案便宜得多、規模也大得多。但要規模化拿到這種信號，前提是億級用戶能用得起、用得起天天用，模型得能免費、推理還要跑得動。

這又是工程問題。早期GPT推理一次的成本貴到沒法做免費產品。三件工程突破趕著做出來：

第一件是FlashAttention（Stanford HazyResearch組的Tri Dao的研究）。原版attention要把中間的N×N大矩陣反復在GPU的慢內存（HBM）和算力核心之間搬運，瓶頸不在算而在搬。FlashAttention把attention拆成塊，每塊的Q、K、V直接塞進GPU里更快的SRAM一次算完，只把最終結果寫回HBM。數學上跟原版完全等價，純靠IO重寫就讓attention這一步提速超過七倍。

第二件是KV cache，autoregressive生成時，每個新token都要attention前面所有token，每次重算K和V太浪費；緩存下來下次直接復用，對話越長省得越多。這不是單篇論文的功勞，是Megatron-LM、NVIDIA FasterTransformer、HuggingFace Transformers等開源框架在2019到2021年陸續把它做成標準操作。

第三件是權重量化，把模型權重從FP16壓到INT8、INT4甚至FP4，單卡能裝下更大的模型，推理速度也成倍提升。

這一輪工程突破到位之后，ChatGPT才發得出去。

ChatGPT表面上是個產品，底下它是工程打開的另一扇窗：讓"用戶反饋"從40人小作坊一躍變成億級用戶的大規模訓練信號。每天上億條對話經過過濾、采樣、人工二次評分，回灌到下一輪RLHF。InstructGPT那40個標注員一年的工作量，ChatGPT上線后大約每小時就能產生一份。模型幾個月一個明顯躍遷。

OpenAI那時以為自己有了一條牢固的數據護城河：用戶越多 → 反饋越多 → 模型進步越快 → 用戶越愿意來。一年內ChatGPT月活破億，看起來競品很難追平。

但事后回看，這條護城河沒站住。Anthropic用Constitutional AI不靠億級用戶也追上來，DeepSeek、Llama-3、Qwen用合成數據加DPO等更便宜的辦法把開源前沿推到接近閉源。行業漸漸意識到，RLHF數據的質量比數量重要，億級原始反饋里大部分是噪音。OpenAI從這個飛輪拿到的真正紅利是2023那一整年的獨占窗口，給了它一年的產品先發優勢，模型能力優勢卻沒維持住。

三、ChatGPT 之后：百花齊放（2023–2024）

ChatGPT在2022年11月點燃了整個行業。2023到2024這兩年成了大語言模型的爆發期：閉源前沿玩家加碼追趕OpenAI，開源浪潮起來，中國玩家集體下場，整個生態從"OpenAI一家獨大"變成多極混戰。

3.1 Anthropic：從 OpenAI 出走的另一條對齊路線

Anthropic的故事得從OpenAI內部的一次分裂說起。

2020年底到2021年初，OpenAI研究部門一批人先后離職，包括研究VP Dario Amodei、運營VP Daniela Amodei兄妹，加上GPT-3論文一作Tom Brown、Scaling Laws論文一作Jared Kaplan、安全研究員Sam McCandlish、政策負責人Jack Clark、可解釋性研究員Chris Olah等核心人員。他們2021年1月在舊金山成立了Anthropic。

公開說法是"對OpenAI的方向有不同看法"，實際矛盾大致有以下幾條：2019年OpenAI接受微軟10億美元投資、改成"利潤上限"公司結構，讓原本"非盈利"的初心變了味；2020年GPT-3商業化太快，安全研究分到的資源不夠；這批人覺得AI安全和能力研究應該綁在一起做，OpenAI把它們分開了。Dario那撥人想做的是"safety-first的前沿模型實驗室"，跟OpenAI越來越商業化的路線分道揚鑣。

Anthropic成立之后，拿了不少投資：2021年5月1.24億美元A輪，2022年5.8億美元B輪，2023年Google投了3億多，Amazon陸續投到40億，估值一路沖到600億美元以上。

Anthropic的代表作是Constitutional AI（CAI）。2022年12月發的論文《Constitutional AI: Harmlessness from AI Feedback》給出了一條不依賴億級用戶的對齊路徑：寫一套明文原則（"憲法"），讓模型自己用這套原則評估、批評、改寫自己的回答，再用這些改寫后的對照數據訓自己。把RLHF里"人類反饋"那一環換成"AI自反饋"，規模化的瓶頸一下消除了。

CAI的思路有清晰的源流。RLHF本身就是Christiano、Amodei這些人在OpenAI時期搞出來的，2017年的《Deep Reinforcement Learning from Human Preferences》是RLHF的開山論文，Amodei是作者之一。到OpenAI做InstructGPT時他們已經發現RLHF靠人標既貴又慢。Anthropic成立后沿著這條線推進：2021年12月發《A General Language Assistant as a Laboratory for Alignment》，2022年4月發《Training a Helpful and Harmless Assistant with RLHF》，2022年12月發CAI。三篇論文連續遞進：先做helpful + harmless的RLHF，再發現harmless這一頭特別費人，再用AI自反饋替掉那一段。

CAI對Anthropic尤其重要。他們當時只有一兩年時間，沒有OpenAI那種億級用戶的反饋來源；如果死磕RLHF原版方案，永遠追不上。CAI讓他們用很小的標注預算就能訓出可控的對齊效果。

但要老實說一句：早期Claude跟同期OpenAI旗艦模型差距明顯，"追上"是慢慢發生的事。

2023年3月發的Claude 1，大致跟ChatGPT（GPT-3.5）一個量級，但同月發布的GPT-4是另一個層次，Claude 1跟它差距明顯。2023年7月Claude 2、11月Claude 2.1，提升肉眼可見但仍在GPT-4之下。整個2023年，Claude在工程師圈里是"小眾替代"，不是主流選擇。

真正縮到平起平坐是2024年3月的Claude 3系列（Opus / Sonnet / Haiku三檔）。Opus在多項基準上跟GPT-4打平或小幅領先，是Anthropic第一次拿出能跟OpenAI旗艦對壘的模型。2024年6月Claude 3.5 Sonnet在代碼任務上明顯超過GPT-4，工程師圈大批人切到Claude，Cursor、Claude Code這些產品起飛，根子就是這一代。

也就是說，Anthropic用Constitutional AI這條路真正追平OpenAI花了大約三年（2021創立到2024年3月Claude 3）。Claude今天那種相對克制、愿意承認"我不知道"的性格，根子就在CAI。

Anthropic的故事說明一件事：RLHF的護城河沒OpenAI想的那么寬，對齊工程可以不靠用戶飛輪。但走通這條路花了兩到三年，期間一直在第二梯隊。

3.2 LLaMA：開源浪潮的引爆點

Meta在2023年2月發了LLaMA-1，參數從7億到650億，覆蓋消費級到工作站級顯卡。本來只對學術研究開放，但權重在發布一周內就被"泄漏"到4chan，整個開源社區瞬間上車。

架構上LLaMA跟GPT、Claude沒本質區別，都是decoder-only Transformer。LLaMA用的幾個優化（SwiGLU激活、RoPE位置編碼、RMSNorm、Llama-2起加GQA）后來被各家普遍采用。真正的不同在訓練配方：參數壓小、數據加多（13B模型喂1萬億token），跟GPT-3那種"參數大、數據相對少"的路線相反。這個配方為什么對、為什么有效，3.5節會解釋。

但LLaMA也有明顯短板：后訓練這一頭Meta一直比OpenAI / Anthropic弱。Meta沒有ChatGPT的億級用戶飛輪，也沒像Anthropic那樣下重注做Constitutional AI。LLaMA放出來"夠用"，但拿來做產品體驗跟Claude / GPT差著一檔。

接下來一年，LLaMA衍生模型像爆米花一樣冒出來：Stanford的Alpaca（用GPT生成的指令數據微調LLaMA-7B）、Berkeley的Vicuna（用ShareGPT對話數據微調）、WizardLM、Lit-LLaMA、Dolly。這些里大多都用ChatGPT或GPT-4的輸出當訓練數據，技術上違反OpenAI的服務條款，但實際很難追查，等于借閉源模型的對齊能力訓出開源模型的對齊版本。

為什么衍生模型偏偏圍著LLaMA轉？因為OpenAI和Anthropic全程閉源。GPT-4、Claude在外人手里只是API接口，權重拿不到、不能微調、不能本地部署，連基本的"看一眼模型里到底學了什么"都不可能。它們的服務條款還明確禁止"用我們的輸出訓練競品模型"。開源社區想做衍生，必須有一個"前沿水平 + 開放權重"的底子。2023年初這種東西不存在，BLOOM、GPT-J、Pythia這些早期開源模型能力都跟GPT-3差一檔。LLaMA是第一個把"前沿"和"開放權重"兩件事同時做到的。底座一就位，整個生態瞬間起來。

"衍生"在開源社區里有兩種含義。Alpaca、Vicuna、WizardLM這些是直接拿LLaMA權重微調的真衍生品。但后來主流的開源模型（Mistral、Qwen、DeepSeek、Yi、智譜GLM）都是從零自己訓的，只是架構家族繼承了LLaMA（decoder-only + RoPE + RMSNorm那套），權重獨立。LLaMA真正的貢獻是證明了"小參數 + 多數據 + 開放權重"這條路走得通，給后來所有開源玩家兜底，不是大家直接復制粘貼它。

2023年7月Meta發LLaMA-2，把許可證改成"商用可用"（每月活躍用戶超7億的公司除外），算是把開源水龍頭徹底打開。2024年4月Llama-3發布，70B版本基準接近GPT-4；2024年7月Llama-3.1的405B開源版直接打到當時GPT-4o水平。

但LLaMA系列的高光時刻就停在了Llama-3.1。2025年4月發的Llama-4口碑很糟，小尺寸（Scout / Maverick）沒明顯超過同期對手，最大尺寸Behemoth干脆沒正式發布。這段時間DeepSeek V3 / R1接管了開源前沿位置，Qwen也持續強勢，LLaMA從開源前沿滑到第二梯隊。這件事跟商用授權無關（Llama-2起就給了商用授權），主要原因是Meta節奏明顯慢了：首席科學家Yann LeCun公開質疑LLM路線、關鍵研究員流失到Anthropic和xAI、Meta內部對"是否要贏這場"本來動力就不強（Meta不靠賣AI賺錢，靠社交廣告）。

Meta這一系列開源的戰略意圖很清楚：讓開源生態足夠強，OpenAI、Anthropic的閉源溢價就被抹掉。這是最純粹的"商品化對手核心產品"打法。模型對Meta來說是基礎設施而非產品，自家不靠賣模型賺錢。但也正因如此，2025年起當其他玩家（DeepSeek、Qwen）能更好完成"商品化"這個任務時，Meta就讓出了位置。

3.3 全球玩家入場：美中歐三方分化

ChatGPT之后兩年，閉源前沿之外的玩家從美中歐三個方向集體入場。全球版圖從OpenAI單極，變成多條路線同時追。

美國這邊，Google反應慢了一拍但沒缺席。2023年2月倉促發了Bard應對ChatGPT，效果一般，被嘲諷過幾個月。2023年12月，Google推出Gemini 1.0替換Bard，2024年2月推出Gemini 1.5，主打百萬級上下文窗口，2024年12月又推出Gemini 2.0。從2024年起，Google在多模態和長上下文這兩塊開始壓住OpenAI。

馬斯克的xAI是后來者。它2023年7月成立，2023年11月推出Grok-1，2024年3月開源Grok-1權重，隨后推出Grok-1.5和Grok-2。到2025年2月，xAI又推出Grok-3，開始正式加入前沿模型競賽。它的特殊之處不在論文路線，而在資源組織：一邊吃X平臺的實時內容和用戶反饋，一邊用極端速度堆GPU集群。xAI走的是"社交平臺入口 + 實時數據 + 大算力"的路線，跟OpenAI和Anthropic不是一個打法。

歐洲方面以Mistral為代表。法國Mistral 2023年5月成立，幾個月內開源Mistral 7B和Mixtral 8x7B。三個創始人來自DeepMind和Meta FAIR，確實熟悉LLaMA那套訓練經驗。Mistral不是LLaMA微調品，權重是自己訓的。它的定位也很清楚：模型要小、快、便宜，能本地部署，也能進歐洲企業的私有化場景。

中國這一輪反應相當迅速。2023年3月百度發文心一言，4月阿里發通義千問，6月智譜發ChatGLM-2，8月字節發豆包，10月Moonshot AI發Kimi，11月零一萬物發Yi。2023年大模型研發層面已經是"百模大戰"，到2024年備案上線、能對公眾提供服務的國產生成式AI大模型接近200個。

早期玩家很多，真正殺出來的是少數幾家。阿里Qwen靠開源和工程完整度進入全球開發者社區。DeepSeek靠V3和R1把成本、MoE、推理能力一起打到海外圈面前。智譜GLM在政企和國產生態里站住位置。月之暗面Kimi押長上下文。字節豆包靠App入口和流量規模做產品化。中國不是2023年才"知道有LLM"，但確實是ChatGPT之后，才以公司戰略和產品形態集體沖上來。

這里還有一個很現實的傳播機制，叫"打榜"。Hugging Face的Open LLM Leaderboard當時是開源模型社區最常看的榜單之一，開發者會拿它判斷一個模型值不值得下載、微調和二次開發。2023年11月，零一萬物的Yi-34B剛發布幾天就沖到Hugging Face榜首，參數只有340億，卻壓過了Llama 2 70B。2023年12月，阿里Qwen-72B又以73.6的平均分登上預訓練模型第一。打榜不能代表真實產品體驗，但它給了海外開發者一個很直觀的信號：中國模型不再只是中文圈自嗨，已經能在全球開源模型的同一張桌子上比成績了。

這些新模型算不算原創？要分層看。架構上，大家基本都住在同一棟房子里：decoder-only Transformer，也就是前面講過的"只用decoder、一路預測下一個詞"。這不是Qwen、DeepSeek、Mistral重新發明的東西，源頭是Transformer和GPT路線。LLaMA的作用，是把這套路線做成了一個高質量、開放、方便后來者研究的樣板。

但這不等于它們是在復制LLaMA。一個模型真正值錢的部分，是訓練出來的參數，也就是所謂權重。Qwen、DeepSeek、GLM、Yi、Mistral、Grok、Gemini大多是自己收數據、自己訓練、自己做后訓練，不是拿LLaMA權重改個名字，也不可能直接復制OpenAI的閉源權重。

它們借鑒的主要是公開路線和工程經驗：怎樣把decoder堆得更深，怎樣讓attention算得更省，怎樣喂更多更干凈的數據，怎樣像OpenAI的RLHF那樣把模型訓得更聽指令，怎樣像Anthropic那樣減少人工標注、更多利用AI反饋。這些東西有的來自公開論文，有的來自LLaMA這種開源模型暴露出來的成功配方，有的來自OpenAI、Anthropic這些閉源公司的論文、產品和方向暗示。

所以更準確的說法是：這些模型在大架構上不原創，在權重和工程實現上是原創。它們不是從零發明一套新架構，也不是簡單復制別人模型，而是在同一個公共技術底座上，各自重新訓練、調參、做產品化。

到2025年，全球大模型格局基本是中美兩極。美國占閉源前沿，OpenAI、Anthropic、Google、xAI各有打法。中國占開源前沿，DeepSeek、Qwen、GLM、Yi等模型把開放權重和低成本路線推到全球開發者面前。歐洲有Mistral，但總體體量不夠。其他地區也有國家隊和本地模型，還沒有穩定進入前沿模型主戰場。

3.4 閉源 vs 開源的二元格局

把這些玩家放在一起看，最重要的變化不是榜單變長了，而是生態分裂了。到2024年底，前沿模型已經不再是一家公司、一條路線、一種商業模式，而是分成兩套完全不同的產業系統。

閉源前沿把模型當云服務賣。GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro、Grok這些模型不開放權重，用戶通過App和API使用，企業按token、席位、調用量付費。它的優勢是體驗穩定、產品整合快、安全和合規有人兜底。它的代價也很明顯：價格由模型公司說了算，數據和工作流要交給平臺，底層能力永遠隔著一層黑箱。

這套生態最適合美國。OpenAI有微軟，Anthropic有Amazon和Google，Google自己有TPU、搜索、Android、Workspace，xAI背后有X和馬斯克的融資能力。閉源模型真正拼的不是單個benchmark，而是算力、資本、云、分發、企業銷售和用戶反饋的總和。美國互聯網巨頭正好把這些東西都攥在手里。

開源前沿走的是另一套邏輯。Llama、DeepSeek、Qwen、Mistral這類模型把權重放出來，開發者可以本地部署、私有化部署、微調，也可以拿來繼續訓練。它的價值不只在"免費"，而在可控。金融、政企、制造、醫療這些行業不一定愿意把數據交給OpenAI，但愿意把一個開放權重模型搬進自己的機房。

中國能在這條線上起來，靠的是幾件事一起發生。阿里、字節、騰訊、百度這種本土大廠能持續投入。中文互聯網數據自成一池，給中國模型一個獨立數據來源。美國對華GPU限制反而逼出DeepSeek那種工程效率，把MoE、FP8、強化學習配方壓到更極致。"AI主權"敘事跟中國"必須自主"的政治邏輯天然契合。百模大戰又逼出了開源競爭，DeepSeek、Qwen直接放權重，迅速在國際社區累積口碑。

歐洲沒起來，原因正好相反。Mistral很強，但歐洲沒有Google、Meta、阿里、騰訊這種千億級本土平臺長期兜底。EU AI Act提高了前沿模型的合規成本。頂級AI研究員長期被美國大廠吸走，本地留人困難。歐洲多語言、多國家，市場分散，也沒有中國那種統一大市場反哺模型。

其他地區情況類似歐洲。日本Sakana AI 2024年漲了一陣，但定位"小而美"不沖前沿。韓國LG、Naver各有模型，沒出圈。印度和中東主要是建數據中心，給美國玩家提供算力和市場。這些地區2025年的角色更接近"模型用戶"而非"模型生產者"。

這就是今天大模型生態的基本形狀：美國把閉源模型做成云和應用，中國把開源模型做成工程和成本優勢，歐洲守住Mistral這個少數前沿入口，其他地區更多是在接入、部署、采購和算力承接。OpenAI的"先發優勢"還在，但"獨家優勢"已經沒了。大語言模型從一家公司的一款產品，變成了全球互聯網產業的新底座。

3.5 Chinchilla 修正了 scaling law

百花齊放發生得這么快，背后有兩個關鍵修正撐著。第一個是Chinchilla。它討論的是一個很樸素的問題：同樣一筆算力預算，到底應該拿去堆參數，還是拿去喂更多訓練文本？

GPT-3出來之后，行業的直覺很簡單：模型越大越聰明。OpenAI 2020年的scaling law也強化了這個判斷。大家開始拼參數，1750億、2800億、萬億參數，數字越喊越大。問題是，參數變大之后，如果訓練文本沒有跟上，模型就像一個腦容量很大但書沒讀夠的人，潛力沒吃滿。

DeepMind 2022年的Chinchilla論文把這個問題重新算了一遍。他們比較了大量"參數規模 × 訓練數據"組合，結論很直接：同樣的算力，不該只顧著把模型做大，也要讓模型讀足夠多的文本。參數和數據要一起漲，甚至很多時候，少堆一點參數、多喂一點數據，效果反而更好。

最有說服力的例子是Chinchilla自己。它只有700億參數，比DeepMind之前的Gopher小很多，但訓練數據多得多。結果這個更小的模型，在一堆評測上反而超過了2800億參數的Gopher，也超過了GPT-3。

這件事改變了開源模型的打法。開源社區很難一上來就訓GPT-3那種1750億參數模型，但可以訓練一個更小的模型，再給它喂足夠多、足夠干凈的數據。LLaMA就是這條路線的標志性成果：參數沒有夸張到天上去，訓練數據卻吃得很足，最后做到"小模型打大模型"。

所以Chinchilla真正修正的是"規模"這個詞的含義。規模不只是參數規模，也包括訓練數據規模。開源模型后來能追得這么快，一個重要原因就是大家終于知道了算力預算該怎么花。

3.6 MoE：大模型怎么變得更便宜

第二個修正是MoE。這個詞全稱叫Mixture of Experts，中文通常翻譯成"混合專家"。名字聽著玄，其實想法很直觀：一個問題來了，不必讓所有人一起上，只要找最相關的幾個專家處理。

放到Transformer里也是這個意思。前面講過，decoder里有attention，負責看上下文。attention后面還有一段網絡，負責把剛看完的信息再加工一下。普通模型每次都會動用同一整套網絡。MoE把這套網絡拆成很多個"專家"，再加一個很小的"調度員"。每個token進來，調度員只挑其中一兩個專家來處理。

這樣做的好處是賬面上模型可以很大，真正干活的部分卻不必每次都全部啟動。比如一個模型總共有幾千億參數，但處理某個token時只激活其中幾十億參數。總容量變大了，推理成本沒有跟著等比例變大。

這個想法很早就有人做過，但長期不好用。難點不在概念，而在工程。調度員如果分配不好，有的專家忙死，有的專家閑著，訓練就會不穩定。模型分布在很多GPU上，專家之間還要互相傳數據，通信成本也會把收益吃掉。所以MoE沉了幾年，看起來像一條漂亮但麻煩的岔路。

到2023年以后，情況變了。訓練框架、GPU通信、低精度訓練都成熟了，MoE終于穩得住、訓得動。Mistral的Mixtral 8×7B是一個重要信號：它有八個專家，每次只激活兩個，效果可以壓過不少更大的稠密模型。DeepSeek V3把這條路推得更遠，總參數做到6710億，但每個token只激活370億左右，成本和效果同時變得很有競爭力。

MoE回答的是另一個關于規模的問題：模型容量能不能變大，但每次使用的成本別跟著一起爆炸？它的答案是可以，只要每次只讓一小部分專家上場。

把Chinchilla和MoE合起來看，邏輯就順了。Chinchilla告訴大家，同樣算力下別盲目堆參數，要讓模型讀夠數據。MoE告訴大家，模型可以有很大的總容量，但每次推理只用一部分。一個讓"小模型也能很強"成為可能，一個讓"大模型也能相對便宜"成為可能。開源社區能在2023到2024年追得這么快，背后很大一部分原因就在這里。

Credit:

https://www.dailydoseofds.com/p/transformer-vs-mixture-of-experts-in-llms/

四、新維度與系統化（2024 至今）

4.1 推理模型：一個全新的 scaling 軸

先說清楚scaling law到底是什么。它不是某條神秘定律，更像一條經驗曲線：模型參數更多、訓練數據更多、訓練算力更多，模型能力通常會跟著提高。GPT-3時代最讓行業興奮的地方就在這里，原來很多能力不是單獨寫規則寫出來的，而是把模型、數據、算力一起放大之后自然冒出來的。

這就是所謂"大力出奇跡"。但它不能無條件一直下去。參數越大，訓練越貴，電力、芯片、數據質量都會變成瓶頸。更麻煩的是邊際收益會下降：同樣多花一倍錢，早期可能帶來巨大躍遷，后面只換來一點點提升。Chinchilla已經提醒過一次，光堆參數不夠，數據也要跟上。到2024年，大家開始意識到，預訓練這條路還會繼續，但不再是唯一的放大方向。

新的方向叫"推理時算力"（test-time compute）。以前模型回答問題，基本是看到問題就往下生成。推理模型會先花更多時間在內部推演，試幾條路，檢查哪里錯了，再給出最終答案。簡單說，過去主要是在訓練時多花算力，把模型訓得更強；現在是在回答時也多花算力，讓模型多想一會兒。

OpenAI 2024年9月發布o1 preview，是這條路線第一次大規模進入公眾視野。它的核心說法很直白：模型可以在回答前多花時間思考，數學、編程、科學題會明顯變好。背后的訓練方式也變了，尤其適合數學和代碼這種有標準答案的任務。數學題能驗算，代碼能跑測試，模型做對了就獎勵，做錯了就懲罰，這比讓人類主觀判斷"哪個回答更好"干凈得多。

這不是OpenAI憑空發明了"思考"。chain of thought、讓模型一步步推理、用強化學習訓練模型解題，這些想法之前都存在。OpenAI的貢獻，是把它做成了一個前沿產品，并且證明"回答時多花算力"本身也能成為新的scaling軸。隨后這個方向很快被整個行業追上：Google在2024年12月放出Gemini 2.0 Flash Thinking，DeepSeek在2025年1月發布R1，Anthropic在2025年2月發布Claude 3.7 Sonnet的extended thinking，xAI的Grok-3也加入了Think和Big Brain這類推理模式。

這里要把幾種算力分清楚。預訓練最重，通常跑在大規模NVIDIA A100/H100/H200/B200 GPU集群上，Google會大量用自家的TPU。它要連續吃海量文本，時間長、規模大、通信要求高。后訓練輕一些，但還是跑在同類GPU或TPU上，包括指令微調、RLHF、偏好訓練這些步驟。推理模型的訓練更特殊，它不只要訓練，還要讓模型大量試題、做題、驗證答案，所以也會消耗不少訓練和采樣算力。

平時我們聊天、API調用、讓模型寫代碼，這叫推理或服務。它也跑在GPU、TPU或專門的推理加速芯片上，但不一定用最頂級的訓練芯片。大模型、高并發、推理模式仍然會吃H100、H200這類強卡。普通模型、低成本服務、本地部署，則常常用更便宜、更省電、專門為推理優化的芯片。目標從"訓練一個新模型"變成"把已經訓練好的模型跑得快、便宜、穩定"。普通聊天消耗的是一次生成的token。推理模式更貴，因為模型在最終回答前還會生成大量內部思考token，占用芯片更久。你看到的是一句答案，機器背后可能已經跑過一大段推演。

所以，推理模型真正改變的是算力花錢的位置。過去主要把錢花在訓練階段，訓好之后盡量便宜地服務用戶。現在多了一種買法：每次遇到難題，就臨時多買一點思考時間。大力出奇跡沒有消失，只是從"訓練時大力"擴展到了"回答時也大力"。

4.2 Coding：一條支線如何融進主線

（參考我寫的另外一篇文章《兩萬字科普：AI為什么會編程——原理、歷史與未來》）

2025年初，Andrej Karpathy提出了一個很快傳開的詞，叫Vibe Coding。意思大概是：你不再一行行手寫代碼，而是用自然語言把意圖說出來，讓AI生成代碼，再通過運行、報錯、繼續提示來迭代。這個詞有點玩笑意味，但它抓住了一個真實變化：程序員和代碼之間，多了一層會寫代碼的模型。

代碼對LLM來講是一種特殊的文本，因為它有明確的對錯。能不能編譯過、能不能跑、單元測試過不過，全是機器自動可判。給模型一道編程題，它寫一份代碼，跑一下，對了就獎勵，錯了就懲罰。這個反饋比"這段回答是不是更好"清楚得多，所以代碼自然變成了推理范式的最佳試驗場。

過去兩年，AI coding能力進入暴漲期。SWE-bench這種"真實開源項目修bug"的榜單上，前沿模型的正確率從2023年的個位數百分比，走到2025年的60%到70%區間。Cursor、GitHub Copilot、Claude Code這些工具底下吃的都是同一套主線：模型更會讀代碼庫，更會定位bug，更會調用測試，也更會把錯誤反饋重新寫進下一輪修改。

這正在改變程序員生態。最淺的一層，是補全代碼、生成樣板、解釋報錯，初級工作被自動化掉一大塊。再往深一層，AI開始進入代碼審查、重構、測試生成、依賴升級、文檔維護這些日常工程流程。更深的一層，是非程序員也能做出小工具和原型，產品經理、設計師、運營人員都可以用提示詞把想法變成一個能跑的版本。

但這不等于程序員不重要了。變化更像是分工重排：寫語法的價值下降，定義問題、拆任務、看架構、控質量、補測試、管安全的價值上升。Vibe Coding很適合原型和小工具，但到了生產系統，代碼質量、權限、數據、監控、回滾、團隊協作還是繞不過去。AI把"寫代碼"的門檻壓低了，也把"負責一套軟件系統"的要求抬高了。

所以coding不是LLM的一條獨立支線。它和數學、邏輯、推理是同一棵樹，只是它最早把這棵樹種進了真實工作流。AI Coding對程序員生態的影響還在進行中，今天看到的只是第一波。

4.3 RAG：模型開始接外部知識庫

RAG不算2025年的最新熱點，源頭是2020年Facebook AI那篇Retrieval-Augmented Generation論文。真正變成工程標配，是ChatGPT火了之后，企業開始把大模型接進自己的文檔、知識庫和數據庫。

RAG的思路很簡單：先檢索，再生成。用戶問一個問題，系統先去外部資料里找相關片段，比如公司制度、產品文檔、客服記錄、合同條款。然后把這些片段塞進模型上下文，讓模型基于材料回答。

這解決的是LLM最要命的幾個現實問題。模型訓練完之后，知識就固定在參數里，沒法知道公司昨天剛更新的政策，也不知道你內部Wiki里的內容。它還會編造，回答完也說不清依據來自哪里。RAG把外部材料拉進來，至少讓回答有出處、有上下文，也更容易更新。

所以2023到2024年，很多企業AI應用先從RAG知識庫問答做起，再往Agent走。客服機器人查產品手冊，法務助手查合同模板，銷售助手查客戶資料，員工問公司制度，背后常常都是同一套結構：文檔切塊，向量化，檢索，塞給模型，再生成回答。

RAG的價值也有邊界。檢索錯了，模型就會基于錯材料回答。權限沒做好，內部資料可能被不該看到的人問出來。文檔太舊，答案也會舊。很多公司后來發現，RAG不是把文檔丟進向量庫就完事，它需要數據治理、權限、版本管理、評測和人工維護。

但RAG的歷史位置很重要。它讓模型第一次大規模接上企業外部知識。后面的tool calling、computer use、Agent，都是在這個方向上繼續往前走：RAG讓模型會查資料，工具調用讓模型會辦事，Agent再把查資料和辦事串成一個任務流程。

4.4 從prompt到harness：模型外面的工程殼

早期大家講prompt engineering，重點是怎么把一句話問清楚。比如給模型設角色、給格式、給例子、讓它一步步想。這一套有用，但它解決的是"怎么跟模型說話"的問題。

到了企業場景，只會寫prompt很快不夠。模型每次回答前，到底該看哪些材料？用戶上一輪說了什么？公司制度該不該塞進去？RAG檢索出來的十段材料，哪三段最該進上下文？工具返回的結果怎么壓縮？這些問題合在一起，就是后來大家說的context engineering。

Context engineering的核心，在于把正確的信息，在正確時間塞給模型。一個客服Agent回答退款問題，可能要同時看到用戶問題、訂單狀態、退貨政策、歷史工單、當前權限、禁止承諾的規則。少一塊，它會答錯；多一堆無關材料，它也會被干擾。

再往前一步，就是tool calling。2023年6月，OpenAI在API里加入function calling，意思是開發者可以把外部函數描述給模型。模型不再只能生成一段自然語言，而是可以輸出一段結構化參數，告訴系統："現在該查訂單""現在該調退款接口""現在該發一封郵件"。

這件事把LLM從聊天框里拉了出來。過去模型的輸出就是文字，文字給人看。tool calling之后，模型的輸出可以變成軟件系統的輸入，直接觸發數據庫查詢、API調用、代碼執行和業務流程。

但每接一個工具都手寫一套接口，工程上會很亂。Anthropic在2024年11月開源MCP（Model Context Protocol），想解決的就是這個問題。MCP可以理解成AI應用和外部系統之間的一套通用插頭：文檔庫、GitHub、數據庫、Slack、瀏覽器、內部系統，都按同一套協議把資源和工具暴露出來，模型客戶端按同一套方式接入。

MCP不會讓模型本身突然更聰明。它真正改變的是連接成本。過去每個Agent都要為每個系統寫定制膠水代碼；有了統一協議，工具、數據源和模型客戶端可以分開演進。Claude Code、Cursor、企業內部Agent平臺喜歡這套東西，原因就在這里。

這就到了harness engineering。Harness這個詞直譯是"馬具"或"安全帶"，放在LLM里，可以理解成套在模型外面的一整圈工程殼。它包括上下文組裝、工具列表、權限控制、模型路由、日志、評測、重試、人工審批、失敗回滾。

真正上線的AI系統，靠的往往不是一個裸模型。裸模型只是中間那顆發動機。外面這層harness決定它看什么、能做什么、做到哪一步必須停下來問人、出錯之后怎么恢復。Agent能不能進生產，很多時候就卡在這層。

4.5 長上下文和記憶：模型開始帶著歷史工作

RAG解決的是外部知識問題，長上下文解決的是另一件事：模型一次能讀多少東西。所謂context window，就是模型在一次請求里能看到的token上限。窗口越大，它一次能讀的文檔、代碼、聊天記錄、視頻轉錄就越多。

早期GPT模型的上下文窗口只有幾千token，一篇長論文、一份合同、一個稍微復雜的代碼庫，很快就塞不進去。用戶只好把材料切碎，一段段問。模型也容易前面剛讀過，后面就忘了。

2024年，長上下文變成一條明確賽道。Google在Gemini 1.5 Pro里把上下文窗口推到100萬token，官方舉的例子包括長文檔、長音頻、視頻和代碼庫。Claude、GPT、Qwen、Kimi也都在往長上下文走。Kimi在中文用戶里出圈，很大一部分原因就是"能讀很長的文件"這件事特別好理解。

長上下文改變了很多產品體驗。以前讀年報、讀論文、讀合同、讀代碼庫，經常要先做切分和檢索。現在很多材料可以直接整包塞進去，讓模型在同一輪里看完。這對法律、研究、咨詢、代碼理解都很有用。

但長上下文不會替代RAG。窗口越長，推理成本和延遲越高，模型也未必真的能平均關注每個細節。企業知識庫有上萬份文檔時，全部塞進上下文也不現實。更常見的做法是兩者配合：RAG先把相關材料找出來，長上下文負責一次讀進更多片段、更長對話和更完整任務狀態。

記憶又是第三件事。長上下文解決"這一輪能讀多少"，memory解決"跨會話能不能記住"。2024年OpenAI開始給ChatGPT做memory，讓它記住用戶偏好、寫作格式、工作背景。到2025年，ChatGPT的memory進一步擴展，可以參考過去更多聊天歷史。

這對個人助理和Agent很關鍵。一個長期幫你寫文章的模型，如果記得你不喜歡什么句式、常寫哪些主題、引用格式怎么放，下一次就不用從零交代。一個企業Agent如果記得項目背景、客戶偏好、歷史決策，也更像一個持續工作的同事，不再像每次都失憶的問答框。

memory也帶來新問題。它可能記錯，可能記住不該記的敏感信息，也可能讓用戶不知道模型為什么突然"懂"自己。企業里還要處理權限、合規、數據留存和刪除。記憶越強，治理要求越高。

把RAG、長上下文和memory放在一起看，LLM正在補三種"記憶能力"。RAG讓模型查外部資料，長上下文讓模型一次讀更多現場材料，memory讓模型跨任務記住長期背景。Agent要穩定工作，離不開這三層。

五、最新進展：從模型競賽到應用競賽

到這里，故事的重心開始換地方。

前面幾章講的，主要是模型怎么變強。架構、預訓練、后訓練、開源、MoE、推理時算力，所有努力都圍著"模型本身"轉。2025年之后，另一個問題變得更急：模型已經夠強了，它到底能替人干什么？

這就是新一輪競爭的起點。模型公司不再滿足于只賣API，SaaS公司也不再滿足于只加一個AI按鈕。大家都在往同一個方向擠：把模型接進真實工作流，讓它能調用工具、讀寫數據、執行動作、交付結果。

5.1 Agent的產品化：套殼、SaaS和基礎模型公司下場

先把"套殼"說清楚。這個詞比Agent更寬，指的是一類很薄的AI應用：底層直接調用OpenAI、Anthropic、Gemini這類模型API，外面包一層界面、提示詞模板、賬號系統和收費頁。早期很多AI創業公司做的就是這個，換個垂直場景，寫幾組prompt，就說自己是AI寫作、AI客服、AI銷售、AI律師。

這種套殼更接近AI-powered SaaS，未必是Agent。它本質上還是傳統軟件，只是在某個環節調用模型生成一段話、總結一份材料、回答一個問題。套殼也可以偽裝成Agent：給模型一個循環，讓它自己喊"我在計劃、我在執行"，但沒有穩定工具、沒有權限系統、沒有任務狀態、沒有評測和回滾，實際只能演示，進不了生產。

真正的Agent要多幾層東西。它要能理解目標，拆出步驟，選擇工具，調用API，讀取結果，發現錯誤，再決定下一步。它還要接權限、日志、審批、記憶、數據源和評測系統。模型只是腦子，Agent產品還需要手、腳、眼睛、記錄本和剎車。

2023年，這條路已經冒頭。OpenAI在3月推出ChatGPT plugins，讓ChatGPT可以接瀏覽器、代碼解釋器和第三方服務。6月，function calling進入API，開發者可以把外部函數描述給模型，讓模型判斷什么時候調用。開源社區那邊，LangChain把prompt、模型調用、向量數據庫、工具、外部API、記憶、鏈式流程包裝成開發者熟悉的組件。AutoGPT也在2023年出圈，它不穩定、容易跑偏、燒token，但把"模型循環執行任務"這件事推到公眾面前。

2025年之后，變化更明顯。過去很多創業公司在應用層套殼，現在基礎模型公司直接下場做應用層。OpenAI先做Operator，讓模型用自己的瀏覽器點網頁，后來又把Operator、Deep Research、代碼執行整合進ChatGPT agent。Anthropic把Claude Code、computer use、MCP一路往工具和開發者工作流里推。Google也在把Gemini往Workspace、Cloud和企業Agent平臺里塞。

這里的壓力很現實。基礎模型只賣token，容易變成云服務里的算力商品。應用層才離用戶預算更近，也離企業流程更近。模型公司自己做Agent，本質上是在往SaaS和企業軟件的地盤走。

Agent會不會取代SaaS？短期看，更像是重寫SaaS的入口。CRM、ERP、財務、人事系統仍然保存數據、權限、審計、合規和歷史記錄，這些后臺不會憑空消失。但用戶不一定還需要一層層點頁面。未來很多操作會從"打開系統、找菜單、填表單"，變成"說目標、確認計劃、批準執行"。被替代最快的，是那些只靠薄界面和簡單流程收費的SaaS套殼。真正有數據、有流程、有客戶關系的SaaS，會被迫Agent化。

5.2 Coding Agent和程序員生態的重塑

Coding Agent最先跑通，原因很直接。代碼場景天然適合Agent。它有文件系統，有終端，有測試，有編譯器，有Git，有issue，有CI。模型改完代碼之后，系統可以立刻告訴它對了還是錯了。

這和很多辦公場景不一樣。寫一封銷售郵件好不好，往往要等客戶反應。做一份戰略報告好不好，判斷很主觀。代碼更干脆：能不能編譯，測試過不過，bug有沒有復現，PR能不能合進去。這給Agent提供了天然反饋回路。

所以AI coding工具很快從"補全一行代碼"走到"處理一個任務"。Cursor、GitHub Copilot、Claude Code這類工具，已經開始讀整個代碼庫、定位相關文件、修改多處代碼、運行測試、根據報錯繼續修。程序員給的輸入，也從"幫我寫一個函數"，變成"這個issue幫我修一下"。

這就是Agent產品化最清楚的樣子。模型負責理解代碼和提出修改，軟件工程系統負責文件、測試、版本控制和權限。人還在回路里，但角色變了：少寫一些重復代碼，多做任務拆分、架構判斷、代碼審查和風險控制。

那科技公司會不會大規模裁員？答案不能簡單歸因給AI。2024到2026年的科技裁員，本來就有疫情后過度招聘回調、利率上升、資本市場要求利潤、業務增長放慢這些因素。AI加進來之后，管理層多了一個更順手的理由：同樣的產品和工程任務，能不能用更少的人完成？

對程序員來說，沖擊最先落在入門層。過去很多初級崗位的訓練路徑，是改小bug、寫腳手架、補測試、搬數據、寫簡單接口。現在這些任務正好是AI最擅長的部分。Stanford在2025年的研究就指出，受AI影響最大的職業里，年輕、低經驗員工的就業機會下降更明顯，軟件開發和客服都在名單上。

但這不等于程序員這個職業要消失。美國勞工統計局對2024到2034年的預測軟件開發、測試和QA崗位仍然增長15%，遠高于整體職業平均水平。這個數字說明一件事：軟件需求還在漲，只是公司需要的人變了。

未來的程序員生態會更分層。只會按需求寫代碼的人，會被Coding Agent壓得很厲害。能把業務問題拆成工程任務、能判斷架構取舍、能設計測試、能審AI寫出的代碼、能處理安全和線上事故的人，反而會更值錢。公司少招一些"代碼勞動力"，多要一些能帶著AI交付系統的人。

入口會變窄，這是最現實的變化。過去初級程序員靠寫重復代碼積累經驗，現在重復代碼被AI吃掉，新人少了練手場。公司如果只保留高級工程師和AI工具，短期效率可能上去，長期人才梯隊會斷。這個矛盾還沒解決，也是整個行業接下來幾年要付學費的地方。

Coding Agent也解釋了為什么未來Agent不會一下子橫掃所有行業。它要有工具，要有反饋，要有邊界。代碼場景這些條件最齊，所以先成熟。其他行業要復制這件事，先得把流程、數據、權限和評測補起來。

5.3 多模態和computer use：模型開始操作世界的界面

這篇文章主要講LLM，因為文字是大語言模型的主戰場。但另一條線也在快速推進：圖像、音頻、視頻這些生成式AI，已經從玩具走到產品。Midjourney、DALL-E、Stable Diffusion把圖像生成推到大眾面前。Sora把文本生成視頻這件事推到公眾視野。Google的Veo 3又把視頻和音頻一起生成，連對白、環境聲、音樂都放進同一個生成過程里。

這讓我想起90年代的"多媒體"。那個詞今天聽起來有點老，但當年很重要。電腦不再只處理文字和表格，而是開始同時處理圖片、聲音、動畫、視頻。CD-ROM、網頁、游戲、教育軟件，全都在講多媒體。

今天的AI也在走類似方向，只是角色反過來了。90年代的多媒體，是人通過電腦消費更多類型的信息。現在的多模態AI，是模型自己能讀圖、聽聲音、看視頻、理解屏幕，還能反過來生成圖像、語音和視頻。它的工作范圍正在從文本回答，擴展到人類真實使用的軟件和媒體界面。

Computer use就是這個趨勢的另一半。很多現實軟件沒有好用API，只有網頁、按鈕、輸入框、彈窗和桌面應用。過去模型想調用工具，最好有結構化接口。computer use讓模型看屏幕、移動鼠標、敲鍵盤，像人一樣操作舊軟件。OpenAI的Operator、ChatGPT agent，Anthropic的computer use和Claude Code里的桌面操作，都在往這個方向走。

把多模態和computer use合起來看，未來Agent會有更完整的輸入輸出。它能讀合同PDF，看儀表盤截圖，聽會議錄音，生成PPT，操作瀏覽器，甚至剪一段視頻。LLM仍然是中樞，但它周圍會接上視覺、語音、視頻和操作系統界面。模型開始從"會說話"走向"會看、會聽、會點、會做"。

5.4 公司AI提效：從賣token到賣任務

公司為什么突然都在談AI提效？原因不復雜。2023年，企業先把ChatGPT當個人效率工具，寫郵件、寫文檔、總結會議、查資料。2024年，很多公司開始把它接進客服、銷售、研發、法務和內部知識庫。到2025年，Agent和工作流自動化成了流行詞，因為模型終于開始能連續處理多步任務。

McKinsey在2025年的全球AI調查里說，62%的受訪組織已經在實驗AI agents，但接近三分之二還沒有把AI規模化推到全企業。這個數字很真實：大家都在試，但真正改流程很難。Gartner的判斷更激進，它預計到2026年底，40%的企業應用會集成面向具體任務的AI agents，而2025年這個比例還不到5%。

公司提效主要有兩條路。淺的一條是個人效率提升，員工用AI寫、查、總結、翻譯、改代碼。深的一條是決策和流程自動化：客服工單自動分流，銷售線索自動評分，財務異常自動提醒，供應鏈風險自動掃描，研發任務自動拆分。前者提升個人速度，后者改公司運轉方式。

真正值錢的是后者。一個客服少寫幾句回復，價值有限。一個客服系統能自動識別問題、查知識庫、調用訂單系統、生成解決方案、判斷是否升級人工，價值就不一樣了。AI從"幫某個人更快完成一步"走到"讓一整條流程少掉三步"，公司才會認真付錢。

商業模式也會跟著變。互聯網時代賣流量和廣告，云計算時代賣算力，基礎模型公司現在主要賣訂閱、API和token。SaaS公司賣席位、模塊和企業合同。到了Agent和工作流自動化階段，錢會流向更靠近業務結果的地方。

這也是為什么咨詢公司、系統集成商和企業軟件公司重新變重要。買一個模型API很容易，真正難的是把公司數據接進去，把權限理清楚，把流程重寫，把安全和審計做好，把員工培訓起來。AI提效經常是一場流程改造，單純買工具解決不了。麥肯錫、埃森哲、德勤這類公司，以及各類垂直行業服務商，都會在這層收錢。

未來還可能出現更多結果計費。收費單位會從token，轉向解決一個工單、生成一個合格銷售線索、完成一次對賬、修好一個bug、交付一份研究報告。這個模式還沒成熟，但方向很清楚：企業最終不想買"模型調用次數"，企業想買更低成本、更快速度和更少錯誤。

這里也要潑一點冷水。Gartner在2025年提醒過，很多Agent項目會因為成本高、價值不清、風險控制差而停掉。公司的AI提效不會靠喊口號發生，它需要數據、流程、權限、評測和組織改造一起到位。真正能留下來的Agent，最后要看它能不能在真實流程里穩定省錢，演示做得酷沒有用。

結語

回頭看這八年，大語言模型的發展可以壓成一句話：一個為機器翻譯設計的架構，被一路放大、馴服、商品化，最后變成了軟件世界的新接口。

第一步是架構。Transformer本來只是解決RNN在翻譯里的兩個老問題：串行太慢，長距離關系容易丟。Attention把所有詞之間的關系一次攤開，讓GPU可以并行處理，也讓模型更容易抓住長句里的依賴關系。2017年那篇論文真正打開的，后來成了整個LLM時代的計算底座。

第二步是路線分叉。Google拿encoder做BERT，主攻理解、分類、檢索、問答。OpenAI拿decoder做GPT，押注生成和預測下一個詞。當時看，BERT更像正統NLP，GPT更像文字接龍。GPT-3之后，這個判斷反過來了：只要模型足夠大，生成能力會吃掉很多原本被認為需要專門設計的任務。

第三步是規模。GPT-3證明了一個反直覺事實：很多能力不需要逐項手寫規則，也不需要每個任務單獨訓練，規模上去之后，模型會出現in-context learning這樣的新行為。但規模不是一句“大力出奇跡”就完事。Megatron、GPipe、ZeRO、FlashAttention、KV cache、量化這些工程積累，才讓大模型真的訓得動、跑得起、用得上。

第四步是對齊。GPT-3很強，但不好用。InstructGPT和ChatGPT解決的是另一個問題：模型怎么聽人話、按指令做事、少胡來。RLHF把人類偏好塞進訓練流程，Anthropic的Constitutional AI又證明，對齊不一定只能靠海量用戶反饋。預訓練給模型知識，后訓練把模型調成一個可以被普通人使用的產品。

第五步是生態。ChatGPT爆紅之后，閉源和開源很快分成兩套系統。OpenAI、Anthropic、Google、xAI把模型做成云服務、App和API，拼的是算力、產品、分發和企業銷售。Meta、Mistral、DeepSeek、Qwen這些開源或開放權重路線，把模型變成開發者和企業可以本地部署、微調、私有化的基礎設施。今天的大模型競爭，早就超出了benchmark分數，開始比一整套產業組織能力。

第六步是效率。Chinchilla提醒大家，參數不是唯一尺度，數據也要跟上。MoE提醒大家，模型可以有很大總容量，但每次只激活一部分。DeepSeek、Qwen、Mistral這些玩家能快速追上來，靠的不只是“追隨前沿”，也靠更會算賬：同樣的算力預算，怎么訓得更久、喂得更準、跑得更便宜。

第七步是新scaling軸。o1之后，推理時算力變成新的變量。過去主要在訓練階段砸錢，訓出一個盡量強的模型；現在遇到數學、代碼、科學題，還可以在回答階段多花算力，讓模型多試幾條路、多檢查幾次。DeepSeek R1、Gemini Thinking、Claude extended thinking，都在說明這條路已經不屬于一家公司的獨門技巧。

第八步是系統化。RAG、長上下文、memory、tool calling、MCP、harness engineering，這些詞看起來雜，其實都在回答同一個問題：模型怎么進入真實工作流。RAG讓模型查企業知識庫，長上下文讓它一次讀更多材料，memory讓它跨任務記住背景，tool calling讓它調用系統，harness讓它在權限、日志、評測和回滾里運行。模型開始從“會回答問題”變成“能嵌進軟件系統里做事”。

所以這篇文章最后落到Agent，原因很簡單：它把前面所有線索都收在了一起。沒有強模型，Agent只會胡說。沒有RAG和長上下文，它不知道該看什么。沒有工具調用，它只能寫建議，不能執行動作。沒有harness，它進不了生產環境。沒有業務流程改造，它也省不下真錢。

這也是為什么2025年之后，競爭重心開始從模型競賽移到應用競賽。基礎模型公司往應用層走，SaaS公司往Agent化走，咨詢公司和系統集成商重新變重要。企業最終不會為“更會聊天”長期付高價，企業愿意為更低成本、更快流程、更少錯誤付錢。

模型能力當然還會繼續漲，但邊際收益正在變小。更大的空間，可能在系統層：怎樣把一個模型、幾個小模型、外部工具、知識庫、業務系統和人類審批組合成穩定流程。過去十年，AI工程的主角是“訓練一個更強的模型”。接下來幾年，主角會越來越像“圍繞模型搭一套能交付結果的系統”。

這篇文章主要講LLM，因為文字是Transformer這條線最清楚的主戰場。圖像和視頻還有另一條技術史，擴散模型撐起了Midjourney、Stable Diffusion、DALL-E、Sora這一路；音樂和語音也有自己的路線。它們正在和LLM匯合到多模態AI里，但如果展開講，就已經是另一篇文章。

今天的大語言模型還遠沒有定型。它像早期互聯網，也像早期云計算：底層技術還在變，商業模式還在試，泡沫和真需求混在一起。但有一點已經很清楚，LLM不會只是一類聊天產品。它更像一層新的軟件抽象，往下接數據、工具和算力，往上接人、流程和公司決策。

這就是過去八年真正發生的事：語言模型從一個會續寫文本的神經網絡，變成了一個可以被調用、被約束、被組合、被部署的通用計算零件。它還不穩定，也不便宜，更談不上萬能。但它已經足夠強，強到整個軟件工業都必須圍著它重新排一遍位置。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.