无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

一篇文章講清大語言模型發展史

0
分享至

2022年11月30日,OpenAI發布了ChatGPT,轟動一時。

到今天,只不過三年多。但很多人的體感里,AI好像已經換了好幾個世代。

這幾年里,大語言模型已經從技術圈里的新鮮東西,變成了幾乎每天都在刷屏的基礎技術。ChatGPT、Claude、Gemini、DeepSeek、Qwen、Kimi,各種模型名字層出不窮;預訓練、微調、RLHF、Scaling Law、MoE、RAG、Agent、Reasoning Model,各種技術詞也越堆越高。很多人關心AI,卻被這些名詞追著跑,越看越亂。

這篇文章想做一件事:把Transformer架構出現以來,大語言模型技術發展的主線講清楚。

本文不會覆蓋每一個模型、每一篇論文、每一個創業公司。那樣寫出來只會變成技術名詞年表。真正重要的是那幾次關鍵轉向:語言模型怎么從“預測下一個詞”走到通用智能入口,為什么規模會變成核心變量,ChatGPT到底改變了什么,開源模型為什么突然追上來,推理模型又意味著什么。

本文伴隨者你,把這幾年大語言模型的發展從一堆散亂名詞,整理成一條清楚的主線。

一、架構的勝利(2017–2020)

1.1 一個為翻譯而生的架構

Google翻譯不是從神經網絡開始的。它2006年上線,最早做的是大規模短語統計機器翻譯:先從海量雙語文本里統計詞組和詞組之間的對應關系,再把句子切成一段段短語拼起來。這個方法撐了Google翻譯差不多十年。

到2016年,Google開始把核心系統切到基于神經網絡的GNMT(Google Neural Machine Translation)。GNMT用的是RNN和它的升級版LSTM,不再只是一段段短語匹配,而是把整句作為序列讀進去。這套辦法是從左到右一個詞一個詞處理,比如,"我喜歡北京的烤鴨"要先讀"我",再合"喜歡",再合"北京",最后用末尾的隱藏狀態生成翻譯。兩個工程硬傷顯而易見:處理是串行的,GPU的并行能力用不起來;長句子里前面的詞到了后面會被稀釋,距離一長信號就糊了。



Long short-term memory架構

2017年6月,Google翻譯組的八個人發了一篇叫《Attention Is All You Need》的論文。標題里的"All You Need"是挑釁:他們提議把RNN這套循環結構整個扔掉,只留下注意力機制。這套新架構他們叫Transformer。

Transformer是一個堆疊式神經網絡。所謂堆疊,就是把同樣結構的"層"重復放很多次,讓每一層都在上一層的結果上繼續加工。原論文里為了做機器翻譯,encoder和decoder各堆了6層。每層只有兩個核心模塊:self-attention(自注意力)和feed-forward(前饋網絡)。輸入塞一段文字,輸出端就拿到每個詞的"上下文向量",也就是這個詞在這句話里的意思被周圍所有詞調整之后的表征。

Figure 1: From ‘Attention Is All You Need’ by Vaswani et al.



Attention是這套架構里最關鍵的一步。還是拿"我喜歡北京的烤鴨"舉例。"烤鴨"兩個字單獨看就是"烤的鴨子",但這句話里它特指"北京烤鴨"。模型怎么把"北京"那層意思塞進"烤鴨"里?辦法是讓"烤鴨"環顧一圈,給每個詞打分:"北京"最高,"喜歡"中等,"我"和"的"幾乎為零。再按這套分數把每個詞的信息按比例吸收過來。"烤鴨"原本那個泛指"烤的鴨子"的向量,就被改寫成"這句話里那只我喜歡的北京烤鴨",它從此知道自己在這一句里的精確含義。句子里6個詞同時各做一遍,一輪跑完,每個詞都從通用含義升級成了"在這句話里的具體含義"。這就是attention這一步的產出。



跟RNN比一下就能看出狠在哪里。RNN處理同一句話是這樣:先讀"我"記一筆,讀"喜歡"合并進來,讀"北京"再合并,一路滾到"烤鴨",最后只剩一筆總結。這里有兩個毛病:必須一個詞一個詞串著讀,前一步沒算完后一步動不了,GPU幾千個核心閑著干瞪眼;等滾到"烤鴨"時,"我"已經被壓縮了5次,信號早就糊了,想回頭看清楚已經看不到。Attention把兩件事一次解掉,每個詞一步直達每個詞,沒有壓縮也沒有先后,6個詞的計算打包成一次大矩陣乘法塞給GPU,并行完成。這就是 "Attention Is All You Need" 那句標題的真正意思:扔掉RNN的循環結構,問題反而都解決了。

原始Transformer分兩半。Encoder(編碼器)負責"讀原文":用6層self-attention把英文每個詞的上下文榨出來,輸出一組"原文向量"。Decoder(解碼器)負責"寫譯文":每生成一個詞做兩件事,一是看自己已經生成的前面那些詞(self-attention加遮罩,不讓偷看未來),二是看encoder輸出的原文向量(cross-attention,把譯文跟原文對齊)。讀 + 寫連起來就是機器翻譯的天然分工。

論文發出來當年,Transformer在WMT標準翻譯測試上一下把英德、英法的BLEU分推到新高。BLEU是機器翻譯里常用的自動評分,粗略說,就是看機器譯文和人工參考譯文有多接近。它的訓練成本也只用之前SOTA模型的幾分之一。SOTA是state of the art的縮寫,意思是當時公開結果里最強的模型。學術界很快意識到這套架構的潛力,2018年起就有人開始把它從翻譯里搬出來,試著改造給別的任務用。

1.2 兩半分家,兩個學派

Transformer原本是為翻譯設計的,天然分成兩半:encoder負責讀原文,decoder負責寫譯文。2018年之后,大家很快發現,這兩半其實可以拆開,各自發展成一條路線。



Google先拿走了encoder那一半。原因很直接:當時NLP里最值錢的問題不是"寫一段話",而是"讀懂一段話"。比如判斷兩句話是不是矛盾,找出一句話里的公司名、人名、地名,或者在一段材料里回答問題。這類任務不需要模型從左到右生成新文本,更需要模型把整句話、甚至整段話看明白。

這就是BERT的出發點。BERT全稱是Bidirectional Encoder Representations from Transformers,直譯過來就是"來自Transformer的雙向編碼器表示"。重點有兩個詞:encoder和bidirectional。encoder說明它只用Transformer左邊那半套讀文本的結構;bidirectional說明它讀一個詞時,可以同時看左邊和右邊的上下文。

BERT的訓練方式像完形填空。給一段話,隨機遮住一些詞,讓模型猜被遮住的是什么。比如"我喜歡北京的[MASK]",模型要從"我、喜歡、北京、的"這些上下文里猜出"烤鴨"這類詞。它還做過另一個訓練任務,叫next sentence prediction,讓模型判斷兩句話是不是自然相鄰。后來的模型不一定保留這個任務,但BERT最早就是靠這兩件事訓練出來的。

所以BERT并不是簡單做一個固定embedding。早期NLP里的word2vec、GloVe更像是給每個詞發一張固定身份證:"蘋果"這個詞無論出現在"吃蘋果"還是"蘋果公司"里,向量大體是同一個。BERT做的是contextual embedding,也就是上下文相關的表示。同一個"蘋果",放在水果句子里和公司句子里,最后出來的向量不一樣。

BERT出來之后,使用方式主要有兩種。第一種是fine-tuning:在BERT后面接一個很小的任務頭,然后把整個模型拿去微調,做分類、問答、命名實體識別、自然語言推理。第二種是feature extraction:把BERT當成一個強大的文本特征提取器,抽出某一層或者幾層的向量,再交給別的模型使用。

OpenAI走了另一條路。他們拿走的是decoder那一半。decoder和encoder最大的區別,是它不能偷看未來。它生成第N+1個詞時,只能看前面已經出現的詞。這正好適合一個極其簡單的訓練目標:給你前N個詞,猜第N+1個詞。

這就是GPT系列的起點。GPT是Generative Pre-trained Transformer的縮寫。Generative表示它是生成式模型,目標是繼續往后寫;Pre-trained表示它先在大量無標注文本上預訓練,再拿去適配具體任務;Transformer表示它用的是Transformer架構。這個名字其實把路線說得很清楚:先用海量文本訓練一個會續寫的Transformer,再看這個續寫能力能不能遷移到各種語言任務上。

OpenAI為什么要反著BERT干?三個理由。一是BERT那條路Google已經占住了,OpenAI當時是小玩家,跟Google同方向硬拼資源拼不過,必須找一條Google沒在做的路。二是生成比理解更難:BERT的完形填空左右兩邊的上下文都給你,相當于做選擇題;GPT只能看左邊猜右邊,是開放題。能把開放題做好,做選擇題是順帶的事。三是BERT不能生成、GPT能;當時大多數人覺得"生成"用處不大,OpenAI賭的是只要模型夠大,"生成"才是通用智能的入口。

這里把"預訓練"是什么也說清楚。預訓練就是用海量沒標注過的文本,讓模型從零開始學語言。"訓練"調的是Transformer里所有矩陣的參數(attention里的W_Q、W_K、W_V,feed-forward里的權重,加起來幾億到幾千億個數),最開始是隨機的,訓完會被調成能完成任務的狀態。GPT的訓練數據是從互聯網扒來的幾千億token文本(Common Crawl、Wikipedia、書、論文),訓練任務只有一個:根據前面的詞預測下一個詞,預測錯了就反向傳播微調那幾千億個參數。整個過程只用decoder那半,encoder被扔掉。

OpenAI在2018年6月發布了GPT-1,論文題目是《Improving Language Understanding by Generative Pre-Training》。GPT-1只有1.17億參數,按今天標準很小,但它提出了一個關鍵思路:先用"預測下一個詞"做通用預訓練,再用少量標注數據做任務微調。2019年2月,OpenAI發布GPT-2,參數漲到15億,訓練數據換成約40GB互聯網文本。GPT-2的重點不再只是做分類任務,而是展示模型可以寫出長段落,甚至在沒有專門訓練的情況下,表現出一點問答、摘要、翻譯的能力。

那GPT-1和GPT-2在benchmark上打得過BERT嗎?打不過。GPT-1比BERT早4個月發布,在少數任務上短暫拿過SOTA,但2018年10月BERT一出來就被全面壓過。2019年GPT-2漲到15億參數,但同期Facebook發的RoBERTa(優化版BERT,只有3.55億參數)反過來在GLUE、SQuAD這些主流榜單上把GPT-2繼續壓著。從參數量看GPT-2大4倍,從分數看反而輸。

GPT-2真正出圈靠的是另外兩件事。一是文本生成質量肉眼可見地強,能寫出連貫的長段落、風格切換自如,能以假亂真。二是OpenAI當時聲稱模型"太危險不能完全開源",分階段放出權重,一時刷屏。但在NLP學術圈眼里,整個2018到2020年,學界主流的判斷仍然偏向BERT那派:理解和生成是兩件事,應該分開設計。BERT負責"讀懂",GPT負責"續寫"。在當時很多人眼里,BERT更像正經NLP,GPT更像好玩的文字接龍。這其實是一個上層的理論判斷:理解要專門學理解,生成要專門學生成。后來GPT-3真正推翻的,就是這個判斷。

1.3 GPT-3 的賭注:先要有望遠鏡

OpenAI內部有一群人想賭一件跟主流認知不同的事:如果模型大到上千億參數,光"猜下一個詞"這一招會不會自己長出新能力?沒錯,這就是俗話說的“大力出奇跡”,這是可能的嗎?

這個賭注的核心信徒是當時OpenAI的首席科學家Ilya Sutskever。他從AlexNet那個年代就堅信深度學習的進步主要靠規模,算法創新次要。這個觀點在OpenAI內部爭議過幾年,CEO Sam Altman和研究負責人Dario Amodei(后來Anthropic的創始人)最終拍板押下去。

技術上給這個賭注提供數學依據的,是Jared Kaplan等人2020年1月發的《Scaling Laws for Neural Language Models》。這篇論文證明模型loss會隨參數、數據、算力按可預測的冪律下降。換句話說,多大算力換多少能力,事前可以算出來。這給了OpenAI押1750億這個具體數字的底氣。

但工程上他們不是一步到位的。GPT-1(1.17億參數,2018年)幾張GPU就夠。GPT-2(15億參數,2019年)開始吃力,但還撐得住。等到2020年要沖到1750億參數,之前那套訓練工具鏈根本頂不住。

先算一筆賬。1750億參數光把權重存下就要約350GB(用16位浮點數算),加上反向傳播要保存的中間結果和優化器狀態,實際需要2到3TB內存。當時NVIDIA最強的訓練卡V100每張才32GB顯存,怎么都裝不下。

有人會問:Google不是有TPU嗎,性能秒殺GPU?但TPU只在Google自己數據中心里跑,外人用不了,OpenAI這種Google對手更不可能碰。OpenAI那時跟微軟綁定,能拿到的就是Azure上的NVIDIA GPU。而且就算給TPU用,單顆也只有16GB高速內存,照樣塞不下1750億參數。所以問題跟單卡多快沒關系,瓶頸在另一頭:一個單卡塞不下的模型,怎么拆開分到幾千張卡上同步訓練、還要算得對?這是個軟件工程問題。

要解決它需要三套工程突破,2018到2019年三家公司各破一關。

第一關是模型放不下一張卡。

一個transformer層里的權重矩陣動輒幾億個數字,單GPU裝不下。NVIDIA 2019年9月發的Megatron-LM給出答案:把單個權重矩陣橫著切成N份,N張GPU各算一塊再匯總。這叫張量并行。打個比方,一張大試卷一個人寫不完,撕成4份讓4個人同時寫。

第二關是層數堆起來還是裝不下。

GPT-3有96層transformer,就算每層都切了,整個疊起來還是太大。Google 2018年底發的GPipe給出答案:不同層放到不同GPU,GPU 1管前12層,GPU 2管13到24層,數據像流水線一樣從第一張卡流到最后一張。這叫流水線并行。

第三關是優化器狀態吃天量內存。

訓大模型用的Adam優化器每個參數還要額外存兩個數字(動量、方差)。1750億參數光優化器狀態就要1.4TB,每張GPU都存一份完整副本再多卡也救不了。微軟2019年發的ZeRO給出答案:優化器狀態、梯度、參數本身全部按GPU數量切開,每張卡只存1/N,需要時臨時通信交換。N張卡的顯存就此合起來變成一個虛擬的大顯存。

三招組合起來叫"3D并行":張量并行切單層(橫著切)、流水線并行切層堆(豎著切)、ZeRO切優化器狀態和數據。三維同時切,1750億參數才真的能塞進一千多張卡的集群里。少任何一個都不行:光張量并行96層疊不下;光流水線單層裝不下;不上ZeRO,光優化器狀態就溢出。



硬件這邊,NVIDIA 2017年發布的V100是當時最強的訓練卡。Microsoft給OpenAI在Azure上專門搭了一臺超級計算機,把約1萬張V100 GPU串在一起,2020年5月19日在Microsoft Build大會上公布,是當時全球前五的超算之一。3D并行的軟件方案加上這臺超算,萬事俱備,只欠東風。

2020年上半年,OpenAI在這臺超算上跑了幾個月,5月28日發表了里程碑論文:GPT-3《Language Models are Few-Shot Learners》。



OpenAI想做的實驗本身是個理論問題:規模夠大會不會涌現新能力?但要回答這個問題,得先把"訓練1750億參數"這件事本身工程化。三家公司各解一道題,加上硬件剛好升級,工程窗口才打開。

1610年伽利略把自制望遠鏡對準夜空,看見木星周圍有四顆衛星在轉。這是人類第一次親眼看到地球之外的天體圍繞別的天體運行,日心說從此有了實證,天文學被改寫。

望遠鏡先造好,原本看不見的天空才看得見。

1.4 范式轉移

GPT-3論文的核心論點一句話講完:模型大到一定程度,新能力會自己冒出來。

它展示的最關鍵能力叫in-context learning(上下文學習)。模型不必為每個任務專門微調,只要在prompt里給兩三個示范,它就能照著做這個任務。給兩三個示范就照做的叫few-shot;什么示范都不給直接做的叫zero-shot。

具體效果有多炸?論文里幾個讓人下巴掉下來的結果:GPT-3在SuperGLUE、TriviaQA這些benchmark上的few-shot分數,跟專門fine-tune過的模型差不多甚至更好;它能寫出像樣的新聞文章,OpenAI做過測試,人類讀者區分真假的識別率只比扔硬幣高一點;它能從自然語言描述生成簡單代碼、做基礎算術、回答一些沒見過的常識題。

這種能力在小模型里完全看不到。GPT-2(15億參數)也能續寫,但給它兩三個示范它學不會照做。GPT-3(1750億參數)燒到那個臨界值,新行為整個浮上來。這是發生了相變,像水燒到100度才沸騰。

但更大的影響在工作方式層面。GPT-3觸發了整個NLP行業從老范式到新范式的整體轉移。

老范式是這樣:2018到2020年,做NLP的標準動作是拿一個預訓練好的模型(多半是BERT),針對你要做的任務,收集一批帶標注的數據(幾千到幾萬條),在這批數據上fine-tune一遍。每個任務都要單獨標數據、單獨微調、單獨部署一個模型。一家公司想做客服分類 + 自動翻譯 + 文檔摘要 + 內容審核,就得養四個不同的模型。NLP圈那幾年大量論文都在卷這件事:怎么fine-tune得更高效、用更少標注數據得到更好效果。研究的最小單位是"任務 + 數據集"。

GPT-3把這個工作流整個掀了。模型不為任何具體任務訓練,只學一件事,預測下一個詞。要它做翻譯就寫prompt:"把下面英文翻成中文:Hello world →";要它做情感分析就寫:"判斷這段評論的情緒是正面還是負面:[評論] →";要它做摘要就寫:"把下面文章總結成三句話:[文章] →"。

轉移落到5個具體維度:



這套從"訓練時綁定任務"到"使用時綁定任務"的轉移,后來被叫做foundation model(基礎模型)范式。Stanford HAI在2021年專門發了一篇《On the Opportunities and Risks of Foundation Models》給這套范式命名。一個名字能立起來,說明業界已經默認這就是新的工作單位。

但學術圈不是立刻全盤接受,反應分了三波。

第一波是懷疑。很多研究者認為GPT-3只是"模式匹配加大數據記憶",不算真理解。它會在長文里說錯事實、做錯算術、自相矛盾,幾個月里出了一堆"GPT-3做不到X"的論文。OpenAI把模型藏在API后面不放權重,也加深了質疑。

第二波很快蓋過第一波。拿到API真用過的人都被它的通用能力震到。AI Dungeon這個游戲直接用GPT-3做后端,玩家發現它能記住幾千字劇情、生成不重樣的對話。2021年6月GitHub Copilot發布,底子是GPT-3的代碼訓練版Codex,程序員第一次體會到"AI寫代碼"是什么感覺。"一個模型解所有任務"從論文圖表變成了能跑的產品。

第三波是前沿實驗室和大廠開始跟進。GPT-3發布后,2021年起,Google、DeepMind、Microsoft/NVIDIA、華為、百度、Meta、智譜等玩家陸續推出百億到千億級語言模型。到2023年ChatGPT爆紅之后,這件事才從前沿實驗室競賽,變成整個行業的集體軍備競賽。BERT那派"理解和生成必須分開"的理論判斷就此被證偽。從GPT-3之后,所有前沿大模型(GPT、Claude、Gemini、LLaMA、DeepSeek、Qwen)都是decoder-only Transformer的后代。

當然,BERT沒有死。它在產業界仍然是分類、檢索、向量embedding這些窄場景的主力。Google搜索后端、文檔分類系統、電商推薦里的語義匹配,今天還在跑BERT派的模型。它們小、快、便宜,專門做一件事比叫一個千億大模型來做劃算得多。但"前沿AI"這條賽道的主線,從GPT-3起徹底換了。

這是AI歷史上第一次,一個上層的理論判斷被一個大規模實驗整個推翻。這件事能發生,前提是工程已經把這個實驗做成可能。

二、從能力到可用(2022)

2.1 能力不等于好用:RLHF 的登場

GPT-3論文發完,2020年6月OpenAI把它做成商業API上線,相當貴:起步價0.06美元1000 token。一年里上百家公司圍著這個API做產品:Jasper做營銷文案,Copy.ai做帶貨文案,AI Dungeon做交互小說,Replika做陪伴聊天。但絕大多數嘗試很快撞墻。

模型什么都會,但什么都不聽話。你讓它寫一份正經報告,它會扯到段子上;你讓它客觀回答問題,它會編造數據;你問它一個敏感話題,它會給你一段不合適的回答。最典型的事故是AI Dungeon:2020年7月接入GPT-3后體驗質變,但很快出現大量不可控生成(露骨、暴力、兒童內容),OpenAI在2021年4月威脅切斷API訪問,逼著AI Dungeon加各種過濾器,社區隨后流失大半。

這暴露了一個此前沒被認真理論化的鴻溝:模型"知道什么"和模型"愿意做什么"之間,隔著一層。光把模型變大不夠,必須再做一層"對齊"。圈里管這種現象叫alignment problem。

GPT-3之后的兩年多,OpenAI沒有發新的旗艦底座模型。中間發生的事,主要就是把這個對齊層補上。

轉折點是OpenAI 2022年3月發的InstructGPT論文《Training language models to follow instructions with human feedback》。這篇論文給出了RLHF(Reinforcement Learning from Human Feedback,基于人類反饋的強化學習)的標準三段論。



先做監督微調(SFT,Supervised Fine-Tuning)。OpenAI雇了40多個標注員,讓他們針對幾萬條真實用戶prompt親手寫出"理想回答"。然后拿這批人寫的對照集去微調GPT-3。模型第一次學到"什么樣的回答符合期待"。

把模型微調過一輪之后,需要一個"裁判"來給后續回答打分。OpenAI讓模型對同一個prompt生成4到9個不同回答,標注員從好到壞排序。用這批排序數據訓一個獨立的獎勵模型(Reward Model),它本身不答題,但能給任何回答打分,專門預測"哪個回答更受人喜歡"。

獎勵模型就位之后,最后一步用強化學習。讓GPT-3一遍遍生成回答、被獎勵模型打分、根據分數調整自己。算法叫PPO(Proximal Policy Optimization),讓模型按獎勵模型的口味打磨自己。

實驗結果非常硬:13億參數的InstructGPT在人類偏好打分上擊敗了1750億參數的原版GPT-3,參數差了一百三十多倍。這件事對整個行業沖擊巨大:讓模型變好用跟把模型變大幾乎是兩條不同的路。

InstructGPT上線8個月后,2022年11月30日OpenAI發布ChatGPT。背后的模型叫GPT-3.5,是InstructGPT路線訓出來的進一步版本:先在GPT-3基礎上做了一輪代碼增強訓練(叫code-davinci-002),再做完整的RLHF。ChatGPT一發就在整個社會爆火,5天破百萬用戶,2個月破1億月活,刷新了所有消費產品的增長記錄。讓ChatGPT從"會續寫"變成"能對話"的,正是InstructGPT那一套RLHF。

順便看一眼GPT系列的訓練數據演化:



預訓練數據從GPT-1到GPT-3漲了100倍,是scaling假說的直接體現。但到GPT-3.5這一步,新增數據更關鍵的變化在性質上。GPT-3訓練用的是從互聯網爬下來的隨機文本;GPT-3.5多出來的那一萬多條示范和三萬多條排序,量級跟預訓練完全不在一個數量級,但全部是帶人類價值判斷的對齊數據,專門告訴模型"應該怎么回答"。這是一種全新的訓練數據。

這件事催生了一個新概念:后訓練(post-training)。

預訓練是用海量無標注文本讓模型學會語言和世界知識。后訓練是預訓練之后所有進一步調整模型的工作,包括SFT、RLHF、安全調優、風格調優等。從InstructGPT這一刻起,"后訓練"第一次和"預訓練"擺到同一張桌上。后來Anthropic的Constitutional AI、各家的RLAIF、DPO,都是在后訓練這層做新文章。

預訓練給模型知識;后訓練給模型性格。兩層加起來,才是今天我們用的ChatGPT、Claude、Gemini這種"懂事的"大模型。

2.2 ChatGPT 背后的工程窗口

InstructGPT用40個標注員手寫了幾萬條對齊數據,訓出第一版"聽話"的GPT-3.5。但要讓模型繼續進步,下一個問題就來了:再雇40個標注員?再雇400個?還是有更狠的辦法?

OpenAI的答案是把用戶當標注員。模型每跟人對話一次,潛在地都是一次訓練信號——用戶哪個回答覺得有用、哪個回答點了thumbs down、哪個回答讓用戶重新問了一遍、哪個回答被復制走用了。這些信號天然帶價值判斷,比專門請人寫好答案便宜得多、規模也大得多。但要規模化拿到這種信號,前提是億級用戶能用得起、用得起天天用,模型得能免費、推理還要跑得動。

這又是工程問題。早期GPT推理一次的成本貴到沒法做免費產品。三件工程突破趕著做出來:

第一件是FlashAttention(Stanford HazyResearch組的Tri Dao的研究)。原版attention要把中間的N×N大矩陣反復在GPU的慢內存(HBM)和算力核心之間搬運,瓶頸不在算而在搬。FlashAttention把attention拆成塊,每塊的Q、K、V直接塞進GPU里更快的SRAM一次算完,只把最終結果寫回HBM。數學上跟原版完全等價,純靠IO重寫就讓attention這一步提速超過七倍。

第二件是KV cache,autoregressive生成時,每個新token都要attention前面所有token,每次重算K和V太浪費;緩存下來下次直接復用,對話越長省得越多。這不是單篇論文的功勞,是Megatron-LM、NVIDIA FasterTransformer、HuggingFace Transformers等開源框架在2019到2021年陸續把它做成標準操作。

第三件是權重量化,把模型權重從FP16壓到INT8、INT4甚至FP4,單卡能裝下更大的模型,推理速度也成倍提升。

這一輪工程突破到位之后,ChatGPT才發得出去。

ChatGPT表面上是個產品,底下它是工程打開的另一扇窗:讓"用戶反饋"從40人小作坊一躍變成億級用戶的大規模訓練信號。每天上億條對話經過過濾、采樣、人工二次評分,回灌到下一輪RLHF。InstructGPT那40個標注員一年的工作量,ChatGPT上線后大約每小時就能產生一份。模型幾個月一個明顯躍遷。

OpenAI那時以為自己有了一條牢固的數據護城河:用戶越多 → 反饋越多 → 模型進步越快 → 用戶越愿意來。一年內ChatGPT月活破億,看起來競品很難追平。



但事后回看,這條護城河沒站住。Anthropic用Constitutional AI不靠億級用戶也追上來,DeepSeek、Llama-3、Qwen用合成數據加DPO等更便宜的辦法把開源前沿推到接近閉源。行業漸漸意識到,RLHF數據的質量比數量重要,億級原始反饋里大部分是噪音。OpenAI從這個飛輪拿到的真正紅利是2023那一整年的獨占窗口,給了它一年的產品先發優勢,模型能力優勢卻沒維持住。

三、ChatGPT 之后:百花齊放(2023–2024)

ChatGPT在2022年11月點燃了整個行業。2023到2024這兩年成了大語言模型的爆發期:閉源前沿玩家加碼追趕OpenAI,開源浪潮起來,中國玩家集體下場,整個生態從"OpenAI一家獨大"變成多極混戰。

3.1 Anthropic:從 OpenAI 出走的另一條對齊路線

Anthropic的故事得從OpenAI內部的一次分裂說起。

2020年底到2021年初,OpenAI研究部門一批人先后離職,包括研究VP Dario Amodei、運營VP Daniela Amodei兄妹,加上GPT-3論文一作Tom Brown、Scaling Laws論文一作Jared Kaplan、安全研究員Sam McCandlish、政策負責人Jack Clark、可解釋性研究員Chris Olah等核心人員。他們2021年1月在舊金山成立了Anthropic。

公開說法是"對OpenAI的方向有不同看法",實際矛盾大致有以下幾條:2019年OpenAI接受微軟10億美元投資、改成"利潤上限"公司結構,讓原本"非盈利"的初心變了味;2020年GPT-3商業化太快,安全研究分到的資源不夠;這批人覺得AI安全和能力研究應該綁在一起做,OpenAI把它們分開了。Dario那撥人想做的是"safety-first的前沿模型實驗室",跟OpenAI越來越商業化的路線分道揚鑣。

Anthropic成立之后,拿了不少投資:2021年5月1.24億美元A輪,2022年5.8億美元B輪,2023年Google投了3億多,Amazon陸續投到40億,估值一路沖到600億美元以上。

Anthropic的代表作是Constitutional AI(CAI)。2022年12月發的論文《Constitutional AI: Harmlessness from AI Feedback》給出了一條不依賴億級用戶的對齊路徑:寫一套明文原則("憲法"),讓模型自己用這套原則評估、批評、改寫自己的回答,再用這些改寫后的對照數據訓自己。把RLHF里"人類反饋"那一環換成"AI自反饋",規模化的瓶頸一下消除了。

CAI的思路有清晰的源流。RLHF本身就是Christiano、Amodei這些人在OpenAI時期搞出來的,2017年的《Deep Reinforcement Learning from Human Preferences》是RLHF的開山論文,Amodei是作者之一。到OpenAI做InstructGPT時他們已經發現RLHF靠人標既貴又慢。Anthropic成立后沿著這條線推進:2021年12月發《A General Language Assistant as a Laboratory for Alignment》,2022年4月發《Training a Helpful and Harmless Assistant with RLHF》,2022年12月發CAI。三篇論文連續遞進:先做helpful + harmless的RLHF,再發現harmless這一頭特別費人,再用AI自反饋替掉那一段。

CAI對Anthropic尤其重要。他們當時只有一兩年時間,沒有OpenAI那種億級用戶的反饋來源;如果死磕RLHF原版方案,永遠追不上。CAI讓他們用很小的標注預算就能訓出可控的對齊效果。

但要老實說一句:早期Claude跟同期OpenAI旗艦模型差距明顯,"追上"是慢慢發生的事。

2023年3月發的Claude 1,大致跟ChatGPT(GPT-3.5)一個量級,但同月發布的GPT-4是另一個層次,Claude 1跟它差距明顯。2023年7月Claude 2、11月Claude 2.1,提升肉眼可見但仍在GPT-4之下。整個2023年,Claude在工程師圈里是"小眾替代",不是主流選擇。

真正縮到平起平坐是2024年3月的Claude 3系列(Opus / Sonnet / Haiku三檔)。Opus在多項基準上跟GPT-4打平或小幅領先,是Anthropic第一次拿出能跟OpenAI旗艦對壘的模型。2024年6月Claude 3.5 Sonnet在代碼任務上明顯超過GPT-4,工程師圈大批人切到Claude,Cursor、Claude Code這些產品起飛,根子就是這一代。

也就是說,Anthropic用Constitutional AI這條路真正追平OpenAI花了大約三年(2021創立到2024年3月Claude 3)。Claude今天那種相對克制、愿意承認"我不知道"的性格,根子就在CAI。

Anthropic的故事說明一件事:RLHF的護城河沒OpenAI想的那么寬,對齊工程可以不靠用戶飛輪。但走通這條路花了兩到三年,期間一直在第二梯隊。

3.2 LLaMA:開源浪潮的引爆點

Meta在2023年2月發了LLaMA-1,參數從7億到650億,覆蓋消費級到工作站級顯卡。本來只對學術研究開放,但權重在發布一周內就被"泄漏"到4chan,整個開源社區瞬間上車。

架構上LLaMA跟GPT、Claude沒本質區別,都是decoder-only Transformer。LLaMA用的幾個優化(SwiGLU激活、RoPE位置編碼、RMSNorm、Llama-2起加GQA)后來被各家普遍采用。真正的不同在訓練配方:參數壓小、數據加多(13B模型喂1萬億token),跟GPT-3那種"參數大、數據相對少"的路線相反。這個配方為什么對、為什么有效,3.5節會解釋。

但LLaMA也有明顯短板:后訓練這一頭Meta一直比OpenAI / Anthropic弱。Meta沒有ChatGPT的億級用戶飛輪,也沒像Anthropic那樣下重注做Constitutional AI。LLaMA放出來"夠用",但拿來做產品體驗跟Claude / GPT差著一檔。



接下來一年,LLaMA衍生模型像爆米花一樣冒出來:Stanford的Alpaca(用GPT生成的指令數據微調LLaMA-7B)、Berkeley的Vicuna(用ShareGPT對話數據微調)、WizardLM、Lit-LLaMA、Dolly。這些里大多都用ChatGPT或GPT-4的輸出當訓練數據,技術上違反OpenAI的服務條款,但實際很難追查,等于借閉源模型的對齊能力訓出開源模型的對齊版本。



為什么衍生模型偏偏圍著LLaMA轉?因為OpenAI和Anthropic全程閉源。GPT-4、Claude在外人手里只是API接口,權重拿不到、不能微調、不能本地部署,連基本的"看一眼模型里到底學了什么"都不可能。它們的服務條款還明確禁止"用我們的輸出訓練競品模型"。開源社區想做衍生,必須有一個"前沿水平 + 開放權重"的底子。2023年初這種東西不存在,BLOOM、GPT-J、Pythia這些早期開源模型能力都跟GPT-3差一檔。LLaMA是第一個把"前沿"和"開放權重"兩件事同時做到的。底座一就位,整個生態瞬間起來。

"衍生"在開源社區里有兩種含義。Alpaca、Vicuna、WizardLM這些是直接拿LLaMA權重微調的真衍生品。但后來主流的開源模型(Mistral、Qwen、DeepSeek、Yi、智譜GLM)都是從零自己訓的,只是架構家族繼承了LLaMA(decoder-only + RoPE + RMSNorm那套),權重獨立。LLaMA真正的貢獻是證明了"小參數 + 多數據 + 開放權重"這條路走得通,給后來所有開源玩家兜底,不是大家直接復制粘貼它。

2023年7月Meta發LLaMA-2,把許可證改成"商用可用"(每月活躍用戶超7億的公司除外),算是把開源水龍頭徹底打開。2024年4月Llama-3發布,70B版本基準接近GPT-4;2024年7月Llama-3.1的405B開源版直接打到當時GPT-4o水平。

但LLaMA系列的高光時刻就停在了Llama-3.1。2025年4月發的Llama-4口碑很糟,小尺寸(Scout / Maverick)沒明顯超過同期對手,最大尺寸Behemoth干脆沒正式發布。這段時間DeepSeek V3 / R1接管了開源前沿位置,Qwen也持續強勢,LLaMA從開源前沿滑到第二梯隊。這件事跟商用授權無關(Llama-2起就給了商用授權),主要原因是Meta節奏明顯慢了:首席科學家Yann LeCun公開質疑LLM路線、關鍵研究員流失到Anthropic和xAI、Meta內部對"是否要贏這場"本來動力就不強(Meta不靠賣AI賺錢,靠社交廣告)。

Meta這一系列開源的戰略意圖很清楚:讓開源生態足夠強,OpenAI、Anthropic的閉源溢價就被抹掉。這是最純粹的"商品化對手核心產品"打法。模型對Meta來說是基礎設施而非產品,自家不靠賣模型賺錢。但也正因如此,2025年起當其他玩家(DeepSeek、Qwen)能更好完成"商品化"這個任務時,Meta就讓出了位置。

3.3 全球玩家入場:美中歐三方分化

ChatGPT之后兩年,閉源前沿之外的玩家從美中歐三個方向集體入場。全球版圖從OpenAI單極,變成多條路線同時追。

美國這邊,Google反應慢了一拍但沒缺席。2023年2月倉促發了Bard應對ChatGPT,效果一般,被嘲諷過幾個月。2023年12月,Google推出Gemini 1.0替換Bard,2024年2月推出Gemini 1.5,主打百萬級上下文窗口,2024年12月又推出Gemini 2.0。從2024年起,Google在多模態和長上下文這兩塊開始壓住OpenAI。



馬斯克的xAI是后來者。它2023年7月成立,2023年11月推出Grok-1,2024年3月開源Grok-1權重,隨后推出Grok-1.5和Grok-2。到2025年2月,xAI又推出Grok-3,開始正式加入前沿模型競賽。它的特殊之處不在論文路線,而在資源組織:一邊吃X平臺的實時內容和用戶反饋,一邊用極端速度堆GPU集群。xAI走的是"社交平臺入口 + 實時數據 + 大算力"的路線,跟OpenAI和Anthropic不是一個打法。



歐洲方面以Mistral為代表。法國Mistral 2023年5月成立,幾個月內開源Mistral 7B和Mixtral 8x7B。三個創始人來自DeepMind和Meta FAIR,確實熟悉LLaMA那套訓練經驗。Mistral不是LLaMA微調品,權重是自己訓的。它的定位也很清楚:模型要小、快、便宜,能本地部署,也能進歐洲企業的私有化場景。



中國這一輪反應相當迅速。2023年3月百度發文心一言,4月阿里發通義千問,6月智譜發ChatGLM-2,8月字節發豆包,10月Moonshot AI發Kimi,11月零一萬物發Yi。2023年大模型研發層面已經是"百模大戰",到2024年備案上線、能對公眾提供服務的國產生成式AI大模型接近200個。







早期玩家很多,真正殺出來的是少數幾家。阿里Qwen靠開源和工程完整度進入全球開發者社區。DeepSeek靠V3和R1把成本、MoE、推理能力一起打到海外圈面前。智譜GLM在政企和國產生態里站住位置。月之暗面Kimi押長上下文。字節豆包靠App入口和流量規模做產品化。中國不是2023年才"知道有LLM",但確實是ChatGPT之后,才以公司戰略和產品形態集體沖上來。

這里還有一個很現實的傳播機制,叫"打榜"。Hugging Face的Open LLM Leaderboard當時是開源模型社區最常看的榜單之一,開發者會拿它判斷一個模型值不值得下載、微調和二次開發。2023年11月,零一萬物的Yi-34B剛發布幾天就沖到Hugging Face榜首,參數只有340億,卻壓過了Llama 2 70B。2023年12月,阿里Qwen-72B又以73.6的平均分登上預訓練模型第一。打榜不能代表真實產品體驗,但它給了海外開發者一個很直觀的信號:中國模型不再只是中文圈自嗨,已經能在全球開源模型的同一張桌子上比成績了。

這些新模型算不算原創?要分層看。架構上,大家基本都住在同一棟房子里:decoder-only Transformer,也就是前面講過的"只用decoder、一路預測下一個詞"。這不是Qwen、DeepSeek、Mistral重新發明的東西,源頭是Transformer和GPT路線。LLaMA的作用,是把這套路線做成了一個高質量、開放、方便后來者研究的樣板。

但這不等于它們是在復制LLaMA。一個模型真正值錢的部分,是訓練出來的參數,也就是所謂權重。Qwen、DeepSeek、GLM、Yi、Mistral、Grok、Gemini大多是自己收數據、自己訓練、自己做后訓練,不是拿LLaMA權重改個名字,也不可能直接復制OpenAI的閉源權重。

它們借鑒的主要是公開路線和工程經驗:怎樣把decoder堆得更深,怎樣讓attention算得更省,怎樣喂更多更干凈的數據,怎樣像OpenAI的RLHF那樣把模型訓得更聽指令,怎樣像Anthropic那樣減少人工標注、更多利用AI反饋。這些東西有的來自公開論文,有的來自LLaMA這種開源模型暴露出來的成功配方,有的來自OpenAI、Anthropic這些閉源公司的論文、產品和方向暗示。

所以更準確的說法是:這些模型在大架構上不原創,在權重和工程實現上是原創。它們不是從零發明一套新架構,也不是簡單復制別人模型,而是在同一個公共技術底座上,各自重新訓練、調參、做產品化。

到2025年,全球大模型格局基本是中美兩極。美國占閉源前沿,OpenAI、Anthropic、Google、xAI各有打法。中國占開源前沿,DeepSeek、Qwen、GLM、Yi等模型把開放權重和低成本路線推到全球開發者面前。歐洲有Mistral,但總體體量不夠。其他地區也有國家隊和本地模型,還沒有穩定進入前沿模型主戰場。

3.4 閉源 vs 開源的二元格局

把這些玩家放在一起看,最重要的變化不是榜單變長了,而是生態分裂了。到2024年底,前沿模型已經不再是一家公司、一條路線、一種商業模式,而是分成兩套完全不同的產業系統。

閉源前沿把模型當云服務賣。GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro、Grok這些模型不開放權重,用戶通過App和API使用,企業按token、席位、調用量付費。它的優勢是體驗穩定、產品整合快、安全和合規有人兜底。它的代價也很明顯:價格由模型公司說了算,數據和工作流要交給平臺,底層能力永遠隔著一層黑箱。

這套生態最適合美國。OpenAI有微軟,Anthropic有Amazon和Google,Google自己有TPU、搜索、Android、Workspace,xAI背后有X和馬斯克的融資能力。閉源模型真正拼的不是單個benchmark,而是算力、資本、云、分發、企業銷售和用戶反饋的總和。美國互聯網巨頭正好把這些東西都攥在手里。

開源前沿走的是另一套邏輯。Llama、DeepSeek、Qwen、Mistral這類模型把權重放出來,開發者可以本地部署、私有化部署、微調,也可以拿來繼續訓練。它的價值不只在"免費",而在可控。金融、政企、制造、醫療這些行業不一定愿意把數據交給OpenAI,但愿意把一個開放權重模型搬進自己的機房。

中國能在這條線上起來,靠的是幾件事一起發生。阿里、字節、騰訊、百度這種本土大廠能持續投入。中文互聯網數據自成一池,給中國模型一個獨立數據來源。美國對華GPU限制反而逼出DeepSeek那種工程效率,把MoE、FP8、強化學習配方壓到更極致。"AI主權"敘事跟中國"必須自主"的政治邏輯天然契合。百模大戰又逼出了開源競爭,DeepSeek、Qwen直接放權重,迅速在國際社區累積口碑。

歐洲沒起來,原因正好相反。Mistral很強,但歐洲沒有Google、Meta、阿里、騰訊這種千億級本土平臺長期兜底。EU AI Act提高了前沿模型的合規成本。頂級AI研究員長期被美國大廠吸走,本地留人困難。歐洲多語言、多國家,市場分散,也沒有中國那種統一大市場反哺模型。

其他地區情況類似歐洲。日本Sakana AI 2024年漲了一陣,但定位"小而美"不沖前沿。韓國LG、Naver各有模型,沒出圈。印度和中東主要是建數據中心,給美國玩家提供算力和市場。這些地區2025年的角色更接近"模型用戶"而非"模型生產者"。

這就是今天大模型生態的基本形狀:美國把閉源模型做成云和應用,中國把開源模型做成工程和成本優勢,歐洲守住Mistral這個少數前沿入口,其他地區更多是在接入、部署、采購和算力承接。OpenAI的"先發優勢"還在,但"獨家優勢"已經沒了。大語言模型從一家公司的一款產品,變成了全球互聯網產業的新底座。



3.5 Chinchilla 修正了 scaling law

百花齊放發生得這么快,背后有兩個關鍵修正撐著。第一個是Chinchilla。它討論的是一個很樸素的問題:同樣一筆算力預算,到底應該拿去堆參數,還是拿去喂更多訓練文本?

GPT-3出來之后,行業的直覺很簡單:模型越大越聰明。OpenAI 2020年的scaling law也強化了這個判斷。大家開始拼參數,1750億、2800億、萬億參數,數字越喊越大。問題是,參數變大之后,如果訓練文本沒有跟上,模型就像一個腦容量很大但書沒讀夠的人,潛力沒吃滿。

DeepMind 2022年的Chinchilla論文把這個問題重新算了一遍。他們比較了大量"參數規模 × 訓練數據"組合,結論很直接:同樣的算力,不該只顧著把模型做大,也要讓模型讀足夠多的文本。參數和數據要一起漲,甚至很多時候,少堆一點參數、多喂一點數據,效果反而更好。

最有說服力的例子是Chinchilla自己。它只有700億參數,比DeepMind之前的Gopher小很多,但訓練數據多得多。結果這個更小的模型,在一堆評測上反而超過了2800億參數的Gopher,也超過了GPT-3。

這件事改變了開源模型的打法。開源社區很難一上來就訓GPT-3那種1750億參數模型,但可以訓練一個更小的模型,再給它喂足夠多、足夠干凈的數據。LLaMA就是這條路線的標志性成果:參數沒有夸張到天上去,訓練數據卻吃得很足,最后做到"小模型打大模型"。

所以Chinchilla真正修正的是"規模"這個詞的含義。規模不只是參數規模,也包括訓練數據規模。開源模型后來能追得這么快,一個重要原因就是大家終于知道了算力預算該怎么花。

3.6 MoE:大模型怎么變得更便宜

第二個修正是MoE。這個詞全稱叫Mixture of Experts,中文通常翻譯成"混合專家"。名字聽著玄,其實想法很直觀:一個問題來了,不必讓所有人一起上,只要找最相關的幾個專家處理。

放到Transformer里也是這個意思。前面講過,decoder里有attention,負責看上下文。attention后面還有一段網絡,負責把剛看完的信息再加工一下。普通模型每次都會動用同一整套網絡。MoE把這套網絡拆成很多個"專家",再加一個很小的"調度員"。每個token進來,調度員只挑其中一兩個專家來處理。

這樣做的好處是賬面上模型可以很大,真正干活的部分卻不必每次都全部啟動。比如一個模型總共有幾千億參數,但處理某個token時只激活其中幾十億參數。總容量變大了,推理成本沒有跟著等比例變大。

這個想法很早就有人做過,但長期不好用。難點不在概念,而在工程。調度員如果分配不好,有的專家忙死,有的專家閑著,訓練就會不穩定。模型分布在很多GPU上,專家之間還要互相傳數據,通信成本也會把收益吃掉。所以MoE沉了幾年,看起來像一條漂亮但麻煩的岔路。

到2023年以后,情況變了。訓練框架、GPU通信、低精度訓練都成熟了,MoE終于穩得住、訓得動。Mistral的Mixtral 8×7B是一個重要信號:它有八個專家,每次只激活兩個,效果可以壓過不少更大的稠密模型。DeepSeek V3把這條路推得更遠,總參數做到6710億,但每個token只激活370億左右,成本和效果同時變得很有競爭力。

MoE回答的是另一個關于規模的問題:模型容量能不能變大,但每次使用的成本別跟著一起爆炸?它的答案是可以,只要每次只讓一小部分專家上場。

把Chinchilla和MoE合起來看,邏輯就順了。Chinchilla告訴大家,同樣算力下別盲目堆參數,要讓模型讀夠數據。MoE告訴大家,模型可以有很大的總容量,但每次推理只用一部分。一個讓"小模型也能很強"成為可能,一個讓"大模型也能相對便宜"成為可能。開源社區能在2023到2024年追得這么快,背后很大一部分原因就在這里。



Credit:

https://www.dailydoseofds.com/p/transformer-vs-mixture-of-experts-in-llms/

四、新維度與系統化(2024 至今)

4.1 推理模型:一個全新的 scaling 軸

先說清楚scaling law到底是什么。它不是某條神秘定律,更像一條經驗曲線:模型參數更多、訓練數據更多、訓練算力更多,模型能力通常會跟著提高。GPT-3時代最讓行業興奮的地方就在這里,原來很多能力不是單獨寫規則寫出來的,而是把模型、數據、算力一起放大之后自然冒出來的。

這就是所謂"大力出奇跡"。但它不能無條件一直下去。參數越大,訓練越貴,電力、芯片、數據質量都會變成瓶頸。更麻煩的是邊際收益會下降:同樣多花一倍錢,早期可能帶來巨大躍遷,后面只換來一點點提升。Chinchilla已經提醒過一次,光堆參數不夠,數據也要跟上。到2024年,大家開始意識到,預訓練這條路還會繼續,但不再是唯一的放大方向。

新的方向叫"推理時算力"(test-time compute)。以前模型回答問題,基本是看到問題就往下生成。推理模型會先花更多時間在內部推演,試幾條路,檢查哪里錯了,再給出最終答案。簡單說,過去主要是在訓練時多花算力,把模型訓得更強;現在是在回答時也多花算力,讓模型多想一會兒。

OpenAI 2024年9月發布o1 preview,是這條路線第一次大規模進入公眾視野。它的核心說法很直白:模型可以在回答前多花時間思考,數學、編程、科學題會明顯變好。背后的訓練方式也變了,尤其適合數學和代碼這種有標準答案的任務。數學題能驗算,代碼能跑測試,模型做對了就獎勵,做錯了就懲罰,這比讓人類主觀判斷"哪個回答更好"干凈得多。

這不是OpenAI憑空發明了"思考"。chain of thought、讓模型一步步推理、用強化學習訓練模型解題,這些想法之前都存在。OpenAI的貢獻,是把它做成了一個前沿產品,并且證明"回答時多花算力"本身也能成為新的scaling軸。隨后這個方向很快被整個行業追上:Google在2024年12月放出Gemini 2.0 Flash Thinking,DeepSeek在2025年1月發布R1,Anthropic在2025年2月發布Claude 3.7 Sonnet的extended thinking,xAI的Grok-3也加入了Think和Big Brain這類推理模式。



這里要把幾種算力分清楚。預訓練最重,通常跑在大規模NVIDIA A100/H100/H200/B200 GPU集群上,Google會大量用自家的TPU。它要連續吃海量文本,時間長、規模大、通信要求高。后訓練輕一些,但還是跑在同類GPU或TPU上,包括指令微調、RLHF、偏好訓練這些步驟。推理模型的訓練更特殊,它不只要訓練,還要讓模型大量試題、做題、驗證答案,所以也會消耗不少訓練和采樣算力。

平時我們聊天、API調用、讓模型寫代碼,這叫推理或服務。它也跑在GPU、TPU或專門的推理加速芯片上,但不一定用最頂級的訓練芯片。大模型、高并發、推理模式仍然會吃H100、H200這類強卡。普通模型、低成本服務、本地部署,則常常用更便宜、更省電、專門為推理優化的芯片。目標從"訓練一個新模型"變成"把已經訓練好的模型跑得快、便宜、穩定"。普通聊天消耗的是一次生成的token。推理模式更貴,因為模型在最終回答前還會生成大量內部思考token,占用芯片更久。你看到的是一句答案,機器背后可能已經跑過一大段推演。

所以,推理模型真正改變的是算力花錢的位置。過去主要把錢花在訓練階段,訓好之后盡量便宜地服務用戶。現在多了一種買法:每次遇到難題,就臨時多買一點思考時間。大力出奇跡沒有消失,只是從"訓練時大力"擴展到了"回答時也大力"。

4.2 Coding:一條支線如何融進主線

(參考我寫的另外一篇文章 《兩萬字科普:AI為什么會編程——原理、歷史與未來》)

2025年初,Andrej Karpathy提出了一個很快傳開的詞,叫Vibe Coding。意思大概是:你不再一行行手寫代碼,而是用自然語言把意圖說出來,讓AI生成代碼,再通過運行、報錯、繼續提示來迭代。這個詞有點玩笑意味,但它抓住了一個真實變化:程序員和代碼之間,多了一層會寫代碼的模型。

代碼對LLM來講是一種特殊的文本,因為它有明確的對錯。能不能編譯過、能不能跑、單元測試過不過,全是機器自動可判。給模型一道編程題,它寫一份代碼,跑一下,對了就獎勵,錯了就懲罰。這個反饋比"這段回答是不是更好"清楚得多,所以代碼自然變成了推理范式的最佳試驗場。

過去兩年,AI coding能力進入暴漲期。SWE-bench這種"真實開源項目修bug"的榜單上,前沿模型的正確率從2023年的個位數百分比,走到2025年的60%到70%區間。Cursor、GitHub Copilot、Claude Code這些工具底下吃的都是同一套主線:模型更會讀代碼庫,更會定位bug,更會調用測試,也更會把錯誤反饋重新寫進下一輪修改。

這正在改變程序員生態。最淺的一層,是補全代碼、生成樣板、解釋報錯,初級工作被自動化掉一大塊。再往深一層,AI開始進入代碼審查、重構、測試生成、依賴升級、文檔維護這些日常工程流程。更深的一層,是非程序員也能做出小工具和原型,產品經理、設計師、運營人員都可以用提示詞把想法變成一個能跑的版本。

但這不等于程序員不重要了。變化更像是分工重排:寫語法的價值下降,定義問題、拆任務、看架構、控質量、補測試、管安全的價值上升。Vibe Coding很適合原型和小工具,但到了生產系統,代碼質量、權限、數據、監控、回滾、團隊協作還是繞不過去。AI把"寫代碼"的門檻壓低了,也把"負責一套軟件系統"的要求抬高了。

所以coding不是LLM的一條獨立支線。它和數學、邏輯、推理是同一棵樹,只是它最早把這棵樹種進了真實工作流。AI Coding對程序員生態的影響還在進行中,今天看到的只是第一波。

4.3 RAG:模型開始接外部知識庫

RAG不算2025年的最新熱點,源頭是2020年Facebook AI那篇Retrieval-Augmented Generation論文。真正變成工程標配,是ChatGPT火了之后,企業開始把大模型接進自己的文檔、知識庫和數據庫。

RAG的思路很簡單:先檢索,再生成。用戶問一個問題,系統先去外部資料里找相關片段,比如公司制度、產品文檔、客服記錄、合同條款。然后把這些片段塞進模型上下文,讓模型基于材料回答。

這解決的是LLM最要命的幾個現實問題。模型訓練完之后,知識就固定在參數里,沒法知道公司昨天剛更新的政策,也不知道你內部Wiki里的內容。它還會編造,回答完也說不清依據來自哪里。RAG把外部材料拉進來,至少讓回答有出處、有上下文,也更容易更新。

所以2023到2024年,很多企業AI應用先從RAG知識庫問答做起,再往Agent走。客服機器人查產品手冊,法務助手查合同模板,銷售助手查客戶資料,員工問公司制度,背后常常都是同一套結構:文檔切塊,向量化,檢索,塞給模型,再生成回答。

RAG的價值也有邊界。檢索錯了,模型就會基于錯材料回答。權限沒做好,內部資料可能被不該看到的人問出來。文檔太舊,答案也會舊。很多公司后來發現,RAG不是把文檔丟進向量庫就完事,它需要數據治理、權限、版本管理、評測和人工維護。

但RAG的歷史位置很重要。它讓模型第一次大規模接上企業外部知識。后面的tool calling、computer use、Agent,都是在這個方向上繼續往前走:RAG讓模型會查資料,工具調用讓模型會辦事,Agent再把查資料和辦事串成一個任務流程。

4.4 從prompt到harness:模型外面的工程殼

早期大家講prompt engineering,重點是怎么把一句話問清楚。比如給模型設角色、給格式、給例子、讓它一步步想。這一套有用,但它解決的是"怎么跟模型說話"的問題。

到了企業場景,只會寫prompt很快不夠。模型每次回答前,到底該看哪些材料?用戶上一輪說了什么?公司制度該不該塞進去?RAG檢索出來的十段材料,哪三段最該進上下文?工具返回的結果怎么壓縮?這些問題合在一起,就是后來大家說的context engineering。

Context engineering的核心,在于把正確的信息,在正確時間塞給模型。一個客服Agent回答退款問題,可能要同時看到用戶問題、訂單狀態、退貨政策、歷史工單、當前權限、禁止承諾的規則。少一塊,它會答錯;多一堆無關材料,它也會被干擾。

再往前一步,就是tool calling。2023年6月,OpenAI在API里加入function calling,意思是開發者可以把外部函數描述給模型。模型不再只能生成一段自然語言,而是可以輸出一段結構化參數,告訴系統:"現在該查訂單""現在該調退款接口""現在該發一封郵件"。

這件事把LLM從聊天框里拉了出來。過去模型的輸出就是文字,文字給人看。tool calling之后,模型的輸出可以變成軟件系統的輸入,直接觸發數據庫查詢、API調用、代碼執行和業務流程。

但每接一個工具都手寫一套接口,工程上會很亂。Anthropic在2024年11月開源MCP(Model Context Protocol),想解決的就是這個問題。MCP可以理解成AI應用和外部系統之間的一套通用插頭:文檔庫、GitHub、數據庫、Slack、瀏覽器、內部系統,都按同一套協議把資源和工具暴露出來,模型客戶端按同一套方式接入。

MCP不會讓模型本身突然更聰明。它真正改變的是連接成本。過去每個Agent都要為每個系統寫定制膠水代碼;有了統一協議,工具、數據源和模型客戶端可以分開演進。Claude Code、Cursor、企業內部Agent平臺喜歡這套東西,原因就在這里。

這就到了harness engineering。Harness這個詞直譯是"馬具"或"安全帶",放在LLM里,可以理解成套在模型外面的一整圈工程殼。它包括上下文組裝、工具列表、權限控制、模型路由、日志、評測、重試、人工審批、失敗回滾。

真正上線的AI系統,靠的往往不是一個裸模型。裸模型只是中間那顆發動機。外面這層harness決定它看什么、能做什么、做到哪一步必須停下來問人、出錯之后怎么恢復。Agent能不能進生產,很多時候就卡在這層。

4.5 長上下文和記憶:模型開始帶著歷史工作

RAG解決的是外部知識問題,長上下文解決的是另一件事:模型一次能讀多少東西。所謂context window,就是模型在一次請求里能看到的token上限。窗口越大,它一次能讀的文檔、代碼、聊天記錄、視頻轉錄就越多。

早期GPT模型的上下文窗口只有幾千token,一篇長論文、一份合同、一個稍微復雜的代碼庫,很快就塞不進去。用戶只好把材料切碎,一段段問。模型也容易前面剛讀過,后面就忘了。

2024年,長上下文變成一條明確賽道。Google在Gemini 1.5 Pro里把上下文窗口推到100萬token,官方舉的例子包括長文檔、長音頻、視頻和代碼庫。Claude、GPT、Qwen、Kimi也都在往長上下文走。Kimi在中文用戶里出圈,很大一部分原因就是"能讀很長的文件"這件事特別好理解。

長上下文改變了很多產品體驗。以前讀年報、讀論文、讀合同、讀代碼庫,經常要先做切分和檢索。現在很多材料可以直接整包塞進去,讓模型在同一輪里看完。這對法律、研究、咨詢、代碼理解都很有用。

但長上下文不會替代RAG。窗口越長,推理成本和延遲越高,模型也未必真的能平均關注每個細節。企業知識庫有上萬份文檔時,全部塞進上下文也不現實。更常見的做法是兩者配合:RAG先把相關材料找出來,長上下文負責一次讀進更多片段、更長對話和更完整任務狀態。

記憶又是第三件事。長上下文解決"這一輪能讀多少",memory解決"跨會話能不能記住"。2024年OpenAI開始給ChatGPT做memory,讓它記住用戶偏好、寫作格式、工作背景。到2025年,ChatGPT的memory進一步擴展,可以參考過去更多聊天歷史。

這對個人助理和Agent很關鍵。一個長期幫你寫文章的模型,如果記得你不喜歡什么句式、常寫哪些主題、引用格式怎么放,下一次就不用從零交代。一個企業Agent如果記得項目背景、客戶偏好、歷史決策,也更像一個持續工作的同事,不再像每次都失憶的問答框。

memory也帶來新問題。它可能記錯,可能記住不該記的敏感信息,也可能讓用戶不知道模型為什么突然"懂"自己。企業里還要處理權限、合規、數據留存和刪除。記憶越強,治理要求越高。

把RAG、長上下文和memory放在一起看,LLM正在補三種"記憶能力"。RAG讓模型查外部資料,長上下文讓模型一次讀更多現場材料,memory讓模型跨任務記住長期背景。Agent要穩定工作,離不開這三層。

五、最新進展:從模型競賽到應用競賽

到這里,故事的重心開始換地方。

前面幾章講的,主要是模型怎么變強。架構、預訓練、后訓練、開源、MoE、推理時算力,所有努力都圍著"模型本身"轉。2025年之后,另一個問題變得更急:模型已經夠強了,它到底能替人干什么?

這就是新一輪競爭的起點。模型公司不再滿足于只賣API,SaaS公司也不再滿足于只加一個AI按鈕。大家都在往同一個方向擠:把模型接進真實工作流,讓它能調用工具、讀寫數據、執行動作、交付結果。

5.1 Agent的產品化:套殼、SaaS和基礎模型公司下場

先把"套殼"說清楚。這個詞比Agent更寬,指的是一類很薄的AI應用:底層直接調用OpenAI、Anthropic、Gemini這類模型API,外面包一層界面、提示詞模板、賬號系統和收費頁。早期很多AI創業公司做的就是這個,換個垂直場景,寫幾組prompt,就說自己是AI寫作、AI客服、AI銷售、AI律師。

這種套殼更接近AI-powered SaaS,未必是Agent。它本質上還是傳統軟件,只是在某個環節調用模型生成一段話、總結一份材料、回答一個問題。套殼也可以偽裝成Agent:給模型一個循環,讓它自己喊"我在計劃、我在執行",但沒有穩定工具、沒有權限系統、沒有任務狀態、沒有評測和回滾,實際只能演示,進不了生產。

真正的Agent要多幾層東西。它要能理解目標,拆出步驟,選擇工具,調用API,讀取結果,發現錯誤,再決定下一步。它還要接權限、日志、審批、記憶、數據源和評測系統。模型只是腦子,Agent產品還需要手、腳、眼睛、記錄本和剎車。

2023年,這條路已經冒頭。OpenAI在3月推出ChatGPT plugins,讓ChatGPT可以接瀏覽器、代碼解釋器和第三方服務。6月,function calling進入API,開發者可以把外部函數描述給模型,讓模型判斷什么時候調用。開源社區那邊,LangChain把prompt、模型調用、向量數據庫、工具、外部API、記憶、鏈式流程包裝成開發者熟悉的組件。AutoGPT也在2023年出圈,它不穩定、容易跑偏、燒token,但把"模型循環執行任務"這件事推到公眾面前。

2025年之后,變化更明顯。過去很多創業公司在應用層套殼,現在基礎模型公司直接下場做應用層。OpenAI先做Operator,讓模型用自己的瀏覽器點網頁,后來又把Operator、Deep Research、代碼執行整合進ChatGPT agent。Anthropic把Claude Code、computer use、MCP一路往工具和開發者工作流里推。Google也在把Gemini往Workspace、Cloud和企業Agent平臺里塞。

這里的壓力很現實。基礎模型只賣token,容易變成云服務里的算力商品。應用層才離用戶預算更近,也離企業流程更近。模型公司自己做Agent,本質上是在往SaaS和企業軟件的地盤走。



Agent會不會取代SaaS?短期看,更像是重寫SaaS的入口。CRM、ERP、財務、人事系統仍然保存數據、權限、審計、合規和歷史記錄,這些后臺不會憑空消失。但用戶不一定還需要一層層點頁面。未來很多操作會從"打開系統、找菜單、填表單",變成"說目標、確認計劃、批準執行"。被替代最快的,是那些只靠薄界面和簡單流程收費的SaaS套殼。真正有數據、有流程、有客戶關系的SaaS,會被迫Agent化。

5.2 Coding Agent和程序員生態的重塑

Coding Agent最先跑通,原因很直接。代碼場景天然適合Agent。它有文件系統,有終端,有測試,有編譯器,有Git,有issue,有CI。模型改完代碼之后,系統可以立刻告訴它對了還是錯了。

這和很多辦公場景不一樣。寫一封銷售郵件好不好,往往要等客戶反應。做一份戰略報告好不好,判斷很主觀。代碼更干脆:能不能編譯,測試過不過,bug有沒有復現,PR能不能合進去。這給Agent提供了天然反饋回路。

所以AI coding工具很快從"補全一行代碼"走到"處理一個任務"。Cursor、GitHub Copilot、Claude Code這類工具,已經開始讀整個代碼庫、定位相關文件、修改多處代碼、運行測試、根據報錯繼續修。程序員給的輸入,也從"幫我寫一個函數",變成"這個issue幫我修一下"。

這就是Agent產品化最清楚的樣子。模型負責理解代碼和提出修改,軟件工程系統負責文件、測試、版本控制和權限。人還在回路里,但角色變了:少寫一些重復代碼,多做任務拆分、架構判斷、代碼審查和風險控制。

那科技公司會不會大規模裁員?答案不能簡單歸因給AI。2024到2026年的科技裁員,本來就有疫情后過度招聘回調、利率上升、資本市場要求利潤、業務增長放慢這些因素。AI加進來之后,管理層多了一個更順手的理由:同樣的產品和工程任務,能不能用更少的人完成?

對程序員來說,沖擊最先落在入門層。過去很多初級崗位的訓練路徑,是改小bug、寫腳手架、補測試、搬數據、寫簡單接口。現在這些任務正好是AI最擅長的部分。Stanford在2025年的研究就指出,受AI影響最大的職業里,年輕、低經驗員工的就業機會下降更明顯,軟件開發和客服都在名單上。

但這不等于程序員這個職業要消失。美國勞工統計局對2024到2034年的預測軟件開發、測試和QA崗位仍然增長15%,遠高于整體職業平均水平。這個數字說明一件事:軟件需求還在漲,只是公司需要的人變了。

未來的程序員生態會更分層。只會按需求寫代碼的人,會被Coding Agent壓得很厲害。能把業務問題拆成工程任務、能判斷架構取舍、能設計測試、能審AI寫出的代碼、能處理安全和線上事故的人,反而會更值錢。公司少招一些"代碼勞動力",多要一些能帶著AI交付系統的人。

入口會變窄,這是最現實的變化。過去初級程序員靠寫重復代碼積累經驗,現在重復代碼被AI吃掉,新人少了練手場。公司如果只保留高級工程師和AI工具,短期效率可能上去,長期人才梯隊會斷。這個矛盾還沒解決,也是整個行業接下來幾年要付學費的地方。

Coding Agent也解釋了為什么未來Agent不會一下子橫掃所有行業。它要有工具,要有反饋,要有邊界。代碼場景這些條件最齊,所以先成熟。其他行業要復制這件事,先得把流程、數據、權限和評測補起來。

5.3 多模態和computer use:模型開始操作世界的界面

這篇文章主要講LLM,因為文字是大語言模型的主戰場。但另一條線也在快速推進:圖像、音頻、視頻這些生成式AI,已經從玩具走到產品。Midjourney、DALL-E、Stable Diffusion把圖像生成推到大眾面前。Sora把文本生成視頻這件事推到公眾視野。Google的Veo 3又把視頻和音頻一起生成,連對白、環境聲、音樂都放進同一個生成過程里。



這讓我想起90年代的"多媒體"。那個詞今天聽起來有點老,但當年很重要。電腦不再只處理文字和表格,而是開始同時處理圖片、聲音、動畫、視頻。CD-ROM、網頁、游戲、教育軟件,全都在講多媒體。

今天的AI也在走類似方向,只是角色反過來了。90年代的多媒體,是人通過電腦消費更多類型的信息。現在的多模態AI,是模型自己能讀圖、聽聲音、看視頻、理解屏幕,還能反過來生成圖像、語音和視頻。它的工作范圍正在從文本回答,擴展到人類真實使用的軟件和媒體界面。

Computer use就是這個趨勢的另一半。很多現實軟件沒有好用API,只有網頁、按鈕、輸入框、彈窗和桌面應用。過去模型想調用工具,最好有結構化接口。computer use讓模型看屏幕、移動鼠標、敲鍵盤,像人一樣操作舊軟件。OpenAI的Operator、ChatGPT agent,Anthropic的computer use和Claude Code里的桌面操作,都在往這個方向走。

把多模態和computer use合起來看,未來Agent會有更完整的輸入輸出。它能讀合同PDF,看儀表盤截圖,聽會議錄音,生成PPT,操作瀏覽器,甚至剪一段視頻。LLM仍然是中樞,但它周圍會接上視覺、語音、視頻和操作系統界面。模型開始從"會說話"走向"會看、會聽、會點、會做"。

5.4 公司AI提效:從賣token到賣任務

公司為什么突然都在談AI提效?原因不復雜。2023年,企業先把ChatGPT當個人效率工具,寫郵件、寫文檔、總結會議、查資料。2024年,很多公司開始把它接進客服、銷售、研發、法務和內部知識庫。到2025年,Agent和工作流自動化成了流行詞,因為模型終于開始能連續處理多步任務。

McKinsey在2025年的全球AI調查里說,62%的受訪組織已經在實驗AI agents,但接近三分之二還沒有把AI規模化推到全企業。這個數字很真實:大家都在試,但真正改流程很難。Gartner的判斷更激進,它預計到2026年底,40%的企業應用會集成面向具體任務的AI agents,而2025年這個比例還不到5%。

公司提效主要有兩條路。淺的一條是個人效率提升,員工用AI寫、查、總結、翻譯、改代碼。深的一條是決策和流程自動化:客服工單自動分流,銷售線索自動評分,財務異常自動提醒,供應鏈風險自動掃描,研發任務自動拆分。前者提升個人速度,后者改公司運轉方式。

真正值錢的是后者。一個客服少寫幾句回復,價值有限。一個客服系統能自動識別問題、查知識庫、調用訂單系統、生成解決方案、判斷是否升級人工,價值就不一樣了。AI從"幫某個人更快完成一步"走到"讓一整條流程少掉三步",公司才會認真付錢。

商業模式也會跟著變。互聯網時代賣流量和廣告,云計算時代賣算力,基礎模型公司現在主要賣訂閱、API和token。SaaS公司賣席位、模塊和企業合同。到了Agent和工作流自動化階段,錢會流向更靠近業務結果的地方。

這也是為什么咨詢公司、系統集成商和企業軟件公司重新變重要。買一個模型API很容易,真正難的是把公司數據接進去,把權限理清楚,把流程重寫,把安全和審計做好,把員工培訓起來。AI提效經常是一場流程改造,單純買工具解決不了。麥肯錫、埃森哲、德勤這類公司,以及各類垂直行業服務商,都會在這層收錢。

未來還可能出現更多結果計費。收費單位會從token,轉向解決一個工單、生成一個合格銷售線索、完成一次對賬、修好一個bug、交付一份研究報告。這個模式還沒成熟,但方向很清楚:企業最終不想買"模型調用次數",企業想買更低成本、更快速度和更少錯誤。

這里也要潑一點冷水。Gartner在2025年提醒過,很多Agent項目會因為成本高、價值不清、風險控制差而停掉。公司的AI提效不會靠喊口號發生,它需要數據、流程、權限、評測和組織改造一起到位。真正能留下來的Agent,最后要看它能不能在真實流程里穩定省錢,演示做得酷沒有用。

結語

回頭看這八年,大語言模型的發展可以壓成一句話:一個為機器翻譯設計的架構,被一路放大、馴服、商品化,最后變成了軟件世界的新接口。

第一步是架構。Transformer本來只是解決RNN在翻譯里的兩個老問題:串行太慢,長距離關系容易丟。Attention把所有詞之間的關系一次攤開,讓GPU可以并行處理,也讓模型更容易抓住長句里的依賴關系。2017年那篇論文真正打開的,后來成了整個LLM時代的計算底座。

第二步是路線分叉。Google拿encoder做BERT,主攻理解、分類、檢索、問答。OpenAI拿decoder做GPT,押注生成和預測下一個詞。當時看,BERT更像正統NLP,GPT更像文字接龍。GPT-3之后,這個判斷反過來了:只要模型足夠大,生成能力會吃掉很多原本被認為需要專門設計的任務。

第三步是規模。GPT-3證明了一個反直覺事實:很多能力不需要逐項手寫規則,也不需要每個任務單獨訓練,規模上去之后,模型會出現in-context learning這樣的新行為。但規模不是一句“大力出奇跡”就完事。Megatron、GPipe、ZeRO、FlashAttention、KV cache、量化這些工程積累,才讓大模型真的訓得動、跑得起、用得上。

第四步是對齊。GPT-3很強,但不好用。InstructGPT和ChatGPT解決的是另一個問題:模型怎么聽人話、按指令做事、少胡來。RLHF把人類偏好塞進訓練流程,Anthropic的Constitutional AI又證明,對齊不一定只能靠海量用戶反饋。預訓練給模型知識,后訓練把模型調成一個可以被普通人使用的產品。

第五步是生態。ChatGPT爆紅之后,閉源和開源很快分成兩套系統。OpenAI、Anthropic、Google、xAI把模型做成云服務、App和API,拼的是算力、產品、分發和企業銷售。Meta、Mistral、DeepSeek、Qwen這些開源或開放權重路線,把模型變成開發者和企業可以本地部署、微調、私有化的基礎設施。今天的大模型競爭,早就超出了benchmark分數,開始比一整套產業組織能力。

第六步是效率。Chinchilla提醒大家,參數不是唯一尺度,數據也要跟上。MoE提醒大家,模型可以有很大總容量,但每次只激活一部分。DeepSeek、Qwen、Mistral這些玩家能快速追上來,靠的不只是“追隨前沿”,也靠更會算賬:同樣的算力預算,怎么訓得更久、喂得更準、跑得更便宜。

第七步是新scaling軸。o1之后,推理時算力變成新的變量。過去主要在訓練階段砸錢,訓出一個盡量強的模型;現在遇到數學、代碼、科學題,還可以在回答階段多花算力,讓模型多試幾條路、多檢查幾次。DeepSeek R1、Gemini Thinking、Claude extended thinking,都在說明這條路已經不屬于一家公司的獨門技巧。

第八步是系統化。RAG、長上下文、memory、tool calling、MCP、harness engineering,這些詞看起來雜,其實都在回答同一個問題:模型怎么進入真實工作流。RAG讓模型查企業知識庫,長上下文讓它一次讀更多材料,memory讓它跨任務記住背景,tool calling讓它調用系統,harness讓它在權限、日志、評測和回滾里運行。模型開始從“會回答問題”變成“能嵌進軟件系統里做事”。

所以這篇文章最后落到Agent,原因很簡單:它把前面所有線索都收在了一起。沒有強模型,Agent只會胡說。沒有RAG和長上下文,它不知道該看什么。沒有工具調用,它只能寫建議,不能執行動作。沒有harness,它進不了生產環境。沒有業務流程改造,它也省不下真錢。

這也是為什么2025年之后,競爭重心開始從模型競賽移到應用競賽。基礎模型公司往應用層走,SaaS公司往Agent化走,咨詢公司和系統集成商重新變重要。企業最終不會為“更會聊天”長期付高價,企業愿意為更低成本、更快流程、更少錯誤付錢。

模型能力當然還會繼續漲,但邊際收益正在變小。更大的空間,可能在系統層:怎樣把一個模型、幾個小模型、外部工具、知識庫、業務系統和人類審批組合成穩定流程。過去十年,AI工程的主角是“訓練一個更強的模型”。接下來幾年,主角會越來越像“圍繞模型搭一套能交付結果的系統”。



這篇文章主要講LLM,因為文字是Transformer這條線最清楚的主戰場。圖像和視頻還有另一條技術史,擴散模型撐起了Midjourney、Stable Diffusion、DALL-E、Sora這一路;音樂和語音也有自己的路線。它們正在和LLM匯合到多模態AI里,但如果展開講,就已經是另一篇文章。

今天的大語言模型還遠沒有定型。它像早期互聯網,也像早期云計算:底層技術還在變,商業模式還在試,泡沫和真需求混在一起。但有一點已經很清楚,LLM不會只是一類聊天產品。它更像一層新的軟件抽象,往下接數據、工具和算力,往上接人、流程和公司決策。

這就是過去八年真正發生的事:語言模型從一個會續寫文本的神經網絡,變成了一個可以被調用、被約束、被組合、被部署的通用計算零件。它還不穩定,也不便宜,更談不上萬能。但它已經足夠強,強到整個軟件工業都必須圍著它重新排一遍位置。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
保姆給中風父親洗澡,每次都要兩小時,我打開監控一看,果斷報警

保姆給中風父親洗澡,每次都要兩小時,我打開監控一看,果斷報警

千秋文化
2026-05-27 20:02:00
中國體育彩票官方App沖至蘋果App Store免費App第4名

中國體育彩票官方App沖至蘋果App Store免費App第4名

懂球帝
2026-06-12 22:38:25
非法持槍案18年后再審新增認定67歲農場主故意殺人成立,防衛辯解未獲采信

非法持槍案18年后再審新增認定67歲農場主故意殺人成立,防衛辯解未獲采信

澎湃新聞
2026-06-13 11:06:30
“罵我孩子的難聽話都沒法形容”,“割四賠五”風波后,00后農機手困在網暴里

“罵我孩子的難聽話都沒法形容”,“割四賠五”風波后,00后農機手困在網暴里

鳳凰網財經
2026-06-12 19:36:34
退休后才明白:那些漸漸不聯系的老同事、老同學,不是感情淡了,

退休后才明白:那些漸漸不聯系的老同事、老同學,不是感情淡了,

小影的娛樂
2026-05-26 12:05:27
一場1-1,讓卡塔爾尷尬了!球迷熱議:中國申辦世界杯,需慎重

一場1-1,讓卡塔爾尷尬了!球迷熱議:中國申辦世界杯,需慎重

歷史膠囊
2026-06-13 09:48:23
阿什拉夫:有人稱我們是非洲的巴西隊,這場雙方實力五五開

阿什拉夫:有人稱我們是非洲的巴西隊,這場雙方實力五五開

懂球帝
2026-06-13 05:44:26
醫生發現:從不癡呆的老人,基本在63歲,就已經不做這7件事了!

醫生發現:從不癡呆的老人,基本在63歲,就已經不做這7件事了!

岐黃傳人孫大夫
2026-06-07 09:50:07
綠營議員叫囂“臺灣不屬于中國”,遭全場痛罵,臺媒說了句實話

綠營議員叫囂“臺灣不屬于中國”,遭全場痛罵,臺媒說了句實話

薛小榮
2026-06-13 10:14:27
重點說說康斯坦丁諾夫卡戰況

重點說說康斯坦丁諾夫卡戰況

名人茍或
2026-06-13 13:57:25
世界杯:巴西vs摩洛哥 澳大利亞vs土耳其

世界杯:巴西vs摩洛哥 澳大利亞vs土耳其

足球賽事交流解析
2026-06-13 10:00:12
謝娜演唱會越扒越有!眾星被拉下水,主辦方黑料被扒,果然有貓膩

謝娜演唱會越扒越有!眾星被拉下水,主辦方黑料被扒,果然有貓膩

離離言幾許
2026-06-13 15:02:56
北所羅門共和國,一個即將誕生在2027年的全球最年輕國家

北所羅門共和國,一個即將誕生在2027年的全球最年輕國家

夢史
2026-06-09 19:42:10
如今來看,馬斯克"安插"在中國的秘密武器,已經見效了!

如今來看,馬斯克"安插"在中國的秘密武器,已經見效了!

無情有思可
2026-06-13 06:07:35
胰島“禍首”被揪出!是白糖的六倍,醫生:吃得越多,血糖越失控

胰島“禍首”被揪出!是白糖的六倍,醫生:吃得越多,血糖越失控

醫學科普匯
2026-06-11 21:20:08
“最佳心率”是多少?建議:過55歲以后,心率最好保持這個標準

“最佳心率”是多少?建議:過55歲以后,心率最好保持這個標準

王二哥老搞笑
2026-06-13 13:49:04
莫斯科突發炸彈攻擊!俄羅斯彈藥主管達維多夫遇襲身亡

莫斯科突發炸彈攻擊!俄羅斯彈藥主管達維多夫遇襲身亡

項鵬飛
2026-06-10 21:54:02
福克斯:我們見證過1-3落后的逆轉 依然堅信自己能贏

福克斯:我們見證過1-3落后的逆轉 依然堅信自己能贏

北青網-北京青年報
2026-06-13 10:20:39
7月起新規落地:50、55歲還在上班的人,加班、社保、辭退全變了

7月起新規落地:50、55歲還在上班的人,加班、社保、辭退全變了

細說職場
2026-06-13 12:19:31
世界杯唯一中超球員登場:這棵獨苗,撐起中超最后排面

世界杯唯一中超球員登場:這棵獨苗,撐起中超最后排面

寶哥精彩賽事
2026-06-13 03:25:40
2026-06-13 16:04:49
知識圈 incentive-icons
知識圈
全球熱點新聞資訊
247文章數 317688關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

南博會商品現涉黃二維碼 網友稱掃碼會跳轉至色情網站

頭條要聞

南博會商品現涉黃二維碼 網友稱掃碼會跳轉至色情網站

體育要聞

東道主三戰不敗!美墨開門紅加拿大零的突破

娛樂要聞

12年情懷碎一地!跑男接連翻車

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

阿維塔概念車重慶車展亮相 阿維塔07L將于三季度發布

態度原創

時尚
本地
親子
旅游
家居

讓女明星排隊道歉,是內娛的恥辱

本地新聞

AK劉彰邂逅河北南大港濕地

親子要聞

生源減少 6.61 萬 !招生季又迎來南通2所幼兒園關門…

旅游要聞

夏天就該這樣過!大別山的夏天,從霍山大峽谷漂流的第一聲尖叫開始。

家居要聞

空間微調 移形換境

無障礙瀏覽 進入關懷版