網易首頁 > 網易號 > 正文申請入駐

AI 沒書可讀之后，兩個 AI 教父賭上了相反未來

2026-07-01 11:04:10　來源: 鈦媒體APP

北京舉報

分享至

文 | wiwi

一家公司尚未發布公開產品,估值卻已經達到 320 億美元。

創始人是伊利亞·蘇茨克維(Ilya Sutskever)——OpenAI 聯合創始人、前首席科學家,也是過去十年大模型浪潮中最關鍵的技術人物之一。他創辦的公司叫 Safe Superintelligence,字面意思是"安全的超級智能",簡稱 SSI。他放話說,"在做出真正安全的超級智能之前,我們什么都不會發布。"2025 年,SSI 被曝完成 20 億美元融資,估值達到 320 億美元——投資人顯然真的愿意等。支撐這場等待的,是他的一個判斷:數據是有限的,互聯網只有一個,預訓練這條老路已經走到頭了——2020 到 2025 年靠堆算力吃飯的"規模化時代"結束了,2026 年開始,得靠算法創新另開一條路。

幾乎同一時間,另一個人在干一件相反的事:離開自己在 Meta 積累了 12 年的研究位置,頂著深度學習三大教父之一的名頭出去融資,拿到 10.3 億美元——投前估值 35 億美元,被稱為歐洲最大規模種子輪之一。他是楊立昆(Yann LeCun)。他不是說大語言模型沒有用,而是認為它們不足以通向人類級智能,頂多算個"信息檢索系統"。他押的答案是"世界模型"——AI 不靠讀文字,靠看視頻、靠和真實世界互動來學習。在他離開前后,Meta 的 V-JEPA 2 已經拿出過這條路線的早期證據:模型先從大規模視頻中學習世界表征,再用約 62 小時機器人數據進行后訓練,隨后在真實機械臂上完成了零樣本的抓取與放置任務。

一個不肯發產品,一個認定現在這條技術路線走不到終點。兩人都曾站在同一陣營里最顯眼的位置,現在卻在"AI 沒書可讀之后,下一步該怎么學"這個問題上,真金白銀地下了完全相反的注——這不是兩個科學家的口水戰,而是后語料時代最核心的路線分歧。

分歧的起點,是同一個事實。過去幾年,大模型像一個瘋狂讀書的學生,把互聯網上能找到的文章、論文、代碼、帖子、問答、網頁幾乎都讀了一遍。讀得越多,它越會寫、越會答、越會編程,也越像一個什么都懂的"全能助手"。但 Epoch AI 的一份研究估算,公開可用的高質量人類文本語料,大概率會在 2026 到 2032 年之間被現有訓練方法"用完"——繼續靠讀更多網頁變強這條路,正在肉眼可見地走到盡頭。

更麻煩的是,現在網上越來越多內容本身就是 AI 寫的。新聞評論、產品文案、社交媒體帖子、營銷文章、代碼片段、問答內容,都可能來自 AI。于是,一個擔心開始流行:AI 會不會只能吃自己吐出來的東西,越學越差,最后把自己"喂壞"?

這個擔心不是沒道理。2024 年發表在《自然》上的一項研究(Shumailov 等人,《AI models collapse when trained on recursively generated data》)把這種現象稱為"模型崩潰":如果模型不斷學習低質量的 AI 生成內容,錯誤、偏見和失真就可能被一輪輪放大,最后輸出越來越平庸,越來越不像真實世界。沒有反饋的自我學習,是回聲室;有反饋的自我學習,才是訓練場。

聽起來,這像是大模型的宿命:先學完人類,再開始啃自己,最后走向退化。但過去兩年的現實并沒有這么簡單——OpenAI 的 o1、o3,以及 DeepSeek-R1,這批會"思考"的推理模型正在變強。按公開的技術報告,它們走的都是強化學習、可驗證任務這條路線,某種程度上確實是在用"AI 自己生成、又被驗證過"的數據訓練自己。同樣是"AI 學 AI",為什么一種可能把模型喂壞,另一種卻能讓模型變強?

差別不在于內容是不是 AI 生成的,而在于有沒有辦法判斷它到底對不對、有沒有用。Sutskever 和 LeCun 看似押了兩個相反答案,其實都在尋找同一樣東西:一個能讓 AI 從試錯中繼續進化的"裁判"。

AI 沒有學完人類知識,只是快讀完了容易抓取的那部分

"AI 學完互聯網"這個說法很有沖擊力,但并不準確。AI 學到的,主要是人類已經寫下來、能被抓取和訓練的那部分內容。文章、論文、代碼、網頁,都是人類知識的影子,不是知識本身。很多真正重要的經驗,從來沒有被完整寫下來:醫生怎么從病人狀態里發現異常,工程師怎么判斷系統會不會出事故,創業者怎么判斷產品方向是不是跑偏,這些很難變成一篇文章,也很難直接喂給模型。

所以,高質量語料變少,真正說明的不是"AI 沒東西可學了",而是只靠讀網頁、讀文章來提升能力,已經越來越不夠了。AI 下一步要學的,不只是知識,而是經驗。

推理模型:Sutskever 路線,靠確定性裁判

要理解 Sutskever 這條路線怎么運作,可以先看一個更簡單的例子:下棋。

AlphaZero 當年震驚行業的地方,不是棋力強,而是它變強的方式。它不靠背人類棋譜,而是先知道游戲規則,然后自己和自己下棋,下贏了強化這條路,下輸了調整策略。這里最關鍵的不是"沒有人類數據",而是棋盤會告訴它輸贏——它有一個不會撒謊的裁判。沒有裁判,系統只是亂試;有了裁判,亂試才會變成經驗。沒有驗證的 AI 數據,是污染;被驗證過的 AI 經驗,才是燃料。

推理模型沿用的就是這套邏輯。過去的大模型更像一個讀了很多書的人,你問它問題,它根據讀過的內容生成一個看起來合理的答案——很會說,但不一定真能把問題一步步做對。推理模型則更像一個會做題的人:面對數學題、代碼題、邏輯題,它可以嘗試多條路徑,生成不同解法,再根據結果篩選,業內把這種訓練方式叫作"可驗證獎勵強化學習"(RLVR)——算對的留下,算錯的丟掉;代碼能跑通的留下,跑不通的淘汰。

這些任務,清一色活在確定性裁判的地盤里:代碼能不能編譯通過,數學定理證不證得出來。這種裁判的反饋客觀、瞬時、幾乎零成本,模型幾毫秒內就能拿到一個非黑即白的對錯信號,可以在機器里瘋狂自我對弈幾百萬次。這是 Sutskever 這條路線現在能跑通的地基,也是他那句"預訓練時代終結"的下半句——他沒說 AI 會停止變強,只是說變強的方式要換了。數據見底,不等于進步見底。

當然,這不意味著模型真的像人一樣理解世界。換句話說,它是在一些可以判斷對錯的任務里,找到了一種更有效的進步方法,數學、代碼、規則清晰的任務,是最先受益的地方——至于那些沒有標準答案的問題,推理模型暫時還碰不到。

所以,推理模型不是萬能鑰匙。它最先改變的,是那些可以被清楚驗證的領域——擅長解決一切能被編譯成代碼或形式邏輯的問題,天花板是"所有能用規則窮舉驗證的智能"。這條路更接近一門幾何學,公理擺在那里,對錯有標準。

世界模型:LeCun 路線,把真實世界變成裁判

LeCun 押注的是另一件事:很多真正重要的智能,規則寫不出來,只存在于物理世界和人類共識里,這條路更接近一門物理學——規律要從現實里一點點觀測出來。

互聯網文本是有限的,但世界本身不是。從自動駕駛的道路數據,到機器人在工廠、倉庫、家庭里的交互數據,再到實驗室自動化、工業設備運行產生的傳感器數據,以及仿真系統不斷模擬生成的訓練經驗——這些都不是傳統意義上的"網頁內容",但同樣可以成為 AI 學習的來源。這也是世界模型、具身智能這些方向受到關注的原因:讓 AI 不再只學習人類寫下來的東西,而是從和環境的互動中獲得新經驗。

他押的"世界模型",本質是把物理定律本身變成一種硬裁判:預測一個球往哪兒滾,違反物理規律會被現實當場打臉,這一點和確定性裁判一樣干脆。但再往上一層——審美、常識、價值判斷——物理定律管不到,這些問題活在模糊性裁判的地盤里:反饋主觀、滯后、有成本,還充滿噪聲,同一件事十個人能給出十種判斷。最終還是要靠人來當裁判。

這條路還很早。比如人形機器人,Figure、特斯拉 Optimus 這類項目目前最大的瓶頸之一,就是真實世界的交互數據采集成本極高——一臺機器人跑一天積累的有效數據,可能遠不如一段代碼跑一次測試來得便宜、來得干凈。世界模型距離真正理解物理世界,也還有很長距離。

但方向已經很清楚:AI 下一步要學的,不只是互聯網上的文字,而是現實世界里的因果、行動和反饋。

真正的分水嶺:誰擁有反饋,誰擁有裁判

Sutskever 和 LeCun 的賭注方向相反,但背后指向同一個判斷:誰能擁有更好的裁判,誰就能讓 AI 繼續進化。過去,AI 公司最想要的是更多數據,誰拿到更多高質量文本,誰就可能訓練出更強的模型;但現在,問題變了——互聯網上的文本越來越多,也越來越雜,真正稀缺的不只是數據本身,而是判斷數據有沒有用的能力,也就是裁判,不管它是確定性的標準答案、測試用例,還是模糊性的用戶反饋、任務結果。

這會改變 AI 競爭的重點。過去,模型公司拼的是算力、算法和訓練數據;未來,這些仍然重要,但還不夠——誰能拿到更多真實任務反饋,誰就更可能讓模型繼續進化。

這也是為什么 Agent(智能體)會變得重要。普通聊天機器人回答的是問題,Agent 要完成的是任務。回答一個問題,可以主要靠讀過的內容;完成一個任務,則必須進入真實環境。比如,一個 Agent 幫用戶訂票,不是只寫一段建議,而是要查航班、比較價格、完成預訂;一個 Agent 幫程序員寫代碼,要運行測試、修復報錯、提交結果。在這個過程中,AI 會留下完整的任務軌跡:用戶想做什么,模型怎么拆解,哪里出錯,怎么修正,最后有沒有完成——這種數據比普通網頁更有價值,因為它不只是記錄"人類說過什么",而是記錄"一個任務是怎么被完成的"。

未來 AI 競爭,很可能不再只是看誰擁有最多網頁,而是看誰擁有最多真實任務閉環。任務在哪里發生,反饋就在哪里產生;反饋在哪里積累,AI 就在哪里繼續變強。

應用公司的機會:場景反饋才是護城河

對大多數 AI 創業者來說,這場"要裁判"的變化,反而讓機會變得更清晰。

通用大模型訓練已經不是普通創業公司能參與的游戲。算力、人才、數據和資金門檻都太高,創業者很難再靠自己訓練一個通用大模型,去和 OpenAI、Google、Anthropic、DeepSeek 這些公司正面競爭。

但這不代表 AI 應用沒有機會。恰恰相反,機會正在從"誰有大模型"轉向"誰更懂具體場景"。因為大模型公司擁有通用能力,但不一定擁有每個行業里的真實反饋——它們知道法律合同大概怎么寫,卻不一定知道哪些條款真的會被律師改掉;知道教育題目怎么講,卻不一定知道學生為什么總在同一個地方犯錯。

這就是 AI 應用公司的機會。一個 AI 產品真正值錢的地方,不是界面做得多漂亮,而是它能不能知道用戶最后有沒有真的解決問題。如果一個 AI 法律工具只是生成合同,很容易被替代;但如果它能持續記錄律師修改了哪些條款、哪些表達減少了爭議,它就開始擁有自己的行業反饋。如果一個 AI 教育工具只是講題,也很容易被大模型覆蓋;但如果它能知道學生每一次錯在哪里、什么練習能真正提高掌握率,它就有了自己的數據閉環。

這些東西,才是未來 AI 應用公司的護城河。模型能力會越來越便宜,今天看起來很驚艷的功能,明天可能就變成基礎設施。這也是為什么"套殼應用"越來越危險——如果一個產品只是把通用模型包了一層界面,它的價值會隨著模型升級被不斷壓縮。

AI 應用的價值,會從"生成內容"轉向"完成結果"。誰能定義結果,誰才可能拿回定價權。

不是所有問題,都有標準答案

不過,裁判也不是請到就能用。

數學題有答案,代碼能不能運行也能測試,圍棋有輸贏,廣告投放有轉化數據。這些都是確定性裁判說了算的領域,所以 AI 可以更快通過試錯變強。

但很多真實問題,從頭到尾都活在模糊性裁判的地盤里:一篇文章寫得好不好,一個產品方向值不值得做,一個商業判斷是否正確。這些問題沒有唯一答案,也沒有一個系統能立刻告訴你"對"或"錯"。用戶點擊了,不代表內容真的有價值;轉化率提高了,不代表策略長期健康——模糊性裁判給出的反饋,本身就可能是錯的、滯后的、被操縱的。

所以,AI 的自我進化不會均勻發生:確定性裁判說了算的地方跑得快,模糊性裁判說了算的地方——審美、價值判斷、商業決策、人際溝通——還是離不開人的判斷。這也是為什么人類不會在這個過程中變得不重要。恰恰相反,越是進入真實任務時代,人類作為最終極的模糊性裁判,標準、判斷和價值觀就越重要。

AI 可以更快地探索可能性,但它未必知道哪一種可能性值得追求。

結語:Sutskever 和 LeCun,可能都沒說錯

回到開頭那場爭論。Sutskever 說數據見底、預訓練要終結,LeCun 認為大語言模型不足以通向人類級智能——兩個人吵的,根子上是在賭兩種不同的裁判。

Sutskever 賭的是確定性裁判能覆蓋的范圍有多大:只要一個問題能被編譯成代碼、寫成形式邏輯、化簡成規則,AI 就能在自我對弈里瘋狂進化。SSI 不發產品也敢拿 320 億估值,賭的就是這套方法論的天花板足夠高。o1、o3、DeepSeek-R1 至少證明了一件事:在數學、代碼這類可驗證任務上,模型確實可以通過強化學習和自我試錯繼續提升。LeCun 賭的是另一件事:很多真正重要的智能,規則寫不出來,只存在于物理世界和人類共識里,世界模型只是第一步,AMI Labs 10.3 億美元種子輪買的是這張更長期的船票。

一個解決的是"近兩三年,數據不夠用了怎么辦";一個解決的是"讀完文字之后,智能的天花板到底在哪"。兩條路不是對立的選項,更像是同一條進化路徑上的兩段接力:確定性裁判先把能窮舉的智能吃干凈,剩下的硬骨頭,遲早要交給模糊性裁判,或者干脆把物理世界本身變成裁判。

硅谷的錢已經替這場爭論投了票:一邊愿意為"近期答案"付 320 億美元,一邊愿意為"終局答案"付 10 億美元的起步價。兩頭下注,恰恰說明這兩條路誰也沒法單獨取代誰。

說到底,AI 學完互聯網之后,下一步靠什么進化?答案不是繼續無限讀網頁,也不是吃自己的內容然后慢慢崩潰。更準確地說,AI 正在從一種學習方式走向另一種學習方式:過去靠閱讀人類留下來的內容變強;接下來,會更多靠做題、寫代碼、完成任務、進入環境、接受反饋來變強。

這就是后語料時代的真正變化。模型公司要爭奪更好的反饋,平臺公司要爭奪任務入口,應用公司要爭奪真實場景,創業者要把用戶結果變成可以積累的數據閉環。

人類知識被"學完"不是故事的結束。它只是意味著,AI 終于走到了靠模仿無法輕松繼續變強的地方。下一步,它要學的是更難的東西:如何行動,如何試錯,如何接受反饋,如何在真實任務里形成經驗。

至于它能走多遠,要看我們能為多少領域,造出那個能判斷對錯、衡量結果、連接現實的"裁判"。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.