![]()
新智元報道
![]()
【新智元導讀】DeepMind研究員深夜爆料:OpenAI的Scaling Law原始論文竟有致命bug!全球AI白白燒掉萬億算力,GPT-3其實嚴重「虛胖」。
OpenAI誤導了整個AI圈好幾年!
過去五年,整個AI行業都被Scaling Law推著往前沖。
奧特曼堅信AGI的底氣就來自這條曲線。
現在,有人站出來說:這條曲線,一開始就錯了。
不是事后諸葛。說這話的,是當年就在OpenAI做大模型優化的研究員Diogo Almeida。
剛剛,他發出一篇博客,標題冷得發指——《Scaling Laws, Honestly》。
開頭一句直接把話說死:最初那版scaling law是錯的,因為存在一個bug。
![]()
傳送門:https://www.completeskeptic.com/p/scaling-laws-honestly
DeepMind那位以擴散模型封神的Sander Dieleman,轉頭就在推特上把它頂了上去,說這是一段有意思的LLM往事:
原始scaling law因為一個bug而錯了,大概率害得業界在一堆「體量過大、訓練不足」的模型上,白白燒掉了海量算力。
![]()
一個bug,燒掉兩年。
當bug被撕開,我們看到的,不僅是算力的黑洞,更是一條被語言本身重塑的、遠比想象中更深刻的智能邊界。
Scaling Law竟是LLM版「地心說」
2020年,OpenAI給出結論:在固定的算力預算下,你應該優先把模型做大,而不是拿更多數據去喂它。
用公式說,最優參數量正比于算力的0.73次方——參數,是那個更該猛沖的變量。
![]()
這句話,直接定義了GPT-3那一代的長相。堆參數。往死里堆。1750億。
它告訴全世界的開發者:別問,問就是堆參數;只要你把模型做得足夠大,神跡就會發生。
兩年后,DeepMind甩出Chinchilla,把這個結論掀了個底朝天:模型和數據,應該差不多同等重要地一起放大,大約每個參數配20個token才劃算。
![]()
他們訓了一個700億參數的Chinchilla,喂了1.4萬億token——體量不到GPT-3的一半,數據是它的四倍多。
結果,同樣的算力預算,全面反超2800億參數、卻只喂了3000億token的Gopher。
翻譯成人話:同樣一筆錢,一個把它養成了"虛胖"的壯漢,一個把它練成了精瘦的拳手。
拖更三年,北大校友翁荔深入探討了后續研究中對兩者差異的主流解釋,即差異在于他們計算參數總數的方式。
![]()
而這還沒完。就連「正確」的那個Chinchilla,自己也不干凈。
2024年,Besiroglu等人把Chinchilla原文的數據點扒出來重跑,發現它自己那套擬合里也藏著bug:
優化器里的loss尺度設得過高,把Huber損失按樣本求了平均、而不是求和,導致擬合過早終止。
![]()
糾正bug的論文,自己帶著另一個bug。
到這兒,那句被無數人掛在嘴邊的「第一性原理」,忽然有點站不住了。
所謂Scaling Law,從來就不是牛頓三定律那種鐵打的物理規律,它只是一條經驗擬合出來的曲線。
![]()
當Diogo Almeida認為真相并非如此,不是方法不一樣,「是最初那版scaling law本身有個bug。」
OpenAI三招騙了全球AI同行?
要制造一個讓全球AI集體相信的謊言,只需要三步。
第一步:囚禁數據。
OpenAI論文給所有模型——不管它是還在學習走路的孩子(小模型),還是已經長成巨人的模型,喂了完全相同的「飯量」。大約130B tokens數據。
小模型因此被「喂飽」甚至「撐到」,而真正需要海量數據來填滿其容量的大模型,卻在同一token預算下嚴重營養不良。
![]()
![]()
Chinchilla論文后來一針見血地指出:他們對所有模型使用了「對所有模型使用了固定的訓練Token數和學習率調度方案。」(fixed number of training tokens and learning rate schedule)。
![]()
這就像讓幼兒園小朋友和博士生用同一張試卷、同一時間考試,然后宣稱「成績只與天賦有關」。
第二步:掩耳盜鈴的LR衰減。
他們使用了余弦學習率衰減(Cosine Decay),讓學習率在訓練接近終點時平滑地趨近于零。
![]()
訓練快到預設的終點時,學習率被人為地一點點摁到零,模型的進步自然就「平」下來了。
曲線一走平,看上去就像:這模型已經學到頭了,再喂也沒用了。
研究者們于是得出結論:「加數據沒用了,模型已經飽和。」
這不是模型的極限,這是學習率把模型的成長之路人為掐斷。它制造出一種完美的假象:性能已經到達天花板,再加數據也無用。
可我們現在知道,那些大模型根本沒到頭。
第三步:權威的傲慢。
第三步,也是最陰的一步:論文里寫了一句,結果「基本不受學習率曲線影響」(largely independent of learning rate schedule)。
![]()
雖然包括當時在OpenAI的Diogo Almeida的不少人都隱約感覺到不對勁,但在固定token上限下,這個結論技術上正確。
可它偏偏不適用于scaling law真正想描述的那個「數據無限」的理想世界。
他們把有限條件下的局部真理,當成了普適的宇宙法則。
三步疊在一起,你就得到了一條既錯、又極難debug的定律。
連Diogo自己都承認:當年他也在OpenAI做優化,也沒看出這個bug——那條學習率曲線看著太像是「精心設定」的了,誰會去懷疑呢。
GPU被白白浪費
算力錯配嚴重
受OpenAI錯誤公式的指引,AI行業進入了「大力出奇跡」的時代。
這意味著在過去的幾年里,全球最聰明的頭腦、最稀缺的算力,都浪費在了無效的規模擴張上。
這不僅僅是錢的問題,這是在通往AGI(通用人工智能)的生死時速中,人類因學習率設置,集體在錯誤的跑道上狂奔了數千公里。
如果說Bug的發現讓人心痛,那么隨后引出的深度反思則讓人不寒而栗。
研究者Adam Zachary Wasserman指出了一個被所有人忽略的盲點:即便公式修正了,目前的Scaling Law也只是「英語Scaling Law」。
![]()
他做了一個反直覺的實驗:用同樣的架構、同樣的算力訓練模型。
結果發現,法語模型達到某種語法能力的效率,竟然比英語模型高出50到100倍。
![]()
為什么?因為英語是一種「形態貧乏」的語言。
它太依賴分布規律,需要模型在海量數據中去猜詞義;而像法語、中文這種形態豐富或結構嚴密的語言,在詞匯本身就帶有大量明確信息。
![]()
這意味著,我們現在所有的算力配比方案,都是基于一種最「吃數據」、最低效的語言制定的。
當你以為你在探索「通用智能」的物理定律時,你其實只是在測量「英語這門語言有多浪費算力」。
這就像是你試圖通過研究一頭豬的胃口來制定全宇宙生物的營養標準——這不僅是偏見,更是認知的局限。
我們本可以用更小的模型、更多的優質數據,實現更強的性能。
我們本可以節省下數以萬計的H100運行時的電力和熱量。
我們本可以提前兩年進入「高效AI」時代。
參考資料:
https://www.completeskeptic.com/p/scaling-laws-honestly
https://lilianweng.github.io/posts/2026-06-24-scaling-laws/
編輯:大衛
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.