无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI推理成本暴降!伯克利新法將15步訓(xùn)練縮至4步,準(zhǔn)確率仍達(dá)100%

0
分享至

玩AI的朋友最近一年估計(jì)都被推理成本搞瘋了。要解決數(shù)學(xué)、代碼這種燒腦題,就得用帶慢思考的大模型,結(jié)果模型思考一步就要生成一堆token,這些token都是算出來的草稿,看得見,但是貴到肉疼。一道復(fù)雜數(shù)學(xué)題,光思考過程耗的計(jì)算資源,都是普通對話的十倍往上,誰頂?shù)米“ ?/p>



現(xiàn)在業(yè)內(nèi)所有人都在想辦法壓低推理成本,可只要思維鏈那一堆中間步驟還得一個(gè)個(gè)生成token,那延遲就降不下根子來。畢竟前一步?jīng)]出結(jié)果,后一步根本開始不了,推理鏈多長,你就得等多久,這是架構(gòu)層面的問題,不是調(diào)調(diào)參數(shù)就能糊弄過去的。

那能不能讓模型把草稿藏在自己腦子里,不輸出中間步驟,還能保留原來的推理能力呢?這不,來自加州伯克利和普林斯頓大學(xué)的研究團(tuán)隊(duì),真就朝著這個(gè)方向搞出了關(guān)鍵突破,還從數(shù)學(xué)上嚴(yán)格證明了這個(gè)方法真的管用。

要明白這個(gè)新方法牛在哪,得先搞懂原來的顯式思維鏈為啥這么費(fèi)錢。舉個(gè)很簡單的例子,你教學(xué)生做多位數(shù)乘法,一種方法是讓孩子把每一步運(yùn)算都寫在紙上,算完個(gè)位算十位,最后再加起來,每一步都清清楚楚方便檢查。另一種方法就是讓孩子在心里面算完,直接給你最終答案,所有中間過程都不用寫出來省時(shí)間。



放到大模型身上,這個(gè)差別就直接體現(xiàn)在花錢多少和等待時(shí)長上。原來的顯式思維鏈,推理有多少步就要輸出多少個(gè)額外token,這些token還得嚴(yán)格按照順序一個(gè)個(gè)生成,現(xiàn)在好用點(diǎn)的推理模型,動不動就是幾百上千個(gè)中間token,算下來能不貴嗎。隱式思維鏈的思路,就是讓模型把中間步驟全內(nèi)化到自己的隱藏狀態(tài)里,推理的時(shí)候只輸出最終答案,不用多花一毛錢在中間token上。

其實(shí)隱式思維鏈這個(gè)想法好幾年前就有人提了,之前的老方法得一步步把中間token藏起來,15步推理就得搞14個(gè)訓(xùn)練階段,訓(xùn)練開銷直接跟著推理鏈長度成正比漲,太不劃算。更尷尬的是,沒人能說清這個(gè)方法為啥會有效,也沒法保證它做出來的效果和原來的顯式思維鏈一模一樣,一直就是個(gè)碰運(yùn)氣的玄學(xué)技巧。



這次伯克利團(tuán)隊(duì)搞出來的Log-ICoT,最核心的突破就是摸到了思維鏈的本質(zhì)結(jié)構(gòu)。說白了,任何多步推理的思維鏈,拆開來都是一棵樹,就拿16步推理來說,拆完就是一棵深度為4層的二叉樹,從最底層的輸入節(jié)點(diǎn)一層層往上算,到根節(jié)點(diǎn)就是最終答案。老方法一次只藏一個(gè)步驟,完全浪費(fèi)了這個(gè)天然結(jié)構(gòu),新方法直接一次藏掉整層,原來15個(gè)訓(xùn)練階段直接壓縮成4個(gè),剛好對上Transformer本身的分層結(jié)構(gòu),每一層模型剛好負(fù)責(zé)處理樹的一層,完美適配。

不光訓(xùn)練效率提了飛起,這還是學(xué)術(shù)界第一個(gè)給隱式思維鏈做了嚴(yán)格數(shù)學(xué)證明的工作。團(tuán)隊(duì)用理論計(jì)算機(jī)科學(xué)經(jīng)典的k-奇偶校驗(yàn)問題做測試,最終證明了L層的Transformer用Log-ICoT訓(xùn)練,只需要log?k個(gè)訓(xùn)練階段,推理的時(shí)候不用輸出任何中間token,就能做到和顯式思維鏈一樣的準(zhǔn)確率,樣本復(fù)雜度完全沒有上漲。



研究過程里還搞定了兩個(gè)繞不開的技術(shù)難題,第一個(gè)是表示坍縮,就是Transformer堆多了層之后,不同位置的向量表示會慢慢趨同,梯度直接沒了信號。團(tuán)隊(duì)設(shè)計(jì)了門控連接,每層只激活對應(yīng)樹層級的位置,剩下的全部關(guān)閉,梯度剛好精準(zhǔn)用在該處理的任務(wù)上,不會平白浪費(fèi)消失。第二個(gè)難題是誤差傳播,早期訓(xùn)練的一點(diǎn)點(diǎn)小誤差,經(jīng)過多階段放大之后會直接毀掉整個(gè)結(jié)果,團(tuán)隊(duì)的解決辦法也很巧妙,每次梯度更新完把注意力權(quán)重量化成最近的整數(shù),直接把訓(xùn)練好的部分鎖死,誤差根本傳不下去。

后續(xù)做的真實(shí)實(shí)驗(yàn)結(jié)果,也完全貼合之前的理論預(yù)測。團(tuán)隊(duì)用k=16也就是4個(gè)訓(xùn)練階段做測試,第一階段開放完整思維鏈,損失很快就掉到接近零。之后每一個(gè)階段都藏掉一半的思維鏈位置,損失會短暫出現(xiàn)一個(gè)小尖峰,剛好對應(yīng)模型在消化新藏起來的步驟,很快就又回落下去。等到四個(gè)階段全部結(jié)束,所有思維鏈位置都被藏起來,模型只拿到原始輸入,驗(yàn)證集準(zhǔn)確率直接沖到了100%。

就連注意力權(quán)重的分布,都剛好和理論分析的一模一樣。第一層注意力就盯著樹第一層的輸入節(jié)點(diǎn)對,第二層就盯著第二層的計(jì)算節(jié)點(diǎn),模型真的把每一層思維鏈都妥妥放進(jìn)了對應(yīng)Transformer層里,沒有亂成一鍋粥。

之前隱式思維鏈只有實(shí)踐層面的有效結(jié)果,沒人能說清它底層為啥能跑通,這次相當(dāng)于給這個(gè)方向正式正名了。原來它不是碰巧好用的野路子,是在明確條件下就能保證有效的訓(xùn)練方法,模型的沉默思考第一次有了數(shù)學(xué)層面的合法性。

這個(gè)方向走通了,未來我們就能把大模型的長推理鏈,通過結(jié)構(gòu)化訓(xùn)練一步步全壓縮進(jìn)模型的隱藏層。到那時(shí)候,模型照樣有頂尖的推理能力,用戶用的時(shí)候直接拿到答案,不用熬半天等輸出,也不用收到動輒幾十塊的token賬單,想想都香。



當(dāng)然現(xiàn)在這個(gè)成果離落地到真實(shí)大模型還有一段距離,目前的證明還是基于不少簡化假設(shè),用的也是理論測試用的合成任務(wù)。接下來要解決的問題,就是怎么給沒有明確層級結(jié)構(gòu)的真實(shí)任務(wù)做階段劃分,不過能邁出這最關(guān)鍵的一步已經(jīng)足夠有意義,方向?qū)α耍O碌墓こ虇栴}只是時(shí)間問題。

參考資料:新華社 人工智能推理成本優(yōu)化研究取得國際新突破

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
重慶市農(nóng)業(yè)投資集團(tuán)原黨委書記何勇接受審查調(diào)查

重慶市農(nóng)業(yè)投資集團(tuán)原黨委書記何勇接受審查調(diào)查

界面新聞
2026-06-12 21:01:50
周武帝舉辦7次佛道辯論,道教一次沒贏,下令滅佛道100萬僧侶還俗

周武帝舉辦7次佛道辯論,道教一次沒贏,下令滅佛道100萬僧侶還俗

浩渺青史
2026-06-12 12:51:48
韓國逆轉(zhuǎn)開門紅創(chuàng)7紀(jì)錄!黃仁范賽后比心硬漢柔情 韓媒:最大功臣

韓國逆轉(zhuǎn)開門紅創(chuàng)7紀(jì)錄!黃仁范賽后比心硬漢柔情 韓媒:最大功臣

顏小白的籃球夢
2026-06-12 12:31:34
一天4個(gè)瓜,頂流戀情、質(zhì)疑職稱、夫妻粉絲跑路,肖戰(zhàn)熱巴最意外

一天4個(gè)瓜,頂流戀情、質(zhì)疑職稱、夫妻粉絲跑路,肖戰(zhàn)熱巴最意外

老好人的憤怒
2026-06-12 17:19:52
SpaceX今晚創(chuàng)紀(jì)錄上市,將制造超4400名百萬富翁

SpaceX今晚創(chuàng)紀(jì)錄上市,將制造超4400名百萬富翁

界面新聞
2026-06-12 14:19:57
美軍開始空襲伊朗

美軍開始空襲伊朗

財(cái)聯(lián)社
2026-06-11 05:42:11
太沉重了!一張殯儀館的電子顯示屏8位逝者,有6人未能活到55歲

太沉重了!一張殯儀館的電子顯示屏8位逝者,有6人未能活到55歲

火山詩話
2026-06-12 08:54:20
CCTV5直播!世界杯“重頭戲”,超21億歐元對決,姆巴佩PK哈蘭德

CCTV5直播!世界杯“重頭戲”,超21億歐元對決,姆巴佩PK哈蘭德

麥子的籃球故事
2026-06-12 17:40:17
主犯獲刑12年半罰沒1600萬!含砷“脫酸劑”讓耙耙柑提前一月上市,果肉檢出重金屬

主犯獲刑12年半罰沒1600萬!含砷“脫酸劑”讓耙耙柑提前一月上市,果肉檢出重金屬

紅星新聞
2026-06-05 09:04:20
暨南大學(xué)碩市論文題目驚呆國人,終于知道為啥文科就業(yè)差了…

暨南大學(xué)碩市論文題目驚呆國人,終于知道為啥文科就業(yè)差了…

慧翔百科
2026-06-12 08:19:04
曝美團(tuán)大裁員:連外賣基本盤都動刀 網(wǎng)友:后悔當(dāng)初編壓榨算法嗎?

曝美團(tuán)大裁員:連外賣基本盤都動刀 網(wǎng)友:后悔當(dāng)初編壓榨算法嗎?

火鍋局
2026-06-12 11:18:14
菲律賓地震第3天,美日仍然沒動作,菲外長喊話中國,態(tài)度很強(qiáng)硬

菲律賓地震第3天,美日仍然沒動作,菲外長喊話中國,態(tài)度很強(qiáng)硬

璀璨幻行者
2026-06-12 15:43:47
手撕球衣名場面!韓國vs捷克最大輸家是彪馬,自家球衣一撕就爛了

手撕球衣名場面!韓國vs捷克最大輸家是彪馬,自家球衣一撕就爛了

代古龍侃球
2026-06-12 11:13:32
巨大爭議!韓國 2 比 1 贏捷克,捷克球迷怒批:這是偷來的勝利

巨大爭議!韓國 2 比 1 贏捷克,捷克球迷怒批:這是偷來的勝利

十點(diǎn)體壇
2026-06-12 13:50:50
林水龍同志逝世

林水龍同志逝世

政知新媒體
2026-06-12 20:57:57
李嘉誠又放話了?未來5年,把房子存款換成這3種資產(chǎn),生活會越好

李嘉誠又放話了?未來5年,把房子存款換成這3種資產(chǎn),生活會越好

巢客HOME
2026-06-12 10:15:04
魚餌含精神藥品“安定”!日產(chǎn)十噸銷往全國,廠家:魚被麻痹狂咬鉤 利潤率50%

魚餌含精神藥品“安定”!日產(chǎn)十噸銷往全國,廠家:魚被麻痹狂咬鉤 利潤率50%

貓頭鷹視頻
2026-06-12 19:15:43
三大運(yùn)營商終于作“死”了自己

三大運(yùn)營商終于作“死”了自己

細(xì)雨中的呼喊
2026-06-10 23:49:50
那位差點(diǎn)改寫泰國歷史的長公主走了,小孩都能扛過去的病終結(jié)了她

那位差點(diǎn)改寫泰國歷史的長公主走了,小孩都能扛過去的病終結(jié)了她

普陀動物世界
2026-06-12 18:32:23
非法入境!來華避暑,拿到簽證喊出“死都不回”?

非法入境!來華避暑,拿到簽證喊出“死都不回”?

李云飛Afey
2026-06-11 11:28:40
2026-06-12 23:36:49
青途歷史
青途歷史
歷史是經(jīng)驗(yàn)的寶庫,是智慧的源泉。
4827文章數(shù) 316關(guān)注度
往期回顧 全部

科技要聞

鴻蒙7發(fā)布,余承東:首個(gè)完成AI化改造系統(tǒng)

頭條要聞

男子畢業(yè)16年后學(xué)位證"無法認(rèn)證" 高校最新通報(bào)

頭條要聞

男子畢業(yè)16年后學(xué)位證"無法認(rèn)證" 高校最新通報(bào)

體育要聞

歐洲恐韓?肉德維德?

娛樂要聞

一天4個(gè)瓜,肖戰(zhàn)熱巴最意外

財(cái)經(jīng)要聞

萬億美元順差背后,透露這些信號

汽車要聞

標(biāo)配激光雷達(dá)/雙動力可選 昊鉑S600限時(shí)售17.99萬起

態(tài)度原創(chuàng)

藝術(shù)
家居
親子
旅游
游戲

藝術(shù)要聞

這組照片真迷人,SSS級顏值和身材!

家居要聞

空間微調(diào) 移形換境

親子要聞

給孩子報(bào)個(gè)幼兒園還要工資流水?難道這就是傳說中的“因財(cái)施教”

旅游要聞

明起,恢復(fù)運(yùn)營

《劍星》Xbox獨(dú)不占?官方回應(yīng)移植:我們需要時(shí)間

無障礙瀏覽 進(jìn)入關(guān)懷版