網易首頁 > 網易號 > 正文 申請入駐

讓AI學習效率飆升50倍的秘密:在線策略蒸餾

0
分享至


想象一下,你在教一個學生寫作文。

傳統做法是:你給他十篇范文,讓他照著學。

這叫“模仿學習”。

但很快你發現——當他真正面對一個沒見過的題目時,立刻就懵了。

于是你換了種方法。讓他自己寫,然后你在旁邊指出每一個句子的優劣、邏輯是否通順、語氣是否合適。

這種“邊寫邊教”的方式,更像真正的學習。

這,正是Thinking Machines Lab最新研究《On-Policy Distillation》的核心靈感所在。(原文鏈接:https://thinkingmachines.ai/blog/on-policy-distillation/)
它提出了一種全新的 AI 訓練方式——讓模型在“自己行動”的軌跡上,被實時指導、被動態優化。
這聽起來簡單,卻可能改寫整個大模型的訓練范式。

一、為什么是他們:從 OpenAI 走出的“思考機器”

Thinking Machines Lab 是 Mira Murati(前 OpenAI CTO)離職后創辦的新實驗室。
她和團隊成員 John Schulman、Barret Zoph 都是推動 ChatGPT 與強化學習革命的關鍵人物。
他們的研究方向有一個共同點:讓模型更懂得“如何學習”

這篇論文的作者 Kevin Lu、John Schulman、Horace He 等人,延續了他們在 RLHF(人類反饋強化學習)和蒸餾訓練上的積累。

他們在問一個根本問題——

“AI的學習方式是不是錯了?”

二、舊方法的瓶頸:AI其實是在“死記硬背”

當我們說“訓練一個大模型”,其實是兩步:

讓模型看大量人類寫的文本(稱為SFT:監督微調)。

再通過RLHF(強化學習)讓它學會“人類喜歡的回答方式”。

問題在于——這兩步并不協調。

SFT 教的是“模仿舊答案”;RLHF 強調“探索新答案”。

前者像“死記硬背”,后者像“自我實踐”。

模型經常在兩者之間搖擺:要么過度順從人類樣本,要么冒進地亂試。

三、新方法:讓模型“邊干邊學”

Thinking Machines Lab 提出的On-Policy Distillation(政策內蒸餾)
是想把這兩種學習方式“融合”成一種更自然的狀態。

傳統蒸餾(Distillation)是:

老師(大模型)寫出一份完美答案,學生照著學。

而他們的新方法是:

學生自己先寫一遍,老師實時給出每一步的分數、建議、改進方向。

這個過程在強化學習里叫On-Policy——模型在“自己生成的軌跡”上學習,而不是在別人給的現成答案上學習。
于是,模型學到的不再是“理想的句子”,而是“如何自己到達理想的句子”。

可以把它理解為:

不再教模型“結論”,而是教它“思考的路徑”。

四、核心創新:從“獎勵”到“打分”

RLHF 的本質是“獎勵”(Reward):模型生成一整段答案,評審模型給它一個分。

但這有個問題——只有整段結束后才能反饋,太慢了。

On-Policy Distillation把反饋粒度縮小到“每個token”(每一個生成的字詞)。
就像作文老師不再只給你打總分,而是逐句標注“這里句式優美”“這里邏輯混亂”。
這種“密集監督”(dense supervision)方式讓學習效率成倍提升。

論文作者形象地稱之為“用微鏡頭監督AI的思考過程”。

五、結果:更快、更穩、更便宜

他們用這個方法訓練模型后,

在 AIME’24 數學基準測試上,性能超過了傳統 RLHF 模型。

同時算力需求更低、訓練更穩定、結果更可復現。

一句話總結就是:

以前我們靠“懲罰與獎勵”教AI做人,
現在我們靠“示范與糾錯”教AI成長。

六、為什么重要:AI 訓練的“學習論轉向”

在更宏觀的層面,這篇論文揭示的是AI學習方式的哲學轉折
過去幾年我們用海量數據喂模型,希望它靠統計規律“模仿人類”。
但 Thinking Machines 團隊認為,真正的智能不在模仿,而在于反思自己的行為

“On-Policy Distillation” 讓 AI 有機會在自己的軌跡上打磨自己——

這讓“自我改進型智能體”(self-improving agent)成為現實的一步。

未來,當你的AI助手能在每天的任務中積累經驗、吸收教訓、變得越來越懂你,

也許正是這種“on-policy”學習在默默起作用。

七、所以呢?

在AI訓練的世界里,思維方式的改變往往比算力更值錢
Thinking Machines Lab 的這篇論文不是在造一個更大的模型,
而是在重新定義“學習”這件事的意義。

當AI開始自己教自己,

我們也許正見證著“智能的第二次覺醒”——

第一次是機器學會說話,

第二次,是它學會思考“我為什么這么說”。

整理:周華香

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
A股:信號很強烈,請做好準備,明天周一,很可能將迎來更大的轉變

A股:信號很強烈,請做好準備,明天周一,很可能將迎來更大的轉變

虎哥閑聊
2026-04-26 09:25:03
善惡終有報,57歲央視女主持王小丫,原來早已經走上另一條大路

善惡終有報,57歲央視女主持王小丫,原來早已經走上另一條大路

聽風喃
2026-03-24 05:39:34
正式簽約!加盟雄鹿!字母哥被孤立

正式簽約!加盟雄鹿!字母哥被孤立

籃球教學論壇
2026-04-25 16:29:48
中國需做最壞打算:俄羅斯解體后617萬土地絕不能失守

中國需做最壞打算:俄羅斯解體后617萬土地絕不能失守

王藁侃世界
2026-04-23 07:05:34
迪文華子傷退多孫穆狂砍43分 森林狼3勝掘金拿到賽點

迪文華子傷退多孫穆狂砍43分 森林狼3勝掘金拿到賽點

仰臥撐FTUer
2026-04-26 12:31:11
李啟言父親病逝,日夜照顧癱瘓兒子病倒,曾拒絕李澤楷千萬救濟金

李啟言父親病逝,日夜照顧癱瘓兒子病倒,曾拒絕李澤楷千萬救濟金

開開森森
2026-04-25 18:07:45
談不攏就打!商務部下達第20號令, 對歐封鎖開始, 馮德萊恩故作鎮

談不攏就打!商務部下達第20號令, 對歐封鎖開始, 馮德萊恩故作鎮

小正說娛樂
2026-04-26 11:18:22
2026年,如果你的家庭存款突破100萬,會發現一個驚人的真相!

2026年,如果你的家庭存款突破100萬,會發現一個驚人的真相!

藍色海邊
2026-04-24 17:11:02
外媒:中東美軍基地遭襲損失遠超五角大樓承認

外媒:中東美軍基地遭襲損失遠超五角大樓承認

參考消息
2026-04-26 13:18:23
56歲健康母親赴瑞士安樂死:兒子已走4年,我只想體面離開

56歲健康母親赴瑞士安樂死:兒子已走4年,我只想體面離開

胡一舸南游y
2026-04-25 16:22:22
正式測定:蒙古發生6.0級地震 震源深度15千米

正式測定:蒙古發生6.0級地震 震源深度15千米

每日經濟新聞
2026-04-26 13:00:05
外媒:中資工廠正將996加班文化傳入歐洲,擠壓當地正常就業崗位

外媒:中資工廠正將996加班文化傳入歐洲,擠壓當地正常就業崗位

凡人學電腦
2026-04-25 23:23:58
無視禁令,首艘中資油船出港,伊軍100萬人到位,特朗普踩下剎車

無視禁令,首艘中資油船出港,伊軍100萬人到位,特朗普踩下剎車

大熊歡樂坊
2026-04-26 13:07:47
TVB老戲骨忍無可忍含淚揭家丑,每月接濟兒子五萬,走了向太老路

TVB老戲骨忍無可忍含淚揭家丑,每月接濟兒子五萬,走了向太老路

翰飛觀事
2026-04-22 19:35:28
連續三天嫖娼一次嫖倆,花800元毀掉一手女神好牌,他圖什么?

連續三天嫖娼一次嫖倆,花800元毀掉一手女神好牌,他圖什么?

一窺究竟
2026-04-26 00:52:15
獨生子女家庭注意!5月集中辦理窗口開啟,3筆現金補助別忘申請

獨生子女家庭注意!5月集中辦理窗口開啟,3筆現金補助別忘申請

復轉這些年
2026-04-25 18:51:48
果然不出中國所料!特朗普慫了,伊朗宣布贏家,美要付出更高代價

果然不出中國所料!特朗普慫了,伊朗宣布贏家,美要付出更高代價

軒逸阿II
2026-04-26 00:31:22
1995年,在香港高檔餐廳里,34歲的洪晃與63歲的父親洪君彥的合影

1995年,在香港高檔餐廳里,34歲的洪晃與63歲的父親洪君彥的合影

娛樂洞察點點
2026-04-25 21:55:38
瘋爽的債主破產了!456和隊友搶富二代!

瘋爽的債主破產了!456和隊友搶富二代!

八卦瘋叔
2026-04-26 11:12:01
杜蘭特G4出戰成疑!烏度卡透露踝傷好轉:我原以為他可以打G3

杜蘭特G4出戰成疑!烏度卡透露踝傷好轉:我原以為他可以打G3

羅說NBA
2026-04-26 04:19:21
2026-04-26 13:52:49
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進入GenAl。
274文章數 38關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

白宮槍手系教師兼游戲開發者 曾向哈里斯總統競選捐款

頭條要聞

白宮槍手系教師兼游戲開發者 曾向哈里斯總統競選捐款

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《八千里路云和月》大結局意難平

財經要聞

DeepSeek V4背后,梁文鋒的轉身

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

親子
教育
本地
藝術
房產

親子要聞

媽媽記錄下寶寶的第一次擁抱,最幸福的瞬間

教育要聞

新疆溫泉縣:山水映校園 少年正向陽

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

藝術要聞

鄭麗文訪問清華附中引發熱議,蔣中正信札字跡真實性遭質疑

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

無障礙瀏覽 進入關懷版