原創(chuàng):譚婧
指導(dǎo)教授:王金橋,張家俊
白天有太多干擾,
某日臨睡前,和一位百度的朋友聊幾句,
我說了一句:“不把DeepSeek寫爽,我不想開別的選題。”
還配上了態(tài)度的表情包,
朋友回復(fù)說,他要笑死了。
DeepSeek那幾篇論文和技術(shù)報告,
于我而言,常看常新。
吃不吃的透是其次,態(tài)度要有,
學(xué)習(xí)是最好的致敬。
思考中,我反復(fù)陷入舊思路,
需要在王金橋,張家俊教授(武漢人工智能研究院)的多次提醒下,重新理解,推理大模型的出現(xiàn),迫使之前玩法都變成“傳統(tǒng)模型”,推理大模型的大門已經(jīng)打開,你進不進,它都在那里。
跪謝DeepSeek,“開源推理大模型”套路開創(chuàng)者,
一把節(jié)約幾年的時間,
一起跨入“推理大模型”的大門。
一番新景致,好不淋漓暢快。
01
先講,什么是思維鏈吧,
這是推理大模型的一種能力。
好家伙,一句話包括兩個新名詞:
“思維鏈”“推理大模型”,
熱門話題,很多人都講了,
我不贅述,直接看例子。
對比,普通模型和有思維鏈能力的模型。
題目:
車起點是A點,經(jīng)過5公里后到達(dá)B點,
再經(jīng)過3公里后到達(dá)C點,
請問車從A到C總距離是多少?
普通模型,直接回答:“8公里”。
答案雖然正確,但沒有一步一步講算的過程。
而有思維鏈(CoT)能力的模型,
回答時,有解題步驟和過程,
給出推理鏈條的各個環(huán)節(jié)。
回答:
從A到B距離5公里。
從B到C距離3公里。
所以,從A到C總距離是5公里加上3公里,
總共8公里。
推理大模型“給出解題過程”這件事,
在復(fù)雜的問題中顯得尤為重要。
先說什么是“復(fù)雜”?
意味著,當(dāng)我們需要多步推理,
多步解題、長篇邏輯推導(dǎo)的時候。
有人認(rèn)為,給正確答案就行了,何必有步驟?
只給答案當(dāng)然不夠,
比如偵探破案,不僅要知道誰是罪犯,
還要知道是怎么推理出來的。
除了說服法官,你還要說服陪審團,
甚至贏得公眾的理解和支持。
展示推理過程,能幫助別人理解這個過程,
學(xué)到關(guān)鍵,尤其在復(fù)雜問題中,
步驟和過程比單純答案還能增強我們對結(jié)果的信任。日后反思,也知道錯在哪里。
要我說,既然要順藤摸瓜,
這個藤和這個瓜同樣重要。
“藤”在這里是指的兩件事情,
一個是“推理中的步驟”,也是“訓(xùn)練過程”。
好的,既然推理大模型這么重要,
那么問題來了,怎么得到它?
或者說,怎么得到世間最好的推理大模型?
02
能問出這個問題,真是志存高遠(yuǎn),
因為相信,所以看見,
OpenAI O1做出來了,
DeepSeek也做出來了,
是首個復(fù)現(xiàn)OpenAI O1模型的開源模型。
國貨之光,當(dāng)之無愧。
有人吐槽,DeepSeek只有模型參數(shù)開源,
訓(xùn)練數(shù)據(jù)和訓(xùn)練過程并未開源。
先反駁一句,
這種開源方式在大模型領(lǐng)域本就主流。
這已經(jīng)很Open了,
比OpenAI不知道Open到哪里去了。
“開源”模型并不意味著啥都告訴你。
那要不要手把手教會你?
在這個點上吐槽DeepSeek,完全忍不了。
而且,我在后文中亦會分析,
這樣“有極高技術(shù)含量,
且依然成謎”的點,還有哪些。
前面提到的未開源的“訓(xùn)練過程”,
這是件很學(xué)術(shù),很實驗,很工程的事情,
“人話版”就是:“如何得到推理大模型?
DeepSeek得到了,且創(chuàng)新點密度之高,嘆為觀止。
而且會在整個訓(xùn)練過程中從頭到尾不斷出現(xiàn),
這樣“創(chuàng)新”含量極高的一個過程,
其本身也是一種創(chuàng)新。
所以,我想先寫R1模型的訓(xùn)練過程。
而且,訓(xùn)練過程這件事,比蒸餾重要多了。
就技術(shù)含量來講,
“蒸餾”和“訓(xùn)練過程”完全不在一個級別上。
在“訓(xùn)練過程”面前,
”蒸餾“充其量是低處好摘的果子。
因為R1在V3之后發(fā)布,且R1比V3更好理解,
想吃透,我的方法是:
學(xué)習(xí)順序是倒序。
我寫稿AI深度稿8年,
都沒有信心把這幾個模型吃透,
過去軟弱的我已經(jīng)死了,現(xiàn)在是更軟弱的我。
話說回來,R1模型的訓(xùn)練過程,論文里雖有描述,
但業(yè)界仍然有不同觀點。
咱們花開兩朵,各表一枝。
先談,我不同意的,
再談,我同意的。
我觀察到,整個訓(xùn)練過程中的一些中間模型,
它們并沒有被接著訓(xùn)練下去,
其中一些甚至被“舍棄”了,
或者說好聽點,“退休”了。
這時候,應(yīng)該深度思考,
如果他們被構(gòu)建出來之后,
并不參與下一個訓(xùn)練流程,
那他們被造出來的目的和意義是什么?
想通這點,才能算理解了這篇文章的核心。
回到我的結(jié)論,我不認(rèn)為是R1的訓(xùn)練過程是下面這樣。
03
再看第二種,我同意的訓(xùn)練過程,
整個訓(xùn)練過程,可轉(zhuǎn)化為這樣一套樸素的想法:
以上,是我理解了王金橋和張家俊兩位教授核心觀點后總結(jié)的,
細(xì)心的讀者可能已經(jīng)發(fā)現(xiàn)了,
這個過程正巧是一個人類思維鏈。
確實是用思維鏈解釋思維鏈大模型的思維鏈。
(禁止俄羅斯套娃梗)
04
高質(zhì)量推理數(shù)據(jù)的含金量還在增加,
到底怎么理解?
開個玩笑,拿來300集《名偵探柯南》,
全套《福爾摩斯》,這些也是推理數(shù)據(jù)?
當(dāng)然不是,它們只含有推理的信息。
這么說推理數(shù)據(jù)吧:
是高難度數(shù)據(jù),極難獲得的高質(zhì)量數(shù)據(jù)。
數(shù)據(jù)里面得有完整解題步驟,
得有各種推理方式,
得邏輯有連貫性;
這么好的數(shù)據(jù)哪里找?
回答這個問題,
先得知道一個著名的模型叫“R1-Zero”,簡稱Zero;
這種模型通過純強化學(xué)習(xí)過程開發(fā),
“激發(fā)”?型語?模型推理能?的潛?。
R1論文報告標(biāo)題里也用的“激發(fā)”一詞。
我管這種訓(xùn)練方法叫純血強化學(xué)習(xí),很特別。
不僅Zero的這個訓(xùn)練方法太特別了,
而且還有一個大用,就是造數(shù)據(jù)。
換句話說,整個過程中,不僅拿Zero來造數(shù)據(jù),
造完數(shù)據(jù)Zero模型雖然已經(jīng)宣布退休了,
但是造Zero模型的方法還在繼續(xù)使用。
所以Zero一定要留下名字。
在易被忽略之處,還有一個沒有名字的模型,
誠如開發(fā)者所愿,它連名字都不配擁有,
就叫“中間模型”吧,也可以叫“無名模型”。
中間模型存在的意義和價值,
就是構(gòu)造第二個微調(diào)階段所需要的高質(zhì)量的數(shù)據(jù)。
而“無名模型”正是構(gòu)建高質(zhì)量(CoT)數(shù)據(jù)的幕后推手。這個模型可能并不直接負(fù)責(zé)輸出最終的推理鏈,但它為后續(xù)的微調(diào)和優(yōu)化提供了極為關(guān)鍵的支持:高質(zhì)量數(shù)據(jù)。
也就是說為了造數(shù)據(jù),
模型都專門訓(xùn)練了兩種:有名的和無名的。
我不禁喟嘆,DeepSeek:為了造數(shù)據(jù),我造了模型,
電影《邪不壓正》里姜文的聲音,飄入腦海:
就是為了這點醋,我才包的這頓餃子。
冷啟動(SFT)是什么意思?
一方面是說它用的數(shù)據(jù)特別少,才幾千條。
無論多少,沒有數(shù)據(jù),這件事還是干不了。
這幾千條數(shù)據(jù)誰幫忙造的?
答案是Zero模型。
沒有Zero模型給你造數(shù)據(jù),神仙也干不成。
第一階段先冷啟動(SFT),
然后用強化學(xué)習(xí)增強模型的推理能力,
尤其是在數(shù)學(xué),代碼上。
這時候,事情結(jié)束了嗎?
當(dāng)然沒有,第一階段后面是第二階段,
這句話顯然不是廢話,
因為第二階段對高質(zhì)量數(shù)據(jù)的要求更大,
你也不能再冷啟動一次了,
于是,又進行了一次第二階段的SFT和強化學(xué)習(xí)。
細(xì)數(shù)一下,微調(diào)(SFT)和強化學(xué)習(xí)分別做了兩次,前面講了,第二階段的數(shù)據(jù),
比第一階段的數(shù)據(jù)要求更多,
大約60萬高質(zhì)量推理數(shù)據(jù),20萬非推理數(shù)據(jù),
V3還在中間當(dāng)了裁判,
質(zhì)量不行,看不懂的數(shù)據(jù)直接不要了。
這60萬數(shù)據(jù)是精挑細(xì)選后的,
那沒有挑選之前的數(shù)據(jù)哪里來的呢?
那個無名模型,也就是中間模型,
默默地支撐了。
這里可以插一句:
“有極高技術(shù)含量,且依然成謎”的點這里也有,
請問這20萬數(shù)據(jù)的類型配比是啥?
這是一道思考題,也是一道實踐題。
我們言歸正傳,下面怎么辦呢?
又把V3拿來用了。
這時候,我們甚至可以再細(xì)數(shù)一下,
V3用一次,V3用兩次,V3用三次,
才得到了R1這個模型。
所以,R1它就像啥?
就像一個俄羅斯套娃,不對,是三個。
要我說,DeepSeek在訓(xùn)練方式上的獨具創(chuàng)新之處在于,
每個人都想增強模型的推理能力。
而DeepSeek為它的增強推理能力,
造了一個模型,又造了“造數(shù)據(jù)的模型”,
還造了造模型造數(shù)據(jù)的方法。
張家俊教授的觀點是:
“DeepSeek他們可能有一個信念,數(shù)學(xué)和代碼等專用領(lǐng)域的推理能力可以泛化到通用。之前我們見到更多的,是先做通用,然后再訓(xùn)練專用能力成為一個專用模型,例如通用模型到行業(yè)模型再到場景模型。而這次通用領(lǐng)域推理能力的習(xí)得則采用了相反的思路,先搞定專用領(lǐng)域模型推理能力的學(xué)習(xí)范式,再由專用模型的推理能力牽引泛化至通用領(lǐng)域。”
“然后,雖然DeepSeek R1中如何構(gòu)造高質(zhì)量推理和通用數(shù)據(jù)至關(guān)重要,本質(zhì)上R1 Zero是最大的創(chuàng)新。構(gòu)建R1的整個過程可能也是不斷嘗試和折中的結(jié)果,最理想情況應(yīng)該是希望R1 Zero就能實現(xiàn)通用領(lǐng)域推理能力的直接泛化,后來發(fā)現(xiàn)Zero只有專用推理能力,而且推理過程語言混雜可讀性差,不過可喜的是能生產(chǎn)比較完整的推理數(shù)據(jù)了,那就退回經(jīng)典的SFT+RL的范式,為了造更高質(zhì)量的推理數(shù)據(jù),就有了第一階段的冷啟動+Zero推理方法。”
如此獨具匠心的設(shè)計,
有“因為相信所以看到”這樣的信仰,
而我還停留在“因為看到,所以相信”。
這次就到這里,
很多時新酷炫的專業(yè)術(shù)語都被我刪減了,
因為在此時此刻,它們都不重要。
這篇科普漫畫看完已經(jīng)發(fā)給我媽了,
又不是多難,別人媽媽會的,我媽也要會。
畢竟,她從小也是這么教育我的。
春節(jié)期間,我已經(jīng)在飯桌上被狂轟亂炸了個遍,
從我媽到七大姑八大姨,
誰不想懂DeepSeek呢。
(完)
One More Thing
我知道有的數(shù)據(jù)團隊在爬我公眾號上的內(nèi)容,
感謝視其為高質(zhì)量數(shù)據(jù),
說實話,我不愿意,
而又無力阻止。
我能做的就是,精品和核心內(nèi)容會更多的向漫畫上遷移,
一方面文章更好看,
另一方面,想把數(shù)據(jù)拿走,
你們就得必須再接一套Caption方案;
效果好不好,不知道了,
反正成本是更高了,
這可以視為,
我對AI版權(quán)問題有聲的抵抗。
《作者直到最近才費勁弄清楚的……》
1.是時候發(fā)力AI推理了,吳恩達(dá)都說需求遠(yuǎn)超想象
2.AI推理紅海戰(zhàn):百萬Token一元錢,低價背后藏何種貓膩?
3.質(zhì)疑美國芯片Etched:AI領(lǐng)域最大賭注的盡頭是散熱?
4.機會在哪?原理是啥?哈佛輟學(xué)融資1.2億造AI芯片
5.對抗NVLink簡史?10萬卡爭端,英偉達(dá)NVL72超節(jié)點挑起
6. 硅谷訪客丨誰在“掏空”深度學(xué)習(xí)框架PyTorch?
長文系列
1.年終盤點:圖文大模型編年簡史
2.跳槽去搞國產(chǎn)大模型,收入能漲多少?
3.大模型下一場戰(zhàn)事,為什么是AI Agent?
4.假如你家大模型還是個二傻子,就不用像llya那樣操心AI安全
5.指令數(shù)據(jù):訓(xùn)練大模型的“隱形助力”
6.對話百度孫珂:想玩好AI Agent,大模型的“外掛”生意怎么做?
7.再造一個英偉達(dá)?黃仁勛如何看待生物學(xué)與AI大模型的未來?
8. 對話科大訊飛劉聰:假如對大模型算法沒把握,錯一個東西,三個月就過去了
9.美國AI芯片公司“贏了”大模型公司?
10.美國玩大模型那幫人:好幾萬卡集群+超級節(jié)點
11.如何辨別真假“AI劉強東”?10億參數(shù),數(shù)字人實時生成視頻
12.智譜清影做“Stable Diffusion”,生數(shù)科技做“Midjourney”?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.