網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

DeepSeek：為了這口醋，包了這頓餃子，為了數(shù)據(jù)，我造了模型

2025-02-25 14:04:40　來源: 親愛的數(shù)據(jù)

湖北舉報

分享至

原創(chuàng)：譚婧

指導(dǎo)教授：王金橋，張家俊

白天有太多干擾，

某日臨睡前，和一位百度的朋友聊幾句，

我說了一句：“不把DeepSeek寫爽，我不想開別的選題。”

還配上了態(tài)度的表情包，

朋友回復(fù)說，他要笑死了。

DeepSeek那幾篇論文和技術(shù)報告，

于我而言，常看常新。

吃不吃的透是其次，態(tài)度要有，

學(xué)習(xí)是最好的致敬。

思考中，我反復(fù)陷入舊思路，

需要在王金橋，張家俊教授（武漢人工智能研究院）的多次提醒下，重新理解，推理大模型的出現(xiàn)，迫使之前玩法都變成“傳統(tǒng)模型”，推理大模型的大門已經(jīng)打開，你進不進，它都在那里。

跪謝DeepSeek，“開源推理大模型”套路開創(chuàng)者，

一把節(jié)約幾年的時間，

一起跨入“推理大模型”的大門。

一番新景致，好不淋漓暢快。

先講，什么是思維鏈吧，

這是推理大模型的一種能力。

好家伙，一句話包括兩個新名詞：

“思維鏈”“推理大模型”，

熱門話題，很多人都講了，

我不贅述，直接看例子。

對比，普通模型和有思維鏈能力的模型。

題目：

車起點是A點，經(jīng)過5公里后到達(dá)B點，

再經(jīng)過3公里后到達(dá)C點，

請問車從A到C總距離是多少？

普通模型，直接回答：“8公里”。

答案雖然正確，但沒有一步一步講算的過程。

而有思維鏈（CoT）能力的模型，

回答時，有解題步驟和過程，

給出推理鏈條的各個環(huán)節(jié)。

回答：

從A到B距離5公里。

從B到C距離3公里。

所以，從A到C總距離是5公里加上3公里，

總共8公里。

推理大模型“給出解題過程”這件事，

在復(fù)雜的問題中顯得尤為重要。

先說什么是“復(fù)雜”？

意味著，當(dāng)我們需要多步推理，

多步解題、長篇邏輯推導(dǎo)的時候。

有人認(rèn)為，給正確答案就行了，何必有步驟？

只給答案當(dāng)然不夠，

比如偵探破案，不僅要知道誰是罪犯，

還要知道是怎么推理出來的。

除了說服法官，你還要說服陪審團，

甚至贏得公眾的理解和支持。

展示推理過程，能幫助別人理解這個過程，

學(xué)到關(guān)鍵，尤其在復(fù)雜問題中，

步驟和過程比單純答案還能增強我們對結(jié)果的信任。日后反思，也知道錯在哪里。

要我說，既然要順藤摸瓜，

這個藤和這個瓜同樣重要。

“藤”在這里是指的兩件事情，

一個是“推理中的步驟”，也是“訓(xùn)練過程”。

好的，既然推理大模型這么重要，

那么問題來了，怎么得到它？

或者說，怎么得到世間最好的推理大模型？

能問出這個問題，真是志存高遠(yuǎn)，

因為相信，所以看見，

OpenAI O1做出來了，

DeepSeek也做出來了，

是首個復(fù)現(xiàn)OpenAI O1模型的開源模型。

國貨之光，當(dāng)之無愧。

有人吐槽，DeepSeek只有模型參數(shù)開源，

訓(xùn)練數(shù)據(jù)和訓(xùn)練過程并未開源。

先反駁一句，

這種開源方式在大模型領(lǐng)域本就主流。

這已經(jīng)很Open了，

比OpenAI不知道Open到哪里去了。

“開源”模型并不意味著啥都告訴你。

那要不要手把手教會你？

在這個點上吐槽DeepSeek，完全忍不了。

而且，我在后文中亦會分析，

這樣“有極高技術(shù)含量，

且依然成謎”的點，還有哪些。

前面提到的未開源的“訓(xùn)練過程”，

這是件很學(xué)術(shù)，很實驗，很工程的事情，

“人話版”就是：“如何得到推理大模型？

DeepSeek得到了，且創(chuàng)新點密度之高，嘆為觀止。

而且會在整個訓(xùn)練過程中從頭到尾不斷出現(xiàn)，

這樣“創(chuàng)新”含量極高的一個過程，

其本身也是一種創(chuàng)新。

所以，我想先寫R1模型的訓(xùn)練過程。

而且，訓(xùn)練過程這件事，比蒸餾重要多了。

就技術(shù)含量來講，

“蒸餾”和“訓(xùn)練過程”完全不在一個級別上。

在“訓(xùn)練過程”面前，

”蒸餾“充其量是低處好摘的果子。

因為R1在V3之后發(fā)布，且R1比V3更好理解，

想吃透，我的方法是：

學(xué)習(xí)順序是倒序。

我寫稿AI深度稿8年，

都沒有信心把這幾個模型吃透，

過去軟弱的我已經(jīng)死了，現(xiàn)在是更軟弱的我。

話說回來，R1模型的訓(xùn)練過程，論文里雖有描述，

但業(yè)界仍然有不同觀點。

咱們花開兩朵，各表一枝。

先談，我不同意的，

再談，我同意的。

我觀察到，整個訓(xùn)練過程中的一些中間模型，

它們并沒有被接著訓(xùn)練下去，

其中一些甚至被“舍棄”了，

或者說好聽點，“退休”了。

這時候，應(yīng)該深度思考，

如果他們被構(gòu)建出來之后，

并不參與下一個訓(xùn)練流程，

那他們被造出來的目的和意義是什么？

想通這點，才能算理解了這篇文章的核心。

回到我的結(jié)論，我不認(rèn)為是R1的訓(xùn)練過程是下面這樣。

再看第二種，我同意的訓(xùn)練過程，

整個訓(xùn)練過程，可轉(zhuǎn)化為這樣一套樸素的想法：

以上，是我理解了王金橋和張家俊兩位教授核心觀點后總結(jié)的，

細(xì)心的讀者可能已經(jīng)發(fā)現(xiàn)了，

這個過程正巧是一個人類思維鏈。

確實是用思維鏈解釋思維鏈大模型的思維鏈。

（禁止俄羅斯套娃梗）

高質(zhì)量推理數(shù)據(jù)的含金量還在增加，

到底怎么理解？

開個玩笑，拿來300集《名偵探柯南》，

全套《福爾摩斯》，這些也是推理數(shù)據(jù)？

當(dāng)然不是，它們只含有推理的信息。

這么說推理數(shù)據(jù)吧：

是高難度數(shù)據(jù)，極難獲得的高質(zhì)量數(shù)據(jù)。

數(shù)據(jù)里面得有完整解題步驟，

得有各種推理方式，

得邏輯有連貫性；

這么好的數(shù)據(jù)哪里找？

回答這個問題，

先得知道一個著名的模型叫“R1-Zero”，簡稱Zero；

這種模型通過純強化學(xué)習(xí)過程開發(fā)，

“激發(fā)”?型語?模型推理能?的潛?。

R1論文報告標(biāo)題里也用的“激發(fā)”一詞。

我管這種訓(xùn)練方法叫純血強化學(xué)習(xí)，很特別。

不僅Zero的這個訓(xùn)練方法太特別了，

而且還有一個大用，就是造數(shù)據(jù)。

換句話說，整個過程中，不僅拿Zero來造數(shù)據(jù)，

造完數(shù)據(jù)Zero模型雖然已經(jīng)宣布退休了，

但是造Zero模型的方法還在繼續(xù)使用。

所以Zero一定要留下名字。

在易被忽略之處，還有一個沒有名字的模型，

誠如開發(fā)者所愿，它連名字都不配擁有，

就叫“中間模型”吧，也可以叫“無名模型”。

中間模型存在的意義和價值，

就是構(gòu)造第二個微調(diào)階段所需要的高質(zhì)量的數(shù)據(jù)。

而“無名模型”正是構(gòu)建高質(zhì)量（CoT）數(shù)據(jù)的幕后推手。這個模型可能并不直接負(fù)責(zé)輸出最終的推理鏈，但它為后續(xù)的微調(diào)和優(yōu)化提供了極為關(guān)鍵的支持：高質(zhì)量數(shù)據(jù)。

也就是說為了造數(shù)據(jù)，

模型都專門訓(xùn)練了兩種：有名的和無名的。

我不禁喟嘆，DeepSeek：為了造數(shù)據(jù)，我造了模型，

電影《邪不壓正》里姜文的聲音，飄入腦海：

就是為了這點醋，我才包的這頓餃子。

冷啟動（SFT）是什么意思？

一方面是說它用的數(shù)據(jù)特別少，才幾千條。

無論多少，沒有數(shù)據(jù)，這件事還是干不了。

這幾千條數(shù)據(jù)誰幫忙造的？

答案是Zero模型。

沒有Zero模型給你造數(shù)據(jù)，神仙也干不成。

第一階段先冷啟動（SFT），

然后用強化學(xué)習(xí)增強模型的推理能力，

尤其是在數(shù)學(xué)，代碼上。

這時候，事情結(jié)束了嗎？

當(dāng)然沒有，第一階段后面是第二階段，

這句話顯然不是廢話，

因為第二階段對高質(zhì)量數(shù)據(jù)的要求更大，

你也不能再冷啟動一次了，

于是，又進行了一次第二階段的SFT和強化學(xué)習(xí)。

細(xì)數(shù)一下，微調(diào)（SFT）和強化學(xué)習(xí)分別做了兩次，前面講了，第二階段的數(shù)據(jù)，

比第一階段的數(shù)據(jù)要求更多，

大約60萬高質(zhì)量推理數(shù)據(jù)，20萬非推理數(shù)據(jù)，

V3還在中間當(dāng)了裁判，

質(zhì)量不行，看不懂的數(shù)據(jù)直接不要了。

這60萬數(shù)據(jù)是精挑細(xì)選后的，

那沒有挑選之前的數(shù)據(jù)哪里來的呢？

那個無名模型，也就是中間模型，

默默地支撐了。

這里可以插一句：

“有極高技術(shù)含量，且依然成謎”的點這里也有，

請問這20萬數(shù)據(jù)的類型配比是啥？

這是一道思考題，也是一道實踐題。

我們言歸正傳，下面怎么辦呢？

又把V3拿來用了。

這時候，我們甚至可以再細(xì)數(shù)一下，

V3用一次，V3用兩次，V3用三次，

才得到了R1這個模型。

所以，R1它就像啥？

就像一個俄羅斯套娃，不對，是三個。

要我說，DeepSeek在訓(xùn)練方式上的獨具創(chuàng)新之處在于，

每個人都想增強模型的推理能力。

而DeepSeek為它的增強推理能力，

造了一個模型，又造了“造數(shù)據(jù)的模型”，

還造了造模型造數(shù)據(jù)的方法。

張家俊教授的觀點是：

“DeepSeek他們可能有一個信念，數(shù)學(xué)和代碼等專用領(lǐng)域的推理能力可以泛化到通用。之前我們見到更多的，是先做通用，然后再訓(xùn)練專用能力成為一個專用模型，例如通用模型到行業(yè)模型再到場景模型。而這次通用領(lǐng)域推理能力的習(xí)得則采用了相反的思路，先搞定專用領(lǐng)域模型推理能力的學(xué)習(xí)范式，再由專用模型的推理能力牽引泛化至通用領(lǐng)域。”

“然后，雖然DeepSeek R1中如何構(gòu)造高質(zhì)量推理和通用數(shù)據(jù)至關(guān)重要，本質(zhì)上R1 Zero是最大的創(chuàng)新。構(gòu)建R1的整個過程可能也是不斷嘗試和折中的結(jié)果，最理想情況應(yīng)該是希望R1 Zero就能實現(xiàn)通用領(lǐng)域推理能力的直接泛化，后來發(fā)現(xiàn)Zero只有專用推理能力，而且推理過程語言混雜可讀性差，不過可喜的是能生產(chǎn)比較完整的推理數(shù)據(jù)了，那就退回經(jīng)典的SFT+RL的范式，為了造更高質(zhì)量的推理數(shù)據(jù)，就有了第一階段的冷啟動+Zero推理方法。”

如此獨具匠心的設(shè)計，

有“因為相信所以看到”這樣的信仰，

而我還停留在“因為看到，所以相信”。

這次就到這里，

很多時新酷炫的專業(yè)術(shù)語都被我刪減了，

因為在此時此刻，它們都不重要。

這篇科普漫畫看完已經(jīng)發(fā)給我媽了，

又不是多難，別人媽媽會的，我媽也要會。

畢竟，她從小也是這么教育我的。

春節(jié)期間，我已經(jīng)在飯桌上被狂轟亂炸了個遍，

從我媽到七大姑八大姨，

誰不想懂DeepSeek呢。

（完）

One More Thing

我知道有的數(shù)據(jù)團隊在爬我公眾號上的內(nèi)容，

感謝視其為高質(zhì)量數(shù)據(jù)，

說實話，我不愿意，

而又無力阻止。

我能做的就是，精品和核心內(nèi)容會更多的向漫畫上遷移，

一方面文章更好看，

另一方面，想把數(shù)據(jù)拿走，

你們就得必須再接一套Caption方案；

效果好不好，不知道了，

反正成本是更高了，

這可以視為，

我對AI版權(quán)問題有聲的抵抗。

《作者直到最近才費勁弄清楚的……》

1.是時候發(fā)力AI推理了，吳恩達(dá)都說需求遠(yuǎn)超想象

2.AI推理紅海戰(zhàn)：百萬Token一元錢，低價背后藏何種貓膩？

3.質(zhì)疑美國芯片Etched：AI領(lǐng)域最大賭注的盡頭是散熱？

4.機會在哪？原理是啥？哈佛輟學(xué)融資1.2億造AI芯片

5.對抗NVLink簡史？10萬卡爭端，英偉達(dá)NVL72超節(jié)點挑起

6. 硅谷訪客丨誰在“掏空”深度學(xué)習(xí)框架PyTorch？

長文系列

1.年終盤點：圖文大模型編年簡史

2.跳槽去搞國產(chǎn)大模型，收入能漲多少？

3.大模型下一場戰(zhàn)事，為什么是AI Agent？

4.假如你家大模型還是個二傻子，就不用像llya那樣操心AI安全

5.指令數(shù)據(jù)：訓(xùn)練大模型的“隱形助力”

6.對話百度孫珂：想玩好AI Agent，大模型的“外掛”生意怎么做？

7.再造一個英偉達(dá)？黃仁勛如何看待生物學(xué)與AI大模型的未來？

8. 對話科大訊飛劉聰：假如對大模型算法沒把握，錯一個東西，三個月就過去了

9.美國AI芯片公司“贏了”大模型公司？

10.美國玩大模型那幫人：好幾萬卡集群+超級節(jié)點

11.如何辨別真假“AI劉強東”？10億參數(shù)，數(shù)字人實時生成視頻

12.智譜清影做“Stable Diffusion”，生數(shù)科技做“Midjourney”？

聲明：個人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.