无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

尺寸差了一個量級,如何較量?DeepSeek R1與阿里QwQ-32B

0
分享至

原創:親愛的數據

2025年3月6日,

阿里通義千問團隊推出推理模型

QwQ-32B大語言模型。

看似普通的一則新聞,

發布了一個模型這么件事。

阿里尚未發布詳細的技術報告來解釋QwQ是如何開發的,甚至新聞官網只有742個字。

《QwQ-32B:擁抱強化學習的力量》

該怎么理解呢?

我的理解,

QwQ-32B是一款稠密(又稱密集)推理模型。

雖然只有一句話,但是信息量很大。

想讀懂的話,要很多“知識儲備”,

什么是MoE(混合專家模型)?

什么是稠密模型?

什么是推理模型?

模型參數規模怎么對比?

背后隱藏的不少問題都可展開聊,

不如,聊聊有哪些結論?

第一點,QWQ模型有一個系列,

阿里在上一版的基礎上,

用了R1也同樣用了的強化學習技術。

好消息是出效果了,不出效果不會放出來。

畢竟這個是開源模型,

只有閉源模型才愿意買廣告胡吹,

開源模型則不需要。

反觀很多大模型友商,

還停留在花錢買彩虹屁的石器時代。

在開源打得如此激烈的當下,顯得尤為又自嗨。

拋開“強不強”不聊,

要知道大模型技術人員的知識體系涇渭分明,

你是做視覺的,就是視覺;

你是自然語言處理的就是自然語言處理,

而強化學習是另外一套知識體系。

強化學習這條道路,

大模型團隊里沒有點技術儲備都發不了力。

阿里畢竟是阿里,

看到強化學習的天花板還能往上推,

就毫不猶豫地往上推。

恭喜阿里出效果,恭喜團隊奮戰有成績。

無獨有偶,一天之前,

2024年的圖靈獎頒給了一對著名的師徒:

Richard Sutton有“強化學習之父”的美名。

Andrew Barto是Sutton的博導。

自1980年代起,

兩位均對強化學習持續做出奠基性貢獻。

一邊是企業界的前沿技術突破,

另一邊則是對強化學習理論基礎的權威認可。

這兩者實際上是相輔相成的,

正是幾十年前奠定的堅實理論基礎,

才使得今天我們能夠在工業界實現如此驚人的技術突破。向強化學習開創者的致敬,向DeepSeek R1團隊,向阿里千問團隊,用強化學習推動模型技術進步的工程師致敬。

第二點,在推理模型大火之后,

大家都只做推理模型這一種類型了嗎?

當然不是。

這里就不得不把Claude 3.7 Sonnet這個模型拉出來對比一下。

這也是一個剛剛(2月25日)放出來的新模型,

是Claude 3.5 Sonnet的升級版。

不得不感慨一句,版本號增長得如此之快,

可見軟件版本迭代得多快,

可見其背后的技術進展有多快。

AI的競爭有多激烈。

我特別強調,Claude 3.7 Sonnet模型的技術路線,

和QwQ-32B模型大不一樣,完全不同。

QwQ-32B模型強調推理性能,

是一個獨立的推理模型,

而Claude 3.7 Sonnet模型有推理能力(慢思考),

但是Claude團隊把快慢思考集成在一個模型里了,

你想用哪個就選哪個。

特別注意的是,

選擇按鈕的背后是一個“二合一”的模型,

而不是一個“選項”一個模型,

技術博客上的表述是,人類使用同一個大腦,

既能靜心思考,又有快速反應。

阿里是否也在做和Claude團隊類似的事情,

不得而知。

但是你用推理模型去快問快答簡單問題,

肯定不合適,

比如,你問推理模型“你好”,

模型推理一番回答你,

或者是啰啰嗦嗦回答一堆。

比如,下面這種肯定不行,

日后定會想辦法解決。

第三點,為什么QWQ-32B可達到DeepSeek R1的“智商”水平?

尤其是在尺寸差了一個量級的情況下。

在MoE模型出道之后,

模型參數規模不再是名字上掛的那個數字,

比如,DeepSeek R1擁有6710億的巨大的參數量,但由于創新性地使用了MoE架構,以及MLA(多頭潛在注意力機制)的方法,每次推理僅激活370億參數(占比總量6%)。這使得DeepSeek R1雖然整體參數量很大,但干活時只需要動用極小的一部分力量。

MoE模型是稀疏模型,

也就是說,并不是每個計算步驟都會用到全部的模型參數,而是通過選取一些專家來參與計算。就好比,有一個專家庫,但是每次干活不是專家庫里的專家全體出動。

DeepSeek R1的驚人之處在于,

1個共享專家和256個專家,

實際上,歷史上,哪個MoE模型也從來沒有過達到如此龐大的專家數量。專家多了一時爽,那就問負載均衡怎么辦?

當然DeepSeek處理得很好,

但是這篇文章不聊這個,按下不表。

DeepSeek每次通過路由專家,只選8個模型,

也就是說只有8個專家干活了,其他閑著。

那么問題來了,你統計工作量的時候,

是不是只算這8個(僅激活370億參數)就夠了。

于是,真正用來比較的,

是千問QWQ-32B和DeepSeek R1模型的37B。

“閑置專家”不在考慮范圍內。

比模型整個的參數規模更難理解的是真正“參與工作”的參數,這個問題確實是伴隨著MoE模型而出現的,從激活量來看,32B(320億參數)比37B(370億參數)少不了多少,這是一種進步。

激活量少了,隨之而來的是,成本降低,性價比提高。另有一個關鍵點,阿里通義千問團隊的這個模型是每個專家每次都在干活,而DeepSeek R1模型是每次干活是不同的專家。因為MoE的大參數量可不是吃白飯的,

MoE的全量大參數對模型能力極有加成,對于每個token激活的是不同的37B(370億參數)這個時候,我想說,QWQ-32B的專家還挺能打的,畢竟DeepSeek R1模型的整體專家數量在這里擺著,長期干活的專家要會更多知識才能和擅長不同的更細分的領域的“當值專家”一較高下。

看到這里,我挺激動的,再次為千問團隊高興。

而我更高興的是,DeepSeek最大的價值不是被膜拜,而是被超越。

(完)

One More thing

玩MoE模型,如何榨干芯片性能?

這個問題的答案得問DeepSeek,

他們將MoE技術拉到一個新高度,

又在分布式計算,通信庫等底層基礎設施方面大大下了一番功夫,

恭喜DeepSeek,喜提成本利潤率545%,

每秒輸出吞吐量約1.5萬tokens。

(官宣數據14.8k tokens/s)。

我最近聊天的口頭禪就是:

“人家DeepSeek每秒輸出吞吐一萬五,

友商吞吐原地杵。”

一萬五是一次綜合實力的大檢閱。

數字這么好看,這真是一件好事,

整個系統的吞吐量越大越好,

問題在于怎么把吞吐做上去。

人人都知道要榨干芯片性能,

問題在于怎么榨干。

一個模型在某種型號的芯片上跑起來,

這個系統的總吞吐量的理論峰值,

是由芯片性能決定的。

芯片性能是上限,

也是工程團隊竭盡全力接近的目標。

做出極高的總吞吐量,夢寐以求。

也就是說,有N個廠商,

每個都跑同樣的DeepSeek R1模型,

每個廠商都用同樣數量的芯片,

誰做到的總吞吐量最高,誰就最賺錢。

這門生意本質就是這點了。

對比一些友商和DeepSeek的吞吐,

DeepSeek高了10倍。

至于為何是10倍,得拿另外一篇文章來講。

有興趣的讀者,請在文末留言扣數字1。

阿里千問團隊也有MoE模型的經驗。

或者這么說,DeepSeek的基礎設施是為MOE設計的,效率非常之高,給誰一時都很難超越,不如在自己擅長的技術路線上發展。那天,我和武漢人工智能研究院王金橋院長一起吃拉面,他還給我科普:“MoE(稀疏)模型適合大型To C業務量,Dense(稠密)適合To B業務量。”

阿里選擇稠密模型的理由非常充分,

云計算廠商就是服務To B業務的。

一周之后,DeepSeek就搞了開源周,

不得不說,慷慨開源很多MoE底層技術,

商業機密肯定還有很多。

我所知道的是,

稀疏和稠密是兩種完全不同的技術路線,

榨干芯片性能的方法完全不一樣,

把稠密技術路線調為MoE稀疏技術路線談何容易。

當DeepSeek橫空出世,不只是模型,

而是模型帶著它的榨干芯片性能的全套方案一起橫空出世,這可是MoE專屬方案。

這時,有一個選擇題擺在大模型廠商面前,

在致敬和學習之后,也要做MoE模型嗎?

這個問題我特別想問千問團隊的人,

無奈周靖人把團隊看得太嚴了。

此時,我想,他們已經給我答案了。

我們回憶一下,在DeepSeek爆火之前,

通義千問72B橫掃企業級市場,

無論中國,還是美國,頭部科技大廠內部都在悄悄用通義千問72B。阿里千問團隊和美國Meta公司(Llama)選擇同一種開源市場策略。

面對令人尊敬的挑戰者,

阿里交出了自己的答卷。

競爭還在繼續。

(完)

聲明:個人原創,僅供參考

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
12歲女孩患感冒服用藥店配藥后急性心衰死亡,鑒定查出一種藥物“對死亡起促進作用” 家屬質疑藥店非法行醫 多部門介入

12歲女孩患感冒服用藥店配藥后急性心衰死亡,鑒定查出一種藥物“對死亡起促進作用” 家屬質疑藥店非法行醫 多部門介入

紅星新聞
2026-06-24 20:26:40
中國正式進入“超級內卷”時代!只有一種人能賺錢(深度)

中國正式進入“超級內卷”時代!只有一種人能賺錢(深度)

新浪財經
2026-06-23 08:51:12
亞足聯慌了!亞洲球隊第二輪近乎全軍覆沒,名額可能被削減

亞足聯慌了!亞洲球隊第二輪近乎全軍覆沒,名額可能被削減

鏗鏘格斗
2026-06-24 22:56:37
誰不信邪?2002年巴西之后,沒有一支世界杯冠軍在小組賽全勝

誰不信邪?2002年巴西之后,沒有一支世界杯冠軍在小組賽全勝

懂球帝
2026-06-24 18:43:05
廣德車禍事件進展:知情人稱3歲男孩“腦死亡”,36歲女司機曝光

廣德車禍事件進展:知情人稱3歲男孩“腦死亡”,36歲女司機曝光

老貓觀點
2026-06-24 17:12:27
中國罕見譴責烏克蘭!進行嚴肅表態,澤連斯基別把中國真惹毛了!

中國罕見譴責烏克蘭!進行嚴肅表態,澤連斯基別把中國真惹毛了!

墨印齋
2026-06-24 00:05:29
浙江省紀委省監委:王俊偉被查

浙江省紀委省監委:王俊偉被查

上觀新聞
2026-06-24 19:53:27
湖南“副院長出軌眼科主任”事件進展:女方曾某已離職,男方祖某某已恢復出診;此前官方介入,通報稱將依規依紀嚴肅處理

湖南“副院長出軌眼科主任”事件進展:女方曾某已離職,男方祖某某已恢復出診;此前官方介入,通報稱將依規依紀嚴肅處理

大風新聞
2026-06-24 20:18:21
金價,跳水!金飾克價年內大跌超460元,金店店員:金價越跌,消費者就越謹慎!已有8家國際大行下調金價展望

金價,跳水!金飾克價年內大跌超460元,金店店員:金價越跌,消費者就越謹慎!已有8家國際大行下調金價展望

每日經濟新聞
2026-06-24 20:39:50
A股股王再創新高,上市2個月股價狂飆超3000%

A股股王再創新高,上市2個月股價狂飆超3000%

21世紀經濟報道
2026-06-24 13:52:47
某地瑜伽館驚現印度男人教練不堪入目,網友說:瑜伽是印度房中術

某地瑜伽館驚現印度男人教練不堪入目,網友說:瑜伽是印度房中術

黯泉
2026-06-23 17:44:53
針對巴拿馬無端指責,中方闡明立場

針對巴拿馬無端指責,中方闡明立場

環球時報國際
2026-06-24 17:57:34
馬斯克身家跌破萬億美元,較高點縮水4430億美元

馬斯克身家跌破萬億美元,較高點縮水4430億美元

界面新聞
2026-06-24 16:40:41
“10億”還干不翻一個賈淺淺?

“10億”還干不翻一個賈淺淺?

現實的聲音
2026-06-24 13:50:39
5-0過后,葡萄牙遇壞消息!下輪若不勝,淘汰賽至少碰2支奪冠熱門

5-0過后,葡萄牙遇壞消息!下輪若不勝,淘汰賽至少碰2支奪冠熱門

十點街球體育
2026-06-25 00:40:03
基金“女神”翻車,拒不認錯!

基金“女神”翻車,拒不認錯!

鳴金網
2026-06-24 12:44:53
全紅嬋留長發,近170cm顏值驚人,網友:這臉,變化好大

全紅嬋留長發,近170cm顏值驚人,網友:這臉,變化好大

新動察
2026-06-24 08:54:19
高考出分后,他發帖求助:中流985還是再戰一年?

高考出分后,他發帖求助:中流985還是再戰一年?

娛圈觀察員
2026-06-24 00:11:16
向太小兒子直播帶貨首秀!被懷疑有唐氏綜合癥,向太又遭質疑!

向太小兒子直播帶貨首秀!被懷疑有唐氏綜合癥,向太又遭質疑!

情感大頭說說
2026-06-24 18:32:58
普京:行動開始前,我們已忍耐8年

普京:行動開始前,我們已忍耐8年

參考消息
2026-06-24 13:15:40
2026-06-25 01:32:49
親愛的數據 incentive-icons
親愛的數據
《我看見了風暴:人工智能基建革命》一書作者
695文章數 219909關注度
往期回顧 全部

科技要聞

豆包專業版上線:定價68-500元每月

頭條要聞

謝鋒當眾質問巴拿馬:若契約想撕毀就撕毀 誰還來投資

頭條要聞

謝鋒當眾質問巴拿馬:若契約想撕毀就撕毀 誰還來投資

體育要聞

字母哥,會把凱爾特人拆了嗎?

娛樂要聞

向佐向佑兄弟合體直播!母子終于和解

財經要聞

逃稅23億:審計署年報直指七家機構

汽車要聞

施鵬澤:為什么奧迪E7X強調座艙氣味安全?

態度原創

家居
健康
旅游
游戲
公開課

家居要聞

綠意盎然 自然之境

神經內科專家破解中風十大謠言

旅游要聞

游昆明黑龍潭別錯過,四百年臨水古閣,藏一戶普通人的忠義悲歌!

《GTA6》確認支持PS5 Pro增強!或有更高畫質與幀率

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版