網易首頁 > 網易號 > 正文 申請入駐

美團新模型LongCat-Flash-Thinking-2601重思考模式拉風,附一手對比實測

0
分享至

作者|子川

來源|AI先鋒官

近日,美團重磅更新并開源自家模型LongCat-Flash-Thinking-2601


據介紹,此次發布的模型是LongCat-Flash-Thinking模型的升級版,擁有 5600 億個參數,并基于的 MoE 架構構建。

LongCat-Flash-Thinking-2601 最大的不同,就在于它引入了重思考模式(Heavy Thinking Mode)。

簡單來說,這個模式讓模型能同時啟動 8 個大腦思考,從不同角度和深度推理同一個問題,最后總結出一個更全面、更可靠的結論。

給大家看一個簡單的例子就明白了。


提示詞:1+1為什么不等于2


可以看到,重思考模式相當于使用了8個模型同時進行推理工作,最后的給出的8個答案在進行反復驗證,最終會得到一個最終解。


除此之外,LongCat團隊在新模型中加入了額外的強化學習環節,針對性打磨模型的總結歸納能力,從而讓LongCat-Flash-Thinking-2601實現“想清楚再行動”的結果。

不過在體驗的時候,由于相當8款模型同時在推理,所以它的上下文非常容易耗光,會經常返回“當前對話上下文過長,建議精簡輸入后重試”。


那這款模型表現到底如何?我們先來看LongCat-Flash-Thinking-2601的紙面實力。


首先是大家最關注的編程能力上,LCB 評測拿到82.8 分,OIBench EN 評測獲47.7 分,這些成績處于同類模型第一梯隊。

數學推理方面,開啟重思考模式后更猛。

AIME-25 評測中取得100.0 分(滿分),IMO-AnswerBench 中以86.8 分達到當前 SOTA。

智能體工具調用上,τ2-Bench 評測88.2 分,VitaBench 評測29.3 分,均為開源 SOTA 水平。

智能體搜索方面,BrowseComp 任務73.1 分(全模型最優),RW Search 評測79.5 分。

最關鍵的是什么?在工具調用的泛化能力上,LongCat-Flash-Thinking-2601 超越了 Claude-Opus-4.5-Thinking。


這一連串的SOTA似乎有點東西,那它的實際效果到底如何? 老規矩,我們直接上手實測。

此次參賽的對手分別是LongCat-Flash-Thinking-2601、DeepSeek-V3.2、Kimi K2 Thinking。

提示詞:
創建一個 3D HTML 山脈場景,包含懸崖、河流和晝夜光照變化。支持拖動和縮放、動畫過渡、真實感漸變色,并可切換等高線顯示。

LongCat-Flash-Thinking-2601:

Kimi K2 Thinking :

DeepSeek-V3.2:

可以明顯的看到LongCat-Flash-Thinking-2601的缺陷,對“河流”的幾何理解出現了偏差。它未能生成自然蜿蜒的水體,而是生成了一個圓柱體結構,導致視覺上更像是一根橫亙在山間的“水管”。

而且DeepSeek-V3.2出現了嚴重的幻覺,模型似乎在坐標系構建上徹底迷失,原本應是連綿起伏的山脈和流動的河水,被渲染成了兩條細長的線段。

功能較為完善的只有Kimi K2 Thinking ,山脈起伏、樹木點綴、動態的云朵與太陽一應俱全,光照邏輯也基本成立,但這也不得不吐槽一下,河流也是一條大水管!

或許這條題太難,給它們減低一下難度,做一個簡單的可視化登錄頁面。

提示詞:請創建一個現代化的登錄頁面,包含以下功能:

- 郵箱和密碼輸入框

- 登錄按鈕

- "記住我"和"忘記密碼"選項

- Google第三方登錄

- 注冊鏈接

要求:深色主題,未來科技風格,居中布局,良好的用戶體驗。

LongCat-Flash-Thinking-2601:

Kimi K2 Thinking :

DeepSeek-V3.2:

這次終于扳回一城,對于簡單的登錄頁面的UI,目前的模型已經是手拿把恰了,效果都大差不差,登錄、注冊等功能都有,主要是看每款模型的審美能力。

再換一題,來一個經典老題:天氣卡片,主要是考驗模型的審美能力。

提示詞:
Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions

LongCat-Flash-Thinking-2601:

Kimi K2 Thinking :

DeepSeek-V3.2:

LongCat-Flash-Thinking-2601DeepSeek-V3.2這兩款模型雖然完成了動”的要求,但質感較為粗糙。

它們的動效缺乏物理運動的自然感,視覺元素較為扁平,最終呈現效果略顯廉價,像是一個早期的 Demo。

Kimi K2 Thinking 的表現則是會好很多,視覺上也更加的完整。

此次測試的主要內容是以代碼為主,主要測試代碼能力的原因很簡單:代碼從不說謊,行就是行,不行就是不行,可以一眼用肉眼分辨出好壞。

雖然這次只測試了三個項目,但LongCat-Flash-Thinking-2601的缺陷可以明顯看出。

雖然它在數學和搜索上拿分拿到手軟,甚至超越了 Claude。但在代碼實戰中,它卻明顯得有些“高分低能”了。

目前該模型已經上線,感興趣的用戶可以去體驗一下。

  • 體驗鏈接:https://longcat.ai

  • 模型地址:https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking-2601

  • GitHub:https://github.com/meituan-longcat/LongCat-Flash-Thinking-2601

掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
39歲何潔官宣即將二婚,對象是仨孩子生父刁磊,日子定在5月20日

39歲何潔官宣即將二婚,對象是仨孩子生父刁磊,日子定在5月20日

白面書誏
2026-05-08 16:13:29
朝鮮憲法迎來大改,平壤堅持了78年的道路,被金將軍親手放棄

朝鮮憲法迎來大改,平壤堅持了78年的道路,被金將軍親手放棄

安珈使者啊
2026-05-09 14:24:39
重磅!多名中國兩院院士被除名或帶走調查!

重磅!多名中國兩院院士被除名或帶走調查!

深度報
2026-05-08 22:40:42
同樣“糊弄消費者”的套路,在國外直接挨捶了

同樣“糊弄消費者”的套路,在國外直接挨捶了

走讀新生
2026-05-09 11:21:16
無錫市一游樂場發生一起腳踏風車船側翻事故,調查報告公布:涉事游船不合格,3人被刑事拘留,4名公職人員被處理

無錫市一游樂場發生一起腳踏風車船側翻事故,調查報告公布:涉事游船不合格,3人被刑事拘留,4名公職人員被處理

極目新聞
2026-05-09 08:12:25
央視拒付天價轉播費僅48小時,難堪的一幕發生,鄭欽文也被拉下水

央視拒付天價轉播費僅48小時,難堪的一幕發生,鄭欽文也被拉下水

混沌錄
2026-05-09 16:18:09
外賣小哥冒死沖進火場救火 被物業收取50元“滅火器使用費”

外賣小哥冒死沖進火場救火 被物業收取50元“滅火器使用費”

閃電新聞
2026-05-09 09:31:06
上市三年,造假三年,“小巨人”清越科技被立案調查

上市三年,造假三年,“小巨人”清越科技被立案調查

未名財經
2026-05-09 15:39:24
世體:巴薩更衣室多數認為巴爾韋德是主責,因其歷來輸不起

世體:巴薩更衣室多數認為巴爾韋德是主責,因其歷來輸不起

懂球帝
2026-05-09 14:05:18
最新戰報!吳宜澤破百沖賽點,3-1領先希金斯,劍指世錦賽后首勝

最新戰報!吳宜澤破百沖賽點,3-1領先希金斯,劍指世錦賽后首勝

劉姚堯的文字城堡
2026-05-09 16:00:48
雪中送炭!中方伸出援手,3小時直飛達沃,給絕境中的莎拉帶來希望

雪中送炭!中方伸出援手,3小時直飛達沃,給絕境中的莎拉帶來希望

井普椿的獨白
2026-05-09 14:26:34
國際油價本周大跌7%

國際油價本周大跌7%

每日經濟新聞
2026-05-09 09:16:42
國產“新偉哥”!效力是西地那非8倍,副作用卻更少

國產“新偉哥”!效力是西地那非8倍,副作用卻更少

鬼菜生活
2026-05-09 11:20:07
美軍剛射戰斧,不到24小時,解放軍直接回擊,亮出南海最硬底牌

美軍剛射戰斧,不到24小時,解放軍直接回擊,亮出南海最硬底牌

云上烏托邦
2026-05-09 14:53:05
141:0壓倒性優勢,歐盟成員國通過重大草案,中國外交部:贊賞

141:0壓倒性優勢,歐盟成員國通過重大草案,中國外交部:贊賞

書紀文譚
2026-05-08 15:05:30
人熊對峙!男子稱在四川理縣采野菜突遇三四百斤黑熊:回到車里才覺后怕,開始冒冷汗

人熊對峙!男子稱在四川理縣采野菜突遇三四百斤黑熊:回到車里才覺后怕,開始冒冷汗

紅星新聞
2026-05-09 13:22:48
尷尬!王石公開脫衣秀身材“翻車”,網友:像是一副被榨干的軀體

尷尬!王石公開脫衣秀身材“翻車”,網友:像是一副被榨干的軀體

火山詩話
2026-05-08 21:39:02
南京一景區推出“母親節穿旗袍免費入園”引爭議,景區:已取消,策劃失誤,無附加導向

南京一景區推出“母親節穿旗袍免費入園”引爭議,景區:已取消,策劃失誤,無附加導向

瀟湘晨報
2026-05-09 17:26:24
人民日報發聲:機關事業單位的隱性收入,正在消失

人民日報發聲:機關事業單位的隱性收入,正在消失

細說職場
2026-05-09 12:16:27
保真嗎?六臺用AI制作巴爾韋德和楚阿梅尼更衣室打架視頻

保真嗎?六臺用AI制作巴爾韋德和楚阿梅尼更衣室打架視頻

懂球帝
2026-05-09 16:43:08
2026-05-09 19:12:49
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應用精選與評測
503文章數 74關注度
往期回顧 全部

科技要聞

美國政府強力下場 蘋果英特爾達成代工協議

頭條要聞

國防部證實:中方建造的"麒麟"級潛艇首艇交付巴基斯坦

頭條要聞

國防部證實:中方建造的"麒麟"級潛艇首艇交付巴基斯坦

體育要聞

成立128年后,這支升班馬首奪頂級聯賽冠軍

娛樂要聞

50歲趙薇臉頰凹陷滄桑得認不出!

財經要聞

存儲芯片上演造富潮

汽車要聞

軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

態度原創

時尚
本地
親子
數碼
教育

今年春夏最火的3個穿搭思路,普通人可以直接照搬嗎?

本地新聞

用蘇繡的方式,打開江西婺源

親子要聞

2026好看又好用的媽咪育兒包有哪些?(5月最新)

數碼要聞

當貝2S Ultra:AI智養+干濕分離+全色域燈,養魚一步到位

教育要聞

商學院地理位置怎么影響求職?雷丁與北部城市的差距,比你想的大

無障礙瀏覽 進入關懷版