網易首頁 > 網易號 > 正文 申請入駐

Kimi K2.6:國產開源模型,這次真的跟頂流掰手腕了

0
分享至

  AI范兒 · 產品拆解? 8 分鐘

  昨天深夜,月之暗面又搞事情了。

  Kimi K2.6 正式發布,同步開源。官方甩出一張跑分表,直接對標 GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro 三大閉源頂流。

  多項指標持平甚至反超。

  之前寫養蝦教程的時候,我推薦國產模型的理由還是"便宜"。現在理由變了:不光便宜,是真能打

  這篇文章幫你把 K2.6 最值得關注的幾個升級拆清楚,不堆參數,只講跟你有關的。

  01成績單:贏在哪,差在哪

  官方的跑分表有幾十項,大部分你不用關心。我按三個類別幫你劃重點。

  

  ▲ 圖:K2.6 在三大類別的跑分表現(來自官方 blog)

  Agent 能力(通用智能體):全面領先。

  "人類最后的考試"(HLE),博士級難度綜合測試,K2.6 帶工具跑出來的成績超過了 GPT-5.4 和 Claude Opus 4.6。

  瀏覽器自動操作、深度搜索、操作系統級任務這幾項,也都穩在第一梯隊。

  Agent 是 K2.6 最強的領域,跟閉源頂流正面硬剛不落下風。

  代碼能力:反超閉源。

  SWE-Bench Pro,測的是在真實項目里找 Bug 修 Bug,K2.6 超過 GPT-5.4 約 2%,比 Claude Opus 4.6 高出近 10%。終端編程測試也跟 GPT-5.4 打平。

  一個開源模型在最硬核的代碼測試上反超兩大閉源頂流,這事挺炸的。

  視覺理解:大幅拉開。

  數學視覺推理測試,K2.6 比 Claude Opus 4.6 高出近 10 個百分點,跟 GPT-5.4 的差距也只有 3 個點。

  視覺這塊的進步幅度,在所有升級里可能是最大的。

  坦率說,K2.6 不是全面碾壓。但一個開源模型在代碼和 Agent 任務上正面硬剛閉源頂流,這事本身就挺了不起。

  02代碼能力:連續干 13 小時不崩

  K2.6 最炸裂的升級在代碼。

  但這里說的"代碼能力強",跟你平時理解的可能不一樣。不是讓它寫個函數、補個 Bug 那種級別,是讓它自己規劃任務、自己寫代碼、自己調試、自己迭代,連續跑十幾個小時那種。

  官方給了兩個案例,都挺狠的。

  第一個:讓 K2.6 在 Mac 上部署一個小模型 Qwen3.5-0.8B,用一門非常冷門的編程語言 Zig 來做推理優化。

  重點來了:沒人教過 K2.6 怎么用 Zig。

  

  它自己學、自己寫、自己調,連續跑了 12 個小時,發起 4000 多次工具調用,迭代 14 個版本,最終把推理速度從 15 tokens/秒拉到 193 tokens/秒,比 LM Studio 還快 20%。

  第二個更離譜:它接手了一個有 8 年歷史的開源金融撮合引擎 exchange-core。這引擎已經被優化到接近極限了,但 K2.6 硬是找到了突破口。

  連續干了 13 個小時,發起 1000 多次工具調用,改了 4000 多行代碼,最終把中位吞吐量提升了 185%。

  

  這兩個案例讓我重新理解了"AI 寫代碼"這件事。以前覺得 AI 寫代碼是"幫你省時間",現在看來,它更接近"替你干那些你不想干、或者干不了的重活累活"。

  劃重點K2.6 的代碼能力不是"幫你補全幾行代碼"那種。它能自己規劃、自己執行、自己迭代,連續干十幾個小時不崩。這才是跟上一代模型的本質區別。

  03養蝦的注意:該換大腦了

  如果你正在用 OpenClaw(小龍蝦),這一段你得仔細看。

  先說背景:之前 OpenClaw 官方跑過一輪 PinchBench 測試,Kimi K2.5 就已經是官方推薦的最佳適配模型之一,排名僅次于 Gemini 3 Flash,跟 MiniMax 并列。

  K2.6 在這個基礎上又往前走了一步。最大的提升不是"更聰明",而是更穩

  官方自己做了個測試:讓一個 K2.6 驅動的 Agent 連續自主運行了 5 天。中間沒有任何人類介入,全程自己處理監控告警、故障響應、系統運維。從告警觸發到問題解決,全流程自動化。

  對養蝦的人來說,好處很直接:你給小龍蝦安排一個長期任務(比如每天早上幫你搜集行業新聞、整理成日報發到飛書),它不會跑到一半突然"斷片"。

  月之暗面內部還有個專門給 OpenClaw 設計的測試叫 Claw Bench,覆蓋編程任務、飛書生態對接、信息搜索、定時任務、記憶調用五個維度。

  

  K2.6 在所有指標上都明顯優于 K2.5,綜合提升大約 10%

  如果你在用 openclaw 或者 Hermes,可以考慮切換 K2.6 試試。K2.6 已經上線 Kimi API 和 Kimi Code,配置方式跟之前一樣。

  04Agent 集群:300 個分身同時干活

  K2.5 的時候,月之暗面搞了一個叫 Agent Swarm(Agent 集群)的東西,能同時調度 100 個子 Agent 協同工作,執行 1500 個步驟。

  K2.6 直接把規模拉到了 300 個子 Agent、4000 個協同步驟,比 K2.5 擴大了 3 倍。

  數字聽著抽象,看個例子就懂了。

  你上傳一份簡歷,K2.6 能自動拆出 100 個子任務,每個子 Agent 去匹配一個相關崗位,然后給你生成 100 份針對性定制的簡歷。一次性交付。

  還有一個案例:分析 100 家全球半導體公司,設計 5 套量化投資策略,最后交付一份麥肯錫風格 PPT 和詳細建模表格。

  這種"規模化并行"的能力,是很多傳統的 AI 聊天工具做不到的。它們是一對一陪聊,Agent 集群是一對多同時干活

  更有意思的是,K2.6 還推出了一個叫 Claw Groups 的新東西(目前是研究預覽版)。

  簡單說就是:多個 Agent 可以組隊,每個 Agent 可以來自不同設備、跑不同模型、帶不同技能,K2.6 在中間當"包工頭",負責分配任務、監控進度、處理異常。

  Agent 失敗了?它自動接管,重新分配。任務卡住了?它拆成更小的子任務繞過去。

  AI 時代的"項目經理",大概就是這個意思。

  05還有什么?快速過一遍

  除了代碼和 Agent,K2.6 還有幾個值得一提的升級。

  一句話建網站。官方叫"代碼驅動設計",說人話就是給它一句描述,它直接出一個帶動效、帶交互的完整網站,不是毛坯,是真能看的設計。

  更狠的是它現在能做簡單全棧應用,自帶數據庫和用戶登錄。截一張設計稿或者手繪草圖丟給它,它也能還原成網頁。

  Office 能力升級。以前 AI 處理文檔就是"幫你讀一下",現在 K2.6 的 Agent 模式開始會"動手"了。

  Excel 能寫復雜公式做數據建模,Word 能插批注做合同審閱,PPT 丟一篇論文過去直接出 20 頁答辯幻燈片,格式之間還能無損互轉。

  對普通打工人來說,這可能比代碼提升更有實際感知。

  視覺理解也強了。K2.6 是原生多模態架構,不是后期拼上去的視覺模塊,前面跑分部分已經看到了,視覺類測試的提升非常明顯。上下文窗口保持 256K(約 20 萬漢字),但長上下文下的穩定性明顯提升。

  這里不得不讓我聯想到 Claude Design、Claude For Office 三件套以及 Opus 4.7 極大提升的視覺能力。

  冥冥中,大家都想到一塊了?

  對了,K2.6 是開源的,所有用戶免費可用。Kimi Code 用戶、API 用戶都能直接用,官方還在搞限時充贈活動。

  一年前,國產模型跟 GPT 和 Claude 比,大家心照不宣地在"第二梯隊"里排座次。

  現在 K2.6 把跑分表往桌上一擺,好幾項核心指標已經跟第一梯隊面對面了。

  當然,跑分不等于體驗。K2.6 在純數學推理上還有差距,Anthropic 剛發布了更強的 Opus 4.7,競爭遠沒有結束。

  但有一件事已經變了:推薦國產模型的理由,不再只是"便宜"。

  "又便宜又能打"和"便宜但將就用",對普通用戶來說,是完全不同的兩件事。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
56歲湖北男子非洲失聯十多天后首次與家人聯系,女兒:父親脖子大片淤青,說話神志不清,連自己都不認識;大使館工作人員:會派人了解情況

56歲湖北男子非洲失聯十多天后首次與家人聯系,女兒:父親脖子大片淤青,說話神志不清,連自己都不認識;大使館工作人員:會派人了解情況

揚子晚報
2026-04-24 19:05:54
體制內硬剛領導會是什么下場?網友"鐵頭娃"式回答,大徹大悟

體制內硬剛領導會是什么下場?網友"鐵頭娃"式回答,大徹大悟

夜深愛雜談
2026-04-24 07:32:39
百億私募一季度持倉曝光:高毅資產馮柳熬不住了?減持海康威視5700萬股,重陽投資卻趁機抄底

百億私募一季度持倉曝光:高毅資產馮柳熬不住了?減持海康威視5700萬股,重陽投資卻趁機抄底

每日經濟新聞
2026-04-25 13:36:11
放棄職工社保轉居民社保:不是糊涂,是普通人算透了現實賬

放棄職工社保轉居民社保:不是糊涂,是普通人算透了現實賬

天氣觀察站
2026-04-25 11:53:26
官方:四川女籃外援坎貝奇缺席總決賽G5;今晚僅單外援出戰

官方:四川女籃外援坎貝奇缺席總決賽G5;今晚僅單外援出戰

懂球帝
2026-04-25 12:50:45
鄭欽文2-1逆轉僅3小時,下輪對手正式確定:再遇強敵,進16強難了

鄭欽文2-1逆轉僅3小時,下輪對手正式確定:再遇強敵,進16強難了

侃球熊弟
2026-04-24 22:20:51
男人的生理需求能有多難忍?網友:我對我老公只有動物本能

男人的生理需求能有多難忍?網友:我對我老公只有動物本能

帶你感受人間冷暖
2026-02-07 03:58:56
月薪1.6萬招放羊工老板:電話快被打爆了,更適合四五十歲的夫妻搭檔,一個人來的都拒絕了

月薪1.6萬招放羊工老板:電話快被打爆了,更適合四五十歲的夫妻搭檔,一個人來的都拒絕了

環球網資訊
2026-04-24 14:55:55
一半中國人蛋白質沒吃夠!醫生:64歲以上人群,每天這樣吃才達標

一半中國人蛋白質沒吃夠!醫生:64歲以上人群,每天這樣吃才達標

白宸侃片
2026-04-24 08:18:22
西甲懸念終結 皇馬遭絕平+4輪僅1勝 巴薩或11分領跑 最快下輪奪冠

西甲懸念終結 皇馬遭絕平+4輪僅1勝 巴薩或11分領跑 最快下輪奪冠

我愛英超
2026-04-25 06:15:13
42歲,傅首爾徹底變樣了!瘦成標準美女,網友:和麥琳像親姐妹

42歲,傅首爾徹底變樣了!瘦成標準美女,網友:和麥琳像親姐妹

娛樂皮皮醬
2026-04-24 17:33:27
羅翔:如果一個人突然努力工作,業余時間開始學習,不再參加社交活動,那么,身邊的人可能不僅不會幫他,還會拉他下來,原因就一個!

羅翔:如果一個人突然努力工作,業余時間開始學習,不再參加社交活動,那么,身邊的人可能不僅不會幫他,還會拉他下來,原因就一個!

譚老師地理大課堂
2026-04-22 00:03:57
美伊談判,最新消息

美伊談判,最新消息

魯中晨報
2026-04-25 07:36:08
經過伊朗這一戰,中美之間可能至少50年內不會爆發戰爭

經過伊朗這一戰,中美之間可能至少50年內不會爆發戰爭

流史歲月
2026-04-17 23:20:03
近7場1勝 皇馬球迷貼面怒罵球員:不知羞恥 姆巴佩用帽遮臉+逃離

近7場1勝 皇馬球迷貼面怒罵球員:不知羞恥 姆巴佩用帽遮臉+逃離

我愛英超
2026-04-25 07:46:50
才播了三期,就說他倆一定會離?

才播了三期,就說他倆一定會離?

橘子娛樂
2026-04-24 21:14:22
《蜜語紀》她集童星、學霸于一身,長得美演技好,終于又火了

《蜜語紀》她集童星、學霸于一身,長得美演技好,終于又火了

娛君墜星河
2026-04-25 15:26:29
郭冬臨現狀:住北京老房子,身形消瘦、臉頰凹陷,59歲無兒無女

郭冬臨現狀:住北京老房子,身形消瘦、臉頰凹陷,59歲無兒無女

娛說瑜悅
2026-04-23 16:04:39
又遇苦主!鄭欽文第5次挑戰世界第2 交手1-3落后 2月前遭3盤逆轉

又遇苦主!鄭欽文第5次挑戰世界第2 交手1-3落后 2月前遭3盤逆轉

我愛英超
2026-04-24 22:13:09
互聯網是有記憶的,她的黑歷史一大堆啊!

互聯網是有記憶的,她的黑歷史一大堆啊!

BenSir本色說
2026-04-15 22:38:07
2026-04-25 16:03:00
AI范兒 incentive-icons
AI范兒
AI范兒是一個專注于人工智能領域的資訊和學習平臺,提供最新的人工智能資訊
728文章數 669關注度
往期回顧 全部

科技要聞

DeepSeek V4發布!黃仁勛預言的"災難"降臨

頭條要聞

哈啰變速車1.5小時收費高達45元 游客直呼:騎不起

頭條要聞

哈啰變速車1.5小時收費高達45元 游客直呼:騎不起

體育要聞

火箭0-3觸發百分百出局定律:本季加時賽9戰8敗

娛樂要聞

鄧超最大的幸運,就是遇見孫儷

財經要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

藝術
親子
家居
游戲
健康

藝術要聞

荒廢十多年!福建石獅“最美爛尾樓”,德國品牌接盤了

親子要聞

爸爸教育孩子,孩子的回答讓媽媽很暖心

家居要聞

自然肌理 溫潤美學

免費工具《IndieUp》Beta版發布 匹配游戲與直播UP主

干細胞如何讓燒燙傷皮膚"再生"?

無障礙瀏覽 進入關懷版