AI范兒 · 產品拆解? 8 分鐘
昨天深夜,月之暗面又搞事情了。
Kimi K2.6 正式發布,同步開源。官方甩出一張跑分表,直接對標 GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro 三大閉源頂流。
多項指標持平甚至反超。
之前寫養蝦教程的時候,我推薦國產模型的理由還是"便宜"。現在理由變了:不光便宜,是真能打。
這篇文章幫你把 K2.6 最值得關注的幾個升級拆清楚,不堆參數,只講跟你有關的。
01成績單:贏在哪,差在哪
官方的跑分表有幾十項,大部分你不用關心。我按三個類別幫你劃重點。
![]()
▲ 圖:K2.6 在三大類別的跑分表現(來自官方 blog)
Agent 能力(通用智能體):全面領先。
"人類最后的考試"(HLE),博士級難度綜合測試,K2.6 帶工具跑出來的成績超過了 GPT-5.4 和 Claude Opus 4.6。
瀏覽器自動操作、深度搜索、操作系統級任務這幾項,也都穩在第一梯隊。
Agent 是 K2.6 最強的領域,跟閉源頂流正面硬剛不落下風。
代碼能力:反超閉源。
SWE-Bench Pro,測的是在真實項目里找 Bug 修 Bug,K2.6 超過 GPT-5.4 約 2%,比 Claude Opus 4.6 高出近 10%。終端編程測試也跟 GPT-5.4 打平。
一個開源模型在最硬核的代碼測試上反超兩大閉源頂流,這事挺炸的。
視覺理解:大幅拉開。
數學視覺推理測試,K2.6 比 Claude Opus 4.6 高出近 10 個百分點,跟 GPT-5.4 的差距也只有 3 個點。
視覺這塊的進步幅度,在所有升級里可能是最大的。
坦率說,K2.6 不是全面碾壓。但一個開源模型在代碼和 Agent 任務上正面硬剛閉源頂流,這事本身就挺了不起。
02代碼能力:連續干 13 小時不崩
K2.6 最炸裂的升級在代碼。
但這里說的"代碼能力強",跟你平時理解的可能不一樣。不是讓它寫個函數、補個 Bug 那種級別,是讓它自己規劃任務、自己寫代碼、自己調試、自己迭代,連續跑十幾個小時那種。
官方給了兩個案例,都挺狠的。
第一個:讓 K2.6 在 Mac 上部署一個小模型 Qwen3.5-0.8B,用一門非常冷門的編程語言 Zig 來做推理優化。
重點來了:沒人教過 K2.6 怎么用 Zig。
![]()
它自己學、自己寫、自己調,連續跑了 12 個小時,發起 4000 多次工具調用,迭代 14 個版本,最終把推理速度從 15 tokens/秒拉到 193 tokens/秒,比 LM Studio 還快 20%。
第二個更離譜:它接手了一個有 8 年歷史的開源金融撮合引擎 exchange-core。這引擎已經被優化到接近極限了,但 K2.6 硬是找到了突破口。
連續干了 13 個小時,發起 1000 多次工具調用,改了 4000 多行代碼,最終把中位吞吐量提升了 185%。
![]()
這兩個案例讓我重新理解了"AI 寫代碼"這件事。以前覺得 AI 寫代碼是"幫你省時間",現在看來,它更接近"替你干那些你不想干、或者干不了的重活累活"。
劃重點K2.6 的代碼能力不是"幫你補全幾行代碼"那種。它能自己規劃、自己執行、自己迭代,連續干十幾個小時不崩。這才是跟上一代模型的本質區別。
03養蝦的注意:該換大腦了
如果你正在用 OpenClaw(小龍蝦),這一段你得仔細看。
先說背景:之前 OpenClaw 官方跑過一輪 PinchBench 測試,Kimi K2.5 就已經是官方推薦的最佳適配模型之一,排名僅次于 Gemini 3 Flash,跟 MiniMax 并列。
K2.6 在這個基礎上又往前走了一步。最大的提升不是"更聰明",而是更穩。
官方自己做了個測試:讓一個 K2.6 驅動的 Agent 連續自主運行了 5 天。中間沒有任何人類介入,全程自己處理監控告警、故障響應、系統運維。從告警觸發到問題解決,全流程自動化。
對養蝦的人來說,好處很直接:你給小龍蝦安排一個長期任務(比如每天早上幫你搜集行業新聞、整理成日報發到飛書),它不會跑到一半突然"斷片"。
月之暗面內部還有個專門給 OpenClaw 設計的測試叫 Claw Bench,覆蓋編程任務、飛書生態對接、信息搜索、定時任務、記憶調用五個維度。
![]()
K2.6 在所有指標上都明顯優于 K2.5,綜合提升大約 10%。
如果你在用 openclaw 或者 Hermes,可以考慮切換 K2.6 試試。K2.6 已經上線 Kimi API 和 Kimi Code,配置方式跟之前一樣。
04Agent 集群:300 個分身同時干活
K2.5 的時候,月之暗面搞了一個叫 Agent Swarm(Agent 集群)的東西,能同時調度 100 個子 Agent 協同工作,執行 1500 個步驟。
K2.6 直接把規模拉到了 300 個子 Agent、4000 個協同步驟,比 K2.5 擴大了 3 倍。
數字聽著抽象,看個例子就懂了。
你上傳一份簡歷,K2.6 能自動拆出 100 個子任務,每個子 Agent 去匹配一個相關崗位,然后給你生成 100 份針對性定制的簡歷。一次性交付。
還有一個案例:分析 100 家全球半導體公司,設計 5 套量化投資策略,最后交付一份麥肯錫風格 PPT 和詳細建模表格。
這種"規模化并行"的能力,是很多傳統的 AI 聊天工具做不到的。它們是一對一陪聊,Agent 集群是一對多同時干活。
更有意思的是,K2.6 還推出了一個叫 Claw Groups 的新東西(目前是研究預覽版)。
簡單說就是:多個 Agent 可以組隊,每個 Agent 可以來自不同設備、跑不同模型、帶不同技能,K2.6 在中間當"包工頭",負責分配任務、監控進度、處理異常。
Agent 失敗了?它自動接管,重新分配。任務卡住了?它拆成更小的子任務繞過去。
AI 時代的"項目經理",大概就是這個意思。
05還有什么?快速過一遍
除了代碼和 Agent,K2.6 還有幾個值得一提的升級。
一句話建網站。官方叫"代碼驅動設計",說人話就是給它一句描述,它直接出一個帶動效、帶交互的完整網站,不是毛坯,是真能看的設計。
更狠的是它現在能做簡單全棧應用,自帶數據庫和用戶登錄。截一張設計稿或者手繪草圖丟給它,它也能還原成網頁。
Office 能力升級。以前 AI 處理文檔就是"幫你讀一下",現在 K2.6 的 Agent 模式開始會"動手"了。
Excel 能寫復雜公式做數據建模,Word 能插批注做合同審閱,PPT 丟一篇論文過去直接出 20 頁答辯幻燈片,格式之間還能無損互轉。
對普通打工人來說,這可能比代碼提升更有實際感知。
視覺理解也強了。K2.6 是原生多模態架構,不是后期拼上去的視覺模塊,前面跑分部分已經看到了,視覺類測試的提升非常明顯。上下文窗口保持 256K(約 20 萬漢字),但長上下文下的穩定性明顯提升。
這里不得不讓我聯想到 Claude Design、Claude For Office 三件套以及 Opus 4.7 極大提升的視覺能力。
冥冥中,大家都想到一塊了?
對了,K2.6 是開源的,所有用戶免費可用。Kimi Code 用戶、API 用戶都能直接用,官方還在搞限時充贈活動。
一年前,國產模型跟 GPT 和 Claude 比,大家心照不宣地在"第二梯隊"里排座次。
現在 K2.6 把跑分表往桌上一擺,好幾項核心指標已經跟第一梯隊面對面了。
當然,跑分不等于體驗。K2.6 在純數學推理上還有差距,Anthropic 剛發布了更強的 Opus 4.7,競爭遠沒有結束。
但有一件事已經變了:推薦國產模型的理由,不再只是"便宜"。
"又便宜又能打"和"便宜但將就用",對普通用戶來說,是完全不同的兩件事。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.