網易首頁 > 網易號 > 正文 申請入駐

Kimi K2.6 開源直逼 GPT-5.4:漲 58% 的 API 定價,暴露了月之暗面的真實意圖

0
分享至


4月20日晚間,月之暗面(Moonshot AI)正式發布并開源最新旗艦模型 Kimi K2.6。該模型在長程編碼、Agent 集群調度及自主執行能力上實現顯著躍升,多項基準測試成績持平或超越 GPT-5.4、Claude Opus 4.6 等國際頂尖閉源模型。

一周之內,Anthropic 發布 Claude Opus 4.7、阿里推出 Qwen3.6-Max-Preview,DeepSeek V4 亦將于下旬發布。Kimi K2.6 在這個密集窗口期登場,是月之暗面在 AI 競爭從"算法創新"轉向"工程化落地"關鍵節點的一次戰略展示。

長程編碼:從單輪補全到系統級優化


與此前大模型在代碼任務中多局限于"單輪補全"或"簡單腳本編寫"不同,Kimi K2.6 的核心進步在于處理復雜系統工程的能力。據官方技術博客披露,K2.6 可自主完成從需求分析、代碼實現、測試驗證到性能優化的全流程閉環,單次任務可修改超過 4000 行代碼。

兩項實測案例展現了這一能力。

案例一:Zig 語言重寫推理引擎

在 Mac 本地部署 Qwen3.5-0.8B 模型時,K2.6 跨語言使用小眾的 Zig 語言進行推理優化,歷經 12 小時連續運行、4000 余次工具調用及 14 輪迭代,將推理吞吐量從 15 tokens/s 提升至 193 tokens/s,最終速度超越主流推理框架 LM Studio 約 20%。


案例二:8 年引擎的性能重構

在對擁有 8 年歷史的開源金融撮合引擎 exchange-core 的優化中,K2.6 在 13 小時的執行過程中迭代了 12 種優化策略,發起 1000 余次工具調用,通過分析 CPU 與內存火焰圖定位隱藏瓶頸,將核心線程拓撲從 4ME+2RE 重構為 2ME+1RE。即便引擎已接近性能極限,K2.6 仍將中位吞吐量從 0.43 提升至 1.24 MT/s(提升 185%),峰值吞吐量從 1.23 提升至 2.86 MT/s(提升 133%)。


"這不再是簡單的'做題',而是在解決真實的工程問題。"多位開發者在體驗后反饋,K2.6 已具備從編碼到前端設計再到全棧交付的專業級 Web 應用構建能力。在官方的 Code-Driven Design 內部評測中,K2.6 在落地頁構建、全棧應用開發等四類任務上表現接近 Google AI Studio。

基準測試:編碼領先,推理仍有差距

官方公布的基準測試數據顯示,K2.6 在工程類任務中全面領先,但純推理能力與國際頂尖閉源模型仍有距離。


編碼與 Agent 任務方面,K2.6 在 SWE-Bench Pro 中取得 58.6%,領先所有參與對比的模型;在 Terminal-Bench 2.0 中以 66.7% 超越 GPT-5.4 和 Claude Opus 4.6 的 65.4%;在博士級難度的 Humanity's Last Exam(工具增強版)中以 54.0% 位居第一;DeepSearchQA 的 F1 分數達 92.5%,大幅領先 GPT-5.4 的 78.6%。

然而,在不使用工具的純推理測試中,K2.6 的短板同樣明顯。HLE-Full 僅得 34.7%,低于 GPT-5.4 的 39.8% 和 Gemini 3.1 Pro 的 44.4%;在視覺推理類基準如 MathVision(87.4% vs GPT-5.4 的 92.0%)上,差距同樣存在。這套基準測試描繪了一個清晰的輪廓:K2.6 的工程化與工具調度能力已躋身全球第一梯隊,但在純粹的知識推理和視覺理解層面,仍需持續追趕。

Agent 集群:300 子 Agent 并行,協作步驟三倍擴展

K2.6 的 Agent 集群架構相比 K2.5 實現了三倍量級的擴展——子 Agent 從 100 個提升至 300 個,協作步驟從 1500 步擴展至 4000 步。這種橫向擴展的"群體智能"架構使 K2.6 能夠在一次自主運行中并行完成深度搜索、文檔分析、網頁生成、PPT 制作和表格輸出的端到端交付。

案例:天體論文一鍵轉化為學術技能

K2.6 驅動的 Agent 集群將一篇天體物理論文轉化為可復用的學術技能,最終產出一份 7000 字的研究論文、一個包含 2 萬多條數據記錄的結構化數據集及 14 張天文級圖表。上傳的文檔格式不受限——PDF、表格、PPT、Word 均可轉化為技能資產。


官方案例視頻截圖

在招聘場景中,Agent 集群可基于上傳的簡歷自動生成 100 個子 Agent,分別為用戶匹配 100 個加州崗位并定制化簡歷。官方博客還展示了 30 家零售門店的本地化頁面生成案例,300 個子 Agent 各自完成從文案撰寫到落地頁構建的全流程。

更值得關注的是 Claw Groups 的研究預覽。這是一個異構 Agent 生態,允許來自不同設備、運行不同模型、攜帶各自工具鏈的 Agent 與人類作為真正的協作者共同運行。K2.6 在其中擔任自適應協調者,根據技能畫像動態匹配任務,并在 Agent 故障或卡頓時自動重新分配。

月之暗面透露,內部團隊已使用 Claw Groups 運行端到端的內容生產和營銷活動。這一布局顯示出月之暗面正試圖從單一模型提供商向 Agent 生態基礎設施服務商轉型。

商業化:輸入成本上漲 58%

在商業層面,以美元計價,Kimi API K2.6 每百萬 Token 的輸入價格(緩存未命中)為 $0.95,較 K2.5 的 $0.60 上漲約 58%;輸出價格為 $4.00,較 K2.5 的 $3.00 上漲約 33%;緩存命中價格則為 $0.16/MTok。上下文窗口為 262,144 tokens(約 256K)。


價格調整背后,是長程編碼與 Agent 自主運行帶來的 Token 消耗遠超傳統對話模型。K2.6 支持最長 5 天的持續自主運行,官方內部團隊已使用 K2.6 驅動的 Agent 獨立運行 5 天,完成監控、事件響應和系統運維任務。這意味著單位任務中的 Token 消耗量遠非普通 API 調用可比。

與此同時,Kimi Agent 模式已內置上百個官方推薦技能,并支持將任意高質量文件——PDF、表格、PPT、Word 文檔——轉化為可復用技能,捕獲并保存文檔的結構與風格特征。這種將非結構化數據標準化為"技能資產"的能力,是月之暗面在企業服務市場構建壁壘的關鍵布局。

在 Meta 發布閉源旗艦 Muse Spark 的行業背景下,月之暗面堅持將 K2.6 全面開源。

月之暗面創始人楊植麟在 3 月 26 日的中關村論壇年會上明確表態:"如果模型能力能做到一樣的水平,開源會是絕對的勝利。"在他看來,開源的核心價值在于構建生態共贏的合作模式,通過催生海量應用場景,形成遠超閉源模式的市場總量。

Kimi K2.6 的開源,正是這一邏輯的延續。但開源并不等于免費——API 定價的上漲表明,月之暗面正通過分級計費策略,在保障高端企業用戶服務質量的同時探索可持續的 B 端盈利模式。

隨著 DeepSeek V4、阿里 Qwen3.6 等重磅模型的集體登場,2026 年大模型行業的洗牌已然加速。K2.6 的基準測試成績證明,國產開源模型已在工程化場景中站穩第一梯隊,但在純推理和視覺理解能力上仍有追趕空間。開源社區的繁榮與商業化變現之間的平衡,仍是月之暗面乃至整個行業接下來必須面對的長期考題。(本文首發鈦媒體APP,作者 | AGI Signal,編輯 | 秦聰慧)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
阿瑙托維奇:因疫情在中國隔離至抑郁,最終選擇重返歐洲

阿瑙托維奇:因疫情在中國隔離至抑郁,最終選擇重返歐洲

懂球帝
2026-04-23 08:32:10
比亞迪在馬來西亞的東盟首個整車基地已全面停工,項目陷入僵局

比亞迪在馬來西亞的東盟首個整車基地已全面停工,項目陷入僵局

流蘇晚晴
2026-04-22 19:05:45
斯諾克世錦賽16強對陣!丁俊暉戰趙心童時間曝光,吳宜澤PK塞爾比

斯諾克世錦賽16強對陣!丁俊暉戰趙心童時間曝光,吳宜澤PK塞爾比

曹說體育
2026-04-23 11:39:25
伊朗艦艇護送一散貨船進入領海

伊朗艦艇護送一散貨船進入領海

財聯社
2026-04-24 06:46:03
穩居前四卻埋滿雷!北京男籃的季后賽,真的懸了!

穩居前四卻埋滿雷!北京男籃的季后賽,真的懸了!

林子說事
2026-04-24 07:34:54
有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
中國09IIIB新型核潛艇或已服役,水下垂發鷹擊18導彈畫面首次公開

中國09IIIB新型核潛艇或已服役,水下垂發鷹擊18導彈畫面首次公開

奧字侃劇
2026-04-24 07:15:55
在小公司上班是什么體驗?網友:可以避免自己有創業的想法

在小公司上班是什么體驗?網友:可以避免自己有創業的想法

帶你感受人間冷暖
2026-04-23 22:06:26
劃清界限!高云翔憔悴發聲撇清張婉婷,不留情面,一句話暗含深意

劃清界限!高云翔憔悴發聲撇清張婉婷,不留情面,一句話暗含深意

阿握聊事
2026-04-24 00:23:37
切爾西慘敗,球迷呼吁穆帥第3次執教藍軍,切爾西管理層無動于衷

切爾西慘敗,球迷呼吁穆帥第3次執教藍軍,切爾西管理層無動于衷

福醬的小時光
2026-04-24 08:00:53
何潔參加婚禮,無修圖下好黑,個子不高腿粗,翹著二郎腿太拽了!

何潔參加婚禮,無修圖下好黑,個子不高腿粗,翹著二郎腿太拽了!

小娛樂悠悠
2026-04-24 09:20:33
世上最失敗4大工程:損失慘重,中國占倆!卻說有意料之外效果?

世上最失敗4大工程:損失慘重,中國占倆!卻說有意料之外效果?

三毛看世界
2026-04-17 16:43:17
竄訪取消后,賴清德無能狂怒,馬達加斯加表態,民進黨徹底破防

竄訪取消后,賴清德無能狂怒,馬達加斯加表態,民進黨徹底破防

影孖看世界
2026-04-22 23:28:19
一夜3大消息!湖人重大利好,衛冕冠軍遭打擊,杜蘭特又添新傷

一夜3大消息!湖人重大利好,衛冕冠軍遭打擊,杜蘭特又添新傷

體壇小李
2026-04-24 07:27:51
3歲男童在游樂中心遭陌生男子襲擊致下體受傷,縫合6針,警方已立案;涉事店家:疑因小朋友爭執引發家長傷人,已墊付醫藥費并配合調查

3歲男童在游樂中心遭陌生男子襲擊致下體受傷,縫合6針,警方已立案;涉事店家:疑因小朋友爭執引發家長傷人,已墊付醫藥費并配合調查

都市快報橙柿互動
2026-04-24 08:01:43
死了這條心!人民日報攤牌:中國不會救菲律賓,馬科斯投機到頭了

死了這條心!人民日報攤牌:中國不會救菲律賓,馬科斯投機到頭了

諦聽骨語本尊
2026-04-23 23:15:34
恩情還不完!員工病重想辭職 G胖當場拒批:帶薪養病

恩情還不完!員工病重想辭職 G胖當場拒批:帶薪養病

游民星空
2026-04-21 11:51:12
吃相越來越難看,終于引起公憤了!

吃相越來越難看,終于引起公憤了!

胖胖說他不胖
2026-04-23 09:00:33
沙特媒:迪拜國民全隊仍在沙特等待亞足聯回復;球隊申訴重賽

沙特媒:迪拜國民全隊仍在沙特等待亞足聯回復;球隊申訴重賽

懂球帝
2026-04-24 01:59:08
孫楊張豆豆相處太累,男方要人哄女方不撒嬌,網友直言二人不適合

孫楊張豆豆相處太累,男方要人哄女方不撒嬌,網友直言二人不適合

萌神木木
2026-04-23 17:20:57
2026-04-24 09:52:49
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經科技媒體
132693文章數 862114關注度
往期回顧 全部

科技要聞

凌晨突發!GPT-5.5正式上線:跑分更猛

頭條要聞

用了16年的學位證"失效"男子舉報自己 高校最新通報

頭條要聞

用了16年的學位證"失效"男子舉報自己 高校最新通報

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

19家企業要"鋁代銅",格力偏不

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態度原創

家居
房產
藝術
游戲
健康

家居要聞

浪漫協奏 法式風格

房產要聞

三亞安居房,突然官宣!

藝術要聞

江青對聯驚艷眾人,書法與寫字的界限究竟在哪?

老外抱怨《黑旗RE》定價:太貴 我等打折了!

干細胞如何讓燒燙傷皮膚"再生"?

無障礙瀏覽 進入關懷版