![]()
【新智元導(dǎo)讀】開源AI王座一夜易主!Kimi K2.6出道即巔峰,展示了恐怖的「全棧交付」能力。它不僅能復(fù)刻高盛研報、手搓奢華官網(wǎng),甚至能和人類在群組里并肩打工。
開源模型追平甚至反超閉源三巨頭,這件事真的發(fā)生了。
4月20日深夜,Kimi K2.6出道即開源。
![]()
![]()
HLE「人類最后的考試」54.0分,碾壓GPT-5.4和Claude Opus 4.6
SWE-Bench Pro軟件工程實戰(zhàn)58.6分,超過GPT-5.4的57.7
Terminal-Bench終端編碼66.5分,而GPT-5.4只有60.4
Artificial Analysis評測中,更是直接坐上了世界開源第一王座
![]()
但我們今天拋開跑分,只聊一件事:K2.6到底能干出什么活。
代碼寫完了,設(shè)計也交了
首先,讓K2.6 Agent制作一個近地軌道旅行公司ORBITAL的官網(wǎng),要求植入太空艙座位選擇和航班預(yù)訂功能。
![]()
打開的瞬間,商業(yè)航天的高級感直接拉滿。
全屏視頻背景是太空艙窗口視角,地球弧面緩緩轉(zhuǎn)過,大氣層邊緣泛著藍光。
右下的飛行數(shù)據(jù)面板用等寬字體列出關(guān)鍵參數(shù),左上的熒光青小圓點在緩慢呼吸閃爍,模擬系統(tǒng)在線狀態(tài)。
往下滑動,是一條垂直時間線驅(qū)動的飛行敘事。
從T-60:00在樟宜航天港換上定制加壓服,到T+03:00推進階段承受過載,到T+08:00零重力開始,一直到T+92:00 Touchdown,太空艙濺落海面,回收潛水員圍上來。每個階段帶一個橙色關(guān)鍵數(shù)據(jù)和AI生成的場景配圖。
一段prompt,一次生成,從品牌視覺系統(tǒng)到可交互的艙位SVG圖,全部到位。
![]()
K2.6 Agent做出來的不只是好看的前端,它能做全棧交付。
后臺的航班預(yù)訂系統(tǒng)是真的能跑的。選日期、挑座位、填乘客信息,預(yù)約數(shù)據(jù)做了持久化存儲,每航班6座上限,滿了自動鎖定。
這個網(wǎng)站不是一個「看樣子」的空殼,它帶著完整的后端邏輯。
換個題材。
同樣的prompt結(jié)構(gòu),K2.6 Agent產(chǎn)出了深海探索研究機構(gòu)「THALASSA」的官網(wǎng)。
首屏運鏡從北大西洋海面垂直下沉入水,穿過水線的瞬間畫面一分為二,藍色從淺到深漸變,遠處墨藍中亮著兩點暖黃色潛水器燈光。
三臺潛水器參數(shù)卡片精確到推進方式和觀察窗尺寸,6種深海生物各占一屏。田野筆記區(qū)三篇文章分別署名首席科學(xué)家、海洋生物學(xué)家和紀(jì)錄片導(dǎo)演。
奢侈香水品牌?THER的官網(wǎng),K2.6 Agent在「極致美學(xué)」上的統(tǒng)治力展現(xiàn)得最充分。
只見一支琥珀色香水瓶在大理石臺面上,瓶內(nèi)液體緩慢旋轉(zhuǎn),光線穿透玻璃投射出焦散紋。
「?THER」五個字母用Cormorant Garamond襯線體疊在瓶身上。La Collection區(qū)展示5款香水,可拖拽切換。
5款香水、5套完整香調(diào)金字塔、5句手寫文案、5張各不相同的瓶身圖。
這些網(wǎng)站能做到這個水準(zhǔn),背后是K2.6模型加上Kimi Agent 模式 harness 的實力。超過了 Google AI Studio中的Gemini 3.1 Pro。
![]()
產(chǎn)出的是可以直接丟進項目的React組件和HTML/CSS代碼,帶動畫關(guān)鍵幀、hover狀態(tài)、滾動觸發(fā)動效,甚至拖拽界面和多步表單,跟靜態(tài)Mockup完全兩碼事。
前端編碼的審美是 Kimi 從 K2.5 就開始卷的能力,到 K2.6 又券出了新境界。沒猜錯的話,這應(yīng)該是楊植麟在2025年底內(nèi)部信中提到的agent產(chǎn)品taste之一?
300個Agent,4000步,一次交付
1T巨量參數(shù),每個token只激活32B的開源MoE,384個專家選8個激活。
連續(xù)編碼13小時不斷線,單次修改超過4000行代碼。
內(nèi)部實測中自主重構(gòu)了一個8年歷史的金融撮合引擎,峰值吞吐量漲了133%。
有了這個底子,Agent集群才真正有了用武之地。
![]()
長程編碼解決「一個人能干多久」,Agent集群解決「一支團隊能做多大的事」。
K2.5時代是100個子Agent、1500步。K2.6直接拉到300個子Agent、4000步。
不同技能特長的Agent互補協(xié)作,一次運行就能交付從文檔到網(wǎng)頁、從PPT到表格的全套產(chǎn)物。
過去丟給Kimi一個復(fù)雜任務(wù),它一個人從頭干到尾,遇到不擅長的環(huán)節(jié)就可能卡住。現(xiàn)在它會自己拆活、組隊、分頭干,每個子Agent專攻自己擅長的那塊,最后匯總交付。
Claw Bench的內(nèi)部測試結(jié)果顯示,K2.6在無需人工干預(yù)的長時間自主運行場景中提升尤為明顯。
在自主Agent場景中,K2.6與OpenClaw、Hermes Agent配合可長達5天持續(xù)自主運行。
![]()
這個「集群」到底能干什么?我們做了三輪測試。
30個Agent寫30座城市的凌晨四點
首先,讓Agent們化身為30座城市在凌晨四點仍然醒著的一個人。
拉各斯的發(fā)電機維修工、孟買的送報員、里約的沙灘清潔工、新加坡的港口調(diào)度員、舊金山的程序員、馬尼拉呼叫中心的夜班接線員……
每人寫一段200字以內(nèi)的第一人稱片段,只寫動作和感官,禁止出現(xiàn)「孤獨」「寂寞」等直白情感詞。
![]()
![]()
這類任務(wù)的難點不在單篇文字,而是30篇之間不能撞。
拉各斯維修工寫的是「柴油滴在指關(guān)節(jié)上,油膜裹住皮膚的紋理,滑膩的觸感像涂了一層冷蠟。我握緊扳手,將十六毫米套筒扣住螺栓,順時針擰動,金屬與金屬碰撞出咔噠咔噠的咬合聲」。
舊金山程序員寫的是「Cherry青軸的咔噠聲在黑暗里格外脆。食指敲下回車,藍光從屏幕撲到臉上,眼皮被刺得一緊」。
馬尼拉接線員寫的是「隔斷板上女兒的相片邊角翹起來了,我用小拇指把它按平,膠紙的粘性不夠了」。
感官錨點沒有一個重復(fù),每頁的背景圖也是匹配生成的。30張圖30種氣氛,視覺風(fēng)格統(tǒng)一在深夜的暗調(diào)里。
Skill × Agent集群,復(fù)刻高盛研報
Agent集群負責(zé)干活,但「按什么標(biāo)準(zhǔn)干」還需要一個東西來定義。
Kimi Agent的技能(Skill)就是干這個的。
系統(tǒng)內(nèi)置了上百個官方推薦技能包,用戶也可以自己創(chuàng)建,輸入斜杠「/」即可調(diào)用。
兩者疊在一起會怎樣?
我們上傳一份高盛的研究報告,讓Kimi K2.6分析架構(gòu)、語言風(fēng)格,并總結(jié)出一個Skill。
![]()
![]()
做好之后,就可以直接調(diào)用這個最新的技能goldman-research-report,讓Kimi K2.6做一份類似的調(diào)研報告:
2026年的硅谷AI競爭格局,需要提及Anthropic、OpenAI、谷歌、xAI、Meta。
命令一發(fā)出,一大批Agent全部上線,每一人分工任務(wù)明確。
比如,納什負責(zé)OpenAI、唐墨負責(zé)Anthropic、逸飛谷歌、莉香xAI、胡博士Meta......
![]()
然后,這些Agent團隊分別開始推進自己的子任務(wù)的報告,每一個完成后,都會主動匯報已完成。
調(diào)研完成后,進入交叉驗證階段,素材事實性沒有問題后,交由「高盛報告撰寫員Agent」再次分配任務(wù)。
![]()
![]()
最后,就得到了一份非常詳實,且1:1復(fù)刻「高盛風(fēng)格」的硅谷局勢分析的Word版報告。
![]()
一次出三件套,跨文檔數(shù)據(jù)零誤差
加大難度。
這次要求Agent集群一次性交付PDF深度報告、Excel數(shù)據(jù)底表和英文PPT三件套,主題是全球AI基礎(chǔ)設(shè)施競爭情報,覆蓋芯片、云計算、數(shù)據(jù)中心、網(wǎng)絡(luò)設(shè)備四個層級的60家企業(yè)。
Agent集群跑完后交付了一份76頁的PDF、一份Excel底表和一套PPT。
PDF采用摩根士丹利藍皮書風(fēng)格,內(nèi)容細到芯片架構(gòu)的算力密度公式和NVIDIA B200 vs AMD MI350X的參數(shù)對比表。
![]()
同樣的,系統(tǒng)也自動做了跨文檔一致性驗證,五項檢查,全部綠勾。
60家企業(yè)的名稱和數(shù)據(jù),在PDF、Excel、PPT里對得上每一個數(shù)字。
這種「交付即可審計」的完成度,放在真人團隊里都不一定做得到。
One More Thing
Agent集群讓AI學(xué)會了自動化分工。
但下一步的問題更大,能不能把人類和各種不同來源的Agent放在一個群組里,像真正的團隊一樣協(xié)作?
人類統(tǒng)治地球靠的是大規(guī)模協(xié)作,單個人打不過老虎。
AI Agent走向?qū)嵱没苍谧咄瑯拥穆罚瑥膫€體智能到群體智能,再到人機混合智能。
Kimi團隊的答案叫「Claw群組」,目前已開啟小范圍內(nèi)測。
用戶可以接入來自任何設(shè)備、任何供應(yīng)商、運行任何模型的龍蝦,每個龍蝦攜帶各自的工具包、技能和持久化記憶。首批兼容OpenClaw,后續(xù)會加入Hermes Agent等框架。
無論部署在本地筆記本、手機還是云端,都能進入同一個協(xié)同辦公群組。
K2.6在群組中擔(dān)任協(xié)調(diào)者(包工頭),根據(jù)Agent的技能畫像動態(tài)匹配任務(wù)。人類是下達任務(wù)的甲方。
當(dāng)某個Agent故障或停滯時,協(xié)調(diào)者自動重新分配任務(wù)或生成子任務(wù),對交付物全生命周期進行主動管理。
Kimi自己的營銷團隊已經(jīng)在用Claw群組跑內(nèi)容生產(chǎn)流水線。有人教自己的蝦學(xué)會了剪視頻,有人教自己的蝦調(diào)研社媒熱帖,有人的蝦是做Benchmark圖的好手……那為什么不把他們拉到一個群里干活。
Demo Maker、Benchmark Maker、Social Media Agent、Video Maker各司其職,K2.6做全局協(xié)調(diào),從創(chuàng)意到成品一條線拉通。
從一個Agent做一件事,到300個Agent做一套事,到人類和Agent坐進同一個群里一起干活……進化的從來不是技術(shù),而是“我們“的邊界。
風(fēng)險提示及免責(zé)條款: 市場有風(fēng)險,投資需謹(jǐn)慎。本文不構(gòu)成個人投資建議,也未考慮到個別用戶特殊的投資目標(biāo)、財務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點或結(jié)論是否符合其特定狀況。據(jù)此投資責(zé)任自負。
![]()
點個在看支持一下??
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.