網易首頁 > 網易號 > 正文 申請入駐

AI開始學會合作?!實測4大多Agent體=10個打工人

0
分享至

Agent掀起的AI產品熱潮中,如今又進化到了多智能體(Multi-Agent)時代,或者說是L4 智能體時代。

當然,這都是企業給自己產品的稱謂。核心就是多個任務流能一起工作,自主完成更復雜的任務。

從8月1日開始熱鬧,Manus 發布Wide Research功能;到3日,360宣布首個L4 智能體納米AI蜂群;MasterAgent作為初創公司聲量很難比得過前兩者,但實際上也通過一些KOL在傳播首個L4 智能體的概念;APUS的天燕則正常上線,沒有過多傳播。

如果說這幾款產品是多Agent的四大天王(實際上目前也就這幾款),鯨哥發現相比上一代Agent產品,進步真的挺明顯,多任務的效率和復雜任務的處理結果,基本有一兩倍的效果提升。

這里簡單總結下測評出來的大家亮點:


Manus最大的亮點是多任務執行效率更高,官宣是10個智能體同時能執行10個任務,內部人說最高2000+智能體同時工作,類似調研100家競品公司這種任務就簡單了;

納米AI則類似內置了『扣子』,手動或者自動配置工作流兩種思路,并且能調用的MCP多,任務多樣性不錯;

而MasterAgent則是交互創新幅度最大的產品,每次生成幾個角色形象(Agent),不同角色分工完成任務,看起來十分直觀清爽。

天燕則是產品有一定的進步,在查商業信息查詢領域比較落地。

多說無益,Agent主要是思考、規劃、執行、反思幾個核心步驟,鯨哥認為多Agent應該考驗,多智能體在任務串并聯分解,以及錯誤累加效應處理效果等方面。

我們最終實測了商業計劃、運營設計、內容創作、生活服務四大場景。重點關注了智能體的信息收集、數據分析、全流程鏈路、圖像生成以及復雜任務處理等,力求更全面還原“協作式智能群體”在真實工作流中的表現。

商業計劃橫評

比如在鯨哥的老家開一家門店,向智能體提出具體的問題提示詞,考驗智能體對最新信息的準確抓取、任務分解和執最終回答的可用性。

提示詞:在四五線小城市赤峰開一家門店,幫做一個完整調研,開什么類型店(搜集網絡加盟信息),哪些店鋪便宜(搜集本地商鋪租金信息),怎么經營,以及如何回本和盈利。

MsterAgent在處理任務時,首先會對提示詞進行分解,再反饋用戶詢問相關細節信息,為用戶量身定制更符合方案。當然,不想一個一個回復,也可以點擊「由AI補充」。

隨后,MsterAgent會生成四個智能體的工作組,點擊「立即運行」,任務會自動分給智能體工作。

MsterAgent是構建單線程線性智能體架構,任務拆解的角色十分清晰。但是,這種架構的弊端是如果有大量子任務的大型任務,會導致上下文窗口溢出,而MsterAgent大多數生成4個智能體,很少出現給到10個智能體角色解決任務

master Agent

我們再來看最終結果,MsterAgent對抓取的信息完整,保持了任務的整體一致性和可控性。但多為宏觀新聞且內容雜亂、有用性不強,缺乏地方最新動態。

同樣,納米在處理任務時,首先會對提示詞進行分解,分成多個任務。不同的是,納米會將任務生成后,是否需要修改的權力給了用戶,用戶在20秒內可以修改任務執行方案。

過程中也會調用MCP執行不同的任務,整個工作流程也清晰可見。值得注意的是,很多抓取新的網站需要用戶自己登錄賬號,不然不能繼續執行。

最終回答中,對城市畫像、加盟分析以及租金成本信息抓取完整,對法規政策也進行了監測,真實參考性較強。

納米AI

APUS 天燕集合多家先進大模型,內置MCP工具鏈,通過分步的任務,在處理實際復雜商業任務時,響應時間短,提升工作效率。但是APUS 天燕智能體缺乏反思機制,一旦信息錯漏,中途難以調節思路。

APUS 天燕

Manus沒使用最高級版本,質量模式下通過公開信息的深入搜集和分析(10年前的新聞也找出來了),主動調用瀏覽器、數據分析工具等完成任務。最終交付的結果存在AI幻覺(一本正經的瞎編),需要人工進一步篩查。

Manus

運營設計比拼

這里我們將智能體的內容從文字升維到圖文,而是是超大量工作。這個任務挺考驗圖片Agent的調用效果,以及多智能體的處理任務效率,畢竟如果是人工設計完成,沒有幾個月時間怕是辦不完。

提示詞:幫我給中國熊貓設計一百套不同款式的穿搭。

master Agent從面料、元素、風格等方面進行設計,甚至特別設計了幼年熊貓的方案。所有的設計稿最終以3D模型形式呈現,非常直觀的看見最終效果,可惜的是只生成了8張圖片。

master Agent

納米AI僅生成了四張圖片,其中兩張還是無關的圖片,敦煌熊貓還挺萌的,還會出現任務過長(超出上下文),可能會宣告失敗,執行不落地。

納米AI

Manus像一個“自主性高的秘書”,它會自動將任務拆分成多個小步驟,每個批次生成5張圖片,最終充分完成100張不同風格的設計圖任務。

Manus

內容創作競賽

文生視頻一直是非常火的AI創作功能,于是鯨哥想測試一下多智能體是如何制作文生視頻創作的,也考驗智能體對指令遵循、文本理解以及調用視頻、音頻模型的合成質量。

根據“《靜夜思》床前看月光,疑是地上霜。舉頭望山月,低頭思故鄉。”生成相應的視頻

master Agent通過水墨畫留白技法,使畫面既具體又具有想象空間,能深切的感受到月光光影的變化,同時又創作了四段式結構原創音樂,作品總時長也控制在理想范圍內。

MasterAgent

接近1個小時,納米AI生成了一段講解視頻,對詩人李白《靜夜思》的理解也有一定的深度,視頻畫面流暢。不過中間有一段白素貞的畫面是什么鬼,腳本里也沒有,鯨哥懷疑是納米AI多智能體蜂群協作空間技術,因缺乏共享上下文,產生了沖突回應。

納米AI

生活服務優選

旅游攻略制定想必困擾過非常多的人。尤其是在陪父母或者孩子時,往往需要制定一個兼顧不同年齡層以及特殊需求的旅行計劃。智能體需要深度理解人類復雜任務,考慮各種突發事件,為每一天都做好詳細的計劃。

提示詞:為35歲男性、60歲母親、懷孕3個月的孕婦和10歲孩子設計一份武漢一周旅游攻略。要求確保安全舒適,適合各年齡段和特殊身體狀況的家庭成員。

master Agent雖然說針對不同需求人群制訂計劃,但是卻是特種兵旅行,第四天安排上午逛武漢植物園,下午就去木蘭草原了,大學生也沒這么旺盛的精力吧。

MasterAgent

納米AI在運行時,調取了小紅書和微博等平臺,但是需要用戶自己登錄賬號密碼才能獲取,導致在執行任務時,用戶需要時不時觀察生成進度。納米AI就像被擋在博物館門口的參觀者,想參觀卻沒有門票。

納米AI

APUS 天燕考慮的最周全,不管是游玩建議時長、游玩項目還是酒店/飲食/交通的有最優推薦,還給出了避坑指南及行前準備清單。

APUS 天燕

Manus生成的攻略比較擺爛,要求游玩七天,卻規劃酒店休息三天。景區游玩地點也是東一下西一下,不考慮路程的遠近。

Manus

通過以上案例看,大家其實各有春秋。鯨哥試著總結下:

Manus還是圍繞Deep Research思路做多Agent產品,抱怨任務太燒Token、會員費貴? 不好意思,這給精英做的產品,普通消費者不是首要考慮目標。

MasterAgent擁有最優想法,但是自研模型帶來的短期弊端,就是能力確實跟不上一線大模型,很多任務分解的漂亮,結果卻差點意思,把好產品做成了玩具。

納米蜂群做得中庸,調用多家大模型,手動、自動多智能體協作,不同角色和不同人群都考慮到了,追求當下的最佳效果。而且納米AI現在還有很多AI功能合集,你很難定義它是Agent 還是瀏覽器,還是AI商店。

APUS 天燕則是在跟上了第一波多智能體的浪潮,特定領域效果做到更好,整體產品還需要發展時間,只能說免費的要要啥自行車。

總體而言,多Agent正實現大模型從“一個聰明的個體”向“協作式智能群體”演進

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
脫掉衣服才看清:女人之間真正的差距,其實藏在這3處,不是容貌

脫掉衣服才看清:女人之間真正的差距,其實藏在這3處,不是容貌

周哥一影視
2026-03-15 14:30:11
夾斷總局骨頭,細節公布!

夾斷總局骨頭,細節公布!

家傳編輯部
2026-04-21 08:46:06
一個消息震動中東,阿聯酋突然爆出大數字,美以這下捅了馬蜂窩

一個消息震動中東,阿聯酋突然爆出大數字,美以這下捅了馬蜂窩

斷翼的鳥兒
2026-04-22 03:27:26
吉姆·法利叫囂:美貿易保護丑態畢露

吉姆·法利叫囂:美貿易保護丑態畢露

烽火瞭望者
2026-04-21 19:22:28
特朗普延長對伊停火,稱伊朗政府 “嚴重分裂”

特朗普延長對伊停火,稱伊朗政府 “嚴重分裂”

新浪財經
2026-04-22 04:23:36
現實是最大的荒誕:千億平臺的沖突始末

現實是最大的荒誕:千億平臺的沖突始末

晚點LatePost
2026-04-21 15:05:32
被逮捕的四位央視主持人,個個都淪為了階下囚,最嚴重者出賣國家

被逮捕的四位央視主持人,個個都淪為了階下囚,最嚴重者出賣國家

閱微札記
2026-04-18 16:46:59
俄朝圖們江公路大橋,直接鎖死吉林出海口,東北出海夢徹底被堵死

俄朝圖們江公路大橋,直接鎖死吉林出海口,東北出海夢徹底被堵死

老馬拉車莫少裝
2026-04-22 00:26:17
羅塞尼爾:許爾策勒帶得很好,布萊頓的排名并不令我驚訝

羅塞尼爾:許爾策勒帶得很好,布萊頓的排名并不令我驚訝

懂球帝
2026-04-22 02:39:05
許家印吃住14條:男性不準靠近房間,吃日本進口水果喝皇家禮炮

許家印吃住14條:男性不準靠近房間,吃日本進口水果喝皇家禮炮

蘭亭墨未干
2026-04-21 10:43:33
無頭蒼蠅,切爾西上半場的預期進球數僅0.04粒

無頭蒼蠅,切爾西上半場的預期進球數僅0.04粒

懂球帝
2026-04-22 04:04:18
OPPO Find X9 Ultra問世 頂級哈蘇五攝系統 1TB售9299元

OPPO Find X9 Ultra問世 頂級哈蘇五攝系統 1TB售9299元

CNMO科技
2026-04-21 21:01:30
萬斯據稱暫時擱置前往巴基斯坦同伊朗談判計劃

萬斯據稱暫時擱置前往巴基斯坦同伊朗談判計劃

財聯社
2026-04-22 04:12:09
穆斯卡特:球隊上下半場表現涇渭分明,過高期待會給楊希壓力

穆斯卡特:球隊上下半場表現涇渭分明,過高期待會給楊希壓力

懂球帝
2026-04-21 23:06:08
一夜被吞!四川27家銀行集體解散,釋放啥信號?

一夜被吞!四川27家銀行集體解散,釋放啥信號?

說故事的阿襲
2026-04-22 03:09:09
巴薩鋒線連環局:一個37歲老將如何卡住兩名前鋒的命運

巴薩鋒線連環局:一個37歲老將如何卡住兩名前鋒的命運

賽場速報局
2026-04-21 02:40:08
越南跌倒,老撾吃飽?中老高鐵如何讓老撾超越越南完成華麗轉身?

越南跌倒,老撾吃飽?中老高鐵如何讓老撾超越越南完成華麗轉身?

靜夜史君
2026-04-20 23:55:43
50歲,俯臥撐每天多少組為宜?

50歲,俯臥撐每天多少組為宜?

解說阿洎
2026-04-19 01:44:44
伊朗國家電視臺:伊美停火協議將于“午夜到期”

伊朗國家電視臺:伊美停火協議將于“午夜到期”

財聯社
2026-04-22 01:10:27
普京想好了,一旦臺海出大事,俄羅斯將徹底撕毀協議拉中國一把

普京想好了,一旦臺海出大事,俄羅斯將徹底撕毀協議拉中國一把

激情與榮耀并存
2026-04-21 16:24:45
2026-04-22 04:59:00
鯨選AI incentive-icons
鯨選AI
最新AI產品化與商業化案例速遞
149文章數 38關注度
往期回顧 全部

科技要聞

創造4萬億帝國、訪華20次,庫克留下了什么

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

體育要聞

一到NBA季后賽,四屆DPOY就成了主角

娛樂要聞

宋承炫曬寶寶B超照,宣布老婆懷孕

財經要聞

現實是最大的荒誕:千億平臺的沖突始末

汽車要聞

全新坦克700正式上市 售價42.8萬-50.8萬元

態度原創

健康
教育
數碼
時尚
親子

干細胞抗衰4大誤區,90%的人都中招

教育要聞

對不起,我有點“摳”

數碼要聞

大疆DJI Mic Mini 2發布:329元起 可更換麥克風磁吸前蓋

頂流復工,已判若兩人

親子要聞

為什么幼兒園里,很多小朋友會做不好的事?

無障礙瀏覽 進入關懷版