網易首頁 > 網易號 > 正文 申請入駐

百度伐謀反轉奪冠國際榜單背后:中國產業進化需要怎樣的AI工程?

0
分享至



AI價值驗證的維度上,金融、工業、能源、港口等核心場景的深度優化,遠比前端的辦公、客服類應用更具說服力——這些場景的門檻更高、容錯空間更窄,對智能體的易用性、安全性、透明度以及可量化的ROI有著真實且嚴苛的要求。

在中國豐富的產業AI土壤里,需要的智能體不僅是一套能覆蓋從數據體系建立到模型優化到效果方案的AI工具,更重要需要一套能在復雜工程環境中真正跑通、能讓企業看到可量化業務結果的智能體系統。

作者|皮爺

出品|產業家

最近,一個成績單再度在海外AI社區引發AI人士關注。在機器學習工程權威基準榜單MLE-Bench公布的排名中,百度伐謀Agent 2.0再度登頂,并刷新SOTA成績。

對MLE-Bench的一個通俗解釋是,相較于其他AI測試榜單,其更多的任務設定圍繞具體的企業實際工程問題,如數據體系、特征工程、模型效果和評估等等。換言之,它真正考察的是智能體解決實際問題的能力,而非大模型本身的參數規模。

這也是這次SOTA成績破圈的原因。過去的幾年,不論是服務商還是產業企業,對于AI的關注焦點都更多在通用大模型或行業大模型本身,在2026年的今天,智能體的工程化落地能力,正在取代模型參數,開始成為企業選型的首要考量。

“其實在我們看來,‘通用大模型+RAG’能解決80%的問題,但剩下的核心環節的20%我們還是希望能有更優秀的智能體來解決。”在之前的采訪交流中,一位電力相關的企業技術負責人告訴產業家。

這樣的需求不在少數。伴隨著2026年龍蝦的爆火,外界對于企業級Agent開始有了更多的期待,即一個能真正“自進化、自執行”的最優解企業智能體應該是怎樣的?相較于“龍蝦”的不可控、“黑箱”執行,對橫跨41個產業鏈類目,場景、環節、協同足夠復雜的中國產業企業而言,到底怎樣的AI范式能轉化為最直接的生產力加持?

這次登頂背后,百度伐謀,再次站到產業舞臺中心。

一、百度伐謀再登頂MLE-Bench:意味著什么?

首先來看這次登頂本身。根據MLE-Bench發布的成績顯示,百度伐謀Agent 2.0繼去年1.0發布即登頂后,再次刷新了自己的成績。

MLE-Bench,是由OpenAI主導設立的檢驗智能體“動手能力”最具含金量的實戰考場,這個考場主要包含75個來自Kaggle競賽的真實工程難題,重點考察人工智能在模型訓練、數據準備、實驗運行等機器學習全流程中的端到端實戰能力。



這次最值得關注的,是伐謀在"高難度任務"上的表現——在15道最難的題目中,百度伐謀取得9項第一。

如果說普通題目對應的是常規企業的真實內部場景,那么“高難度任務”對應的就是現實中數字化基礎薄弱、環節流程等更復雜、更繁瑣的企業場景,比如

臟亂的歷史數據、殘缺的業務記錄、多源異構的系統對接。

舉例來看,比如百度伐謀取得高分的“臟數據+高缺失值場景”的測試,其對應的就是真實企業業務場景中如傳統制造業老設備數據、線下零售雜亂數據、醫療殘缺病歷、政務多源異構數據、IoT亂碼數據等難題,其考察的主要是智能體能否可以自主完成數據清洗、特征工程提取等能力,幫助企業以最小的成本自主完成數據體系搭建。

再比如“高維時序預測”場景,這個偏學術式的任務反映到現實場景就是最真實的趨勢預測,比如電網負荷預測、交通流量預測、供應鏈銷量以及設備壽命預測等等,能出色完成這類命題,就代表智能體具備解決復雜趨勢預測的能力;多目標結構化優化任務,其對應到企業場景則是最真實的港口調度、服務器機房調度等命題,通過對全局問題的拆解以及不同方案的排列組合得出全局最優解。

可以說,相較于整體的SOTA,這些“高難度任務”的最高分數才更是外界關注的重點。即這些任務已足夠貼近企業真實場景,尤其是中國復雜場景的工程環境,比如金融風控,比如港口調度,比如交通管控等等,百度伐謀的分數表現也對應的是其能夠在這些復雜、混亂且數字化基礎不一致的真實產業環境中,得出核心業務環節的更優解方案。

實際上,關于這次測試在海外還有另外一個小插曲,另一家參賽企業的Agent在執行過程中,接收了來自私有測試集的反饋信號,以此作為決策依據——這與真實業務場景的規則相悖:現實中不可能把未來的真實數據提前泄漏給Agent。這一做法在GitHub社區引發大量討論,最終MLE-Bench維護者新建了獨立的"數據泄漏嫌疑"賽道,將相關成績移出主榜。百度伐謀堅守了不使用私有測試集反饋、不引入外部網絡數據的實驗原則,在主榜上的第一位置得以正名。

這個高分數,對應也恰是百度伐謀Agent 2.0相較于1.0的系統性升級。

其一,增強的演化策略,傳統智能體往往沿單一路徑探索,容易陷入局部最優;伐謀2.0增強的演化策略能夠讓智能體在多條路徑上并行探索,同時適時回溯調整,讓智能體"想得更全面、走得更聰明"。

長程記憶機制和基于百度智能云的底層基礎設施優化。前者對應的是保證智能體能在多個環節中保持上下文連貫性,記住之前的分析、決策和中間結果,在長鏈路任務中保持思路清晰、一致。

后者則對應的是資源層和算法層的更優適配,包括計算資源調度、任務并行執行、容錯恢復、資源隔離等等,讓整個智能體系統"跑得穩、跑得快、跑得可靠"。

這三項新技術也恰共同構成了伐謀Agent 2.0最新的TO B場景問題解決能力。演化策略決定"能找到多好的解",長程記憶決定"能做多復雜的任務",基礎設施決定"能跑得多穩定可靠"。三者協同,支撐起智能體在復雜企業場景中的端到端問題求解能力。

二、企業AI下半場,被正式吹響的“智能體號角”

在剛剛過去的3月份,硅谷有幾個熱詞同樣被人們關注,比如Harness Engineering,比如Agentic infra,這些熱詞背后對應的人們的核心期待是:AI不應該再只停留在模型側的比拼,而應該把智能體放到前臺。AI應該具備解決問題,甚至解決好問題的能力。

即在如今的2026年,一個共識是模型側的能力趨于一致,不論是國外的Claude、GPT,還是國內的DeepSeek、千問、豆包、文心等,在通用基礎能力上的差距已大幅收窄。智能體框架的工程化能力,開始成為真正的服務商價值衡量點。

為此,企業已經交了不少學費。一份來自咨詢機構RAND發布的2026年企業AI落地報告數據顯示,目前全球企業AI項目整體失敗率高達80.3%:其中33.8%在開發階段即被廢棄,未能上線;28.4%雖完成部署但完全無法產生業務價值;僅有19.7%的項目真正實現預期目標與規模化ROI。而同樣一組來自Gartner的2026年工業AI落地報告顯示,全球85%的工業AI項目無法跨越從試點到規模化生產的“死亡谷”。

失敗的原因往往指向同一類問題:數據清洗與特征工程不完備導致模型理解能力受限;長記憶能力缺失導致執行中途卡殼;部分任務運算過載,成本失控。

在中國的產業環境里,AI無法落地還有一個真實的底層原因:人才密度不夠。不論是數據體系搭建、特征工程還是模型調優,常規的方式每個環節都需要人參與。但對大部分中國傳統企業而言,優秀的算法工程師的招募和留用都是難題。

這種從智能體落地到人才團隊匱乏的難題疊加最終在中國真實產業環境中呈現出“遲緩的AI進度”——大部分AI落地項目仍然只停留在客服、營銷、辦公等通用環節,而在銷量預測、風控、調度等企業核心競爭力場景,AI很難真正扎根。

這也是百度伐謀Agent 2.0再次霸榜引發產業界關注的深層原因。相較于1.0版本,百度伐謀Agent 2.0如今做到了進一步“算法平權”,即使是沒有算法背景的業務人員,也可以通過自然語言和數據文件發起需求,系統自動交付可解釋、可交互、可落地的決策方案,快速產出企業級解決方案。



在這一邏輯下,不論是產業鏈的鏈主,還是產業鏈其它企業,都等同于擁有“最頂尖的算法工程師”,幫助企業在環境復雜、數據復雜的場景中以最小的成本完成從從數據清洗到特征工程到模型訓練、調優,以及方案效果評估等全部流程。

實際上,這樣的AI加持的答卷已經有了真實的產業注腳。

比如在汽車制造領域,阿爾特太乙與伐謀合作研發御風智能預測系統,單次風阻驗證時間從10小時壓縮至數分鐘,整車研發周期平均縮短25%;在金融風控領域,中信百信銀行引入伐謀7×24小時不間斷挖掘風險特征,效率提升100%,風控模型風險區分度提升2.41%。

如今,已經有近千家企業將百度伐謀作為自身AI體系建設的核心支撐,覆蓋零售、金融、制造、能源、交通等多個領域。

在產業落地之外,伐謀在科研場景同樣展現出強勁潛力。北京工業大學將伐謀引入中國空間站微型氣相色譜柱設計,以自動化尋優代替人工反復仿真,大幅提升分離效率;天津大學將伐謀用于災害預測模型選優,把原本以"周"為單位的科研探索壓縮至6小時內出成果。

為進一步降低科研團隊的使用門檻,百度智能云近期還開源了Famou for Science項目,基于多智能體協同模式構建完整虛擬科研團隊,涵蓋團隊負責人、實驗管理、文檔管理與評審等角色,可支持長線程科研任務的自動化推進。

三、中國產業鏈升級,到底需要怎樣的AI助力?

“中國和海外的AI需求其實是不同的,中國企業的數字化基礎較差,底層建設也比較晚,不論是在軟件時代還是現在的智能體時代,其實需要的都是偏集成服務、效果服務的模式。”一位軟件服務商告訴產業家。

誠然如此。在剛剛過去的幾個月時間里,“龍蝦”熱潮席卷中國企業級AI市場,與之對應的是盡管不少服務商幫助企業落地了“龍蝦”相關能力,助力企業在特定環節實現“自執行、自進化”,但最終仍收效甚微。

本質原因恰在于中國產業環境的復雜性。中國是全世界唯一擁有聯合國產業分類中全部41個工業大類、207個中類、666個小類的國家,這代表中國擁有全球最完整、規模最大的工業體系——這些復雜的產業環境也恰造就了龍蝦框架下的單線程智能體思考方式很難尋求到細分環節的最優解,這種“不確定性”反饋到最終的企業內部則是真實的“不可用、不可控”。



而百度伐謀的特殊智能體框架設計之初就是面向這種復雜性的。

無論是車輛路徑規劃、排產調度、金融風險預測,還是復雜的GPU Kernel優化,企業只需要給出明確的評價標準,伐謀都能像頂尖算法工程師一樣,自動化完成從需求理解到最優解輸出的全鏈路,用AI進化代替人工試錯,最終呈現給完備、可執行落地的企業AI方案。

在使用門檻進一步降低之外,還尤為一提的是,百度伐謀還兼顧安全和“進化”的能力。比如基于企業對數據隱私和算力成本的顧慮,伐謀上線了本地評估方案,推出“云端生成算法+本地完成評估”架構。企業無需上傳敏感業務數據,只需在本地反饋評估指標,即可在云端享受伐謀的演化能力。

初步方案完成后,針對業務場景動態變化,伐謀還構建了“智能原生”的持續優化能力,在全流程中尋找并維持全局最優解,而不是完成一次交付后就原地停滯。

相較于目前市面上的專項智能體,百度伐謀更等同于一個真實進化的“駐場算法專家”,既能根據企業的實際條件與業務環境實時給出最優方案,也能在環境變化時持續迭代,而非依賴一次性調優。

在AI價值驗證的維度上,金融、工業、能源、港口等核心場景的深度優化,遠比前端的辦公、客服類應用更具說服力——這些場景的門檻更高、容錯空間更窄,對智能體的易用性、安全性、透明度以及可量化的ROI有著真實且嚴苛的要求。

在中國豐富的產業AI土壤里,需要的智能體不僅是一套能覆蓋從數據體系建立到模型優化到效果方案的AI工具,更重要需要一套能在復雜工程環境中真正跑通、能讓企業看到可量化業務結果的智能體系統。

從這個標準來看,百度伐謀,正在成為中國產業土壤里最接近答案的那個選項。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
這跟不穿有啥區別?好萊塢女星走紐約紅毯,穿衣個個大膽,太前衛

這跟不穿有啥區別?好萊塢女星走紐約紅毯,穿衣個個大膽,太前衛

法老不說教
2026-04-23 19:09:50
余承東話含金量還在上升!日產3月在華新車銷量增長23% 靠華為拉爆豐田本田

余承東話含金量還在上升!日產3月在華新車銷量增長23% 靠華為拉爆豐田本田

快科技
2026-04-23 11:56:29
火箭隊主教練失控?怒噴全隊!陷入輿論風波,賽季結束或被解雇

火箭隊主教練失控?怒噴全隊!陷入輿論風波,賽季結束或被解雇

Haviven聊球
2026-04-26 00:02:56
兩兄弟公司破產的真相!小雞嘴女星復出的代價!

兩兄弟公司破產的真相!小雞嘴女星復出的代價!

八卦瘋叔
2026-04-25 11:34:30
施大畏文革期間的畫作,他會后悔嗎?事實上卻是他最有價值的作品

施大畏文革期間的畫作,他會后悔嗎?事實上卻是他最有價值的作品

文學之私秘
2026-04-25 00:14:26
轟31分!中國女籃24歲王牌留洋開門紅:奪單場MVP又帥又能打

轟31分!中國女籃24歲王牌留洋開門紅:奪單場MVP又帥又能打

李喜林籃球絕殺
2026-04-25 19:22:13
CBA季后賽12進8賽程出爐,廣東男籃率先公布票價 第一豪門實至名歸

CBA季后賽12進8賽程出爐,廣東男籃率先公布票價 第一豪門實至名歸

順靜自然
2026-04-25 21:26:09
別卷985了!稅務局招了2.4萬人,77%是本科,這些“雙非”才是體制內親兒子

別卷985了!稅務局招了2.4萬人,77%是本科,這些“雙非”才是體制內親兒子

老滿說高考
2026-04-25 20:04:01
禁止所有中國外交官入境,不讓兩岸統一,這個國家比美國還要囂張

禁止所有中國外交官入境,不讓兩岸統一,這個國家比美國還要囂張

琴音繚繞回
2026-04-25 10:48:15
兩性關系:55-65歲這十年,惜命最好的方式,不是鍛煉,而是這6點

兩性關系:55-65歲這十年,惜命最好的方式,不是鍛煉,而是這6點

周哥一影視
2026-04-17 06:45:59
調查發現:大量喝茶的糖尿病患者,不出半年,身體或有4變化

調查發現:大量喝茶的糖尿病患者,不出半年,身體或有4變化

醫學科普匯
2026-04-25 19:15:06
張本智和瘋狂挑釁:全世界日本男乒最強!贏中國隊奪冠拼命慶祝

張本智和瘋狂挑釁:全世界日本男乒最強!贏中國隊奪冠拼命慶祝

念洲
2026-04-25 12:56:47
10年前,易建聯花1000萬在洛杉磯買下豪宅,如今出售市值多少?

10年前,易建聯花1000萬在洛杉磯買下豪宅,如今出售市值多少?

阿庫財經
2026-04-24 14:26:45
芬蘭女外長發表極端對華言論,公然逼中國二選一!中方硬氣回應!

芬蘭女外長發表極端對華言論,公然逼中國二選一!中方硬氣回應!

果媽聊娛樂
2026-04-25 22:10:02
銀川樓市冰火兩重天,銀川待售二手房數量從57476套變成了58137套

銀川樓市冰火兩重天,銀川待售二手房數量從57476套變成了58137套

有事問彭叔
2026-04-25 23:51:53
一張“初三女孩體測”照片,讓家長被數萬網友指責:太不用心了!

一張“初三女孩體測”照片,讓家長被數萬網友指責:太不用心了!

川渝視覺
2026-04-25 20:19:24
笑麻!女子吐槽花1年裝修的新中式都說像法庭,我卻笑死在評論區

笑麻!女子吐槽花1年裝修的新中式都說像法庭,我卻笑死在評論區

另子維愛讀史
2026-04-17 17:36:52
新聞的使命是揭示真相,宣傳的目的是灌輸立場

新聞的使命是揭示真相,宣傳的目的是灌輸立場

壹家言
2026-04-25 20:59:02
送走董璇又迎來張婉婷,倒霉的高云翔,終究逃不過“女人坑”

送走董璇又迎來張婉婷,倒霉的高云翔,終究逃不過“女人坑”

悅君兮君不知
2026-04-24 19:59:28
霍爾木茲海峽封鎖,美國能源出口飆升,二戰以來首次接近成為原油凈出口國

霍爾木茲海峽封鎖,美國能源出口飆升,二戰以來首次接近成為原油凈出口國

紅星新聞
2026-04-25 12:32:20
2026-04-26 02:47:00
產業家
產業家
產業互聯網第一媒體
1133文章數 1339關注度
往期回顧 全部

科技要聞

DeepSeek V4發布!黃仁勛預言的"災難"降臨

頭條要聞

媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

頭條要聞

媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《我們的爸爸2》第一季完美爸爸翻車了

財經要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

藝術
健康
時尚
親子
公開課

藝術要聞

最適合作為抖音總部的大樓,它在福建莆田!

干細胞如何讓燒燙傷皮膚"再生"?

這些穿搭適合春天!外套彩色內搭白色、褲子穿基礎款,舒適大方

親子要聞

父母的高期待和擔心,正在給孩子制造焦慮!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版