網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

百度伐謀反轉(zhuǎn)奪冠國際榜單背后：中國產(chǎn)業(yè)進(jìn)化需要怎樣的AI工程？

2026-04-14 11:44:10　來源: 產(chǎn)業(yè)家

北京舉報(bào)

分享至

在AI價(jià)值驗(yàn)證的維度上，金融、工業(yè)、能源、港口等核心場(chǎng)景的深度優(yōu)化，遠(yuǎn)比前端的辦公、客服類應(yīng)用更具說服力——這些場(chǎng)景的門檻更高、容錯(cuò)空間更窄，對(duì)智能體的易用性、安全性、透明度以及可量化的ROI有著真實(shí)且嚴(yán)苛的要求。

在中國豐富的產(chǎn)業(yè)AI土壤里，需要的智能體不僅是一套能覆蓋從數(shù)據(jù)體系建立到模型優(yōu)化到效果方案的AI工具，更重要需要一套能在復(fù)雜工程環(huán)境中真正跑通、能讓企業(yè)看到可量化業(yè)務(wù)結(jié)果的智能體系統(tǒng)。

作者|皮爺

出品|產(chǎn)業(yè)家

最近，一個(gè)成績單再度在海外AI社區(qū)引發(fā)AI人士關(guān)注。在機(jī)器學(xué)習(xí)工程權(quán)威基準(zhǔn)榜單MLE-Bench公布的排名中，百度伐謀Agent 2.0再度登頂，并刷新SOTA成績。

對(duì)MLE-Bench的一個(gè)通俗解釋是，相較于其他AI測(cè)試榜單，其更多的任務(wù)設(shè)定圍繞具體的企業(yè)實(shí)際工程問題，如數(shù)據(jù)體系、特征工程、模型效果和評(píng)估等等。換言之，它真正考察的是智能體解決實(shí)際問題的能力，而非大模型本身的參數(shù)規(guī)模。

這也是這次SOTA成績破圈的原因。過去的幾年，不論是服務(wù)商還是產(chǎn)業(yè)企業(yè)，對(duì)于AI的關(guān)注焦點(diǎn)都更多在通用大模型或行業(yè)大模型本身，在2026年的今天，智能體的工程化落地能力，正在取代模型參數(shù)，開始成為企業(yè)選型的首要考量。

“其實(shí)在我們看來，‘通用大模型+RAG’能解決80%的問題，但剩下的核心環(huán)節(jié)的20%我們還是希望能有更優(yōu)秀的智能體來解決。”在之前的采訪交流中，一位電力相關(guān)的企業(yè)技術(shù)負(fù)責(zé)人告訴產(chǎn)業(yè)家。

這樣的需求不在少數(shù)。伴隨著2026年龍蝦的爆火，外界對(duì)于企業(yè)級(jí)Agent開始有了更多的期待，即一個(gè)能真正“自進(jìn)化、自執(zhí)行”的最優(yōu)解企業(yè)智能體應(yīng)該是怎樣的？相較于“龍蝦”的不可控、“黑箱”執(zhí)行，對(duì)橫跨41個(gè)產(chǎn)業(yè)鏈類目，場(chǎng)景、環(huán)節(jié)、協(xié)同足夠復(fù)雜的中國產(chǎn)業(yè)企業(yè)而言，到底怎樣的AI范式能轉(zhuǎn)化為最直接的生產(chǎn)力加持？

這次登頂背后，百度伐謀，再次站到產(chǎn)業(yè)舞臺(tái)中心。

一、百度伐謀再登頂MLE-Bench：意味著什么？

首先來看這次登頂本身。根據(jù)MLE-Bench發(fā)布的成績顯示，百度伐謀Agent 2.0繼去年1.0發(fā)布即登頂后，再次刷新了自己的成績。

MLE-Bench，是由OpenAI主導(dǎo)設(shè)立的檢驗(yàn)智能體“動(dòng)手能力”最具含金量的實(shí)戰(zhàn)考場(chǎng)，這個(gè)考場(chǎng)主要包含75個(gè)來自Kaggle競(jìng)賽的真實(shí)工程難題，重點(diǎn)考察人工智能在模型訓(xùn)練、數(shù)據(jù)準(zhǔn)備、實(shí)驗(yàn)運(yùn)行等機(jī)器學(xué)習(xí)全流程中的端到端實(shí)戰(zhàn)能力。

這次最值得關(guān)注的，是伐謀在"高難度任務(wù)"上的表現(xiàn)——在15道最難的題目中，百度伐謀取得9項(xiàng)第一。

如果說普通題目對(duì)應(yīng)的是常規(guī)企業(yè)的真實(shí)內(nèi)部場(chǎng)景，那么“高難度任務(wù)”對(duì)應(yīng)的就是現(xiàn)實(shí)中數(shù)字化基礎(chǔ)薄弱、環(huán)節(jié)流程等更復(fù)雜、更繁瑣的企業(yè)場(chǎng)景，比如

臟亂的歷史數(shù)據(jù)、殘缺的業(yè)務(wù)記錄、多源異構(gòu)的系統(tǒng)對(duì)接。

舉例來看，比如百度伐謀取得高分的“臟數(shù)據(jù)+高缺失值場(chǎng)景”的測(cè)試，其對(duì)應(yīng)的就是真實(shí)企業(yè)業(yè)務(wù)場(chǎng)景中如傳統(tǒng)制造業(yè)老設(shè)備數(shù)據(jù)、線下零售雜亂數(shù)據(jù)、醫(yī)療殘缺病歷、政務(wù)多源異構(gòu)數(shù)據(jù)、IoT亂碼數(shù)據(jù)等難題，其考察的主要是智能體能否可以自主完成數(shù)據(jù)清洗、特征工程提取等能力，幫助企業(yè)以最小的成本自主完成數(shù)據(jù)體系搭建。

再比如“高維時(shí)序預(yù)測(cè)”場(chǎng)景，這個(gè)偏學(xué)術(shù)式的任務(wù)反映到現(xiàn)實(shí)場(chǎng)景就是最真實(shí)的趨勢(shì)預(yù)測(cè)，比如電網(wǎng)負(fù)荷預(yù)測(cè)、交通流量預(yù)測(cè)、供應(yīng)鏈銷量以及設(shè)備壽命預(yù)測(cè)等等，能出色完成這類命題，就代表智能體具備解決復(fù)雜趨勢(shì)預(yù)測(cè)的能力；多目標(biāo)結(jié)構(gòu)化優(yōu)化任務(wù)，其對(duì)應(yīng)到企業(yè)場(chǎng)景則是最真實(shí)的港口調(diào)度、服務(wù)器機(jī)房調(diào)度等命題，通過對(duì)全局問題的拆解以及不同方案的排列組合得出全局最優(yōu)解。

可以說，相較于整體的SOTA，這些“高難度任務(wù)”的最高分?jǐn)?shù)才更是外界關(guān)注的重點(diǎn)。即這些任務(wù)已足夠貼近企業(yè)真實(shí)場(chǎng)景，尤其是中國復(fù)雜場(chǎng)景的工程環(huán)境，比如金融風(fēng)控，比如港口調(diào)度，比如交通管控等等，百度伐謀的分?jǐn)?shù)表現(xiàn)也對(duì)應(yīng)的是其能夠在這些復(fù)雜、混亂且數(shù)字化基礎(chǔ)不一致的真實(shí)產(chǎn)業(yè)環(huán)境中，得出核心業(yè)務(wù)環(huán)節(jié)的更優(yōu)解方案。

實(shí)際上，關(guān)于這次測(cè)試在海外還有另外一個(gè)小插曲，另一家參賽企業(yè)的Agent在執(zhí)行過程中，接收了來自私有測(cè)試集的反饋信號(hào)，以此作為決策依據(jù)——這與真實(shí)業(yè)務(wù)場(chǎng)景的規(guī)則相悖：現(xiàn)實(shí)中不可能把未來的真實(shí)數(shù)據(jù)提前泄漏給Agent。這一做法在GitHub社區(qū)引發(fā)大量討論，最終MLE-Bench維護(hù)者新建了獨(dú)立的"數(shù)據(jù)泄漏嫌疑"賽道，將相關(guān)成績移出主榜。百度伐謀堅(jiān)守了不使用私有測(cè)試集反饋、不引入外部網(wǎng)絡(luò)數(shù)據(jù)的實(shí)驗(yàn)原則，在主榜上的第一位置得以正名。

這個(gè)高分?jǐn)?shù)，對(duì)應(yīng)也恰是百度伐謀Agent 2.0相較于1.0的系統(tǒng)性升級(jí)。

其一，增強(qiáng)的演化策略，傳統(tǒng)智能體往往沿單一路徑探索，容易陷入局部最優(yōu)；伐謀2.0增強(qiáng)的演化策略能夠讓智能體在多條路徑上并行探索，同時(shí)適時(shí)回溯調(diào)整，讓智能體"想得更全面、走得更聰明"。

長程記憶機(jī)制和基于百度智能云的底層基礎(chǔ)設(shè)施優(yōu)化。前者對(duì)應(yīng)的是保證智能體能在多個(gè)環(huán)節(jié)中保持上下文連貫性，記住之前的分析、決策和中間結(jié)果，在長鏈路任務(wù)中保持思路清晰、一致。

后者則對(duì)應(yīng)的是資源層和算法層的更優(yōu)適配，包括計(jì)算資源調(diào)度、任務(wù)并行執(zhí)行、容錯(cuò)恢復(fù)、資源隔離等等，讓整個(gè)智能體系統(tǒng)"跑得穩(wěn)、跑得快、跑得可靠"。

這三項(xiàng)新技術(shù)也恰共同構(gòu)成了伐謀Agent 2.0最新的TO B場(chǎng)景問題解決能力。演化策略決定"能找到多好的解"，長程記憶決定"能做多復(fù)雜的任務(wù)"，基礎(chǔ)設(shè)施決定"能跑得多穩(wěn)定可靠"。三者協(xié)同，支撐起智能體在復(fù)雜企業(yè)場(chǎng)景中的端到端問題求解能力。

二、企業(yè)AI下半場(chǎng)，被正式吹響的“智能體號(hào)角”

在剛剛過去的3月份，硅谷有幾個(gè)熱詞同樣被人們關(guān)注，比如Harness Engineering，比如Agentic infra，這些熱詞背后對(duì)應(yīng)的人們的核心期待是：AI不應(yīng)該再只停留在模型側(cè)的比拼，而應(yīng)該把智能體放到前臺(tái)。AI應(yīng)該具備解決問題，甚至解決好問題的能力。

即在如今的2026年，一個(gè)共識(shí)是模型側(cè)的能力趨于一致，不論是國外的Claude、GPT，還是國內(nèi)的DeepSeek、千問、豆包、文心等，在通用基礎(chǔ)能力上的差距已大幅收窄。智能體框架的工程化能力，開始成為真正的服務(wù)商價(jià)值衡量點(diǎn)。

為此，企業(yè)已經(jīng)交了不少學(xué)費(fèi)。一份來自咨詢機(jī)構(gòu)RAND發(fā)布的2026年企業(yè)AI落地報(bào)告數(shù)據(jù)顯示，目前全球企業(yè)AI項(xiàng)目整體失敗率高達(dá)80.3%：其中33.8%在開發(fā)階段即被廢棄，未能上線；28.4%雖完成部署但完全無法產(chǎn)生業(yè)務(wù)價(jià)值；僅有19.7%的項(xiàng)目真正實(shí)現(xiàn)預(yù)期目標(biāo)與規(guī)模化ROI。而同樣一組來自Gartner的2026年工業(yè)AI落地報(bào)告顯示，全球85%的工業(yè)AI項(xiàng)目無法跨越從試點(diǎn)到規(guī)模化生產(chǎn)的“死亡谷”。

失敗的原因往往指向同一類問題：數(shù)據(jù)清洗與特征工程不完備導(dǎo)致模型理解能力受限；長記憶能力缺失導(dǎo)致執(zhí)行中途卡殼；部分任務(wù)運(yùn)算過載，成本失控。

在中國的產(chǎn)業(yè)環(huán)境里，AI無法落地還有一個(gè)真實(shí)的底層原因：人才密度不夠。不論是數(shù)據(jù)體系搭建、特征工程還是模型調(diào)優(yōu)，常規(guī)的方式每個(gè)環(huán)節(jié)都需要人參與。但對(duì)大部分中國傳統(tǒng)企業(yè)而言，優(yōu)秀的算法工程師的招募和留用都是難題。

這種從智能體落地到人才團(tuán)隊(duì)匱乏的難題疊加最終在中國真實(shí)產(chǎn)業(yè)環(huán)境中呈現(xiàn)出“遲緩的AI進(jìn)度”——大部分AI落地項(xiàng)目仍然只停留在客服、營銷、辦公等通用環(huán)節(jié)，而在銷量預(yù)測(cè)、風(fēng)控、調(diào)度等企業(yè)核心競(jìng)爭力場(chǎng)景，AI很難真正扎根。

這也是百度伐謀Agent 2.0再次霸榜引發(fā)產(chǎn)業(yè)界關(guān)注的深層原因。相較于1.0版本，百度伐謀Agent 2.0如今做到了進(jìn)一步“算法平權(quán)”，即使是沒有算法背景的業(yè)務(wù)人員，也可以通過自然語言和數(shù)據(jù)文件發(fā)起需求，系統(tǒng)自動(dòng)交付可解釋、可交互、可落地的決策方案，快速產(chǎn)出企業(yè)級(jí)解決方案。

在這一邏輯下，不論是產(chǎn)業(yè)鏈的鏈主，還是產(chǎn)業(yè)鏈其它企業(yè)，都等同于擁有“最頂尖的算法工程師”，幫助企業(yè)在環(huán)境復(fù)雜、數(shù)據(jù)復(fù)雜的場(chǎng)景中以最小的成本完成從從數(shù)據(jù)清洗到特征工程到模型訓(xùn)練、調(diào)優(yōu)，以及方案效果評(píng)估等全部流程。

實(shí)際上，這樣的AI加持的答卷已經(jīng)有了真實(shí)的產(chǎn)業(yè)注腳。

比如在汽車制造領(lǐng)域，阿爾特太乙與伐謀合作研發(fā)御風(fēng)智能預(yù)測(cè)系統(tǒng)，單次風(fēng)阻驗(yàn)證時(shí)間從10小時(shí)壓縮至數(shù)分鐘，整車研發(fā)周期平均縮短25%；在金融風(fēng)控領(lǐng)域，中信百信銀行引入伐謀7×24小時(shí)不間斷挖掘風(fēng)險(xiǎn)特征，效率提升100%，風(fēng)控模型風(fēng)險(xiǎn)區(qū)分度提升2.41%。

如今，已經(jīng)有近千家企業(yè)將百度伐謀作為自身AI體系建設(shè)的核心支撐，覆蓋零售、金融、制造、能源、交通等多個(gè)領(lǐng)域。

在產(chǎn)業(yè)落地之外，伐謀在科研場(chǎng)景同樣展現(xiàn)出強(qiáng)勁潛力。北京工業(yè)大學(xué)將伐謀引入中國空間站微型氣相色譜柱設(shè)計(jì)，以自動(dòng)化尋優(yōu)代替人工反復(fù)仿真，大幅提升分離效率；天津大學(xué)將伐謀用于災(zāi)害預(yù)測(cè)模型選優(yōu)，把原本以"周"為單位的科研探索壓縮至6小時(shí)內(nèi)出成果。

為進(jìn)一步降低科研團(tuán)隊(duì)的使用門檻，百度智能云近期還開源了Famou for Science項(xiàng)目，基于多智能體協(xié)同模式構(gòu)建完整虛擬科研團(tuán)隊(duì)，涵蓋團(tuán)隊(duì)負(fù)責(zé)人、實(shí)驗(yàn)管理、文檔管理與評(píng)審等角色，可支持長線程科研任務(wù)的自動(dòng)化推進(jìn)。

三、中國產(chǎn)業(yè)鏈升級(jí)，到底需要怎樣的AI助力？

“中國和海外的AI需求其實(shí)是不同的，中國企業(yè)的數(shù)字化基礎(chǔ)較差，底層建設(shè)也比較晚，不論是在軟件時(shí)代還是現(xiàn)在的智能體時(shí)代，其實(shí)需要的都是偏集成服務(wù)、效果服務(wù)的模式。”一位軟件服務(wù)商告訴產(chǎn)業(yè)家。

誠然如此。在剛剛過去的幾個(gè)月時(shí)間里，“龍蝦”熱潮席卷中國企業(yè)級(jí)AI市場(chǎng)，與之對(duì)應(yīng)的是盡管不少服務(wù)商幫助企業(yè)落地了“龍蝦”相關(guān)能力，助力企業(yè)在特定環(huán)節(jié)實(shí)現(xiàn)“自執(zhí)行、自進(jìn)化”，但最終仍收效甚微。

本質(zhì)原因恰在于中國產(chǎn)業(yè)環(huán)境的復(fù)雜性。中國是全世界唯一擁有聯(lián)合國產(chǎn)業(yè)分類中全部41個(gè)工業(yè)大類、207個(gè)中類、666個(gè)小類的國家，這代表中國擁有全球最完整、規(guī)模最大的工業(yè)體系——這些復(fù)雜的產(chǎn)業(yè)環(huán)境也恰造就了龍蝦框架下的單線程智能體思考方式很難尋求到細(xì)分環(huán)節(jié)的最優(yōu)解，這種“不確定性”反饋到最終的企業(yè)內(nèi)部則是真實(shí)的“不可用、不可控”。

而百度伐謀的特殊智能體框架設(shè)計(jì)之初就是面向這種復(fù)雜性的。

無論是車輛路徑規(guī)劃、排產(chǎn)調(diào)度、金融風(fēng)險(xiǎn)預(yù)測(cè)，還是復(fù)雜的GPU Kernel優(yōu)化，企業(yè)只需要給出明確的評(píng)價(jià)標(biāo)準(zhǔn)，伐謀都能像頂尖算法工程師一樣，自動(dòng)化完成從需求理解到最優(yōu)解輸出的全鏈路，用AI進(jìn)化代替人工試錯(cuò)，最終呈現(xiàn)給完備、可執(zhí)行落地的企業(yè)AI方案。

在使用門檻進(jìn)一步降低之外，還尤為一提的是，百度伐謀還兼顧安全和“進(jìn)化”的能力。比如基于企業(yè)對(duì)數(shù)據(jù)隱私和算力成本的顧慮，伐謀上線了本地評(píng)估方案，推出“云端生成算法+本地完成評(píng)估”架構(gòu)。企業(yè)無需上傳敏感業(yè)務(wù)數(shù)據(jù)，只需在本地反饋評(píng)估指標(biāo)，即可在云端享受伐謀的演化能力。

初步方案完成后，針對(duì)業(yè)務(wù)場(chǎng)景動(dòng)態(tài)變化，伐謀還構(gòu)建了“智能原生”的持續(xù)優(yōu)化能力，在全流程中尋找并維持全局最優(yōu)解，而不是完成一次交付后就原地停滯。

相較于目前市面上的專項(xiàng)智能體，百度伐謀更等同于一個(gè)真實(shí)進(jìn)化的“駐場(chǎng)算法專家”，既能根據(jù)企業(yè)的實(shí)際條件與業(yè)務(wù)環(huán)境實(shí)時(shí)給出最優(yōu)方案，也能在環(huán)境變化時(shí)持續(xù)迭代，而非依賴一次性調(diào)優(yōu)。

從這個(gè)標(biāo)準(zhǔn)來看，百度伐謀，正在成為中國產(chǎn)業(yè)土壤里最接近答案的那個(gè)選項(xiàng)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.