網易首頁 > 網易號 > 正文申請入駐

AI2研究院打造的"網頁特工"：一個能替你上網干活的開源AI助手

2026-04-17 23:43:56　來源: 科技行者

天津舉報

分享至

這項由艾倫人工智能研究院（Allen Institute for AI）與華盛頓大學、北卡羅來納大學教堂山分校聯合開展的研究，以預印本形式發布于2026年4月，論文編號為arXiv:2604.08516。有興趣深入了解的讀者可以通過這個編號在arXiv平臺上找到完整的技術報告。

**網絡世界里的"私人助理"夢**

每個人大概都有過這樣的經歷：訂一張機票需要在好幾個網站之間來回跳，填寫各種表單；比價購物要打開十幾個頁面逐一對比；查一個政府業務需要在迷宮般的網頁結構中摸索。這些事情既耗時又費力，卻又不得不做。如果有個助手能替你搞定這一切——你只需說一句"幫我找最便宜的從北京到上海的機票"，它就能自動打開瀏覽器、搜索、比較、篩選，最后把結果告訴你——那該多好？

這正是"網頁代理"（Web Agent）這個研究方向想要實現的目標。近年來，隨著大型語言模型的飛速發展，已經有一些商業產品開始提供類似功能，比如OpenAI和Google都推出了各自的"電腦使用"服務。但這些產品有一個共同的問題：它們是完全封閉的黑盒子，沒有人知道它們是怎么訓練出來的、用了什么數據、遵循什么規則。這對于科學研究來說是一個大問題——你無法改進你看不懂的東西，也無法信任你不了解的東西。

正是出于這個動機，艾倫人工智能研究院的研究團隊決定做一件在這個領域里少有人做的事：把一切都公開。他們發布了訓練數據、模型權重、訓練代碼和評估工具，并將整套系統命名為MolmoWeb。這是一個真正意義上的"開源"網頁代理系統，任何人都可以查看它是怎么工作的，任何研究者都可以在它的基礎上繼續改進。

一、從"只會看截圖"到"能干活"：MolmoWeb的基本原理

要理解MolmoWeb是怎么工作的，可以把它想象成一個剛剛學會使用電腦的新員工。你給他一個任務，比如"幫我在Food Network上找一個三小時內能做完的墨西哥燉牛肉食譜"，他就會打開瀏覽器，看著屏幕上顯示的網頁截圖，思考下一步該做什么，然后執行一個操作——比如點擊搜索框、輸入關鍵詞、按下回車鍵——然后看著新的截圖，再思考，再操作，如此循環，直到找到答案為止。

這個過程的關鍵在于，MolmoWeb完全依靠視覺來理解網頁，就像一個正常人盯著屏幕操作一樣，而不是通過讀取網頁的底層代碼來工作。這一點與很多競爭對手的方案有根本區別。很多傳統方案會讓AI讀取網頁的"可訪問性樹"（Accessibility Tree，簡稱AxTree）——這是一種描述網頁所有元素及其關系的文本結構，類似于網頁的X光片——然后根據這個文本結構來決定點哪里。

研究團隊選擇純視覺方案，有幾個深思熟慮的理由。其一，這和人類使用網頁的方式完全一致，讓AI的行為更容易被理解和審查。其二，AxTree在不同網站、不同框架、甚至同一網站的不同版本之間差異巨大，而且對于動態加載的內容往往不完整或具有誤導性，純視覺方案則不存在這個問題。其三，AxTree非常"啰嗦"——一個普通網頁的AxTree可能包含數萬個詞，處理起來耗費大量計算資源，而一張截圖則是同樣信息的緊湊表達。

在每一步，MolmoWeb接收的信息包括三部分：當前網頁的截圖、用戶給出的任務指令，以及過去10步的操作歷史記錄（包括當前頁面的URL和標題）。根據這些信息，它輸出兩樣東西：一段自然語言"思考"——解釋自己為什么要做下一步操作——以及一個具體的瀏覽器動作，比如"在坐標(48.5, 50.2)處點擊鼠標"。這個設計讓AI的決策過程變得透明可查，就像要求員工在每次操作前先說出自己的理由一樣。

MolmoWeb的模型架構基于Molmo2，這是同一研究院之前發布的多模態語言模型，能夠處理圖像和文字交織在一起的輸入序列。整個動作空間被設計得既全面又簡潔，涵蓋了人類操作瀏覽器時會用到的幾乎所有動作：導航到某個URL、在特定坐標點擊鼠標、拖拽操作、滾動頁面、在特定位置滾動、懸停、輸入文字、按下鍵盤按鍵、后退、新建標簽頁、切換標簽頁、等待（比如等網頁加載或等待驗證碼），以及向用戶發送消息。坐標位置被歸一化到0到100的范圍內，在實際執行時再轉換為像素坐標，這樣與分辨率無關，增加了系統的通用性。

二、訓練數據：如何教會一個AI"逛網"

如果說MolmoWeb是一名新員工，那么教會他上網的"培訓教材"就是MolmoWebMix——這是研究團隊精心構建的訓練數據集。數據集的規模相當可觀：軌跡數據部分包含超過27.85萬條軌跡、220萬個操作步驟，覆蓋2600多個不同的網站域名。除此之外還有超過1050萬條GUI感知數據。

這些數據來自四個互補的來源，每個來源負責教導不同方面的能力，就像培訓一個新員工需要既有課堂教學、又有導師指導、還有實際上手練習一樣。

第一類是"AxTree單智能體軌跡"。研究團隊讓一個能讀取AxTree的AI（使用Gemini-3-Flash-Preview作為大腦）自動完成各種網頁任務，同時在每一步都截圖保存。這樣生成的軌跡雖然AI本身看的是文本格式的AxTree，但保存下來的數據是"截圖+操作"的格式，正好可以用來訓練只看截圖的MolmoWeb。這部分生成了7萬條軌跡、79.3萬個步驟，覆蓋1300多個網站。每條軌跡都經過一個"成功過濾"步驟——用另一個AI充當裁判，判斷任務是否真的完成了，沒完成的就丟棄不用。

第二類是"多智能體協作軌跡"。為了生成質量更高的訓練數據，研究團隊設計了一個三角色協作系統，就像一個小型項目團隊。"規劃師"（Planner，使用Gemini-2.5-Flash）負責將大任務分解成一個個小目標；"操作員"（Operator，使用Gemini的AxTree智能體）負責針對當前子目標執行具體的瀏覽器動作；"驗證員"（Verifier，使用GPT-4o）負責分析最近5張截圖，判斷當前子目標是否已經完成。三者分工協作，形成一個持續迭代的循環：規劃師給出子目標，操作員執行操作，驗證員確認結果，如果完成就讓規劃師生成下一個子目標，否則繼續努力完成當前目標。實驗證明，這種多智能體協作方式比單智能體效果更好——在WebVoyager測試集上得分78.5對74.4，有明顯提升。這部分生成了3.5萬條軌跡、43.8萬個步驟。

第三類是"節點遍歷軌跡"。研究團隊為500多個熱門網站構建了網站導航圖譜——從首頁出發，通過廣度優先搜索，提取每個頁面的AxTree，讓AI選擇最有價值的導航鏈接繼續探索，深度達到四層，從而得到一棵描述整個網站結構的樹。然后，用一個完全不依賴AI、純確定性的腳本來"回放"這些路徑：從根URL出發，在AxTree中找到目標鏈接，必要時滾動使其進入視野，然后點擊。由于路徑是預先規定好的，成功與否可以通過URL匹配來機械地驗證，不需要任何AI裁判。在每條路徑的終點，再用AI生成一個合理的任務描述，把這對"任務描述+操作軌跡"作為訓練數據使用。這種方法生成速度快、成本低、可驗證，共產生1.6萬條軌跡、15.1萬個步驟，覆蓋833個網站。

第四類是"人工標注軌跡"。研究團隊開發了一個定制的Chrome擴展程序，能夠捕捉標注者的每一次點擊、滾動和鍵盤輸入，同時自動截圖，然后將這些原始事件整理成標準格式的軌跡。眾包工作者在真實網站上完成各種任務，任務來源包括作者手寫的任務模板和AI生成的任務指令，覆蓋購物、新聞、房產、旅行、地圖、食譜、求職、健康等多個生活領域。

人工標注的特別之處在于，每個任務都被分解成一個有序的子任務序列。工作者完成每個子任務后要打勾確認，最終提交一個文字答案。如果某個子任務因網頁狀態不符合預期而無法完成，工作者要記錄原因。每條軌跡還要經過人工審核，確認任務完成且數據準確捕捉，審核不過的要修改或重新采集。這部分共產生3.6萬條軌跡、62.3萬個步驟。

更進一步，因為人工軌跡有子任務分解，研究團隊還從中提取了"原子技能軌跡"——把每個子任務片段單獨取出來作為訓練樣本，讓AI針對性地學習各種基礎操作技能。技能分類涵蓋了直接導航到某URL、在搜索框輸入并提交、在頁面上定位信息、定位并打開子頁面、定位并點擊元素、填寫表單、填寫并提交表單、設置篩選條件、設置篩選并搜索、加入購物車，以及當任務步驟不明確時的自由導航等十一種基本技能。此外，研究團隊還專門讓AxTree智能體執行"填表"和"找并打開"這兩種技能的專項任務，補充了5500條原子技能軌跡、6.87萬個步驟。

三、讓AI"看懂"網頁：GUI感知數據的構建

除了操作軌跡，訓練MolmoWeb還需要大量數據來教它理解網頁截圖的視覺內容——也就是教它"看"。這部分數據被稱為GUI感知數據（GUI Perception Data），共包含超過1050萬個樣本。

其中最大的一塊是"定位數據"。這類數據的格式是：給一張截圖，描述某個元素（比如"Filter & Sort按鈕"），模型需要預測應該點擊的像素坐標。研究團隊從AxTree智能體的軌跡中自動提取這些數據：對于每一張截圖，枚舉AxTree中所有可點擊的元素，為每個元素生成一段自然語言描述（使用元素的可訪問名稱和角色，描述方式包括模板生成和GPT-5生成兩種），然后將元素邊界框內的隨機點（按照以元素中心為中心的截斷高斯分布采樣）作為正確答案。這樣的設計讓模型學會的是"在元素合理范圍內點擊"，而不是死板地只點元素正中心，模仿了人類更自然的點擊行為。通過這種方式，共生成了超過700萬個定位問答對，其中340萬用模板生成描述，380萬用GPT-5生成更自然的描述。此外，研究團隊還把Molmo原有的PixmoPoints數據重新格式化為點擊動作格式，追加了110萬個樣本。

另一塊是"截圖問答數據"。這類數據教AI從網頁截圖中讀取和推理信息，覆蓋三種問題類型：OCR類問題（讀取頁面上的文字內容，比如價格、數量、文本），功能性問題（了解頁面提供哪些操作，比如"在這個頁面上哪里能找到財經新聞"），以及摘要類問題（理解頁面整體內容或某個元素的用途）。數據生成方式是：對AxTree智能體軌跡中的截圖，把對應的AxTree提供給一個語言模型，讓它生成問答對，同時過濾掉包含"元素ID"等AxTree特有信息的樣本，確保問答完全基于視覺內容。整個截圖問答數據集覆蓋395個網站，共222.7萬個問答對，其中OCR類占54%、功能性占26%、摘要類占20%。

四、對決：MolmoWeb與各路高手的較量

訓練完成后，研究團隊在四個基準測試上對MolmoWeb進行了全面評估，每個基準測試都使用真實的在線網站，任務需要多步驟操作才能完成。這四個測試分別是WebVoyager（綜合網頁任務）、Online-Mind2Web（多網站導航）、DeepShop（深度購物研究）和WebTailBench（尾部任務，即難度較大的非常規任務）。為了保持公平，涉及過去日期的任務會被調整為當前或未來的日期，每個模型每個基準測試運行3到5次取平均，允許最多100步操作，環境出錯最多重試10次。

結果相當令人印象深刻。MolmoWeb-8B在四個基準上均超過了同等規模的開源模型，包括Fara-7B（WebVoyager得分73.5 vs 78.2，DeepShop得分26.2 vs 42.3，WebTailBench得分38.4 vs 49.5），以及UI-TARS-1.5-7B和GLM-4.1V-9B-Thinking。MolmoWeb-4B則在WebVoyager（75.2分）和DeepShop（35.6分）上超過了所有開源模型，在其他兩個測試上也表現具有競爭力。

更值得關注的是與閉源大模型的對比。MolmoWeb-8B的WebVoyager得分78.2，明顯超過了GPT-4o的SoM（Set-of-Marks）方案65.1分；在DeepShop上，MolmoWeb-8B得42.3，也大幅領先GPT-4o的16.0分。SoM方案是一種增強提示技術：在截圖上用彩色標記框住所有可交互元素，同時提供AxTree文本，讓模型同時獲得視覺和文本兩種信息——這意味著那些閉源方案實際上擁有比MolmoWeb更豐富的輸入信息，卻依然在部分測試上落后于只看截圖的MolmoWeb。在WebVoyager上，MolmoWeb-8B還與o3的SoM方案（79.3分）基本持平，與GPT-5的SoM方案（90.6分）存在差距，但這個差距在參數量相差數十倍的情況下已經相當難得。

與此同時，研究團隊還比較了MolmoWeb與其"老師"的差距。MolmoWeb的大量合成訓練數據來自Gemini-3-Flash的AxTree智能體，這個智能體在使用100步預算時WebVoyager得分85.6，Online-Mind2Web得分44.8，DeepShop得分55.3。MolmoWeb-8B在WebVoyager和Online-Mind2Web上落后約5到10分，在DeepShop和WebTailBench上落后超過10分。研究團隊分析了三個原因：一是模型規模差距（Gemini-3-Flash參數量遠大于8B）；二是操作方式差距（AxTree智能體用元素ID點擊，被程序化映射到坐標，而MolmoWeb需要自己用視覺預測坐標）；三是信息獲取方式差距（AxTree智能體直接讀取結構化文本，MolmoWeb需要對截圖進行視覺OCR和理解）。

五、讓AI在考試時"多做幾遍"：測試時計算擴展

研究團隊還探索了一個有趣的策略：如果不增加模型規模，而是在回答同一個問題時多運行幾遍，選最好的那個結果，能提升多少性能？這在學術上叫做"測試時計算擴展"（Test-time Scaling），具體形式是"并行多次嘗試+最優結果選擇"。

實驗方法是：對同一個任務，獨立運行k次，每次用同一個AI裁判打分，選得分最高的那次作為最終答案。為了得到統計上可靠的結果，研究團隊對每個任務實際運行了5次（m=5），然后用公式計算"如果從5次中隨機選k次，至少有一次成功的概率"。

結果非常驚人。MolmoWeb-8B在WebVoyager上的單次成功率（pass@1）是78.2%，但當k=4時（即從5次中選最好的，等效于運行4次），成功率躍升至94.7%，提升了超過16個百分點。在Online-Mind2Web上，pass@1是35.3%，pass@4達到60.5%，同樣提升超過25個百分點。

研究團隊還比較了兩種增加計算量的方式：增加單次嘗試的最大步數（從30步增加到100步），還是多次并行嘗試（每次30步，選最好的）。在總步數相近的情況下（比如3次并行×30步=90步總計算量 vs 單次100步），并行多次嘗試的效果遠優于增加單次步數。以8B模型為例，3次并行30步達到86.2%，而單次100步只有78.2%。這說明網頁操作任務的失敗很大程度上是"一步走錯、滿盤皆輸"的連鎖反應問題，多次嘗試能有效規避這種錯誤放大效應。

六、數據質量還是數據來源？深入解剖訓練數據

研究團隊對訓練數據進行了系統的消融實驗，也就是"一個一個去掉看影響"的測試，來弄清楚哪類數據最重要。

關于數據規模的影響，結論是規模越大越好，但收益遞減得很快。僅用1%的數據，WebVoyager得分44.5；用10%的數據，得分63.2，已經達到了滿數據情況（68.5分）的約90%。換句話說，訓練數據中最關鍵的那10%貢獻了絕大部分性能，剩下的90%只貢獻了最后的邊際提升。這種現象說明數據混合的設計質量比純粹的規模更重要。

關于人工數據 vs 合成數據，結論出人意料。單獨用2.8萬條人工軌跡訓練的模型，WebVoyager得27.8，Online-Mind2Web得13.2；單獨用10.6萬條合成軌跡訓練的模型，兩項得分分別是67.8和22.0；把兩者合并訓練，反而只有68.5和21.4——合并后Online-Mind2Web甚至略低于純合成數據。人工數據的加入沒有帶來一致性的提升。

為了更直接地比較，研究團隊專門收集了2700條人工軌跡和2700條合成軌跡，任務完全相同，然后分別訓練模型。結果是合成數據全面勝出：DeepShop得分24.4 vs 19.8，WebVoyager得分53.0 vs 35.4，Online-Mind2Web得分16.8 vs 9.0。

這個結果聽起來違反直覺，但研究團隊給出了合理的解釋。人類在不熟悉的網站上往往會表現出更多"探索性行為"——走錯路、退回來、繞遠路——這些行為在軌跡中造成噪聲，反而干擾了模型的學習。而AI智能體操作的是結構化的AxTree，能獲取到比截圖更豐富的語義信息（比如元素的角色、狀態、關系），因此往往走出更直接、更一致的路徑，作為教學材料更清晰可靠。此外，人工軌跡中還有一些合成數據中沒有的操作類型（比如`scroll_at`和`mouse_drag_and_drop`），當兩種數據混合訓練時，模型在兩種操作模式之間搖擺不定，出現了"不知道該學誰"的混亂。

七、細節決定成敗：采樣策略與定位能力

研究團隊還發現了一個看似微小卻影響顯著的細節：推理時用什么采樣策略。

所謂采樣策略，決定了模型在生成下一個詞時如何從所有可能性中做選擇。貪婪解碼（greedy decoding）每次都選概率最高的詞，確定性強但容易陷入局部最優；Top-k采樣從概率最高的k個詞中隨機選一個；核采樣（nucleus sampling，又稱top-p）從累積概率達到p的最小詞集中隨機選。實驗結果顯示，貪婪解碼的WebVoyager得分只有61.4，而Top-k（k=20，溫度0.7）達到67.4，核采樣（p=0.8，溫度0.7）達到68.5，后兩者比貪婪解碼高出5到7分。

定性分析發現，貪婪解碼會讓模型陷入重復循環——比如一直點同一個地方點不動，或者一直往下滾屏但早就已經過了目標區域——而帶有隨機性的采樣策略能讓模型偶爾"換一條路走"，跳出卡殼狀態。

在視覺定位能力方面，研究團隊還單獨訓練了一個"定位專家"模型MolmoWeb-Ground-8B，只在定位數據上訓練，專門負責"在截圖上找到并點擊指定元素"這項任務。在ScreenSpot和ScreenSpot v2這兩個定位基準測試上，MolmoWeb-Ground-8B分別達到88.7和91.8，超過了Claude 3.7（ScreenSpot v2得87.6）、OpenAI CUA（87.9）、Holo1-7B（87.4和89.9）等競爭對手，僅次于Gemini-3-Pro（ScreenSpot v2得93.7）。有趣的是，MolmoWeb-4B這個"全能選手"（既要定位又要完成任務）在同樣的測試上得87.2和89.5，與定位專家只差1到2分，說明通用任務訓練并沒有嚴重損害定位能力。

說到底，MolmoWeb這項研究想傳達的核心信念其實很簡單：用于開放互聯網的AI助手，應該以開放的方式來構建。商業公司的封閉方案固然強大，但科學進步需要可重復、可檢驗、可改進。當所有人都能看到訓練數據長什么樣、模型怎么訓練的、評估是怎么做的，整個研究社區才能真正理解"什么在起作用、什么沒起作用"，從而站在巨人的肩膀上繼續前進。

從結果來看，開放路線并不意味著性能上的妥協。一個4B到8B參數的小模型，只靠看截圖（沒有AxTree輔助），就能在多個測試上超過使用更多信息的GPT-4o方案，而且通過并行多次嘗試，成功率可以從78%飆升至95%——這說明數據質量和訓練策略的精心設計，有時候比堆砌模型規模和輸入信息更有價值。

當然，MolmoWeb還有很多局限。在模糊或約束特別多的任務上表現會下降；對較小的文字識別或閱讀長段落回答問題時偶有失誤；有時會陷入重復操作的死循環而無法自我糾正；一些不常見的操作（如元素內滾動、拖拽、懸停）表現不夠穩定。研究團隊坦率地承認了這些問題，并在論文中詳細討論了可能的改進方向，比如引入強化學習、自我蒸餾（從多次成功嘗試中學習）等方法來進一步提升單次成功率。

這個領域還在快速發展，MolmoWeb的發布或許是一塊重要的基石——不僅僅因為它的性能，更因為它讓每個人都能站在同一起跑線上，用同樣的數據、同樣的工具、同樣的評估標準來開展研究。對這一切感興趣的讀者，可以通過arXiv編號2604.08516找到完整的技術報告，所有數據和代碼將隨論文一起公開發布。

Q&A

Q1：MolmoWeb為什么不讀取網頁代碼，而只靠截圖來操作網頁？

A：讀取網頁底層代碼（AxTree）雖然信息豐富，但不同網站的代碼結構差異很大，而且對于動態加載的內容往往不完整，處理起來還非常消耗計算資源（一個普通頁面可能產生數萬詞的文本）。純視覺方案與人類使用網頁的方式一致，更具通用性，也更容易理解和審查。實驗也證明，精心訓練的視覺模型在部分測試上甚至超過了同時使用截圖和代碼的更大閉源模型。

Q2：MolmoWebMix里人工標注的數據為什么沒有合成數據效果好？

A：這與兩類數據的"信噪比"有關。人類在陌生網站上會走彎路、回頭、探索，軌跡中有大量"噪聲步驟"，干擾了模型的學習。而AI智能體操作結構化的AxTree，能獲取更多語義信息，走出的路徑更直接、更一致，教學信號更清晰。此外，人工軌跡包含一些合成數據中沒有的操作類型，混合訓練時導致模型學習方向混亂，兩種數據反而相互干擾。

Q3：MolmoWeb"多試幾次選最好"的策略在實際使用中代價大嗎？

A：確實需要額外計算資源，因為要同時運行多個獨立的瀏覽器會話，還需要一個AI裁判來判斷哪次成功。不過研究發現，3次并行嘗試（總計約90步）的效果遠好于單次100步，說明這種方式的性價比相當高。研究團隊還指出，這種"多次嘗試選最優"的數據本身可以用來訓練更好的單次模型，所以它也是未來改進方向的一部分。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.