網易首頁 > 網易號 > 正文申請入駐

香港中文大學研究團隊造出了一臺全自動考卷生成機器

2026-06-11 17:05:43　來源: 科技行者

北京舉報

分享至

這項由香港中文大學多媒體實驗室（MMLab）聯合香港創新科技署CPII、香港中文大學（深圳）、深圳Loop區域研究院、山東大學及華為技術有限公司共同完成的研究，以預印本形式于2026年6月4日發布在arXiv平臺，編號為arXiv:2606.06462。感興趣的讀者可以通過這個編號查閱完整原文。

考試題是怎么來的？多數人的第一反應是：老師出的唄。老師要查資料、篩題目、設計選項、核對答案，有時候出一套高質量的題目要花上好幾天時間。現在，當AI系統越來越聰明，我們迫切需要一種方法來持續測試它們——但出題的人力成本本身也是個大麻煩。更尷尬的是，一套題目發布之后，沒多久AI就能考出接近滿分的成績，題目基本上就"失效"了，只能重新出題，形成了一個費力不討好的死循環。

正是為了打破這個循環，香港中文大學的研究團隊提出了一個大膽的方案：讓AI來給AI出題。他們將這套系統命名為"Benchmark Agent（基準測試智能體）"，這是目前為止第一個完全自主運行的評測題目構建系統。用一句話來描述它的本領：只要你告訴它"我想測試AI在某方面的能力"，它就能自動幫你設計題目類型、找來合適的數據、生成試題、檢查答案質量，最終交出一套完整的考卷，全程幾乎不需要人類插手。

這套系統能出的題遠不止文字題。它支持純文本、圖文結合、語音對話、甚至同時包含圖像和聲音的綜合題目，覆蓋了數學推理、醫學影像分析、藝術鑒賞、代碼調試、多語言理解等十幾個不同領域。研究團隊用這套系統實際生產了15套代表性評測集，并做了大量實驗驗證它的質量——結果相當可觀。

一、為什么現在給AI出題這么難

要理解這項研究的價值，先得理解"給AI出題"這件事有多費勁，又有多容易過時。

在過去幾年里，研究人員花了巨大精力手工構建各種評測集，用來衡量AI的語言理解、數學能力、視覺感知等各方面本領。這類工作通常需要一群領域專家先討論出題范圍，再找來大量原始數據，逐條篩選、標注、核對，整個流程可能歷時數月，耗費數十萬元經費。而且每次有了新的評測需求，之前的努力幾乎無法復用，基本上要從頭再來。

更令人沮喪的是"飽和"問題。研究團隊整理了一張圖表，追蹤了Qwen系列（一個開源AI模型家族）在過去幾年里在各大主流題庫上的成績變化。結果看起來像一組正在融化的冰淇淋——在MMLU、GSM8K、MATH等知名評測集上，這些模型的得分在短短兩三年內就從60分出頭沖到了80分甚至90分以上。也就是說，好不容易出一套題，沒多久就被AI"摸透"了，區分不出優劣，只能再出一套新的。題目的"保質期"越來越短。

這就是Benchmark Agent要解決的核心矛盾：人工出題太慢太貴，而AI進步又太快。與其讓人追著AI跑，不如讓AI替人出題，隨時更新，永不飽和。

二、這臺"出題機器"內部長什么樣

Benchmark Agent的整體設計靈感來自人類大腦中"大腦皮層負責戰略決策、小腦負責精確執行"的分工模式。整個系統被分成兩個緊密配合的部分，一個負責"想清楚出什么題"，另一個負責"真正把題出出來"。

負責戰略決策的部分叫做"Benchmark Planner（規劃器）"。當用戶輸入一個需求——比如"我想測試AI能不能理解混合多種語言的語音對話"——規劃器會把這個模糊的想法拆解成一組具體的、可執行的子任務。拆解這件事本身就不簡單，因為用戶說的話往往很籠統，需要把它翻譯成"我們要出哪幾類題、每類考什么、用什么數據來支撐"這樣清晰的規格。

規劃器內部有三個專門負責不同工作的小模塊，就像一個分工明確的編輯團隊。第一個叫"設計智能體"，它的工作是拿到用戶需求之后，先頭腦風暴出一批候選題目類型，然后不斷篩選、修改、淘汰，直到留下一組真正有價值、不重疊、覆蓋面好的題型。第二個叫"落地智能體"，它的工作是確認每一類題型都能找到真實的數據來支撐，同時規劃出把原始數據變成試題的具體方案。第三個叫"分配智能體"，負責在資源和數量限制下，合理安排每類題出多少道。

三個小模塊之間會相互檢查。如果某類題找不到合適的數據，設計智能體就得回去重新設計；如果數量安排不合理，分配智能體會反復調整，直到達到一個可行的方案。整個過程像一個內部審稿會，不斷循環打磨，直到通過才往下走。

負責精確執行的部分叫做"Benchmark Executor（執行器）"。它拿到規劃器給出的詳細方案之后，開始逐條生成具體題目。執行器配備了一套工具箱，包括文字轉語音、圖像縮放、音頻混合、網頁搜索、噪聲注入、文件格式轉換、元數據編輯等十幾種工具，既有調用AI模型完成的智能操作，也有純程序化的確定性操作。

生成題目的過程是"邊做邊看"的。執行器先根據整體方案規劃每一道題的生成步驟，然后實際執行這些步驟，把中間產出反饋回來，再根據反饋調整下一步操作。每道題生成之后，還要經過一道質量檢驗關——檢查題目是否真的考到了目標能力，格式是否規范，答案是否正確。不合格的題目會被丟棄或重新生成，直到湊夠預定數量。

用一個生活中的比喻來理解：如果把整個系統比作一家餐廳，規劃器就是大廚長，負責制定菜單、確認食材來源、規劃出餐數量；執行器就是具體的廚師團隊，按照食譜實際烹飪，烤出來的每道菜還要經過品控員嘗一口才能上桌。兩者缺一不可，配合才能出好菜。

三、"出題機器"能出哪些題

研究團隊用Benchmark Agent實際生成了15套涵蓋不同場景的評測集，覆蓋范圍令人印象深刻。

在純文字方向，系統生成了四套題庫，分別測試"多視角敘事理解"（把同一件事情的不同描述整合起來，判斷真正發生了什么）、"多語言推理"（信息散落在英語、中文、法語等不同語言的文本中，要求模型跨語言整合得出答案）、"長對話推理"（在多個說話人的長篇對話中追蹤信息，回答綜合性問題）、以及"數學證明步驟驗證"（給出一段逐步展開的數學證明，要求模型找出其中哪一步邏輯有誤）。

在語音理解方向，系統生成了三套題庫，包括"多說話人語音推理"、"混合語言語音理解"和"噪聲環境下的語音理解"。特別是后者，題目中的音頻帶有真實的背景噪聲，考驗AI在嘈雜環境中是否還能準確理解說話人的意圖。

在圖文結合方向，系統生成了七套題庫，涵蓋藝術作品鑒賞（從畫面風格判斷所屬歷史時期）、醫學影像診斷（結合MRI圖像和臨床描述給出鑒別診斷）、動物細粒度識別（區分外形相似的不同犬種或鳥種）、地理區域推理、圖中數學證明步驟查錯、代碼缺陷定位與修復，以及更難的藝術史推理（從畫面推斷畫家、時代和相關藝術知識）。

還有一套跨越圖像和語音的綜合題庫，要求模型同時處理視覺內容和對話音頻，回答需要兩種信息共同支撐才能得出的問題，比起單獨處理圖片或聲音難度大幅提升。

四、題目質量怎么驗證

出題不難，出好題才難。研究團隊為了驗證這套系統的質量，設計了三種互補的評估方式。

第一種是人工評估。研究人員請人類專家對生成的題目逐條評分，判斷題目是否清晰、是否可以回答、答案是否正確、是否真的考到了目標能力。結果表明，在五套代表性題庫中，人工接受率均在96%到98%之間——也就是說，100道題里大約只有2到4道會被專家認為有問題。

第二種是"AI當裁判"評估。研究團隊設計了一套詳細的評分標準，讓另一個AI來充當考官，從六個維度給題目打分。這六個維度分別是：整套題庫是否契合用戶的原始意圖、每道題的格式是否規范、題目和答案之間是否語義連貫、題目背景材料是否能支撐作答、題目是否真的需要目標能力才能解答（不能走捷徑）、以及題目的難度是否有足夠挑戰性。這種多維度打分讓評估結果更細致，也能看出系統在哪方面還有改進空間。結果顯示，格式規范和語義連貫這兩項得分很穩定，而"題目到底有多難"和"能不能走捷徑繞過目標考查點"這兩項得分相對偏低，說明讓AI出出"真正難的好題"仍然有提升空間。

第三種是"鑒別力檢驗"。評估題庫最終的目的是區分模型好壞，所以研究團隊直接讓不同大小的Qwen3.5系列模型（參數量分別為2B、4B、9B、27B，可以理解為從"小學生"到"博士生"的不同級別）去做這些題，看看成績是否隨著模型變大而有規律地提升。結果令人滿意：在多視角推理題庫上，成績從71分穩步爬升到87分；在藝術推理和數學推理題庫上，成績雖然整體偏低（45分到56分），但也呈現出清晰的梯度。這說明這些題目確實能區分出強弱，沒有出現"大家都滿分"或"大家都不會"的極端情況。

五、和直接讓AI出題相比，差別有多大

有人可能會問：何必搞這么復雜的系統，直接讓ChatGPT或者其他大模型出題不就行了？研究團隊對此做了直接的對比實驗。

他們用相同的題目需求，分別讓GPT-5.4、Claude-Sonnet-4-6、Gemini-3.1-Pro-Preview和Qwen3.5-397B這幾個當前最強的AI模型直接生成題目，再用同一套標準評分。結果顯示，直接讓AI出題，在格式規范和語義連貫這兩項確實也能得到還不錯的分數，說明這些模型確實能寫出"看起來像題目"的東西。但在"是否符合用戶原始意圖"、"是否真的考查了目標能力"、"題目難度是否足夠"這幾項關鍵指標上，直接生成的分數大幅落后于Benchmark Agent——差距通常在15到30分之間，相當顯著。

這個差異背后的原因并不神秘：直接讓AI出題，模型只是在憑感覺發揮，沒有經歷"需求分析—數據核實—方案驗證—質量把關"這一套嚴格流程。就像讓一個廚師隨手炒一盤菜，和按照餐廳標準化流程烹制的出品，質量差異自然可觀。Benchmark Agent的價值不在于它的每個步驟單獨多聰明，而在于整套流程確保了題目從頭到尾都貼近用戶真實需求，而不是跑偏到相關但不準確的方向上。

六、換個AI來驅動這套系統，結果會變嗎

研究團隊還測試了用不同的AI模型作為Benchmark Agent的"大腦"時，生成質量是否會有明顯變化。他們分別用Qwen3.5-397B-A17B、GPT-5.4、Claude-Sonnet-4-6和Gemini-3.1-Pro-Preview驅動同一套系統，結果發現：不同模型驅動下，最終題庫的綜合質量得分維持在一個相當穩定的范圍內（比如在"多視角理解"這套題庫上，四種配置的綜合分在72到80分之間，差距不大）。換句話說，這套系統的質量主要來自整體流程設計，而不是依賴某個特定AI模型的超強能力。閉源商業模型在需要深層意圖理解和多步規劃的維度上略有優勢，但差距并不懸殊。

七、這套系統省了多少人力

研究團隊對人工出題和Benchmark Agent出題的時間成本做了直接比較。在"語音推理"類題庫上，人工平均每道題需要6分鐘，而Benchmark Agent只需要0.3分鐘；在"藝術推理"類題庫上，人工平均每道題需要5分鐘，Benchmark Agent只需要0.2分鐘。換算下來，速度提升了大約20到30倍。更重要的是，一旦系統部署完畢，需要更新題庫時可以同時并行處理多批任務，速度還能進一步加快，而人工出題的速度不會因為需求增加而自動擴容。

八、實驗揭示了當前AI模型的哪些短板

Benchmark Agent不只是一臺出題機器，它生成的題庫還幫助研究人員發現了一些關于當前AI系統的有趣規律。

研究團隊用Benchmark Agent生成的圖文題庫對多個主流視覺-語言模型做了系統評測，結果呈現出明顯的"能力不均衡"現象。以Qwen系列視覺模型為例，它們在地理區域識別和數學推理這兩類任務上表現相當優秀，但在藝術品細節鑒賞和動物細粒度識別上明顯吃力。這種差距可能源于訓練數據的覆蓋范圍——模型對常見知識的掌握遠優于需要專業細粒度感知的領域。

從具體的失敗案例來看，這種差距體現得更加直觀。有一道題給出了一幅使用飽和青綠色調的中國畫，問它屬于哪個歷史時期，正確答案是"近現代對古典山水畫的復興"，但模型把它判斷為"晚期傳統文人畫時期"，因為它只看到了"傳統風格"，沒能識別出"用傳統形式做現代復興"這一層更細膩的區別。還有一道醫學題，給出了一張腦部MRI圖像和患者癥狀，要求判斷栓子最可能來自哪條動脈，正確答案是"遠端基底動脈"，但模型選了"近端基底動脈"，原因是它過分關注了腦干受累這個籠統特征，忽略了"進行性嗜睡"這個提示遠端"基底動脈頂端綜合征"的關鍵線索。

在語音理解方向，一道題考查說話人歸因，對話中律師明確說"這不是典型的訴訟"，但模型把這句話錯誤地歸屬到了當事人Ana身上。另一道題考查代詞指代，對話中Speaker 2說"That is so sweet"，"That"指的是Speaker 1剛才表達的"我為我們關系能持續這么久感到興奮"，但模型把它誤解成了更早時候提到的"我們曾經形影不離的時光"，顯示出模型在維持本地對話上下文、追蹤近期話語指向方面存在明顯不足。

九、這套系統還有哪些局限

研究團隊對自己的系統相當坦誠，在論文中明確列出了三個主要局限。

首先，當前生成的題庫主要覆蓋了若干代表性任務，專業細分領域的覆蓋還不夠廣。未來需要進一步擴充可以接入的數據集池，以支持更多用戶定制場景。其次，系統能完成的操作受到工具箱中現有工具的限制，目前支持的變換類型有限，無法滿足所有可能的題目構建需求。好消息是這套系統采用模塊化設計，新工具可以隨時接入，擴展起來并不困難。第三，雖然系統顯著降低了人工成本，但少量人工抽查仍然是有價值的，因為完全自動化的質量控制還無法覆蓋所有邊角情況。研究團隊計劃加入更便捷的人機交互反饋機制，讓專家能以極低成本對生成結果做快速修正。

說到底，這項研究的意義不只是"出題速度快了20倍"。更深層的價值在于它改變了評測題庫的生命周期邏輯。以前，一套題庫從誕生到被AI"考穿"，就算完成使命，研究人員再從頭出新題。現在，有了Benchmark Agent，題庫可以隨著AI能力的演進而持續更新，用戶可以根據自己的評測需求隨時定制新的題目類型，整個評測體系從一次性消耗品變成了可持續運轉的動態系統。

當然，"讓AI給AI出題"這件事本身也帶來了新的問題：如果出題的AI和被測試的AI來自同一個模型家族，會不會有"自己給自己出簡單題"的風險？如何確保題目不會因為訓練數據泄露而失去評測效力？這些問題在論文中尚未深入討論，但無疑是接下來研究者需要認真面對的方向。

對于關心AI發展的普通讀者來說，這項研究意味著：未來AI能力的評測將會更加持續、更加多樣化、也更加貼近真實使用場景，而不再局限于那幾套大家耳熟能詳、已經快被"刷滿分"的老題庫。評測本身也在進化，而這恰恰是AI能良性進步的重要前提。如有興趣深入研究這套系統的技術細節，可通過arXiv編號2606.06462查閱完整論文。

Q&A

Q1：Benchmark Agent能自動生成哪些類型的評測題目？

A：Benchmark Agent支持生成多種模態的評測題目，包括純文本題（如多語言推理、長對話理解、數學證明查錯）、圖文結合題（如醫學影像診斷、藝術鑒賞、代碼調試）、純語音題（如多說話人理解、噪聲環境對話），以及同時涉及圖像和語音的綜合題目。目前研究團隊已用這套系統生成了15套覆蓋不同領域的評測集。

Q2：Benchmark Agent生成的題目質量怎么保證，人工審核還需要嗎？

A：系統內置了自動質量控制流程，每道生成的題目都會經過格式檢驗和語義驗證，不合格的會被丟棄或重新生成。人工專家評估結果顯示，生成題目的人工接受率在96%到98%之間，質量相當可靠。不過研究團隊也坦承，少量人工抽查仍然有價值，系統并不能完全取代人工判斷，特別是在一些邊界情況下。

Q3：Benchmark Agent和直接讓ChatGPT等大模型出題有什么本質區別？

A：直接讓大模型出題可以生成格式規范、語義通順的題目，但很難保證題目真正契合用戶的測試意圖，也難以確保題目不能被走捷徑繞過。Benchmark Agent的核心優勢在于它有完整的"需求分析—數據落地驗證—方案規劃—質量把關"流程，確保每道題從頭到尾都貼近原始評測目標。實驗對比顯示，在"是否符合用戶意圖"和"是否考查了目標能力"這兩項關鍵指標上，Benchmark Agent比直接生成的方式高出15到30分。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.