无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

香港中文大學研究團隊造出了一臺全自動考卷生成機器

0
分享至


這項由香港中文大學多媒體實驗室(MMLab)聯合香港創新科技署CPII、香港中文大學(深圳)、深圳Loop區域研究院、山東大學及華為技術有限公司共同完成的研究,以預印本形式于2026年6月4日發布在arXiv平臺,編號為arXiv:2606.06462。感興趣的讀者可以通過這個編號查閱完整原文。

考試題是怎么來的?多數人的第一反應是:老師出的唄。老師要查資料、篩題目、設計選項、核對答案,有時候出一套高質量的題目要花上好幾天時間。現在,當AI系統越來越聰明,我們迫切需要一種方法來持續測試它們——但出題的人力成本本身也是個大麻煩。更尷尬的是,一套題目發布之后,沒多久AI就能考出接近滿分的成績,題目基本上就"失效"了,只能重新出題,形成了一個費力不討好的死循環。

正是為了打破這個循環,香港中文大學的研究團隊提出了一個大膽的方案:讓AI來給AI出題。他們將這套系統命名為"Benchmark Agent(基準測試智能體)",這是目前為止第一個完全自主運行的評測題目構建系統。用一句話來描述它的本領:只要你告訴它"我想測試AI在某方面的能力",它就能自動幫你設計題目類型、找來合適的數據、生成試題、檢查答案質量,最終交出一套完整的考卷,全程幾乎不需要人類插手。

這套系統能出的題遠不止文字題。它支持純文本、圖文結合、語音對話、甚至同時包含圖像和聲音的綜合題目,覆蓋了數學推理、醫學影像分析、藝術鑒賞、代碼調試、多語言理解等十幾個不同領域。研究團隊用這套系統實際生產了15套代表性評測集,并做了大量實驗驗證它的質量——結果相當可觀。

一、為什么現在給AI出題這么難

要理解這項研究的價值,先得理解"給AI出題"這件事有多費勁,又有多容易過時。

在過去幾年里,研究人員花了巨大精力手工構建各種評測集,用來衡量AI的語言理解、數學能力、視覺感知等各方面本領。這類工作通常需要一群領域專家先討論出題范圍,再找來大量原始數據,逐條篩選、標注、核對,整個流程可能歷時數月,耗費數十萬元經費。而且每次有了新的評測需求,之前的努力幾乎無法復用,基本上要從頭再來。

更令人沮喪的是"飽和"問題。研究團隊整理了一張圖表,追蹤了Qwen系列(一個開源AI模型家族)在過去幾年里在各大主流題庫上的成績變化。結果看起來像一組正在融化的冰淇淋——在MMLU、GSM8K、MATH等知名評測集上,這些模型的得分在短短兩三年內就從60分出頭沖到了80分甚至90分以上。也就是說,好不容易出一套題,沒多久就被AI"摸透"了,區分不出優劣,只能再出一套新的。題目的"保質期"越來越短。

這就是Benchmark Agent要解決的核心矛盾:人工出題太慢太貴,而AI進步又太快。與其讓人追著AI跑,不如讓AI替人出題,隨時更新,永不飽和。

二、這臺"出題機器"內部長什么樣

Benchmark Agent的整體設計靈感來自人類大腦中"大腦皮層負責戰略決策、小腦負責精確執行"的分工模式。整個系統被分成兩個緊密配合的部分,一個負責"想清楚出什么題",另一個負責"真正把題出出來"。

負責戰略決策的部分叫做"Benchmark Planner(規劃器)"。當用戶輸入一個需求——比如"我想測試AI能不能理解混合多種語言的語音對話"——規劃器會把這個模糊的想法拆解成一組具體的、可執行的子任務。拆解這件事本身就不簡單,因為用戶說的話往往很籠統,需要把它翻譯成"我們要出哪幾類題、每類考什么、用什么數據來支撐"這樣清晰的規格。

規劃器內部有三個專門負責不同工作的小模塊,就像一個分工明確的編輯團隊。第一個叫"設計智能體",它的工作是拿到用戶需求之后,先頭腦風暴出一批候選題目類型,然后不斷篩選、修改、淘汰,直到留下一組真正有價值、不重疊、覆蓋面好的題型。第二個叫"落地智能體",它的工作是確認每一類題型都能找到真實的數據來支撐,同時規劃出把原始數據變成試題的具體方案。第三個叫"分配智能體",負責在資源和數量限制下,合理安排每類題出多少道。

三個小模塊之間會相互檢查。如果某類題找不到合適的數據,設計智能體就得回去重新設計;如果數量安排不合理,分配智能體會反復調整,直到達到一個可行的方案。整個過程像一個內部審稿會,不斷循環打磨,直到通過才往下走。

負責精確執行的部分叫做"Benchmark Executor(執行器)"。它拿到規劃器給出的詳細方案之后,開始逐條生成具體題目。執行器配備了一套工具箱,包括文字轉語音、圖像縮放、音頻混合、網頁搜索、噪聲注入、文件格式轉換、元數據編輯等十幾種工具,既有調用AI模型完成的智能操作,也有純程序化的確定性操作。

生成題目的過程是"邊做邊看"的。執行器先根據整體方案規劃每一道題的生成步驟,然后實際執行這些步驟,把中間產出反饋回來,再根據反饋調整下一步操作。每道題生成之后,還要經過一道質量檢驗關——檢查題目是否真的考到了目標能力,格式是否規范,答案是否正確。不合格的題目會被丟棄或重新生成,直到湊夠預定數量。

用一個生活中的比喻來理解:如果把整個系統比作一家餐廳,規劃器就是大廚長,負責制定菜單、確認食材來源、規劃出餐數量;執行器就是具體的廚師團隊,按照食譜實際烹飪,烤出來的每道菜還要經過品控員嘗一口才能上桌。兩者缺一不可,配合才能出好菜。

三、"出題機器"能出哪些題

研究團隊用Benchmark Agent實際生成了15套涵蓋不同場景的評測集,覆蓋范圍令人印象深刻。

在純文字方向,系統生成了四套題庫,分別測試"多視角敘事理解"(把同一件事情的不同描述整合起來,判斷真正發生了什么)、"多語言推理"(信息散落在英語、中文、法語等不同語言的文本中,要求模型跨語言整合得出答案)、"長對話推理"(在多個說話人的長篇對話中追蹤信息,回答綜合性問題)、以及"數學證明步驟驗證"(給出一段逐步展開的數學證明,要求模型找出其中哪一步邏輯有誤)。

在語音理解方向,系統生成了三套題庫,包括"多說話人語音推理"、"混合語言語音理解"和"噪聲環境下的語音理解"。特別是后者,題目中的音頻帶有真實的背景噪聲,考驗AI在嘈雜環境中是否還能準確理解說話人的意圖。

在圖文結合方向,系統生成了七套題庫,涵蓋藝術作品鑒賞(從畫面風格判斷所屬歷史時期)、醫學影像診斷(結合MRI圖像和臨床描述給出鑒別診斷)、動物細粒度識別(區分外形相似的不同犬種或鳥種)、地理區域推理、圖中數學證明步驟查錯、代碼缺陷定位與修復,以及更難的藝術史推理(從畫面推斷畫家、時代和相關藝術知識)。

還有一套跨越圖像和語音的綜合題庫,要求模型同時處理視覺內容和對話音頻,回答需要兩種信息共同支撐才能得出的問題,比起單獨處理圖片或聲音難度大幅提升。

四、題目質量怎么驗證

出題不難,出好題才難。研究團隊為了驗證這套系統的質量,設計了三種互補的評估方式。

第一種是人工評估。研究人員請人類專家對生成的題目逐條評分,判斷題目是否清晰、是否可以回答、答案是否正確、是否真的考到了目標能力。結果表明,在五套代表性題庫中,人工接受率均在96%到98%之間——也就是說,100道題里大約只有2到4道會被專家認為有問題。

第二種是"AI當裁判"評估。研究團隊設計了一套詳細的評分標準,讓另一個AI來充當考官,從六個維度給題目打分。這六個維度分別是:整套題庫是否契合用戶的原始意圖、每道題的格式是否規范、題目和答案之間是否語義連貫、題目背景材料是否能支撐作答、題目是否真的需要目標能力才能解答(不能走捷徑)、以及題目的難度是否有足夠挑戰性。這種多維度打分讓評估結果更細致,也能看出系統在哪方面還有改進空間。結果顯示,格式規范和語義連貫這兩項得分很穩定,而"題目到底有多難"和"能不能走捷徑繞過目標考查點"這兩項得分相對偏低,說明讓AI出出"真正難的好題"仍然有提升空間。

第三種是"鑒別力檢驗"。評估題庫最終的目的是區分模型好壞,所以研究團隊直接讓不同大小的Qwen3.5系列模型(參數量分別為2B、4B、9B、27B,可以理解為從"小學生"到"博士生"的不同級別)去做這些題,看看成績是否隨著模型變大而有規律地提升。結果令人滿意:在多視角推理題庫上,成績從71分穩步爬升到87分;在藝術推理和數學推理題庫上,成績雖然整體偏低(45分到56分),但也呈現出清晰的梯度。這說明這些題目確實能區分出強弱,沒有出現"大家都滿分"或"大家都不會"的極端情況。

五、和直接讓AI出題相比,差別有多大

有人可能會問:何必搞這么復雜的系統,直接讓ChatGPT或者其他大模型出題不就行了?研究團隊對此做了直接的對比實驗。

他們用相同的題目需求,分別讓GPT-5.4、Claude-Sonnet-4-6、Gemini-3.1-Pro-Preview和Qwen3.5-397B這幾個當前最強的AI模型直接生成題目,再用同一套標準評分。結果顯示,直接讓AI出題,在格式規范和語義連貫這兩項確實也能得到還不錯的分數,說明這些模型確實能寫出"看起來像題目"的東西。但在"是否符合用戶原始意圖"、"是否真的考查了目標能力"、"題目難度是否足夠"這幾項關鍵指標上,直接生成的分數大幅落后于Benchmark Agent——差距通常在15到30分之間,相當顯著。

這個差異背后的原因并不神秘:直接讓AI出題,模型只是在憑感覺發揮,沒有經歷"需求分析—數據核實—方案驗證—質量把關"這一套嚴格流程。就像讓一個廚師隨手炒一盤菜,和按照餐廳標準化流程烹制的出品,質量差異自然可觀。Benchmark Agent的價值不在于它的每個步驟單獨多聰明,而在于整套流程確保了題目從頭到尾都貼近用戶真實需求,而不是跑偏到相關但不準確的方向上。

六、換個AI來驅動這套系統,結果會變嗎

研究團隊還測試了用不同的AI模型作為Benchmark Agent的"大腦"時,生成質量是否會有明顯變化。他們分別用Qwen3.5-397B-A17B、GPT-5.4、Claude-Sonnet-4-6和Gemini-3.1-Pro-Preview驅動同一套系統,結果發現:不同模型驅動下,最終題庫的綜合質量得分維持在一個相當穩定的范圍內(比如在"多視角理解"這套題庫上,四種配置的綜合分在72到80分之間,差距不大)。換句話說,這套系統的質量主要來自整體流程設計,而不是依賴某個特定AI模型的超強能力。閉源商業模型在需要深層意圖理解和多步規劃的維度上略有優勢,但差距并不懸殊。

七、這套系統省了多少人力

研究團隊對人工出題和Benchmark Agent出題的時間成本做了直接比較。在"語音推理"類題庫上,人工平均每道題需要6分鐘,而Benchmark Agent只需要0.3分鐘;在"藝術推理"類題庫上,人工平均每道題需要5分鐘,Benchmark Agent只需要0.2分鐘。換算下來,速度提升了大約20到30倍。更重要的是,一旦系統部署完畢,需要更新題庫時可以同時并行處理多批任務,速度還能進一步加快,而人工出題的速度不會因為需求增加而自動擴容。

八、實驗揭示了當前AI模型的哪些短板

Benchmark Agent不只是一臺出題機器,它生成的題庫還幫助研究人員發現了一些關于當前AI系統的有趣規律。

研究團隊用Benchmark Agent生成的圖文題庫對多個主流視覺-語言模型做了系統評測,結果呈現出明顯的"能力不均衡"現象。以Qwen系列視覺模型為例,它們在地理區域識別和數學推理這兩類任務上表現相當優秀,但在藝術品細節鑒賞和動物細粒度識別上明顯吃力。這種差距可能源于訓練數據的覆蓋范圍——模型對常見知識的掌握遠優于需要專業細粒度感知的領域。

從具體的失敗案例來看,這種差距體現得更加直觀。有一道題給出了一幅使用飽和青綠色調的中國畫,問它屬于哪個歷史時期,正確答案是"近現代對古典山水畫的復興",但模型把它判斷為"晚期傳統文人畫時期",因為它只看到了"傳統風格",沒能識別出"用傳統形式做現代復興"這一層更細膩的區別。還有一道醫學題,給出了一張腦部MRI圖像和患者癥狀,要求判斷栓子最可能來自哪條動脈,正確答案是"遠端基底動脈",但模型選了"近端基底動脈",原因是它過分關注了腦干受累這個籠統特征,忽略了"進行性嗜睡"這個提示遠端"基底動脈頂端綜合征"的關鍵線索。

在語音理解方向,一道題考查說話人歸因,對話中律師明確說"這不是典型的訴訟",但模型把這句話錯誤地歸屬到了當事人Ana身上。另一道題考查代詞指代,對話中Speaker 2說"That is so sweet","That"指的是Speaker 1剛才表達的"我為我們關系能持續這么久感到興奮",但模型把它誤解成了更早時候提到的"我們曾經形影不離的時光",顯示出模型在維持本地對話上下文、追蹤近期話語指向方面存在明顯不足。

九、這套系統還有哪些局限

研究團隊對自己的系統相當坦誠,在論文中明確列出了三個主要局限。

首先,當前生成的題庫主要覆蓋了若干代表性任務,專業細分領域的覆蓋還不夠廣。未來需要進一步擴充可以接入的數據集池,以支持更多用戶定制場景。其次,系統能完成的操作受到工具箱中現有工具的限制,目前支持的變換類型有限,無法滿足所有可能的題目構建需求。好消息是這套系統采用模塊化設計,新工具可以隨時接入,擴展起來并不困難。第三,雖然系統顯著降低了人工成本,但少量人工抽查仍然是有價值的,因為完全自動化的質量控制還無法覆蓋所有邊角情況。研究團隊計劃加入更便捷的人機交互反饋機制,讓專家能以極低成本對生成結果做快速修正。

說到底,這項研究的意義不只是"出題速度快了20倍"。更深層的價值在于它改變了評測題庫的生命周期邏輯。以前,一套題庫從誕生到被AI"考穿",就算完成使命,研究人員再從頭出新題。現在,有了Benchmark Agent,題庫可以隨著AI能力的演進而持續更新,用戶可以根據自己的評測需求隨時定制新的題目類型,整個評測體系從一次性消耗品變成了可持續運轉的動態系統。

當然,"讓AI給AI出題"這件事本身也帶來了新的問題:如果出題的AI和被測試的AI來自同一個模型家族,會不會有"自己給自己出簡單題"的風險?如何確保題目不會因為訓練數據泄露而失去評測效力?這些問題在論文中尚未深入討論,但無疑是接下來研究者需要認真面對的方向。

對于關心AI發展的普通讀者來說,這項研究意味著:未來AI能力的評測將會更加持續、更加多樣化、也更加貼近真實使用場景,而不再局限于那幾套大家耳熟能詳、已經快被"刷滿分"的老題庫。評測本身也在進化,而這恰恰是AI能良性進步的重要前提。如有興趣深入研究這套系統的技術細節,可通過arXiv編號2606.06462查閱完整論文。

Q&A

Q1:Benchmark Agent能自動生成哪些類型的評測題目?

A:Benchmark Agent支持生成多種模態的評測題目,包括純文本題(如多語言推理、長對話理解、數學證明查錯)、圖文結合題(如醫學影像診斷、藝術鑒賞、代碼調試)、純語音題(如多說話人理解、噪聲環境對話),以及同時涉及圖像和語音的綜合題目。目前研究團隊已用這套系統生成了15套覆蓋不同領域的評測集。

Q2:Benchmark Agent生成的題目質量怎么保證,人工審核還需要嗎?

A:系統內置了自動質量控制流程,每道生成的題目都會經過格式檢驗和語義驗證,不合格的會被丟棄或重新生成。人工專家評估結果顯示,生成題目的人工接受率在96%到98%之間,質量相當可靠。不過研究團隊也坦承,少量人工抽查仍然有價值,系統并不能完全取代人工判斷,特別是在一些邊界情況下。

Q3:Benchmark Agent和直接讓ChatGPT等大模型出題有什么本質區別?

A:直接讓大模型出題可以生成格式規范、語義通順的題目,但很難保證題目真正契合用戶的測試意圖,也難以確保題目不能被走捷徑繞過。Benchmark Agent的核心優勢在于它有完整的"需求分析—數據落地驗證—方案規劃—質量把關"流程,確保每道題從頭到尾都貼近原始評測目標。實驗對比顯示,在"是否符合用戶意圖"和"是否考查了目標能力"這兩項關鍵指標上,Benchmark Agent比直接生成的方式高出15到30分。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
人不會平白無故患帶狀皰疹!醫生強調:得帶狀皰疹,多半有3共性

人不會平白無故患帶狀皰疹!醫生強調:得帶狀皰疹,多半有3共性

39健康網
2026-06-12 20:16:42
巴拉圭一對球迷姐弟因高顏值走紅,被譽為世界杯女友/男友

巴拉圭一對球迷姐弟因高顏值走紅,被譽為世界杯女友/男友

可樂談情感
2026-06-13 19:28:40
太平島又發生激烈對峙,現場情況很危險,我們必須收回該島執法權

太平島又發生激烈對峙,現場情況很危險,我們必須收回該島執法權

馬探解說體育
2026-06-14 08:00:22
西方為什么死咬新疆不放?

西方為什么死咬新疆不放?

杰絲聊古今
2026-06-13 18:57:12
高家寶,你好幸福啊,爸爸是爾豪,媽媽是小秦氏,關鍵是他們愛你

高家寶,你好幸福啊,爸爸是爾豪,媽媽是小秦氏,關鍵是他們愛你

娛人細品
2026-06-13 18:29:45
伊布談阿什拉夫犯規維尼修斯:裁判應該保護球員,他沒做到

伊布談阿什拉夫犯規維尼修斯:裁判應該保護球員,他沒做到

懂球帝
2026-06-14 17:15:19
新冠后遺癥的長期侵襲,無數人在不知不覺中深陷困境

新冠后遺癥的長期侵襲,無數人在不知不覺中深陷困境

律法刑道
2026-04-01 10:15:47
蘇超一晚三場冷門,主場隊伍全翻車

蘇超一晚三場冷門,主場隊伍全翻車

林子說事
2026-06-14 14:36:50
《火遮眼》北美票房出爐,回本無壓力,謝苗要登上巔峰了

《火遮眼》北美票房出爐,回本無壓力,謝苗要登上巔峰了

凡知
2026-06-14 14:19:46
大家都難了嗎?網傳胖東來要降薪,成本會計3600工資竟來23人面試

大家都難了嗎?網傳胖東來要降薪,成本會計3600工資竟來23人面試

慧翔百科
2026-06-12 08:39:57
澳大利亞公開賽,國羽三冠兩亞收官,陳柏陽劉毅登頂,董天堯摘銀

澳大利亞公開賽,國羽三冠兩亞收官,陳柏陽劉毅登頂,董天堯摘銀

天涯遠行人
2026-06-14 17:29:16
摩洛哥18歲天才完爆巴西中場,阿森納后悔7000萬要價

摩洛哥18歲天才完爆巴西中場,阿森納后悔7000萬要價

老糿尾聲體育解說
2026-06-14 13:27:41
“都絕戶了,還拼命掙錢干嘛?”看見父親50歲就躺平,我崩潰了

“都絕戶了,還拼命掙錢干嘛?”看見父親50歲就躺平,我崩潰了

素十三兒
2026-04-13 07:12:36
路易斯王子陽臺搶盡風頭,12歲的喬治王子身高暴漲,幾乎追上凱特

路易斯王子陽臺搶盡風頭,12歲的喬治王子身高暴漲,幾乎追上凱特

譯言
2026-06-14 06:09:35
王鶴隸早期出道視頻曝光引熱議

王鶴隸早期出道視頻曝光引熱議

淺遇時光
2026-06-14 01:16:31
鄭麗文這番話一放出來,火藥味一下就上來了。

鄭麗文這番話一放出來,火藥味一下就上來了。

果媽聊娛樂
2026-06-14 17:20:53
就差最后一步,伊朗人自己打起來!萬人血誓:復仇未竟,休想妥協

就差最后一步,伊朗人自己打起來!萬人血誓:復仇未竟,休想妥協

菁菁子衿
2026-06-14 09:01:10
調整!6月14日晚間央視直播乒乓收官日有變,4場決賽,林詩棟爭冠

調整!6月14日晚間央視直播乒乓收官日有變,4場決賽,林詩棟爭冠

煙潯渺渺
2026-06-14 14:29:13
伊朗新領袖打破40年潛規則!正面打擊以色列,一場國運豪賭開始了

伊朗新領袖打破40年潛規則!正面打擊以色列,一場國運豪賭開始了

凡知
2026-06-12 12:34:32
玩過14位男星!人前玉女,人后“欲女”,47歲至今未婚無人敢娶

玩過14位男星!人前玉女,人后“欲女”,47歲至今未婚無人敢娶

翰飛觀事
2026-06-13 14:19:51
2026-06-14 19:04:50
科技行者 incentive-icons
科技行者
科技正在如何變革商業世界
8771文章數 565關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

村民砍掉"孤獨樹":砍樹前一天跟紅裙女子發生沖突

頭條要聞

村民砍掉"孤獨樹":砍樹前一天跟紅裙女子發生沖突

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

鄧超攜子觀戰NBA,等等帥氣十足

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

綜合續航超1600km/零百加速4秒級 2027款星途ES預售18.99萬起

態度原創

教育
時尚
健康
房產
數碼

教育要聞

2026高考作文:萬古融雪,終貫滄海

伊姐周六熱推:電視劇《南部檔案》;電視劇《意外調查組》......

老人、小孩、孕婦,吃粽子有啥風險

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

數碼要聞

Meta向旗下Quest 2/3/Pro頭顯全面推送新版Navigator界面

無障礙瀏覽 進入關懷版