網易首頁 > 網易號 > 正文申請入駐

曼徹斯特大學等揭示：AI文物理解存在文化語境識別缺陷能力突破

2026-04-20 21:53:20　來源: 科技行者

北京舉報

分享至

這項由英國曼徹斯特大學、中國武漢大學人工智能學院以及美國蓋蒂保護研究所聯合開展的研究，發表于2026年11月舉辦的ACM多媒體國際會議（ACM MM '26），論文編號為arXiv:2604.07338。研究團隊構建了一個名為"Appear2Meaning"的跨文化基準測試集，用于評估當前主流視覺語言模型在從文物圖像中推斷結構化文化元數據方面的能力，并得出了一些頗具說服力的實驗結論。

如果你走進一座博物館，看到一件精美的陶瓷器皿，你可能會好奇：這是哪個國家做的？什么年代？誰做的？這些問題對于訓練有素的文物專家來說，往往需要結合器型、釉色、紋飾、工藝等多種線索，再加上深厚的歷史知識才能回答。現在的AI，尤其是那些既能"看圖"又能"說話"的大模型，能做到同樣的事情嗎？曼徹斯特大學等機構的研究團隊專門針對這個問題設計了一套嚴格的考試，然后讓九位"AI選手"上場作答——結果出乎許多人的預料。

一、這場考試考的是什么

要理解這項研究，先得弄清楚研究團隊到底在考AI的哪種能力。現有的很多AI圖像描述系統，說白了是在回答"這張圖里有什么"。比如看到一件青花瓷，AI會說"這是一件藍白相間的花瓶，上面有花卉圖案"。這種能力叫做視覺描述，停留在"看到什么就說什么"的層面。

但博物館工作人員真正需要的，是另一種更難的能力：從圖像中推斷出"看不見"的信息。這件器物屬于哪種文化？大概是哪個朝代或歷史時期？產自哪個地方？是誰或哪個工坊制作的？這些問題的答案往往不寫在器物表面，需要結合歷史知識和文化背景才能推斷出來。研究團隊把這種能力稱為"結構化文化元數據推斷"——用一句話說就是：光靠看圖，能不能猜出文物背后的"身份證信息"？

研究團隊將這個問題正式定義為一個預測任務。給定一張文物圖像，模型需要預測四個關鍵字段：文化歸屬（比如"中國"或"古希臘"）、歷史時期（比如"唐代"或"公元前5世紀"）、產地來源（比如"景德鎮"或"雅典"）、以及創作者（比如某位藝術家或某個工坊）。與此同時，研究團隊還額外要求模型預測文物標題，作為輔助評估維度。這五個字段合在一起，就構成了一件文物的基本"檔案"。

二、這份題庫是怎么準備的

為了讓考試公平可信，研究團隊從兩個權威來源收集了題目：美國蓋蒂藝術收藏館和紐約大都會藝術博物館的開放訪問數據庫。這兩個機構都以CC0協議開放了藏品圖像和元數據，允許自由使用。

題庫的覆蓋范圍設計得很有講究。研究團隊選取了四大文化區域的文物：東亞（涵蓋中國、日本等）、古地中海（涵蓋古希臘、古羅馬等）、歐洲，以及美洲。對于每個文化區域，研究團隊還區分了不同的文物類別。東亞部分包含陶瓷、繪畫和金屬器；其余三個區域則包含陶瓷、繪畫、金屬器和雕塑四類。每個文化與類別的組合，各抽取50件文物，最終匯集成包含750件文物的數據集。

為了確保每件文物的元數據都是準確可靠的，研究團隊采用了兩輪人工審核。第一輪由一位標注員根據圖像和元數據挑選候選文物，第二輪由另一位標注員獨立核實文化區域和文物類型的歸屬。只有通過兩輪審核的文物才會進入最終數據集。這種雙重驗證機制，確保了評測標準的可靠性。

三、AI選手陣容與答題規則

此次參加評測的共有九個模型，分為兩組。開放權重模型（任何人都可以下載使用的那種）包括阿里巴巴旗下的Qwen-VL-Max、Qwen3-VL-Plus、Qwen3-VL-Flash、Qwen3-VL-8B-Instruct、Qwen3-VL-32B-Instruct，以及法國Mistral AI的Pixtral-12B。閉源商業模型（只能通過API調用的那種）則包括OpenAI的GPT-4.1-mini、GPT-5.4-mini，以及Anthropic的Claude Haiku 4.5。

答題規則統一且嚴格：所有模型只能看圖作答，不能查資料，不能借助外部知識庫，完全依靠模型自身在訓練過程中積累的知識。答案需要以結構化的JSON格式輸出，包含五個字段。這個設定模擬的是現實場景中最理想的情況：博物館拿到一件沒有標注的文物圖片，能不能直接讓AI生成初步的元數據檔案？

評分方式同樣經過精心設計。研究團隊沒有簡單地用字符串匹配來判斷對錯，而是引入了一個"AI裁判"機制——讓GPT-4.1-mini作為評判者，將模型的預測答案與標準答案進行語義層面的比較，然后給出三種評級：完全正確、部分正確、完全錯誤。比如預測"清朝"而標準答案是"清代"，這兩種說法在語義上是一致的，應當被認定為正確，而不是因為措辭不同就判錯。這種基于語義對齊的評判方式，比純粹的字符串比對更貼近人類專家的判斷標準。

四、成績單出爐：亮點與令人驚訝的地方

考試結果可以用一句話概括：模型們普遍能答對一兩道小題，但幾乎沒有人能把整張試卷做滿分。

從精確匹配率（即五個字段全部答對的比率）來看，所有模型的得分都極低，大約在1%到3%之間。換句話說，在750件文物里，即便是表現最好的模型，也只能對大約二三十件文物同時答對所有字段。這個數字告訴我們，完整推斷一件文物的全部元數據，對當前AI來說依然是極度困難的挑戰。

然而，從部分匹配率（即至少答對一個或幾個字段的比率）來看，情況要好很多。得分最高的Qwen3-VL-Flash達到了65.8%的部分匹配率，意思是超過六成的文物，模型至少猜對了一到幾個字段。緊隨其后的是GPT-4.1-mini（60.9%）和Qwen-VL-Max（56.0%）。這種"高部分低精確"的模式表明，模型確實能捕捉到一些文化信號，但無法把所有線索整合成一個完整、一致的答案。

從各個字段單獨來看，"文物標題"和"創作者"的準確率相對較高，而"文化歸屬"、"歷史時期"和"產地來源"則更難猜中。Qwen3-VL-Flash在標題字段得分0.539，Pixtral-12B在創作者字段得分0.522，都是各自字段的最高分。相比之下，產地來源字段的最高分只有0.241，可見"這東西產自哪里"是最難推斷的信息。

從文化區域的表現差異來看，東亞文物整體表現最好，東亞區域的部分匹配率普遍高于其他三個區域，其中Qwen3-VL-Flash在東亞區域的部分匹配率高達74.0%，文化歸屬準確率更是達到79.3%。相比之下，歐洲和美洲區域的表現則明顯偏弱，精確匹配率在很多模型上接近于零。古地中海區域的情況頗為特殊：部分匹配率不低，但幾乎完全由"創作者"字段的高得分撐起來，文化、時期和產地依然慘不忍睹。

此外，值得關注的是，開放權重的Qwen系列模型在整體表現上并不輸給商業閉源模型，甚至在部分指標上超過了GPT系列，這說明開源模型在文化理解任務上正在快速追趕。

五、AI為什么會出錯：四種典型的"答題失誤"

研究團隊不滿足于只看分數，還深入分析了模型出錯的規律，歸納出四種典型的錯誤模式。

第一種是"跨文化張冠李戴"。最直觀的例子是一件1885年由美國Union Porcelain Works（聯合瓷器工廠）制造的"黃油碟"。這件器物看起來帶有精致的花卉圖案和精細的白瓷質感，結果Claude Haiku 4.5猜它是"18世紀末的法國或歐洲風格"，GPT-4.1-mini猜是"法國18世紀瓷器"，Qwen-VL-Max猜是"日本明治時期"，Pixtral-12B猜是"中國清朝"——沒有一個猜對"美國1885年"。這種錯誤背后的邏輯其實很清晰：美國早期的高檔瓷器大量借鑒了歐洲和東亞的制瓷工藝與裝飾風格，外觀上確實與歐洲或東亞瓷器相似，所以模型跟著"長相"走，把文化歸屬弄錯了。

第二種是"認出了形狀，但沒認出功能"。比如"芹菜花瓶"（Celery vase）這件1849到1858年間由美國聯合陶器公司制作的器皿，其表面有大理石紋樣，外形類似郁金香形花瓶。各個模型都認出了"花瓶"這個大類，但具體叫什么、產自哪里卻頻頻出錯——GPT-4.1-mini把它歸為荷蘭代爾夫特工坊，Qwen-VL-Max猜是英國韋奇伍德，Qwen3-VL-Plus猜是英國斯塔福德郡陶器，Claude Haiku 4.5猜是"歐洲現代主義風格"。模型看出了器物的大致形態，卻無法識別具體的歷史功能類別和文化背景。

第三種是"時間壓縮"，也就是把文物的年代往前推。許多美國19世紀的陶瓷器，一旦被模型誤認為歐洲風格，時間預測就會順勢提前到18世紀甚至更早。還有更戲劇性的例子：日本約公元3世紀的銅鈴，被某個模型預測為"維京時代"或"青銅時代"歐洲器物，直接跑到了完全不同的歷史坐標系里。這種錯誤說明模型在推斷年代時，往往是依靠"這種風格通常屬于哪個時代"的刻板印象，而不是基于對文物本身的細致分析。

第四種是"只記住了名字，卻忘了語境"。研究團隊發現，對于某些知名度較高的工坊或制造商，模型有時能正確猜到創作者，但其他字段卻依然全錯。比如"底托"（Compote）這件器物的制造者Union Porcelain Works被GPT-4.1-mini猜對了，但同時器物的標題卻猜錯了。這說明模型在某些高頻出現的創作者名稱上形成了記憶關聯，但這種記憶并沒有幫助它建立更完整的文化理解，知道"誰做的"不代表理解了這件東西誕生于何種文化背景。

六、幾個特別有意思的案例

研究團隊還詳細分析了幾個具代表性的案例，每一個都揭示了不同層面的問題。

一件名為"Andiron"（壁爐支架，用于架柴火的金屬器具）的美國器物，其外形與歐洲鐵藝制品非常相似。各個模型普遍能猜出"這是壁爐相關的金屬器具"，也就是說功能大類猜對了，但文化歸屬幾乎全部偏向歐洲。這說明，準確識別器物的用途，并不等于能正確推斷它的文化來源——因為很多功能性器物的外形跨文化共享，文化歸屬往往需要依賴材料工藝或歷史記錄等視覺之外的信息。

另一件來自古地中海區域的"繆斯女神像"更耐人尋味。這件雕塑的博物館記錄并沒有明確填寫"文化"和"時期"字段，但描述文字中提到了"與羅馬帝國建筑裝飾相關"。各個模型都能認出這是一件古典風格的女性雕像，但沒有任何一個模型能識別出她具體是哪位繆斯女神（即波利許謨尼亞），而GPT-5.4-mini甚至把她猜成了"年輕女性的墓葬雕像"。這個案例說明，圖像識別能力再強，也無法替代對圖像學（iconography，即通過圖像符號解讀神話或宗教含義的學問）的深入理解。

還有一件中國清代的"瓷盆"（Basin，1825年至1845年間制造），情況正好反過來：文化歸屬猜對了，但細節過度發揮。Qwen3-VL-Plus不僅猜出了"中國瓷器"，還進一步推斷這是"廣彩出口瓷，裝飾有八仙圖案，屬清朝光緒年間（1875年至1908年）"。問題在于，光緒年間已經在真實年代的三四十年之后了，而"八仙圖案"的推斷在博物館記錄中也無從驗證。這種"過度具體化"的傾向，反映了模型在遇到熟悉的文化符號時會生成超出證據支持的細節，類似于一個人在猜測時因為"感覺很有把握"而說得過于篤定。

最后一個案例是一幅荷蘭畫派繪畫，題為"鄉村宮殿前的球賽"（A Ball Game Before a Country Palace），作者是阿德里安·范·德·費內（Adriaen van de Venne，1589年至1662年）。Pixtral-12B給出了一個內部一致但與正確答案大相徑庭的預測——將這幅畫識別為"阿姆斯特丹市政廳庭院景觀"，文化歸屬猜對了（荷蘭），時期猜對了（荷蘭黃金時代），產地也猜了阿姆斯特丹，但標題和創作者全都偏了。這個案例揭示了一個評估層面的微妙問題：模型給出了歷史上合情合理的解讀，但它所描述的內容與博物館檔案不符。研究團隊指出，對于藝術作品這種天然存在多元解讀可能性的對象，判斷"對"和"錯"并不像判斷數學題那么非黑即白。

七、這項研究告訴我們什么，以及它沒有告訴我們什么

說到底，這項研究最核心的發現是：當前的AI視覺語言模型還不具備可靠地從圖像推斷完整文化元數據的能力，但它們已經能捕捉到一些有用的文化信號，只是無法將這些碎片信號整合成一個一致的完整檔案。

研究團隊也做了一個重要的自我反省：模型的錯誤不能完全歸咎于模型本身。博物館收藏本身存在偏差——蓋蒂和大都會藝術博物館的藏品中，古地中海和歐洲文物有著極為豐富且完整的文獻記錄，而其他文化區域的記錄則相對零散。歷史上的文化交流與模仿也讓事情變得更復雜——美國早期陶瓷仿照歐洲風格，歐洲瓷器借鑒東亞工藝，這種交叉本來就讓"看圖識文化"變得異常困難。圖像質量的差異（拍攝角度、分辨率、光線）也會影響模型的判斷。

研究團隊還特別提醒：在實際應用場景中，AI推斷出來的文物元數據不應該被當作權威結論，而應該作為專家進一步核驗的線索。正如文章開頭援引人類學家克利福德·格爾茨的那句話——"人是懸浮在自己編織的意義之網中的動物"——文化本身就是一張復雜的意義之網，僅憑視覺外觀去還原一件器物背后的全部歷史脈絡，本質上是一項需要綜合歷史、文獻、工藝等多維度知識的判斷，遠不是"掃一眼就能知道"的事。

從技術走向來看，研究團隊認為未來改進的方向包括：引入檢索增強機制（讓模型在預測時能查閱相關文獻庫）、引入知識圖譜和博物館本體系統（幫助模型理解概念之間的文化關聯）、擴大數據集規模并納入更多文化區域，以及開發更細粒度的文化區分能力，而不僅僅停留在"東亞""歐洲"這樣的粗粒度標簽上。

歸根結底，這項研究像是一次誠實的能力摸底。它告訴我們，AI在文化理解這條路上已經走出了一段，但前面還有更長的路。對于博物館、文化遺產機構以及所有對AI文化智能感興趣的人來說，這套評測框架本身——750件文物、四大文化區域、五個元數據字段、語義對齊評判——就是一個可以持續使用和擴展的工具，用來追蹤AI在這個領域的進展。有興趣深入了解這項研究全部細節的讀者，可以通過論文編號arXiv:2604.07338查閱完整原文。

Q&A

Q1：Appear2Meaning基準測試集總共包含多少件文物，覆蓋哪些文化區域和文物類別？

A：Appear2Meaning數據集共收錄750件文物，來源于蓋蒂藝術收藏館和紐約大都會藝術博物館的開放數據庫。數據集覆蓋四大文化區域：東亞、古地中海、歐洲和美洲。文物類別方面，東亞區域包含陶瓷、繪畫和金屬器三類，其余三個區域則包含陶瓷、繪畫、金屬器和雕塑四類，每個文化與類別組合各抽取50件，形成均衡的跨文化覆蓋。

Q2：Appear2Meaning研究中精確匹配率為什么那么低，只有1%到3%？

A：精確匹配要求模型同時答對文物的五個字段——標題、文化歸屬、歷史時期、產地來源和創作者。這五個字段中，每一個單獨猜對都已經很難，要同時全部答對就更像是連續猜中多道題，難度成倍疊加。加之這些字段所包含的信息往往無法直接從圖像外觀中讀出，需要歷史知識與文化背景的支撐，因此幾乎所有模型的精確匹配率都在3%以下。

Q3：在Appear2Meaning評測中，哪類文物的文化屬性最容易被AI猜對，哪類最難？

A：東亞文物的文化歸屬準確率最高，部分模型（如Qwen3-VL-Flash）在東亞區域的文化字段得分高達79.3%，可能與東亞文物具有較鮮明的視覺風格特征有關。相比之下，美洲和歐洲文物的文化歸屬最難猜對，尤其是美洲的裝飾性陶瓷，因為其外觀大量借鑒了歐洲和東亞風格，視覺上的文化信號極為模糊，模型頻繁將其誤歸為歐洲文物。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.