網易首頁 > 網易號 > 正文申請入駐

普林斯頓與紐約大學：單關鍵詞實現AI視覺感知能力補全提升突破

2026-04-20 21:49:48　來源: 科技行者

北京舉報

分享至

這項由普林斯頓大學與紐約大學聯合開展的研究成果以預印本形式發布于2026年4月，論文編號為arXiv:2604.09531，感興趣的讀者可通過該編號檢索完整原文。

**研究概要：AI的眼睛，看了卻沒真正"看懂"**

手機里的AI助手能認出照片里的貓，能讀懂菜單上的文字，甚至能幫你分析一張復雜的圖表。但如果你問它"照片里這把椅子是面朝你還是背朝你"，或者"這兩個杯子哪個離鏡頭更近"，很多時候它會給出令人哭笑不得的錯誤答案。這不是個例，而是當前幾乎所有頂尖視覺語言模型（也就是那種既能看圖又能對話的AI）共同面臨的頑疾。

問題的根源在哪里？研究團隊認為，很可能是因為訓練這些AI用的圖片，大多是從網上隨機抓取的自然照片，這些照片對于"左右上下、遠近深淺、朝向角度"這類基礎視覺能力的覆蓋，實在是太稀疏、太隨機了。網絡上確實有海量圖片，但要系統性地教會AI分辨"哪個在前哪個在后"，靠隨機抓取的圖片就像靠隨機翻字典來學一門語言——效率極低，效果有限。

正是帶著這個疑問，研究團隊提出了一個大膽的解決思路：與其費力地從網上篩選合適的真實圖片，不如直接"按需定制"合成圖片來專項訓練AI。他們把這套系統命名為**VisionFoundry**，并用它制作了一個包含一萬張圖片的專項訓練數據集**VisionFoundry-10K**。實驗結果顯示，用這批合成圖片微調過的AI，在視覺感知專項測試上的得分提升了7%到10%，同時在其他通用能力上并沒有明顯退步。

**一、AI的視覺短板：不是看不見，而是"看不懂"**

為了理解這個問題，可以把視覺語言AI比作一個剛從書堆里走出來的圖書館員。這位館員讀過無數書，對各種知識如數家珍，但對于"這扇門是開著的還是虛掩的""那本書是立著的還是斜著的"這類只需眼睛一掃就能判斷的問題，卻常常答錯。這不是因為他的眼睛看不見，而是因為他從來沒有專門練習過這種"看一眼就判斷空間關系"的本能。

研究團隊借助幾個專門設計的測試基準來揭示這種短板。其中一個叫MMVP，它的設計原理頗為巧妙：給AI看一張圖片，問一個本應從圖片中直觀可見的問題，但這類問題恰恰無法靠猜測或語言常識來回答，必須真正"看懂"圖片才能答對。另一個叫CV-Bench，它專門考察AI對三維空間關系的理解，比如兩個物體誰前誰后、誰遠誰近。還有RealWorldQA，它測試AI在真實場景照片中的幾何和空間推理能力。

多個頂尖AI模型在這些測試上的表現，與它們在語言理解或圖片描述上的出色表現形成了鮮明反差。這讓研究團隊更加確信：這不是模型結構的問題，而是訓練數據的問題——現有數據集對這類"低層次視覺感知"的覆蓋嚴重不足。

**二、合成圖片工廠：只需一個詞，就能批量生產專項訓練素材**

VisionFoundry的核心思路，可以用一家定制食品工廠來理解。普通超市的食品是大批量生產的，口味大眾、營養均衡但不針對特定需求。如果你需要專門為缺鈣的人設計食品，就需要一家能夠"按需定制配方"的工廠。VisionFoundry就是這樣一家工廠——只需要告訴它你想訓練AI的哪種能力（比如"深度排序"或"朝向判斷"），它就能自動生產出一批專門針對這項能力的訓練素材。

整個生產流程分為三個環節，環環相扣。

第一個環節是"配方設計"。研究團隊給系統輸入一個任務關鍵詞，比如"物體朝向與方向"。系統中的大語言模型（可以理解為一個超級聰明的文字助手）會自動構建一個"概念池"，把相關的物體、屬性、場景、風格等要素列出來，然后從中隨機組合，形成具體的圖片描述方案。與此同時，它還會同步生成配套的問題和答案。關鍵在于，答案所依賴的視覺信息必須完全包含在圖片描述里——這就好比食品工廠規定，你聲稱的營養成分必須真實存在于食品配方中，不能靠消費者腦補。

第二個環節是"生產制造"。系統把第一步生成的圖片描述交給一個文字轉圖片模型（類似于能按照文字描述畫出圖片的AI畫手），生成對應的合成圖片。研究團隊選用了谷歌的Gemini-2.5-Flash-Image模型來承擔這個角色，它能生成質量較高、細節豐富的圖片，并且對文字描述的忠實度也相當不錯。

第三個環節是"質量檢驗"。生成的圖片不能直接進入訓練數據，而要經過一道嚴格的審核。系統把生成的圖片和對應的答案一起交給另一個強大的多模態模型——谷歌的Gemini-3-Pro，讓它扮演"審核員"的角色。審核員會把問題和答案轉化成一句陳述句，比如"紅色的箱子在藍色球的左側"，然后對照圖片判斷這句話是否屬實。只有通過審核的圖片才會被保留，審核不通過的則會先嘗試修改圖片，修改后仍不通過就直接丟棄，重新抽取新的組合來生成。

這三個環節共同保證了兩件事：一是每張圖片里的視覺信息確實能支撐配套問題的正確答案；二是整個過程完全自動化，不需要真實圖片作為參考，也不需要人工標注。

**三、VisionFoundry-10K：一萬個專項訓練題**

用上面這套流程，研究團隊制作了一個名為VisionFoundry-10K的數據集，共包含一萬個"圖片+問題+答案"三元組，覆蓋十種不同的視覺感知技能，每種技能各一千個樣本。

這十種技能可以大致理解為考察AI在看圖時最基礎、最本能的判斷能力。第一類是朝向與方向，考察AI能否判斷一個物體面朝哪個方向，比如一輛摩托車是朝向鏡頭還是背對鏡頭。第二類是視角與透視，考察AI是否能識別出拍攝角度，比如這張照片是從高處俯拍還是從低處仰拍。第三類是位置與關系，考察AI能否判斷兩個物體的空間位置關系，比如背包在行李箱的正上方。第四類是空間關系，考察AI能否在圖紙或平面圖中識別方位，比如三腳架是否在水槽的西側。第五類是狀態與條件，考察AI能否判斷物體的狀態，比如玩具船的艙門是關著的還是虛掩的。第六類是結構與物理特征，考察AI對物體輪廓和形態的識別，比如氣壓計的外輪廓形狀。第七類是顏色與外觀，考察AI對顏色的識別，比如沙發上的條紋是什么顏色組合。第八類是深度排序，考察AI能否判斷哪個物體離鏡頭更近，比如潛水艇和刀哪個更靠近相機。第九類是相對距離，考察AI能否判斷哪個物體離某個參照物最近。第十類是現實世界空間理解，考察AI在真實場景中的綜合空間判斷能力，比如窗臺底部是否比信箱更高。

這十類技能涵蓋了從上下左右到遠近深淺、從物體狀態到拍攝角度的方方面面，形成了一套相對完整的低層次視覺感知訓練體系。所有問題都是簡短明確的，所有答案也都是簡潔確定的，比如"是"或"否"、"左"或"右"、某個物體名稱，這使得數據非常適合用來微調AI模型。

**四、實驗結果：小數據，大提升**

研究團隊選了三個不同規模的開源視覺語言模型來驗證效果，分別是Qwen2.5-VL-3B（約30億參數，屬于小型模型）、MiMo-VL-7B（約70億參數，中等規模）和Llama-3.2-11B（約110億參數，較大規模）。實驗的核心思路是：用VisionFoundry-10K對這三個模型進行額外訓練，然后在一系列視覺感知和通用能力測試上對比訓練前后的表現。

在視覺感知專項測試上，結果相當清晰。以MiMo-VL-7B為例，在MMVP配對測試（即需要同時看兩張圖片判斷差異的最難版本）上，得分從43.3%躍升至57.3%，提升幅度達14個百分點。在CV-Bench三維空間測試上，同一模型的得分從72.3%上升到83.7%，提升了11.4個百分點。Qwen2.5-VL-3B在CV-Bench三維測試上的提升也高達10.5個百分點，從66.0%升至76.5%。Llama-3.2-11B雖然提升幅度相對較小，但在多項測試上也有穩定的正向變化。

在通用能力測試上，結果呈現出"有得有失，整體無明顯退步"的格局。部分通用測試的得分有小幅提升，部分有小幅波動，OCRBench（文字識別測試）出現了小幅下滑，這與訓練數據完全不涉及文字識別任務直接相關——你沒練過的技能當然不會因為練別的而變好，但也印證了這套方法的針對性：它提升了專項訓練的技能，而不會大幅損害其他能力。

MiMo模型在MMBench通用測試上出現了一個格外顯眼的提升——從50.5%大幅躍升至81.6%。研究團隊經過分析后認為，這背后的原因是MiMo在非推理模式下本身對邏輯判斷能力依賴較強，而視覺感知能力的提升在一定程度上彌補了這方面的不足，使其在更多題目上能給出正確答案。

**五、數據越多，效果越好：一個可預期的成長曲線**

研究團隊還做了一個頗具實際意義的測試：如果不用完整的一萬個樣本，只用一部分，效果會怎樣？他們把數據集隨機抽樣成500、1000、2000、5000和完整10000個樣本，分別訓練模型，觀察效果隨數據量的變化趨勢。

結果呈現出一條整體向上的成長曲線。從500個樣本到完整一萬個樣本，各項視覺感知測試的得分基本上都在穩步上升，中間偶有小幅波動，但整體趨勢非常清晰。這意味著VisionFoundry生成的數據質量是可靠的，不存在"越多越亂"的情況，而是真正在幫助模型積累有效經驗。

在訓練輪數方面，研究團隊發現了一個實用規律：如果只用單一任務的1000個樣本訓練，大約訓練8輪后效果會達到峰值，繼續訓練反而略有退步；但如果用完整的十個任務一萬個樣本，只需較少的訓練輪數就能達到收斂，說明任務多樣性本身就有助于模型更快地找到穩定的學習狀態。

**六、合成圖片與真實圖片的較量：各有千秋，混用最優**

一個自然而然的問題是：合成圖片訓練出來的效果，和用真實圖片訓練相比怎么樣？研究團隊專門設計了一組對照實驗來回答這個問題。

他們從LLaVA-Instruct-80K（一個常用的自然圖片問答數據集）中隨機抽取了與合成數據等量的樣本，分別測試"純自然圖片"和"合成圖片+自然圖片各一半"兩種方案。結果表明，混合方案在視覺感知測試上的表現一致優于純自然圖片方案，而在通用能力測試上的表現也大體相當。這說明合成圖片提供了自然圖片難以覆蓋的視覺信號——尤其是在系統性覆蓋特定空間關系和朝向變化方面，自然圖片的隨機性無法與定制化合成圖片相比。

研究團隊還做了一個更精細的控制實驗，專門把"圖片來源"這個變量單獨隔離出來。他們從自然圖片中提取描述文字，然后用同樣的描述文字去生成合成圖片，保持問答內容完全一致，只改變圖片本身的來源。結果依然是合成圖片組在視覺感知測試上更勝一籌，尤其是在三維空間理解方面的優勢最為突出。這進一步證實了合成圖片本身的價值，而不僅僅是配套的合成問答起了作用。

**七、質量把關有多重要：驗證環節的必要性**

驗證環節是VisionFoundry區別于更簡單合成方案的核心設計之一。為了驗證這道"質檢關卡"確實有意義，研究團隊做了一個對照實驗：用同一批數據，一組經過Gemini-3-Pro驗證，另一組未經驗證，其他一切條件相同，看兩組的訓練效果有何差異。

結果清楚地表明，驗證是必要的。經過驗證的數據在CV-Bench二維測試上高出0.5個百分點，在RealWorldQA上高出0.7個百分點，在BLINK測試上高出1.2個百分點，在MathVista數學視覺測試上更是高出2.6個百分點。相反，未經驗證的數據在多項測試上反而低于什么都不訓練的基線——說明噪聲數據不只是無效，而是有害的，會讓模型學到錯誤的模式。

研究團隊還對驗證環節本身進行了一次人工抽查。他們讓人工審核員對140個生成樣本進行逐一判斷，然后與Gemini審核員的判斷進行對比。結果顯示，在這批樣本中，70.7%是生成正確且通過驗證的有效樣本，約21.4%是生成錯誤且被正確拒絕的樣本，只有約0.7%是生成錯誤但被錯誤放行的"漏網之魚"，約7.1%是生成正確但被錯誤拒絕的"冤案"。綜合來看，驗證器的精確度達到99%，也就是說通過驗證的樣本有99%確實是正確的，盡管它也會漏判約9.2%的正確樣本。驗證器與人工審核員之間的一致性系數（Cohen's κ）為0.794，屬于"高度一致"區間。這說明Gemini作為自動化審核員，其可靠性已經足夠支撐大規模的數據過濾工作。

**八、不同任務的訓練效果：并非所有技能都能遷移到所有場景**

研究團隊還做了一個細粒度的分析：如果只用某一類任務的數據來訓練，對各種測試的影響會有什么規律？他們分別用十類任務各自的1000個樣本訓練模型，然后全部測試，對比結果。

總體而言，大多數單任務訓練都能在視覺感知測試上帶來正面效果，但效果的大小和方向因任務和測試的組合而異。以"深度排序"任務為例，它在空間感知相關的測試上帶來了較明顯的提升，但對于ScreenSpot-Pro（一個測試AI在電腦屏幕界面上定位元素的能力的測試）和MMMU（包含大量需要專業知識的推理題的測試）效果有限，甚至略有下降——這說明專注于三維深度感知的訓練，對于二維圖形界面操作和學術推理的幫助并不大，符合直覺。

從各個測試對不同任務的敏感程度來看，CV-Bench三維空間測試對訓練任務的選擇最為敏感，不同任務帶來的提升幅度差異明顯；而RealWorldQA對任務選擇的敏感度相對較低，原因是這個測試本身更側重綜合推理能力，而非單一感知技能。這些發現告訴我們，合成數據的效果具有一定的特異性——選對了訓練任務，就能精準命中目標測試；如果任務與測試的需求不對齊，效果自然會打折扣。

**結語：給AI補課，原來這么簡單？**

說到底，這項研究給了我們一個頗有啟發性的視角：AI在視覺理解上的短板，未必是因為模型本身不夠聰明，很可能只是因為它從沒系統地學過這些"看似簡單"的空間感知技能。就像一個從小只讀書、從不做體育運動的孩子，并不是天生缺乏運動能力，只是沒有經過針對性的練習。

VisionFoundry的意義在于提供了一套低成本、自動化的"專項補課"方案：只需要告訴系統要練什么，它就能自動生成圖片、出題、驗證答案，整個過程不需要人工標注，也不需要真實圖片。用一萬個這樣的合成訓練樣本，就能在多個視覺感知測試上帶來顯著提升。

當然，這項研究也留下了值得繼續探索的問題。目前VisionFoundry主要針對相對簡單的低層次視覺感知技能，對于需要復雜推理鏈的高層次視覺理解任務是否同樣有效，還有待進一步驗證。合成圖片的質量也受到文字轉圖片模型本身能力的限制，隨著生成技術的進步，這套方法的上限也有望隨之提高。

更深層的啟示或許是：AI的能力不只取決于模型有多大、計算資源有多豐富，很大程度上也取決于訓練數據是否覆蓋了它需要掌握的技能。有針對性地設計訓練數據，可能是一條比單純擴大模型規模更高效的改進路徑。有興趣深入了解這項研究全貌的讀者，可以通過arXiv編號2604.09531檢索原始論文。

Q&A

Q1：VisionFoundry生成的合成圖片和普通網絡圖片有什么本質區別？

A：普通網絡圖片是隨機抓取的，對于"哪個物體在前、物體朝向哪里"這類空間感知信息的覆蓋非常稀疏和隨機。VisionFoundry生成的合成圖片則是"按需定制"的——系統先確定問題和答案，再生成能夠支撐該答案的圖片，并通過AI審核驗證圖片與答案確實一致。這種"先有答案再生成圖"的邏輯，保證了每張圖片都對應明確、可驗證的視覺信息，訓練信號遠比隨機圖片更精準。

Q2：VisionFoundry-10K訓練完之后，AI在文字識別等其他能力上會不會變差？

A：會有小幅波動，但不會大幅退步。在文字識別測試OCRBench上，經過VisionFoundry-10K訓練的模型得分略有下降，這是正常現象，因為訓練數據里完全沒有文字識別相關的樣本。但總體來看，通用能力測試上的變化是雙向的——有些測試有小幅提升，有些略有波動，并沒有出現系統性的全面下降，說明這套方法在提升專項能力的同時，對整體能力的影響是可控的。

Q3：VisionFoundry需要人工參與標注嗎，普通研究者能用得起嗎？

A：整個流程是完全自動化的，不需要人工標注任何圖片或問答對。系統只需要一個任務關鍵詞作為輸入，就能自動完成概念池構建、問答生成、圖片合成和質量驗證的全流程。成本主要來自調用大語言模型和圖片生成模型的API費用，以及驗證環節的計算開銷。對于有一定計算資源的研究團隊來說，這套方案的門檻遠低于人工標注或真實圖片采集。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.