網易首頁 > 網易號 > 正文申請入駐

斯坦福大學AI模型，只用一個孩子的成長視頻就學會了"看懂世界"

2026-04-21 21:47:24　來源: 科技行者

天津舉報

分享至

這項由斯坦福大學領導的研究發表于2026年4月，論文編號為arXiv:2604.10333，有興趣深入了解的讀者可以通過該編號查詢完整論文。

一個兩歲的孩子第一次看到玻璃杯從桌邊滑落，他不需要有人反復告訴他"玻璃杯會掉下去，然后碎掉"——他就是知道。他能追蹤滾動的球，判斷哪塊積木更近、哪塊更遠，甚至在媽媽把手放到玩具上時，就能預料到玩具即將被拿走。更驚人的是，這一切認知能力，他只靠著自己短短兩年、每天東張西望的"個人視頻素材"就學會了。

反觀今天最強大的人工智能系統，它們要學會識別一張貓的照片，需要看過數百萬張標注好的貓咪圖片；要學會分割視頻中的物體，需要大量人工打標簽的訓練數據。孩子學得又快又靈活，AI卻又慢又笨拙——這個鮮明的落差，長期困擾著AI研究者。

斯坦福大學的研究團隊為這個問題提出了一套全新的解法，他們把它叫做"零樣本視覺世界模型"，英文縮寫是ZWM（Zero-shot Visual World Model）。所謂"零樣本"，就是這個模型在完成各種視覺任務時，完全不需要看任何帶標注的例題——它能直接上手，就像一個聰明的孩子拿到新玩具不看說明書也知道怎么玩。研究團隊還專門用一個真實兒童的第一視角生活錄像來訓練這個模型，只用了132小時的視頻素材，就讓它在多項視覺理解任務上媲美甚至超越了那些用海量數據訓練的專門系統。

這不僅僅是一個AI技術的進步。它更像是一扇窗，讓我們得以窺見兒童大腦究竟是如何高效學習的——以及機器如何在同樣稀薄的信息條件下，做出同樣聰明的判斷。

一、孩子是怎么學會"看懂世界"的？AI為什么學不了？

要理解這項研究究竟解決了什么問題，先得摸清楚當前AI的軟肋在哪里。

現有的主流AI視覺系統大概分兩類。第一類叫做"監督學習"模型——顧名思義，就是有人手把手教的。你給它看一百萬張貓的圖片，每張都貼上"這是貓"的標簽，它就學會了識別貓。問題是，這種方式極度依賴人工標注，成本高昂，而且學會了識別貓，不代表它學會了分割貓的輪廓，更不代表它能判斷貓到底在桌子的前面還是后面。每一項新任務，都得重新準備一批新的標注數據，重新訓練一遍。

第二類叫做"自監督學習"模型，這是近年來更流行的方向。這類模型不需要人工標注，而是從海量視頻或圖片中自己找規律——比如把相鄰幀的畫面拉近、讓相似的圖片在特征空間里靠在一起。這類模型確實學到了很多有用的視覺特征，但有個致命問題：學完之后，它只有一堆"內部印象"，沒有辦法直接拿來做任務。你問它"這個物體在哪里"，它答不上來，除非你再給它準備帶標注的數據、重新訓練一個專門的"讀出頭"。這就好比一個人讀了幾千本書，腦子里裝滿了知識，卻只能筆頭不離書本，不能直接開口回答你的問題。

更要命的是，當這些自監督模型被拿到真實兒童的生活錄像上訓練時，效果比在ImageNet（一個高質量人工整理的圖片數據庫）上差得多。原因也很直觀：孩子的視角是顛來倒去的、模糊的、重復的，家里的場景遠沒有精心拍攝的數據集那么"干凈"。所以現有AI在兒童真實視角數據上學得很掙扎，這個現象被研究者稱為"生態數據學習鴻溝"——機器和孩子處理真實世界信息的能力之間，有一道難以跨越的溝。

語言領域也存在類似的困境。大型語言模型（比如ChatGPT）確實能做到"零樣本"回答問題，但那是建立在數以萬億計的文字訓練數據上的。對于視覺理解，這條路還遠遠沒有走通。

ZWM研究團隊正是沖著這兩道門檻而來的——既要數據高效（少量數據就能學會），又要任務靈活（不需要針對每項任務重新訓練）。

二、ZWM的三塊基石：像拆解一道物理題一樣學會看世界

ZWM的核心設計建立在三個原則上，可以用"一次練習、舉一反三、層層深入"來概括。

第一塊基石叫做"稀疏時間分解預測"。具體說來，模型的訓練方式是這樣的：給它看兩幀視頻畫面，相隔約150到450毫秒（大概是眨眼的速度）。第一幀畫面完整呈現，第二幀畫面則被大量遮擋，只隨機留下大約10%的像素小塊（稱為"補丁"），其余90%都用黑塊蓋住。模型的任務是：根據第一幀的完整畫面和第二幀漏出的那一點點線索，把第二幀完整預測出來。

這個訓練方式看似簡單，卻產生了一個非常精妙的效果。因為第二幀幾乎全被遮住，模型要想準確還原它，就必須從第一幀里理解物體的外觀，再從第二幀那一丁點漏出的線索里推斷物體和相機的運動。換句話說，外觀和運動這兩件事，被這道"填空題"強制拆解開了。就像偵探在案發現場只找到幾枚腳印，他必須從這幾枚腳印里推斷出嫌疑人的行走方向，而不是依賴監控錄像把整件事看清楚。正是這種"線索稀少、推斷困難"的訓練條件，逼迫模型內部形成了清晰的、可被利用的結構化表示。

第二塊基石叫做"通過近似因果推斷進行零樣本提取"。這是整個框架最有創意的部分。訓練完成后，模型掌握的那些"內部印象"怎么變成具體的視覺能力呢？方法是做一個簡單的"反事實實驗"。

以估算光流（即像素的運動方向和速度）為例：給模型看一幀圖像，然后在原始圖像里某個特定位置悄悄加上一個白色小點作為"探針"，再讓模型預測下一幀。同時，用沒有這個小點的原始圖像再預測一次下一幀。把兩次預測的結果相減，差異最大的地方就是那個小點"被帶到了哪里"——這個位置的偏移，就是光流。這個操作不需要任何標注，不需要任何額外訓練，完全依靠模型自身已經學到的世界物理規律來運作。

這套邏輯本質上是因果推斷：改變一個輸入，觀察輸出的變化，就能推斷出某種因果關系。研究團隊把這個過程形式化成三步——"擾動"（perturb）、"比較"（compare）、"聚合"（aggregate）——構成了所有零樣本任務的通用接口。就像一個偵探通過改變現場的某件物品來觀察嫌疑人的反應，從而判斷這件物品對案件的重要性。

第三塊基石叫做"組合式提示"。簡單的提示可以像積木一樣拼接成復雜的能力。光流估算是最基礎的一塊積木。把光流用在立體圖像對（左眼和右眼各拍一張）上，就變成了深度感知——近處的東西左右視差大，遠處的東西視差小。把一個假設性的運動擾動施加到某個物體上，再用光流分析哪些像素一起動了，就變成了物體分割。把物體分割和運動預測組合起來，用來推斷"如果這只手推了這個杯子，杯子會不會倒"，就變成了直覺物理推理。這個逐層堆疊的過程，像極了真實兒童的認知發展：先感知運動，再感知物體，再理解物體之間的因果關系。

三、用一個孩子的眼睛訓練出來的"嬰兒ZWM"

研究團隊把用BabyView數據集訓練的模型叫做BabyZWM，而BabyView是一個真實的兒童第一視角視頻數據集，包含34名年齡在5個月到5歲之間的兒童的868小時生活錄像，由他們戴著頭戴式攝像機在日常生活中錄制。這些視頻里有晃動的鏡頭、模糊的畫面、重復的家庭場景，以及大量"摔東西"、"抓玩具"、"看媽媽燒飯"之類的日常片段——遠遠談不上"高質量數據集"。

為了進一步驗證模型的數據效率，研究團隊還從BabyView中專門篩選出一個極端情形：只用其中一個孩子從9個月到30個月期間錄制的132小時視頻來訓練，稱之為"單子女BabyZWM"。132小時是什么概念？如果按照孩子每天清醒約10小時來算，這大概相當于13天的清醒時間。一個孩子睜眼看了13天的世界，然后AI就從這些視頻里學會了理解場景——這正是研究團隊想要驗證的極限。

與此同時，他們還訓練了按照孩子年齡順序排列視頻的版本，模擬兒童的成長過程是按時間順序展開的、不能跳過或打亂的。在這個"年齡排序課程"版本里，研究團隊還測試了不同的"整理程度"：有的版本在5分鐘的時間窗口內隨機打亂順序（模擬短時記憶整合），有的在30分鐘內打亂，有的在1天內打亂（模擬睡眠期間的記憶重組）。結果令人稱奇：不管是哪種排列方式，模型的最終表現幾乎相同，說明ZWM框架對數據順序不敏感，具備很好的持續學習能力。

四、考試成績單：和專業系統掰手腕

研究團隊用四類視覺任務對模型進行了全面考核，每類任務都和頂尖專業系統進行了比較。

光流估算方面，BabyZWM在TAP-Vid-DAVIS基準（一個使用真實復雜視頻、包含快速運動、遮擋和光照變化的高難度測試集）上表現出色，與專門用帶標注數據訓練的CoTracker3、DPFlow、SeaRAFT等系統不相上下，在判斷像素是否被遮擋方面更是達到了和監督學習系統同等水平。在另一個合成視頻測試集TAP-Vid-Kubric上，BabyZWM的成績略低于用合成數據專門訓練的系統，但整體依然強勁。和DINOv3、V-JEPA2等表示學習模型相比，BabyZWM明顯更勝一籌——畢竟那些模型本來就沒有為光流任務設計。

相對深度估算方面，BabyZWM在UniQA-3D測試集上的準確率超過了90%。這個測試集的題目是給你兩個場景中的點，判斷哪個更遠。90%的準確率不僅超過了Gemini-1.5、GPT-4-Turbo、GPT-4o等大型視覺語言模型，還和專門訓練的單目深度模型MiDaS-CNN、自監督深度模型MonoDepth2在同一檔次。只有使用立體雙目相機專門訓練的FoundationStereo略勝一籌，但那是因為它有天然的硬件優勢。

物體分割方面，BabyZWM在SpelkeBench測試集上的表現可以媲美Mask2Former（在大規模COCO數據集上有監督訓練的專業分割系統），只有SAM2（使用了極大規模人工標注數據）的表現略高于BabyZWM。考慮到BabyZWM完全沒有用任何分割標注數據，這個成績已經相當驚人。

直覺物理推理方面，研究團隊自己設計了一套全新的測試，場景是桌面上的手和物體互動：一只手推了某個物體，模型能否預測接下來會發生什么？測試覆蓋了五種情況：物體的整體連貫性（推一個角，整個物體都動）、支撐關系（底部的東西被移走后上面的東西會倒）、力的傳遞（推A，A撞B，B也動）、力的分離（推A不影響距離較遠的B）。BabyZWM在所有五種情況下的準確率都接近100%，和用大量多樣化數據訓練的V-JEPA2不相上下。有趣的是，用BabyView數據訓練的V-JEPA2（即Baby V-JEPA2）在這些任務上表現明顯較差，說明V-JEPA2的架構對真實兒童視頻數據的適應能力不如ZWM——同樣的數據，ZWM榨取出了更多的信息。

此外，研究團隊還發現，當他們把非對稱遮擋設計（第一幀全看、第二幀只露10%）改成對稱遮擋（兩幀各遮45%或各遮90%）時，模型的表現在所有任務上都大幅下滑。這說明"讓模型被迫分離外觀與運動"這個設計是整個框架能否成功的關鍵，不是隨便什么遮擋策略都有效。

五、成長曲線：AI的"發育歷程"和孩子驚人地相似

研究團隊不僅測試了訓練完畢的模型，還專門分析了模型在訓練過程中的"成長軌跡"——相當于觀察一個孩子在不同年齡段的認知能力發展。他們在訓練的多個節點（0步、5000步、10000步……直到200000步，總計約等于95天的兒童清醒時間）對模型進行了全面評估。

光流能力在訓練初期就迅速提升，然后趨于穩定，對應了真實兒童的運動追蹤能力——嬰兒在幾個月內就發展出了追蹤單個或多個運動物體的基本能力。深度感知能力在訓練初期急劇提升并維持在高位，對應了嬰兒在3到5個月時迅速發展的立體視覺，并在此后持續精細化。物體分割能力則在整個訓練過程中持續提升，沒有明顯的平臺期，對應了嬰兒期漫長的物體感知學習過程。直覺物理推理在最后階段才有明顯提升，對應了兒童從模糊的整體物理預期逐漸發展出精細的因果判斷——先學會"東西不會憑空消失"，再學會"圓的東西會滾"，再學會"重的東西放在輕的上面會倒"。

研究團隊坦誠地指出，這些軌跡的相似性需要謹慎解讀，因為不同任務的測試難度和評價指標本來就不同，很難直接比較。但這個平行性本身依然提供了一個有意思的視角：一個從視頻中自學的AI，在沒有人明確教它"先學運動再學物體再學物理"的情況下，自發地走出了和人類嬰兒相似的認知發展路徑。

六、AI的"大腦掃描"：內部結構和人腦高度相似

研究團隊還做了一件特別有趣的事——把AI模型的內部表示拿去和真實人腦及猴腦的神經反應進行比較，看看它"想問題"的方式是否和生物視覺系統相似。

他們使用了兩套神經數據集：一是NSD（自然場景數據集），記錄了人類在看各種自然圖片時大腦不同視覺區域的fMRI（功能性磁共振成像）反應；二是TVSD（腹側視覺流脈沖放電數據集），記錄了獼猴單個神經元在看圖片時的電生理反應。前者捕捉的是大腦整體的"幾何形狀"，后者則精細到了單個神經元的細節。

評估方式是：用線性回歸從模型的某一層特征去預測神經反應，看預測準確度有多高。準確度越高，說明模型的那一層和對應的大腦區域"想的越像"。

BabyZWM展現出了兩個非常令人印象深刻的規律。第一，模型的淺層（前面的層）和人腦的初級視覺皮層（V1、V2等處理基本邊緣、顏色的區域）最匹配，而模型的深層則和高級視覺皮層（處理復雜物體識別的區域）最匹配——這和神經科學對視覺系統分級處理的經典理解完全一致。第二，在訓練過程中，初級視覺皮層的對應關系很快就建立起來了，而高級視覺皮層的對應關系則需要更長的訓練時間才能達到峰值——這個"早期區域先發育"的規律，和兒童大腦的發育順序如出一轍。

更值得一提的是，BabyZWM在這兩套神經數據上的對應程度，和用遠遠更多、更多樣化數據訓練的大型ZWM版本（如BVD版本）相差無幾。而Baby V-JEPA2的神經對應度則明顯低于其大數據版本——這再次印證了，ZWM的架構設計幫助它更好地從有限的兒童視角數據中提煉出了和生物視覺系統類似的表示結構。

七、這項研究告訴我們什么，還有哪些沒解決的問題

歸根結底，ZWM做了一件很有意思的事：它不打算復制"現有AI的成功路徑"——即大數據加專門訓練——而是試圖找到一種更接近生物認知的學習方式，用最少的原材料做出最豐富的菜肴。

從哲學層面看，這項研究為一場曠日持久的爭論提供了新證據。科學界長期爭論兒童的認知能力有多少是"天生"的——有人認為嬰兒生來就攜帶著對物體、因果關系的先天知識；也有人認為這些全是后天學習的結果。ZWM給出的答案更像是一種折中：先天的可能只是學習機制本身（架構、訓練目標、提取程序），而具體的知識內容則完全從經驗中習得。這個"機制先天、內容后天"的假設，被模型的實際表現所支持——它確實從一個孩子十幾天的視角錄像里，自發地提煉出了對物體、運動、因果關系的理解。

研究團隊也坦率地列出了當前的幾個重要局限。首先，ZWM目前的能力集中在物理世界的理解上——運動、深度、物體、力——而語言、語義概念（比如"這是一只貓"而不僅僅是"這里有一團移動的東西"）還完全沒有涉及。把視覺世界模型和兒童的語言輸入結合起來，是未來重要的研究方向。其次，ZWM是一個確定性的回歸模型，在不確定的情況下會產生模糊的預測（專業上叫"模式崩潰"），這限制了它在長時程預測和控制任務上的表現。未來可能需要引入概率建模來解決這個問題。第三，目前神經科學和兒童認知發展領域缺少足夠精細的對比數據，使得模型和真實兒童的系統性比較還很困難，需要更多跨學科合作。

從AI工程的角度，ZWM展示的"一個模型、通用接口、零樣本多任務"的能力，讓人聯想到大型語言模型在語言領域的突破。區別在于，語言模型用了萬億級別的訓練數據，而BabyZWM只用了幾百小時的兒童錄像。如果這條路走得通，它對機器人、醫學影像、具身AI等領域的影響會是巨大的——因為這些場景里，大規模帶標注數據幾乎不可能獲得。

這項研究打開的大門，比它本身走過的路還要長。一個孩子的眼睛，看了不到兩周，就教會了一臺機器理解物理世界的基本規律。這提醒我們：學習的效率，從來都不只取決于數據的多少，更取決于我們問對了什么樣的問題。

Q&A

Q1：ZWM模型和普通AI視覺模型的根本區別是什么？

A：普通AI視覺模型（無論是監督學習還是自監督學習）訓練完之后，要做每一項新任務都需要額外準備帶標注的數據重新訓練一個"讀出層"。ZWM則不同，它通過一種叫做"近似因果推斷"的機制，能直接用訓練好的模型做光流、深度、分割、物理推理等多種任務，完全不需要額外的標注數據和任務特定訓練，這就是"零樣本"能力的核心含義。

Q2：BabyZWM用的訓練數據真的只有一個孩子的視頻嗎？

A：是的，研究中最嚴格的測試版本"單子女BabyZWM"只使用了一個兒童（編號S00320001，年齡9到30個月）的132小時第一視角生活錄像進行訓練。這些視頻是在普通家庭日常生活中錄制的，畫質參差、場景重復，遠沒有經過專業整理。即便如此，這個版本在大多數視覺任務上的表現和用34個孩子共868小時數據訓練的完整版BabyZWM幾乎沒有差距。

Q3：ZWM的非對稱遮擋訓練策略為什么那么重要？

A：非對稱遮擋是指訓練時第一幀完全可見、第二幀只露出10%。這個設計強迫模型把"物體外觀"和"物體運動"這兩件事分開來學習：外觀從第一幀獲取，運動則從第二幀那一點點漏出的像素里推斷。正是這種強制分離，讓模型內部形成了可以被"零樣本提示"所利用的結構化表示。研究團隊測試了兩幀對稱遮擋的變體，結果在所有任務上表現都大幅下滑，證明了這個非對稱設計是整個框架成功的關鍵。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.