網易首頁 > 網易號 > 正文申請入駐

荷蘭獨立研究者發現機器通過"聊天"自主發現看不見的物理規律

2026-04-15 21:52:29　來源: 科技行者

北京舉報

分享至

這項由荷蘭阿姆斯特丹獨立研究者Tomek Kaszyński完成的研究發表于2026年3月，論文編號為arXiv:2604.03266v1，研究成果令人驚嘆地展示了人工智能如何通過"聊天"的方式自主發現那些我們肉眼看不見的物理規律。

當我們觀看一個球從斜坡上滾下來時，我們能輕易看到球的顏色、大小和運動軌跡，但有些關鍵信息是完全隱藏的——比如這個球究竟有多有彈性，表面摩擦力如何，或者它的質量比例。這些看不見的物理屬性決定了球會如何彈跳、滑動或碰撞，就像每個人都有自己獨特的性格特征一樣，每個物體也有自己獨特的物理"個性"。

傳統上，科學家需要通過復雜的測量和計算才能確定這些隱藏屬性。然而，這位荷蘭研究者卻發現了一個令人意外的現象：當多個AI系統被迫通過極其有限的"暗號"進行交流時，它們竟然能夠自發地開發出一套完整的"物理語言"來描述這些看不見的屬性。

研究的核心實驗設置就像一個精心設計的間諜游戲。研究者讓兩個AI"特工"各自觀察一段物理視頻——比如一個球在斜坡上滾動并彈跳的場景。每個AI只能看到自己的視頻，無法直接交流，只能通過發送非常簡短的數字密碼來溝通。它們的任務是判斷哪個球的彈性更高，哪個球的摩擦力更大。

關鍵在于，這些AI從未被告知什么是"彈性"或"摩擦力"，也沒有人教它們如何編碼這些信息。它們必須在完成任務的壓力下，自主發明一套交流密碼。令人驚訝的是，經過反復嘗試和學習，這些AI竟然開發出了一種高度結構化的"物理方言"——密碼的不同位置專門用來描述不同的物理屬性，就像人類語言中不同詞匯有不同含義一樣。

研究者通過大量實驗證實了這個發現的可靠性。在80次獨立實驗中，有54%的情況下兩個AI能夠自發形成這種結構化的交流方式。更令人驚訝的是，當增加到4個AI時，成功率達到了100%。這就像一個小社群中，成員越多，大家就越有動力發展出標準化的交流規則。

為了驗證這種"物理語言"是否真正理解了物理規律而非簡單的記憶模式，研究者設計了巧妙的測試。他們故意"破壞"密碼中的特定位置，發現這確實會選擇性地影響對應的物理判斷能力。比如，當破壞負責編碼彈性的密碼位置時，AI對彈性的判斷能力會顯著下降，但對摩擦力的判斷卻基本不受影響，這證明了這套密碼系統確實建立了清晰的概念分工。

一、AI的"視力"決定了它能"談論"什么

研究中最有趣的發現之一是，不同類型的AI"眼睛"會導致完全不同的交流能力。研究者比較了兩種主流的AI視覺系統：一種專門分析靜態圖片（DINOv2），另一種專門處理動態視頻（V-JEPA 2）。

當面對靜態可見的物理現象時，比如球在斜坡上留下的滑痕長短或彈跳高度這樣能從單幀畫面推斷的信息，擅長圖片分析的AI表現更好，準確率達到98.3%。但當面對兩個完全相同外觀的球發生碰撞，需要通過觀察碰撞后的速度變化來判斷質量差異時，情況就完全顛倒了。這時，專門處理動態視頻的AI大顯身手，準確率達到87.4%，而圖片分析AI只有77.7%。

這個發現類似于讓一個只看過照片的人和一個經常看電影的人去判斷舞者的節奏感。看照片的人可能能從靜態姿勢判斷一些信息，但真正理解動態節奏還是需要觀看連續動作。研究者通過精心控制實驗條件，確保這種差異確實來自AI的"視覺經驗"而非其他因素。

他們甚至進行了"公平競爭"測試，讓圖片分析AI也處理相同數量的視頻幀，結果這種做法反而讓表現變得更差。這說明僅僅增加信息量并不能彌補基礎能力的差異，就像給一個不會游泳的人更多的游泳池時間也不會讓他自動學會游泳一樣。

二、團隊合作催生出結構化思維

研究揭示了一個深刻的社會學原理：團隊規模直接影響交流的復雜程度和規范化水平。當只有兩個AI進行交流時，它們發展出結構化"物理語言"的概率只有54%。但當團隊擴大到3個成員時，這個概率躍升至100%，而且這種高成功率在4個成員的團隊中得到了完全維持。

這種現象背后的機制非常有趣。研究者發現，關鍵并非團隊擁有更多的"帶寬"或信息處理能力，而是多成員結構本身創造了一種獨特的壓力環境。當多個觀察者必須獨立地將各自的觀察壓縮成簡短密碼，接收者又必須整合這些來自不同源頭的信息時，就自然產生了對標準化、結構化編碼的強烈需求。

為了證實這個理論，研究者進行了對比實驗。他們讓單個AI使用與4個AI團隊相同總容量的密碼系統，結果發現僅僅增加密碼容量并不能提高結構化程度。這證明了團隊協作的價值不在于更多的信息傳輸能力，而在于協作本身創造的組織壓力。

更有趣的是，研究者發現即使隨機打亂團隊成員觀察的視頻片段順序，不讓他們按照時間順序分工，結構化交流的效果依然保持不變。這進一步證明了團隊結構的重要性超越了具體的信息分布方式。

三、跨領域驗證：從彈球到抽象圖形

為了確認這種現象的普遍性，研究團隊將相同的實驗框架應用到了四個完全不同的領域，結果發現了令人著迷的適應性模式。在每個領域中，AI團隊都能發展出結構化交流，但專業化的程度和模式會根據信息的可獲取性自動調整。

在模擬彈簧質量系統的實驗中，AI團隊展現了近乎完美的專業化分工，專業化比率達到0.95。這是因為在這個系統中，不同的物理屬性在不同的時間點表現得非常清晰——阻尼在初始階段通過衰減速率顯露，而彈性則在后續振蕩中體現。這種清晰的信息分離讓AI能夠建立明確的專業領域。

相比之下，在處理抽象幾何圖形的實驗中，專業化程度降低到0.2，呈現出更加分布式的編碼模式。這是因為在幾何圖形中，各種屬性（如數量、大小）在空間上均勻分布，沒有明顯的分離界限，因此AI采用了更加協同的策略。

特別引人注目的是，當研究者向系統中引入第三個物理屬性（阻尼）時，AI團隊的行為發生了顯著變化。它們沒有繼續保持每個位置對應一個屬性的簡單模式，而是將所有的編碼資源都集中用來描述最容易提取的那個屬性。這種行為符合信息論中的速率失真原理——在資源有限的情況下，優先處理最可靠的信息源。

四、真實世界的驗證：從實驗室到現實

為了驗證這些發現是否僅僅適用于計算機模擬的理想環境，研究團隊轉向了真實世界的測試。他們使用了Physics 101數據集，這是一個包含101個真實物體在各種物理場景下的視頻記錄，每個物體都有實驗室精確測定的質量和體積數據。

在這個更具挑戰性的環境中，AI系統依然表現出了令人印象深刻的能力。它們能夠在85.6%的情況下正確比較未見過物體的質量，而且這種能力明確來自對動態過程的理解而非靜態外觀的判斷。當研究者將動態信息與靜態外觀分開測試時，發現動態分析貢獻了11.2%的額外準確率。

更重要的是，多Agent結構化交流的核心發現在真實環境中得到了復現。從單個AI到4個AI組成的團隊，結構化交流的出現率從20%上升到90%，這與實驗室模擬的結果高度一致。

研究者還設計了巧妙的"破壞性測試"來驗證真實環境中的概念分工。他們故意破壞負責質量編碼的密碼位置，發現準確率下降了7.8個百分點，而破壞其他位置只造成2.1個百分點的損失。這種選擇性的影響模式證明了即使在復雜的真實環境中，AI團隊依然建立了清晰的概念邊界。

五、實用價值：從密碼到預測工具

這項研究的價值不僅在于揭示了AI如何自主發展結構化思維，更在于展示了這種"物理密碼"的實際應用潛力。研究團隊發現，訓練好的AI團隊生成的簡短密碼包含了豐富的物理信息，可以作為高效的中間表示用于其他任務。

在一個特別設計的測試中，研究者凍結了已經訓練好的AI編碼器，然后用它們生成的40維密碼來訓練一個全新的預測系統。這個新系統的任務是預測物體碰撞后的運動狀態，這是原始AI編碼器從未見過的任務。結果顯示，這些簡短的密碼包含了原始高維特征94%的預測能力，實現了25倍的信息壓縮比。

更令人印象深刻的是，這種密碼系統展現出了類似人類概念理解的靈活性。當研究者輸入假想的運動參數（比如不同的碰撞速度）時，預測系統能夠給出物理學上正確的響應，速度越高預測位移越大，而且這種關系表現出理想的單調性，相關系數達到0.780。

這種能力特別有價值的地方在于，下游的預測系統可以"選擇性地關注"密碼的不同部分。當預測任務主要依賴質量信息時，系統會自動更多地關注負責質量編碼的密碼位置；當任務更依賴彈性時，注意力會相應轉移。這種選擇性注意能力是傳統整體性特征表示無法提供的。

六、連續與離散：編碼方式的根本差異

研究中的一個重要對比實驗揭示了離散編碼相對于連續編碼的獨特優勢。當研究者用相同維度的連續數值替代離散符號時，雖然任務表現相當，但結構化程度和訓練穩定性都出現了明顯下降。

離散編碼的優勢主要體現在兩個方面。首先是更強的結構化約束力。在離散系統中，每個位置只能取有限的幾個值，這種約束迫使系統發展出更加明確的專業化分工。用一個生動的比喻來說，這就像用有限的詞匯寫詩比用無限的音調哼唱更容易形成清晰的表達結構。

其次是訓練過程的穩定性。在連續編碼的20個獨立實驗中，有25%出現了"表示坍塌"現象，即編碼器退化為產生無意義的輸出。而離散編碼的實驗中沒有出現任何坍塌現象。這種穩定性對于實際應用至關重要，特別是在需要可靠性的工程環境中。

不過，研究者也發現了離散編碼的局限性。當任務從連續物理屬性比較轉換為分類識別時，系統的表現急劇下降。在CIFAR-100圖像分類任務中，通信系統在已見類別上表現尚可，但對未見類別的泛化能力幾乎降到隨機水平。這表明這種通信壓力機制特別適合處理連續變化的屬性，但不擅長處理離散的類別標簽。

七、對人工智能發展的深層啟示

這項研究的發現對我們理解人工智能的發展路徑提供了新的視角。傳統上，我們傾向于通過增大模型規模或改進算法來提升AI能力，但這項研究顯示，合適的結構約束和協作壓力可能同樣重要。

研究結果強烈支持了一個觀點：感知能力決定了智能系統能夠理解和交流的內容邊界。無論通信系統多么精巧，如果底層的感知模塊無法提取相關信息，整個系統就無法形成對應的概念。這個發現對設計多模態AI系統具有重要指導意義——選擇合適的感知基礎比優化通信協議更為關鍵。

同時，多Agent協作產生的結構化壓力機制為理解人類語言和概念形成提供了新的計算模型。人類語言的組合性和結構化特征可能部分源自類似的社會協作壓力，而不僅僅是生物進化的偶然產物。

研究還暗示了一種新的AI系統設計哲學。與其追求單一的超大規模模型，也許更有效的方式是設計多個相對簡單的專門化模塊，通過結構化的通信協議進行協作。這種架構不僅可能更加高效，還能提供更好的可解釋性和模塊化特性。

在實際應用層面，這種"物理概念壓縮"技術可能在機器人學、自動駕駛和物理仿真等領域發揮重要作用。當機器人需要向人類或其他機器人描述物體的物理屬性時，這種結構化的概念編碼比傳統的高維特征向量更加直觀和高效。

說到底，這項研究最令人興奮的地方在于它展示了智能的一種可能的涌現機制。結構化的概念理解并非必須通過復雜的監督學習來獲得，而可能自然地從合適的協作壓力中產生。這為我們思考如何培養真正理解世界而不僅僅是記憶模式的AI系統提供了新的方向。

當我們站在人工智能發展的十字路口時，這項研究提醒我們，也許答案不在于制造更大的模型，而在于設計更好的協作機制。就像人類文明通過分工合作創造出了遠超個體能力的集體智慧一樣，AI系統的未來可能也在于學會如何更好地合作和交流。

有興趣深入了解這項研究技術細節的讀者，可以通過論文編號arXiv:2604.03266v1查詢完整的原始論文。這項工作不僅在理論上具有重要意義，其實驗方法和發現對于相關領域的研究者也具有很高的參考價值。

Q&A

Q1：這種AI物理語言系統如何判斷球的彈性和摩擦力？

A：AI系統通過觀察球的運動視頻來判斷物理屬性。對于彈性，它們主要觀察球碰到地面后的彈跳高度；對于摩擦力，它們分析球在斜坡上滑動時的速度變化。關鍵是不同的AI只能看到自己的視頻片段，必須通過簡短的數字密碼來交流各自的觀察結果，最終協作完成判斷任務。

Q2：為什么4個AI比2個AI的成功率更高？

A：這是因為團隊規模創造了更強的標準化壓力。當有更多成員需要相互理解時，大家就有更強的動機發展出統一的"語言規則"。研究發現關鍵不在于更多的信息容量，而在于多成員協作本身產生的組織壓力，迫使系統發展出更加結構化和規范化的交流方式。

Q3：這項技術能應用到哪些實際場景中？

A：這項技術最直接的應用是在機器人協作、自動駕駛車輛間的信息交換，以及物理仿真系統中。比如多個機器人可以用這種方式快速交流物體的物理屬性，避免重復的物理測試。在工業檢測中，不同傳感器系統也可以用類似的結構化編碼來高效共享關于材料屬性的信息，大幅提升檢測效率和準確性。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.