无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

麻省理工出品,AI時代人人必修的最佳公開課!聽到聲音能就腦補畫面,AI也有想象力嗎

0
分享至

好的,歡迎大家回來,我們開始上課。

這是第六講,關于跨模態學習。今天的課上,我們將用“跨模態學習”來結束多模態學習的討論。我們會講到跨模態學習的基礎,以及實現它的幾種方法??缒B學習非常實用,它的核心思想是在模態之間傳遞信息。你希望模型完成某個任務、處理某個模態,但往往數據有限,比如醫療數據或真實世界的傳感器數據,你很難獲取大量數據。那么,如何將大規模的數據資源遷移到你真正關心的任務上?



我們將介紹三種范式。第一種是遷移學習,相信大多數人都見過一些,我們會很快過一下,比如通過預訓練來遷移信息到下游任務。第二種是一類叫“協同學習”的方法,它的思路是在訓練時引入一個額外模態,不論是作為輸入還是輸出,但在測試時把它丟棄,只使用你關心的那個模態。第三種是“模型歸納”,即使只能黑盒訪問模型,也能在模型之間誘導出某種行為。這在如今很多大型模型只提供黑盒API的背景下非常有用。

第一部分,通過預訓練模型遷移。你通常有一個參數中存儲了大量信息的大型模型,例如BERT或大語言模型。目標是將其以某種方式適配到你關心的模態上,這個模態可能與預訓練分布不同。目標就是得到一個針對特定任務微調的模型。關于大語言模型,春假后會有專門課程,這里先不多講。但我想指出,很多時候你其實是在做某種多任務學習或遷移學習。

簡單回顧一下定義:監督學習是給X預測Y;多模態監督學習是用X1和X2預測Y;多任務學習是用X同時做兩個任務,如果任務間能共享信息,兩個任務的表現都會提升。遷移學習是用X預測Y1(或X',即自監督預訓練),然后遷移到新任務Y2,目標是這樣遷移比直接從X訓練到Y2要好??缒B學習則是其延伸:你可能把一種模態(比如語言)上訓練的能力,遷移到X2上(比如代碼或基因組序列,它們接近語言,但又不完全是語言)。還有很多方法是讓模型預測X'而不是標簽Y,這通常叫自監督預訓練,然后遷移到X到Y的任務。

這些我在第二周講不同數據收集方式和訓練范式時已經提過,大多數人也應該接觸過多任務或遷移學習的概念。今天第一部分,我想講的是多任務與遷移學習的“加強版”。

現在有一種新的方法范式,它們跨許多不同的模態進行多任務和遷移學習。從我們早期的一些工作來看,如果你審視今天的多模態數據集,比如理解人類行為的數據,你會有語言、語音、手勢,以及一些標注。在多媒體數據上,模態之間只有部分重疊,比如圖像和文本,雖然這里的圖文可能并非人正在說的內容。到了機器人領域,你會接觸到傳感器數據,其中一部分與醫療數據重合,比如ICU里的傳感器信息。所以,新一代的方法不再局限于在一個領域內或一組模態內進行多任務和遷移學習,而是跨完全不同的輸入模態和輸出領域來做這件事。這有一些參考資料,包括我們的論文HighT,還有一篇叫Gato的通才智能體,在多媒體、機器人學和多種強化學習任務上都做到了這一點。



有人問到遷移學習中Y1的準確率問題,以及它與Y2準確率的關系。通常,Y1上準確率越高,遷移效果越好。這就是為什么在計算機視覺研究中,ImageNet預訓練模型的圖像分類準確率越高,它遷移到醫療圖像等其他任務的表現也越好?,F在大語言模型也是同理:人們用困惑度或MMLU等多任務語言理解基準來衡量預訓練質量,通常這些指標越好的模型,遷移到其他任務也越好。當然也有例外,有時模型對某個路徑過擬合了,Y1做得越好,遷移能力反而下降,這也是可能存在的。

總之,如今的方法已能跨完全不同的模態和任務進行多任務遷移學習。這非常有用,因為當你面對醫療任務或設計任務時,即使在該領域內你也拿不到那么多數據,就必須利用其他有更多數據的領域。因此,現在越來越常見的做法是,把所有表面上很不一樣的輸入數據都序列化:語言是詞序列,語音是按采樣頻率排列的序列,圖像是像素序列,傳感器數據是時間步序列。一旦序列化之后,Transformer就成了學習模態內一階關系和交互的非??煽康姆椒ā文BTransformer越來越通用,多模態Transformer學習模態間的成對交互也變得越來越通用。這些模型的好處一是可以大規模多任務訓練——一個模型在不同數據子集上為不同預測任務訓練;二是展現出遷移現象——比如用三個任務三組模態訓練,再遷移到第四個醫療任務上。你會看到,預訓練用的源任務越多,性能就持續提升。

當然,這些模型也做了一些可能在不同場景下被違反的關鍵假設。一個關鍵假設是萬物皆可標準化為輸入序列,但有些數據更適合看作序列,有些則不然。另一個假設是僅靠一個獨熱嵌入來識別模態,這可能無法捕捉到很多模態特異的細粒度信息。還有一個假設是使用一個共享的多模態模型處理一切?,F在當然有改進工作,比如你們閱讀材料中的混合專家模型,或在不同地方用不同專家做融合,但仍然在多個專家間保持一定的信息共享。

有人問到醫療任務的細節和遷移時的數值,也問到了在同時擁有文本、視頻和音頻三種數據時,為什么有時只用文本來連接視頻和音頻。原因可能是,當你不同時擁有三者時,文本可以作為中間橋梁來定義兩個數據集的共同支撐。因為文本可能與圖像和音頻都更相似一些,用文本來對齊是合理的。

還有人問到,當目標模態只有結構化數據時,其他模態的信息如何遷移。確實,很多視頻和音頻數據本質上也可以看作是時間序列,這就構成了遷移的基礎。我們能做到的,就是訓練一個Transformer編碼器來處理所有模態,唯一的區別就是一個獨熱標識符,告訴模型數據來自哪個模態。然后通過任務特定的頭部來微調,希望主干學到通用特征,頭部學到任務特定特征。當然,做到這種領域特定的高效學習,確實存在挑戰。

我們得繼續了。我在2023年做過一個綜述,整理了當時所有進行模態和任務間遷移的模型。有些模型如Perceiver,架構通用但不同模態用不同參數;有些嘗試標準化圖像、視覺和音頻;還有些嘗試語言和視覺、視覺和音頻之間的相互遷移。這就是當時多模態多任務與遷移學習的版圖。

第二部分,我們來看“協同學習”。在協同學習中,你有一個真正關心的模態A,訓練時引入一個額外模態B作為輔助,目的是學習一個更豐富的表示來增強A的信息。核心在于,B只在訓練時作為輔助信息出現,測試時只有A那條分支是激活的,它只用A來預測標簽。這與只用A進行監督學習是公平對比的。

協同學習有三種方式,各有利弊,有時有效有時無效。第一種是通過融合。訓練時,你把A和B一起學習一個融合表示;測試時,把B的輸入用零或平均值替代,僅用A來預測?;€是只用A的單模態監督學習。因為測試時兩者都用A,所以是公平對比。我們的一些工作表明,用語言作為A、非語言信息(面部和聲音表情)作為B,協同學習比直接只用語言監督學習效果更好。

2014年一篇用深度玻爾茲曼機進行多模態學習的經典論文也證明了這一點:用圖像和文本訓練聯合多模態模型,測試時去掉文本讓模型推斷,結果優于只用圖像的模型。2011年的另一篇經典工作用音頻和視頻訓練共享表示,測試時只用視頻,在麥格克效應任務上(根據音頻和口型視頻識別音素)表現也很有競爭力。

第二種方式是通過對齊。同樣是訓練時引入B,但不是融合成一個表示,而是學習一個對齊的表示空間,A和B獨立但通過相似度函數對齊。2013年的經典論文就展示了這種早期CLIP模式:用低分辨率圖像和詞袋向量學習對齊空間,測試時新圖像來了,即使訓練時沒見過這個類別,也能通過找到最近鄰的詞嵌入來實現零樣本預測?,F在的CLIP等模型就是這種方式的規模化。訓練時用圖像和文本做對齊,下游推理時只用單一模態,效果卻好于直接在目標模態上做監督學習。

還有更酷的機器人例子:用視覺和觸覺做對齊預訓練,然后遷移到只用視覺的任務上。訓練時成對的視覺-觸覺數據學習對齊表示,判斷輸入是否來自同一演示;學到的良好表示可以遷移到純視覺任務。

第三種方式是通過翻譯。這次額外模態B不在輸入端,而在輸出端。訓練時,你讓模型基于A去預測B,將預測B作為一個輔助任務。你希望這個預測B的過程能促使模型學到更好的、依然帶有多模態特征的表示,測試時則只使用A來預測最終標簽。

我們的情感識別工作就用了這個思路:用語言A去預測對應的視覺表情B(重建說話者可能的表情),學到的中間表示依然含有多模態信息,能更好地預測情感。測試時,模型只接收語言,不再預測視覺。進一步,還可以加入循環一致性:從語言預測視覺,再從預測的視覺重建回語言,這樣來回翻譯能學得更好。多個論文也論證了協同學習對組合性任務有幫助:比如在非常細粒度的視覺推理任務中,用圖像去預測富含組合結構描述的輔助任務,即使測試時丟棄這個輔助任務,視覺推理表現也會提升。

還有一個我喜歡的工作,在掩碼語言建模之外引入掩碼視覺標記分類:在編碼文本時,同時預測對應的視覺標記(如“聽”“說”的抽象視覺表示)。這很自然,很多人認為這正是人類學習的方式:聽人說話時腦中會想象畫面,看到畫面時腦中會想象聲音。證據表明,訓練時加入這個輔助任務,測試時只輸入文本,也能超越純語言建模。

最后一個例子是密集監督與稀疏監督。用夜間呼吸數據預測帕金森病,10小時數據只有一個0/1標簽,監督信號極稀疏。于是引入同時采集的10小時腦電數據作為預測目標,這個輔助任務提供了極其密集的監督信號。實驗表明,預測腦電信號越準,學到的表示對帕金森早期預測也越好。

有人問這背后是否有理論保證。理論上,這取決于你做的假設。直覺是,做這種翻譯時,你本質上是在學兩個模態的共有信息(韋恩圖中的交集)。如果帕金森的指標恰好就在這個交集里,你就成功了;反之則可能不成功。融合和對齊其實也是同樣的道理,都在引入更多目標去捕捉模態的共有信息,所以都假設任務標簽就在那個共有區域里。至于為什么選腦電而不是其他信號,恐怕沒有一定之規,多是直覺和反復試錯的結果。

但協同學習并非總有效。有工作顯示,一些非常早期的語言-視覺聯合預訓練模型(如VideoBERT、VisualBERT),雖然在視覺語言任務上表現好,對部分純NLP任務卻有負面作用。比如在語義角色標注等任務上,加入視覺或視頻預測后,性能可能從90%跌到76%,甚至從76%跌到65%,驟降10個點。即使是一些看似需要視覺的常識問答任務(比如“如何去除家具上的光澤?”),聯合訓練帶來的提升也很小,有時甚至有較大下降。協同學習有其局限。



第三部分,模型歸納。這是遷移和多任務學習的延伸,但主要針對只能黑盒API訪問模型的情況,因為你不需要修改模型內部。

我們先從單模態的“自訓練”說起,再推廣到雙模態的“協同訓練”。自訓練在如今非常常用。它的直覺是:你有少量有標簽數據和大量無標簽數據。你會先用有標簽數據訓練一個分類器,然后用這個分類器對無標簽數據打偽標簽,通常從置信度最高的樣本開始。打完一批偽標簽后,把它加入有標簽數據集,重新訓練分類器,然后重復這個過程,直到所有數據都被標注。測試時就用最終分類器。這里的置信度通常用softmax分布的不確定性來衡量——如果輸出概率分布很集中就置信度高,很平均就置信度低。從決策邊界的角度看,分類器先學會邊界,然后挑選離邊界遠的點打標簽,加入訓練后重新調整決策邊界,使原本不確定的點變正確。

協同訓練是1998年提出但至今仍廣泛使用的方法,是自訓練向雙視圖的推廣。你擁有兩個模態的數據,配對且有部分標簽。關鍵假設是兩個模態間存在冗余,即共有信息對任務至關重要,不能有太多獨特或協同信息。

算法很簡單:你在有標簽數據上分別基于X1和X2各訓練一個分類器F1和F2。然后,F1在自己模態的無標簽數據中挑出置信度最高的樣本并打上標簽,這個標簽同時也賦給對應的X2樣本,F2就用這些新標記的數據來訓練。反過來,F2也做同樣的事,挑出置信度最高的樣本,標簽賦給對應的X1,F1再據此訓練。如此反復,直到所有數據都被標注。數據必須配對,因為一個模態的偽標簽要傳遞給另一個模態的對應樣本。測試時可以用任一分類器或集成投票。

協同訓練在視頻活動識別中效果很好,比如用RGB幀和光流兩個視圖互補。在語言模型中也很流行:用GPT-3和BERT作為兩個視圖,互相打標簽訓練;現在更進一步,多個LLM API之間辯論、交換信息或互相標注數據,本質上都是協同訓練思想的延伸。

總結一下,跨模態學習是在模態間傳遞信息,通常從高資源、多數據的模態傳向你真正關心但低資源、少數據的任務。我們講了三種范式:遷移和多任務學習,協同學習(訓練時用額外數據作輔助輸入或輸出),以及模型歸納(保持黑盒訪問)。它們都或明或暗地假設模態間存在冗余——融合、對齊、翻譯等方法都在利用共有信息。如果是更多獨特或協同信息的情況,目前還沒看到很好的方法。

至此,我們已覆蓋了AI基礎,完成了多模態連接的介紹、對齊、交互與融合,以及今天的跨模態學習。下周春假無課,回來后討論大模型、現代生成式AI、推理、交互式智能體等等。再次提醒:推進中期項目,報告和展示春假后那周截止;閱讀作業明天截止,周四討論。謝謝大家。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
手機退回8GB,電腦驚現4GB,這波存儲漲價要坑多少人?

手機退回8GB,電腦驚現4GB,這波存儲漲價要坑多少人?

雷科技
2026-05-30 13:52:39
楊鶴通遭貶職后首現身,一臉哭喪精神萎靡,網友:踩了郭德綱逆鱗

楊鶴通遭貶職后首現身,一臉哭喪精神萎靡,網友:踩了郭德綱逆鱗

天天熱點見聞
2026-05-30 06:48:50
立陶宛外長發表呼吁攻擊俄飛地言論 克羅地亞總統:不負責任

立陶宛外長發表呼吁攻擊俄飛地言論 克羅地亞總統:不負責任

北青網-北京青年報
2026-05-31 16:46:38
官方預熱馬刺VS尼克斯!總冠軍概率圣城達64% 文班FMVP榜已升第一

官方預熱馬刺VS尼克斯!總冠軍概率圣城達64% 文班FMVP榜已升第一

阿晞體育
2026-05-31 15:19:35
9換1!籌碼楊瀚森!美記提議開拓者大交易

9換1!籌碼楊瀚森!美記提議開拓者大交易

籃球實戰寶典
2026-05-30 21:24:38
小米粥再次被關注!提醒:糖尿病患者喝小米粥時,務必重視這6點

小米粥再次被關注!提醒:糖尿病患者喝小米粥時,務必重視這6點

芹姐說生活
2026-05-25 22:56:54
過去7年衛冕冠軍戰績:雷霆西決已是最佳,湖人唯一首輪出局球隊

過去7年衛冕冠軍戰績:雷霆西決已是最佳,湖人唯一首輪出局球隊

懂球帝
2026-05-31 15:38:12
安切洛蒂確認內馬爾帶傷出征世界杯:他是不可替代的核心

安切洛蒂確認內馬爾帶傷出征世界杯:他是不可替代的核心

星耀國際足壇
2026-05-31 17:09:27
從小記者到千億富婆,家世普通大專都沒讀完的甘比,如何做到的?

從小記者到千億富婆,家世普通大專都沒讀完的甘比,如何做到的?

品茗賞娛
2026-05-31 09:30:19
TA:上賽季不敵巴黎后阿森納高層就意識到雙方差距在陣容深度

TA:上賽季不敵巴黎后阿森納高層就意識到雙方差距在陣容深度

懂球帝
2026-05-31 13:20:12
中國沒給面子,普京回國后沉默一周認清現實

中國沒給面子,普京回國后沉默一周認清現實

共工之錨
2026-05-31 14:57:31
唐朝滅亡時有多慘烈?皇帝被殺,九名皇子被勒死,大臣被投尸黃河

唐朝滅亡時有多慘烈?皇帝被殺,九名皇子被勒死,大臣被投尸黃河

浩渺青史
2026-05-30 18:51:21
伊朗回血!不可思議!

伊朗回血!不可思議!

漢唐光輝
2026-05-29 06:18:40
善惡有報!許家印剛認罪1天,子女近況曝光,大兒子的安排全白費

善惡有報!許家印剛認罪1天,子女近況曝光,大兒子的安排全白費

歷史偉人錄
2026-05-10 22:06:40
夏天,有一種臭不是口臭、狐臭、腳臭,而是名副其實的“襠臭”!

夏天,有一種臭不是口臭、狐臭、腳臭,而是名副其實的“襠臭”!

爆炸營養彭鑫蕊
2026-05-28 16:38:52
官方發布歐冠歷史射手榜!炸出一堆牛鬼蛇神,C羅140球穩居第一

官方發布歐冠歷史射手榜!炸出一堆牛鬼蛇神,C羅140球穩居第一

寒士之言本尊
2026-05-30 16:36:06
一夜爆紅!深圳73歲老人擺攤,躺路邊熟睡!有人凌晨光顧,有人專程蹲點

一夜爆紅!深圳73歲老人擺攤,躺路邊熟睡!有人凌晨光顧,有人專程蹲點

南方都市報
2026-05-31 09:19:43
知名演員李崇霄離世4年,他的女兒和德國妻子人生現狀如何?

知名演員李崇霄離世4年,他的女兒和德國妻子人生現狀如何?

細品名人
2026-05-31 07:09:44
6到7月財運暴漲!四大星座接住潑天富貴,快來看看有你嗎

6到7月財運暴漲!四大星座接住潑天富貴,快來看看有你嗎

朗威談星座
2026-05-30 13:05:07
官方高調肯定,平臺迅速解決提出問題的人:耿同學危

官方高調肯定,平臺迅速解決提出問題的人:耿同學危

紅色少女主播
2026-05-31 14:35:39
2026-05-31 17:20:49
麻省理工AI公開課
麻省理工AI公開課
AI 時代人人必修的最佳公開課
10文章數 548關注度
往期回顧 全部

科技要聞

戴爾諾基亞又回來了!AI重估老牌科技公司

頭條要聞

50歲女子在美容店打除皺針半月后死亡 老板:加量打的

頭條要聞

50歲女子在美容店打除皺針半月后死亡 老板:加量打的

體育要聞

阿森納用最悲壯的方式,成就了巴黎王朝

娛樂要聞

賈玲最新動作!侯明昊給虞書欣抬轎!

財經要聞

醫學首席轉崗搞科技,A股科技股遭遇巨震

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

親子
房產
家居
數碼
藝術

親子要聞

歐美兒童“服美役”,10歲開始抗衰抗老?

房產要聞

紅動五月!全國搶入核心資產,廣州盯緊凱旋新世界!

家居要聞

云棲 舒展如流云

數碼要聞

微星發布搭載英特爾Arc G3的掌機Claw 8 EX AI+ 6月開售

藝術要聞

Luis Alvarez Roure | 美國現實主義畫家

無障礙瀏覽 進入關懷版