深度學(xué)習(xí)(Deep Learning)是機(jī)器學(xué)習(xí)的重要分支。它以多層神經(jīng)網(wǎng)絡(luò)為核心,通過(guò)大量數(shù)據(jù)訓(xùn)練,使模型能夠自動(dòng)學(xué)習(xí)數(shù)據(jù)中的特征表示,并完成識(shí)別、預(yù)測(cè)、理解、生成和決策等任務(wù)。
與許多傳統(tǒng)機(jī)器學(xué)習(xí)方法相比,深度學(xué)習(xí)更強(qiáng)調(diào)讓模型在訓(xùn)練過(guò)程中自動(dòng)學(xué)習(xí)特征。以圖像為例,模型可以從像素中逐層提取邊緣、紋理、局部形狀、對(duì)象部件,最終形成對(duì)整張圖像的語(yǔ)義判斷;以文本為例,模型可以從詞語(yǔ)、句子和上下文中學(xué)習(xí)語(yǔ)義關(guān)系;以視頻為例,模型還需要理解連續(xù)畫面中的動(dòng)作變化和時(shí)間結(jié)構(gòu)。
因此,深度學(xué)習(xí)特別適合處理圖像、語(yǔ)音、文本、視頻、時(shí)間序列等復(fù)雜數(shù)據(jù)。理解深度學(xué)習(xí)的主要任務(wù),有助于把握它在人工智能系統(tǒng)中的基本分工。
一、深度學(xué)習(xí)任務(wù)的基本劃分
深度學(xué)習(xí)面對(duì)的問(wèn)題并不只是“分類”或“回歸”。在真實(shí)應(yīng)用中,它通常圍繞復(fù)雜數(shù)據(jù)展開,例如:
? 識(shí)別圖像中有什么對(duì)象
? 判斷語(yǔ)音中說(shuō)了什么內(nèi)容
? 理解一句話或一段文本的含義
? 預(yù)測(cè)一段序列的未來(lái)變化
? 生成圖片、文本、語(yǔ)音或視頻
? 將復(fù)雜數(shù)據(jù)轉(zhuǎn)換為向量表示
? 在環(huán)境中學(xué)習(xí)怎樣行動(dòng)
從整體上看,深度學(xué)習(xí)的主要任務(wù)可以概括為六類。
![]()
圖 1:深度學(xué)習(xí)的主要任務(wù)分類
1、感知任務(wù)
從圖像、語(yǔ)音、視頻等數(shù)據(jù)中識(shí)別對(duì)象、內(nèi)容、結(jié)構(gòu)和變化。
2、序列建模任務(wù)
處理文本、語(yǔ)音、時(shí)間序列、視頻幀等具有順序關(guān)系的數(shù)據(jù)。
3、生成任務(wù)
學(xué)習(xí)數(shù)據(jù)分布,并生成新的文本、圖像、音頻或視頻。
4、表示學(xué)習(xí)任務(wù)
把復(fù)雜數(shù)據(jù)轉(zhuǎn)換為便于計(jì)算、比較、檢索和遷移的向量表示。
5、多模態(tài)任務(wù)
聯(lián)合處理文本、圖像、音頻、視頻等不同類型的信息。
6、深度強(qiáng)化學(xué)習(xí)任務(wù)
使用神經(jīng)網(wǎng)絡(luò)與環(huán)境交互,學(xué)習(xí)更優(yōu)行動(dòng)策略。
需要注意的是,這些任務(wù)并不是完全割裂的。一個(gè)現(xiàn)代人工智能系統(tǒng)往往會(huì)同時(shí)涉及多種任務(wù)。
例如,大語(yǔ)言模型既涉及序列建模,也涉及文本生成和表示學(xué)習(xí);多模態(tài)模型通常同時(shí)包含圖像理解、文本理解、跨模態(tài)表示和生成能力;自動(dòng)駕駛系統(tǒng)則可能同時(shí)使用目標(biāo)檢測(cè)、圖像分割、軌跡預(yù)測(cè)和行為決策。
二、感知任務(wù):讓模型識(shí)別對(duì)象、內(nèi)容與結(jié)構(gòu)
感知任務(wù)(Perception Task)是深度學(xué)習(xí)最典型的應(yīng)用方向之一。它主要處理圖像、語(yǔ)音、視頻等感知數(shù)據(jù),使模型能夠識(shí)別其中的對(duì)象、內(nèi)容、位置、結(jié)構(gòu)和變化。
例如:
? 在圖片中識(shí)別貓、狗、汽車和行人
? 在醫(yī)學(xué)影像中識(shí)別病灶區(qū)域
? 在工業(yè)場(chǎng)景中檢測(cè)產(chǎn)品缺陷
? 在語(yǔ)音中識(shí)別說(shuō)話內(nèi)容
? 在視頻中理解人物動(dòng)作和事件變化
感知任務(wù)的核心是:把原始感知數(shù)據(jù)轉(zhuǎn)換為可理解的語(yǔ)義結(jié)果。
以圖像為例,一張圖片在計(jì)算機(jī)中本質(zhì)上是由像素組成的數(shù)組。深度學(xué)習(xí)模型要做的,不是直接“看懂”圖片,而是通過(guò)多層網(wǎng)絡(luò)逐步提取特征,從低級(jí)視覺模式逐漸形成高級(jí)語(yǔ)義判斷。
![]()
圖 2:圖像感知任務(wù)的一般過(guò)程
在深度學(xué)習(xí)中,感知任務(wù)常由卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、視覺 Transformer(Vision Transformer,ViT)等模型完成。
1、圖像分類
圖像分類(Image Classification)是最基礎(chǔ)的視覺任務(wù)。它的目標(biāo)是判斷一張圖像屬于哪個(gè)類別。
例如:
? 判斷一張圖片是貓還是狗
? 判斷手寫數(shù)字是 0 到 9 中的哪一個(gè)
? 判斷醫(yī)學(xué)影像是否存在某種疾病跡象
? 判斷產(chǎn)品圖片是否存在質(zhì)量缺陷
若用數(shù)學(xué)形式表示,圖像分類可以寫成:
其中:
? x 表示輸入圖像
? f 表示深度學(xué)習(xí)模型
? ? 表示模型預(yù)測(cè)的類別
y 表示真實(shí)標(biāo)簽,任務(wù)目標(biāo)是讓 ? 盡可能接近 y。
對(duì)于多分類任務(wù),模型通常會(huì)輸出每個(gè)類別的概率:
其中:
? z 表示模型最后一層輸出的原始分?jǐn)?shù)
? p? 表示各類別的預(yù)測(cè)概率
softmax 常用于把多個(gè)分?jǐn)?shù)轉(zhuǎn)換為概率分布,概率最大的類別通常作為最終預(yù)測(cè)結(jié)果。
例如,在手寫數(shù)字識(shí)別任務(wù)中,模型輸入一張數(shù)字圖片,輸出 0 到 9 共 10 個(gè)類別的概率,概率最高的類別就是模型的判斷結(jié)果。
![]()
圖 3:圖像分類任務(wù)
2、目標(biāo)檢測(cè)
目標(biāo)檢測(cè)(Object Detection)不僅要判斷圖像中有什么,還要指出對(duì)象在哪里。
例如,在自動(dòng)駕駛場(chǎng)景中,模型不僅要識(shí)別“行人”“汽車”“交通燈”,還要給出它們?cè)趫D像中的位置。這通常通過(guò)邊界框(Bounding Box)表示。
一個(gè)目標(biāo)檢測(cè)結(jié)果通常包含兩類信息:
? 類別:對(duì)象是什么
? 位置:對(duì)象在圖像中的區(qū)域
其結(jié)果可以簡(jiǎn)化表示為:
其中:
? c 表示預(yù)測(cè)類別
? b 表示邊界框位置
? ? 表示目標(biāo)檢測(cè)結(jié)果
邊界框常見形式為:
其中:
? x 表示邊界框中心點(diǎn)的橫坐標(biāo)
? y 表示邊界框中心點(diǎn)的縱坐標(biāo)
? w 表示邊界框?qū)挾?/p>
? h 表示邊界框高度
常見目標(biāo)檢測(cè)模型包括 R-CNN 系列、YOLO 系列、SSD 和 DETR 等。
目標(biāo)檢測(cè)比圖像分類更復(fù)雜,因?yàn)樗瑫r(shí)包含“識(shí)別”和“定位”兩個(gè)目標(biāo)。
![]()
圖 4:圖像分類與目標(biāo)檢測(cè)的區(qū)別
3、圖像分割
圖像分割(Image Segmentation)進(jìn)一步要求模型判斷圖像中每個(gè)像素屬于哪個(gè)類別。
與目標(biāo)檢測(cè)相比,圖像分割的結(jié)果更加精細(xì)。目標(biāo)檢測(cè)通常用矩形框標(biāo)出對(duì)象的大致位置,而圖像分割需要勾勒出對(duì)象的具體輪廓。
常見圖像分割任務(wù)包括:
? 語(yǔ)義分割(Semantic Segmentation)
? 實(shí)例分割(Instance Segmentation)
? 醫(yī)學(xué)影像分割
? 道路場(chǎng)景分割
? 智能摳圖
語(yǔ)義分割的目標(biāo)可以表示為:
其中:
? x 表示輸入圖像
? M 表示像素級(jí)類別掩碼。M 中的每個(gè)位置對(duì)應(yīng)原圖中一個(gè)像素的類別
例如,在道路場(chǎng)景分割中,模型需要把每個(gè)像素判斷為道路、天空、車輛、行人、建筑物等類別。
![]()
圖 5:視覺感知任務(wù)的層級(jí)關(guān)系
從任務(wù)粒度看,圖像分類最粗,目標(biāo)檢測(cè)更精細(xì),圖像分割最細(xì)。
4、語(yǔ)音識(shí)別與視頻理解
除了圖像任務(wù),語(yǔ)音識(shí)別和視頻理解也是重要的感知任務(wù)。
語(yǔ)音識(shí)別(Speech Recognition)的目標(biāo)是把語(yǔ)音信號(hào)轉(zhuǎn)換為文字內(nèi)容,可以簡(jiǎn)化表示為:
其中:
? a 表示輸入語(yǔ)音信號(hào)
? t? 表示模型識(shí)別出的文本
? f 表示語(yǔ)音識(shí)別模型
視頻理解(Video Understanding)則要求模型理解連續(xù)畫面中的對(duì)象、動(dòng)作和事件。例如:
? 判斷視頻中正在發(fā)生什么動(dòng)作
? 檢測(cè)視頻中的異常行為
? 識(shí)別體育比賽中的關(guān)鍵事件
? 理解監(jiān)控視頻中的人員活動(dòng)
視頻數(shù)據(jù)不僅包含空間信息,還包含時(shí)間變化。因此,視頻理解通常比單張圖像識(shí)別更復(fù)雜。
三、序列建模任務(wù):理解有順序關(guān)系的數(shù)據(jù)
序列建模任務(wù)(Sequence Modeling Task)處理的是有先后順序的數(shù)據(jù)。文本、語(yǔ)音、時(shí)間序列、視頻幀都屬于典型序列數(shù)據(jù)。
例如:
? 一句話中的詞語(yǔ)有前后順序
? 一段語(yǔ)音中的聲音幀按時(shí)間排列
? 股票價(jià)格、氣溫、電力負(fù)荷按時(shí)間變化
? 視頻由連續(xù)幀組成
序列建模的核心是:模型不僅要理解單個(gè)元素,還要理解元素之間的上下文關(guān)系。
一個(gè)序列可以表示為:
其中:
? x 表示完整序列
? x? 表示第 t 個(gè)時(shí)間步或位置上的元素
? T 表示序列長(zhǎng)度
序列建模的目標(biāo),是根據(jù)已有序列信息完成分類、預(yù)測(cè)、生成或轉(zhuǎn)換。
![]()
圖 6:序列建模任務(wù)
1、文本分類
文本分類(Text Classification)是自然語(yǔ)言處理中的基礎(chǔ)任務(wù)。它的目標(biāo)是判斷一段文本屬于哪個(gè)類別。
例如:
? 判斷一條評(píng)論是正面還是負(fù)面
? 判斷一封郵件是否為垃圾郵件
? 判斷一篇新聞屬于財(cái)經(jīng)、體育還是科技
? 判斷用戶問(wèn)題屬于哪個(gè)意圖類別
文本分類可以表示為:
其中:
? x?,x?,…,x? 表示文本中的詞、字或子詞
? f 表示文本模型
? ? 表示預(yù)測(cè)類別
與普通分類不同,文本分類需要考慮詞語(yǔ)順序和上下文含義。例如,“不太好”和“好”只差幾個(gè)字,但語(yǔ)義明顯不同。
常見文本模型包括循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)、門控循環(huán)單元(Gated Recurrent Unit,GRU)、Transformer 和 BERT 類預(yù)訓(xùn)練模型等。
2、序列預(yù)測(cè)
序列預(yù)測(cè)(Sequence Prediction)是根據(jù)已有序列預(yù)測(cè)未來(lái)內(nèi)容。
例如:
? 根據(jù)過(guò)去幾天氣溫預(yù)測(cè)明天氣溫
? 根據(jù)歷史銷量預(yù)測(cè)未來(lái)銷量
? 根據(jù)前面的詞預(yù)測(cè)下一個(gè)詞
? 根據(jù)視頻前幾幀預(yù)測(cè)后續(xù)動(dòng)作
序列預(yù)測(cè)可以寫成:
其中:
? x?,x?,…,x? 表示已有序列
? x???? 表示模型預(yù)測(cè)的下一個(gè)元素
? f 表示序列預(yù)測(cè)模型
如果預(yù)測(cè)多個(gè)未來(lái)時(shí)間步,則可以寫成:
其中:
? k 表示需要預(yù)測(cè)的未來(lái)步數(shù)
模型需要根據(jù)歷史趨勢(shì)推斷未來(lái)變化。
在時(shí)間序列預(yù)測(cè)中,深度學(xué)習(xí)模型常用于處理非線性關(guān)系、長(zhǎng)時(shí)間依賴和多變量輸入。
3、機(jī)器翻譯
機(jī)器翻譯(Machine Translation)是典型的序列到序列任務(wù)。它的目標(biāo)是把一種語(yǔ)言的句子轉(zhuǎn)換成另一種語(yǔ)言的句子。
例如:
? 中文翻譯成英文
? 英文翻譯成日文
? 法文翻譯成中文
其基本形式可以寫成:
其中:
? x?,x?,…,x? 表示源語(yǔ)言序列
? y?,y?,…,y? 表示目標(biāo)語(yǔ)言序列
? n 和 m 可以不同,說(shuō)明輸入和輸出長(zhǎng)度不一定相等
![]()
圖 7:序列到序列任務(wù)
機(jī)器翻譯并不是逐詞替換,而是要理解上下文、語(yǔ)法結(jié)構(gòu)和語(yǔ)義關(guān)系。因此,它是深度學(xué)習(xí)在自然語(yǔ)言處理中的重要任務(wù)之一。
四、生成任務(wù):讓模型創(chuàng)造新的內(nèi)容
生成任務(wù)(Generative Task)的目標(biāo)不是簡(jiǎn)單判斷類別,也不是只預(yù)測(cè)一個(gè)數(shù)值,而是讓模型生成新的數(shù)據(jù)。
例如:
? 根據(jù)提示生成一段文字
? 根據(jù)文字生成一張圖片
? 根據(jù)文本生成語(yǔ)音
? 根據(jù)已有旋律生成音樂(lè)
? 根據(jù)已有視頻生成后續(xù)畫面
? 根據(jù)草圖、線稿或低清圖像生成新圖像
生成任務(wù)的核心是:模型需要學(xué)習(xí)數(shù)據(jù)分布,并從這種分布中生成新的樣本。
從數(shù)學(xué)角度看,真實(shí)數(shù)據(jù)可以表示為:
其中:
? x 表示真實(shí)數(shù)據(jù)樣本
? p_data(x) 表示真實(shí)數(shù)據(jù)分布
? x ~ p_data(x) 表示樣本 x 來(lái)自真實(shí)數(shù)據(jù)分布
生成模型學(xué)習(xí)到的分布可以表示為:
其中:
? pθ(x) 表示模型學(xué)習(xí)到的數(shù)據(jù)分布
? θ 表示模型參數(shù)
? 目標(biāo)是讓 pθ(x) 盡可能接近 p_data(x)
這說(shuō)明,生成任務(wù)的本質(zhì)不是簡(jiǎn)單記憶訓(xùn)練樣本,而是學(xué)習(xí)樣本背后的規(guī)律,并生成符合這種規(guī)律的新內(nèi)容。
2、文本生成
文本生成(Text Generation)是自然語(yǔ)言生成中的核心任務(wù)。它的目標(biāo)是根據(jù)已有上下文生成后續(xù)文本。
例如:
? 自動(dòng)續(xù)寫文章
? 生成摘要
? 生成問(wèn)答回復(fù)
? 生成代碼
? 生成對(duì)話內(nèi)容
在語(yǔ)言模型中,文本生成通常可以表示為:
其中:
? x? 表示第 t 個(gè)詞、字或 token
? p(x? ∣ x?,x?,…,x???) 表示在前文條件下生成當(dāng)前 token 的概率
? ∏ 表示連乘
? 整段文本的概率可以分解為逐步生成每個(gè) token 的條件概率
這說(shuō)明,文本生成通常不是一次性憑空產(chǎn)生整篇文本,而是根據(jù)已有上下文一步一步生成后續(xù)內(nèi)容。
![]()
圖 8:文本生成的一般過(guò)程
大語(yǔ)言模型(Large Language Model,LLM)就是典型的文本生成模型。它通過(guò)大規(guī)模語(yǔ)料訓(xùn)練,學(xué)習(xí)語(yǔ)言結(jié)構(gòu)、知識(shí)關(guān)聯(lián)和上下文表達(dá)方式。
2、圖像生成
圖像生成(Image Generation)的目標(biāo)是讓模型生成新的圖像。
例如:
? 根據(jù)文字提示生成圖片
? 根據(jù)線稿生成彩色圖像
? 根據(jù)低清圖像生成高清圖像
? 對(duì)舊照片進(jìn)行修復(fù)和上色
? 生成風(fēng)格化人像、場(chǎng)景圖或設(shè)計(jì)圖
圖像生成可以簡(jiǎn)化表示為:
其中:
? z 表示隨機(jī)噪聲或潛在向量
? G 表示生成模型
? x? 表示生成圖像
如果是文本生成圖像,則可以寫成:
其中:
? c 表示文本條件
? z 表示隨機(jī)噪聲或潛在變量
? G 表示條件生成模型
? x? 表示生成圖像
常見圖像生成模型包括生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)、變分自編碼器(Variational Autoencoder,VAE)和擴(kuò)散模型(Diffusion Model)等。
在擴(kuò)散模型中,模型通常先向圖像逐步加入噪聲,再學(xué)習(xí)如何從噪聲中逐步恢復(fù)圖像。這類方法已經(jīng)成為當(dāng)前圖像生成的重要技術(shù)路線。
3、語(yǔ)音、音頻與視頻生成
語(yǔ)音生成(Speech Generation)、音頻生成(Audio Generation)和視頻生成(Video Generation)也是深度學(xué)習(xí)的重要生成任務(wù)。
例如:
? 文本轉(zhuǎn)語(yǔ)音
? 語(yǔ)音克隆
? 音樂(lè)生成
? 音效生成
? 視頻補(bǔ)幀
? 根據(jù)文本生成短視頻
文本轉(zhuǎn)語(yǔ)音任務(wù)可以表示為:
其中:
? t 表示輸入文本
? a? 表示生成的語(yǔ)音信號(hào)
? f 表示文本到語(yǔ)音的生成模型
視頻生成可以簡(jiǎn)化表示為:
其中:
? z 表示隨機(jī)噪聲或潛在變量
? c 表示文本、圖像或其他條件信息
? G 表示視頻生成模型
? v? 表示生成視頻
語(yǔ)音生成不僅要讀出文字,還要控制發(fā)音、語(yǔ)調(diào)、停頓、節(jié)奏和情感。視頻生成則需要同時(shí)保持畫面質(zhì)量、對(duì)象一致性和時(shí)間連續(xù)性,因此通常比靜態(tài)圖像生成更加復(fù)雜。
五、表示學(xué)習(xí)任務(wù):把復(fù)雜數(shù)據(jù)轉(zhuǎn)換為向量表示
表示學(xué)習(xí)(Representation Learning)是深度學(xué)習(xí)的核心思想之一。它的目標(biāo)是讓模型自動(dòng)學(xué)習(xí)數(shù)據(jù)的有效表示,而不是完全依賴人工設(shè)計(jì)特征。
所謂“表示”,可以理解為模型內(nèi)部對(duì)數(shù)據(jù)的編碼方式。
例如:
? 把一個(gè)詞表示為一個(gè)向量
? 把一張圖像表示為一個(gè)特征向量
? 把一個(gè)用戶表示為一個(gè)興趣向量
? 把一段文本表示為一個(gè)語(yǔ)義向量
? 把一段音頻表示為一個(gè)聲學(xué)向量
表示學(xué)習(xí)的基本形式可以寫成:
其中:
? x 表示原始輸入
? fθ 表示帶參數(shù) θ 的神經(jīng)網(wǎng)絡(luò)
? h 表示模型學(xué)習(xí)到的表示向量
? θ 表示模型參數(shù)
這說(shuō)明,深度學(xué)習(xí)模型不僅會(huì)輸出最終結(jié)果,還會(huì)在中間層形成對(duì)數(shù)據(jù)的抽象表示。
1、詞向量與語(yǔ)義表示
在自然語(yǔ)言處理中,詞向量(Word Embedding)是表示學(xué)習(xí)的典型例子。它把詞語(yǔ)轉(zhuǎn)換為向量,使計(jì)算機(jī)可以對(duì)詞語(yǔ)進(jìn)行數(shù)學(xué)計(jì)算。
例如:
? “蘋果”可以表示為一個(gè)向量
? “橘子”可以表示為另一個(gè)向量
語(yǔ)義相近的詞,在向量空間中通常距離較近。
詞向量可以寫成:
其中:
? w 表示一個(gè)詞或 token
? e 表示該詞對(duì)應(yīng)的向量
? Embedding 表示嵌入層或嵌入函數(shù)
如果兩個(gè)詞語(yǔ)語(yǔ)義接近,它們的向量往往也更接近。常用的相似度計(jì)算方式是余弦相似度:
其中:
? a 和 b 表示兩個(gè)向量
? a · b 表示向量點(diǎn)積
? ‖a‖ 和 ‖b‖ 表示向量長(zhǎng)度
? 結(jié)果越接近 1,通常表示兩個(gè)向量方向越相似
2、圖像表示與跨模態(tài)表示
在計(jì)算機(jī)視覺中,深度學(xué)習(xí)模型也會(huì)把圖像轉(zhuǎn)換為特征向量。
例如,一張人臉圖像可以被編碼成一個(gè)向量,用于人臉識(shí)別;一張商品圖片可以被編碼成一個(gè)向量,用于相似商品檢索。
圖像表示可以寫成:
其中:
? x 表示輸入圖像
? f_image 表示圖像編碼模型
? h_image 表示圖像表示向量
在跨模態(tài)表示學(xué)習(xí)中,模型還需要把圖像、文本、音頻等不同類型的數(shù)據(jù)映射到統(tǒng)一表示空間。例如:
其中:
? t 表示文本
? x 表示圖像
? h_text 表示文本向量
? h_image 表示圖像向量
如果文本和圖像語(yǔ)義匹配,那么它們?cè)诒硎究臻g中的距離應(yīng)當(dāng)更近。
![]()
圖 9:跨模態(tài)表示學(xué)習(xí)
表示學(xué)習(xí)之所以重要,是因?yàn)樵S多復(fù)雜任務(wù)都依賴好的表示。表示質(zhì)量越高,分類、檢索、推薦、生成和推理往往越容易完成。
3、預(yù)訓(xùn)練與遷移學(xué)習(xí)
在深度學(xué)習(xí)中,表示學(xué)習(xí)常常與預(yù)訓(xùn)練(Pre-training)和遷移學(xué)習(xí)(Transfer Learning)結(jié)合使用。
預(yù)訓(xùn)練是指先讓模型在大規(guī)模數(shù)據(jù)上學(xué)習(xí)通用表示,再將這些表示遷移到具體任務(wù)中。遷移學(xué)習(xí)則是把一個(gè)任務(wù)中學(xué)到的知識(shí),用到另一個(gè)相關(guān)任務(wù)中。
這一過(guò)程可以簡(jiǎn)化表示為:
其中:
? θ_pretrain 表示預(yù)訓(xùn)練階段得到的模型參數(shù)
? θ_finetune 表示在具體任務(wù)上微調(diào)后的模型參數(shù)
? → 表示參數(shù)從通用任務(wù)遷移到具體任務(wù)
例如,一個(gè)在大規(guī)模圖像數(shù)據(jù)上預(yù)訓(xùn)練的視覺模型,可以遷移到醫(yī)學(xué)影像分類、工業(yè)缺陷檢測(cè)等任務(wù)中;一個(gè)在大規(guī)模文本數(shù)據(jù)上預(yù)訓(xùn)練的語(yǔ)言模型,可以遷移到問(wèn)答、摘要、分類、翻譯等任務(wù)中。
這說(shuō)明,深度學(xué)習(xí)中的表示并不只服務(wù)于單一任務(wù),還可以成為多個(gè)任務(wù)共享的基礎(chǔ)能力。
六、多模態(tài)任務(wù):聯(lián)合理解不同類型的數(shù)據(jù)
多模態(tài)任務(wù)(Multimodal Task)是深度學(xué)習(xí)發(fā)展的重要方向。它要求模型能夠同時(shí)處理文本、圖像、音頻、視頻等不同類型的數(shù)據(jù),并在它們之間建立語(yǔ)義聯(lián)系。
例如:
? 根據(jù)圖片回答問(wèn)題
? 根據(jù)文字生成圖片
? 根據(jù)視頻內(nèi)容生成摘要
? 根據(jù)語(yǔ)音和畫面理解會(huì)議內(nèi)容
? 根據(jù)圖文信息判斷商品是否匹配
? 根據(jù)圖片和文本進(jìn)行跨模態(tài)檢索
多模態(tài)任務(wù)的核心是:不同類型的數(shù)據(jù)雖然形式不同,但可以在語(yǔ)義層面建立聯(lián)系。
![]()
圖 10:多模態(tài)任務(wù)的一般結(jié)構(gòu)
1、圖文理解
圖文理解(Vision-Language Understanding)要求模型同時(shí)理解圖像內(nèi)容和文本問(wèn)題。
例如,用戶輸入一張交通場(chǎng)景圖片,并提出問(wèn)題:
“圖中是否有人正在過(guò)馬路?”模型需要先識(shí)別圖像中的道路、行人、車輛和交通環(huán)境,再結(jié)合文本問(wèn)題給出回答。
圖文問(wèn)答可以表示為:
其中:
? q 表示文本問(wèn)題
? x_image 表示輸入圖像
? a 表示模型回答
? f 表示圖文理解模型
圖文理解不是簡(jiǎn)單的“看圖說(shuō)話”,而是要把視覺信息與語(yǔ)言問(wèn)題結(jié)合起來(lái)。
2、跨模態(tài)檢索
跨模態(tài)檢索(Cross-modal Retrieval)是指用一種模態(tài)的信息去檢索另一種模態(tài)的信息。
例如:
? 輸入一句文字,檢索相關(guān)圖片
? 輸入一張圖片,檢索相關(guān)文字描述
? 輸入一段音頻,檢索相關(guān)視頻片段
跨模態(tài)檢索依賴統(tǒng)一表示空間。可以簡(jiǎn)化表示為:
其中:
? h_text 表示文本向量
? h_image 表示圖像向量
? sim 表示相似度函數(shù)
相似度越高,表示文本與圖像越匹配。
跨模態(tài)檢索說(shuō)明,深度學(xué)習(xí)不僅可以處理單一類型數(shù)據(jù),還可以在不同類型數(shù)據(jù)之間建立語(yǔ)義橋梁。
七、深度強(qiáng)化學(xué)習(xí)任務(wù):用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)行動(dòng)策略
深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning)是深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合形成的方向。它使用神經(jīng)網(wǎng)絡(luò)表示策略函數(shù)或價(jià)值函數(shù),使智能體能夠在復(fù)雜環(huán)境中學(xué)習(xí)行動(dòng)策略。
普通強(qiáng)化學(xué)習(xí)常用于狀態(tài)空間較小的問(wèn)題,而深度強(qiáng)化學(xué)習(xí)適合處理高維狀態(tài),例如:
? 游戲畫面
? 機(jī)器人傳感器數(shù)據(jù)
? 自動(dòng)駕駛環(huán)境感知信息
? 連續(xù)控制任務(wù)
在深度強(qiáng)化學(xué)習(xí)中,智能體(Agent)通過(guò)與環(huán)境(Environment)交互,不斷嘗試動(dòng)作,并根據(jù)獎(jiǎng)勵(lì)反饋調(diào)整策略。
![]()
圖 11:深度強(qiáng)化學(xué)習(xí)交互過(guò)程
1、策略學(xué)習(xí)
策略(Policy)表示智能體在某個(gè)狀態(tài)下選擇動(dòng)作的規(guī)則。
在深度強(qiáng)化學(xué)習(xí)中,策略可以由神經(jīng)網(wǎng)絡(luò)表示:
其中:
? s 表示當(dāng)前狀態(tài)
? a 表示智能體選擇的動(dòng)作
? πθ 表示由參數(shù) θ 控制的策略網(wǎng)絡(luò)
如果動(dòng)作是離散的,策略也可以輸出每個(gè)動(dòng)作的概率:
其中:
? πθ(a ∣ s) 表示在狀態(tài) s 下選擇動(dòng)作 a 的概率
模型訓(xùn)練的目標(biāo)是讓高價(jià)值動(dòng)作獲得更高概率。
例如,在游戲智能體中,輸入可以是當(dāng)前游戲畫面,輸出可以是向上、向下、向左、向右、攻擊、跳躍等動(dòng)作的概率。
2、價(jià)值學(xué)習(xí)
價(jià)值函數(shù)(Value Function)用于評(píng)估某個(gè)狀態(tài)或某個(gè)動(dòng)作在長(zhǎng)期來(lái)看是否有利。
狀態(tài)價(jià)值函數(shù)可以寫成:
其中:
? V(s) 表示狀態(tài) s 的長(zhǎng)期價(jià)值
價(jià)值越高,說(shuō)明從該狀態(tài)出發(fā)越可能獲得較高累積獎(jiǎng)勵(lì)。
動(dòng)作價(jià)值函數(shù)可以寫成:
其中:
? Q(s,a) 表示在狀態(tài) s 下執(zhí)行動(dòng)作 a 的長(zhǎng)期價(jià)值
它不僅評(píng)價(jià)當(dāng)前狀態(tài),也評(píng)價(jià)具體動(dòng)作。
在深度 Q 網(wǎng)絡(luò)(Deep Q-Network,DQN)中,Q 函數(shù)由神經(jīng)網(wǎng)絡(luò)近似:
其中:
? θ 表示神經(jīng)網(wǎng)絡(luò)參數(shù)
? 模型輸入狀態(tài) s,輸出不同動(dòng)作的價(jià)值估計(jì)
? 智能體通常選擇 Q 值較高的動(dòng)作
深度強(qiáng)化學(xué)習(xí)的核心難點(diǎn)在于:模型不僅要識(shí)別環(huán)境狀態(tài),還要在長(zhǎng)期獎(jiǎng)勵(lì)、探索與利用之間做權(quán)衡。
八、深度學(xué)習(xí)任務(wù)之間的區(qū)別與聯(lián)系
深度學(xué)習(xí)任務(wù)雖然形式多樣,但并不是彼此孤立的。
![]()
圖 12:深度學(xué)習(xí)任務(wù)之間的關(guān)系
感知任務(wù)強(qiáng)調(diào)從復(fù)雜輸入中識(shí)別對(duì)象和結(jié)構(gòu),例如圖像分類、目標(biāo)檢測(cè)、圖像分割、語(yǔ)音識(shí)別和視頻理解。
序列建模任務(wù)強(qiáng)調(diào)處理有順序關(guān)系的數(shù)據(jù),例如文本分類、機(jī)器翻譯、語(yǔ)音識(shí)別和時(shí)間序列預(yù)測(cè)。
生成任務(wù)強(qiáng)調(diào)學(xué)習(xí)數(shù)據(jù)分布,并創(chuàng)造新的內(nèi)容,例如文本生成、圖像生成、語(yǔ)音生成、音樂(lè)生成和視頻生成。
表示學(xué)習(xí)任務(wù)強(qiáng)調(diào)學(xué)習(xí)數(shù)據(jù)的內(nèi)部表示。它往往不是最終應(yīng)用本身,而是支撐分類、檢索、推薦、生成和推理的基礎(chǔ)能力。
多模態(tài)任務(wù)強(qiáng)調(diào)聯(lián)合處理不同類型的數(shù)據(jù),使模型能夠在文本、圖像、音頻和視頻之間建立聯(lián)系。
深度強(qiáng)化學(xué)習(xí)任務(wù)強(qiáng)調(diào)在交互過(guò)程中學(xué)習(xí)行動(dòng)策略。它不只是“看懂?dāng)?shù)據(jù)”,還要根據(jù)環(huán)境反饋決定“怎樣行動(dòng)”。
如果用更直觀的話概括:
? 感知任務(wù)回答“看到了什么、聽到了什么”
? 序列建模任務(wù)回答“前后關(guān)系是什么、接下來(lái)會(huì)怎樣”
? 生成任務(wù)回答“能否創(chuàng)造新的內(nèi)容”
? 表示學(xué)習(xí)任務(wù)回答“如何把復(fù)雜數(shù)據(jù)變成可計(jì)算的表示”
? 多模態(tài)任務(wù)回答“如何聯(lián)合理解不同類型的信息”
? 深度強(qiáng)化學(xué)習(xí)任務(wù)回答“在環(huán)境中應(yīng)該怎樣行動(dòng)”
從技術(shù)角度看,很多現(xiàn)代系統(tǒng)并不會(huì)只使用一種任務(wù)。例如,自動(dòng)駕駛系統(tǒng)可能同時(shí)使用目標(biāo)檢測(cè)、圖像分割、軌跡預(yù)測(cè)和強(qiáng)化學(xué)習(xí);大語(yǔ)言模型既涉及序列建模,也涉及生成任務(wù)和表示學(xué)習(xí);多模態(tài)模型則同時(shí)處理文本、圖像、音頻和視頻。
因此,理解深度學(xué)習(xí)的主要任務(wù),不只是記住若干任務(wù)名稱,更重要的是理解:深度學(xué)習(xí)如何圍繞數(shù)據(jù)表示、模式識(shí)別、內(nèi)容生成、多模態(tài)理解和行為決策,構(gòu)建完整的智能系統(tǒng)。
小結(jié)
深度學(xué)習(xí)的主要任務(wù)包括感知、序列建模、生成、表示學(xué)習(xí)、多模態(tài)理解和深度強(qiáng)化學(xué)習(xí)。它通過(guò)多層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)復(fù)雜數(shù)據(jù)表示,既能識(shí)別內(nèi)容、理解序列,也能生成數(shù)據(jù)、連接多種模態(tài),并支持智能決策。
“點(diǎn)贊有美意,贊賞是鼓勵(lì)”
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.