无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DL:深度學(xué)習(xí)的主要任務(wù)

0
分享至

深度學(xué)習(xí)(Deep Learning)是機(jī)器學(xué)習(xí)的重要分支。它以多層神經(jīng)網(wǎng)絡(luò)為核心,通過(guò)大量數(shù)據(jù)訓(xùn)練,使模型能夠自動(dòng)學(xué)習(xí)數(shù)據(jù)中的特征表示,并完成識(shí)別、預(yù)測(cè)、理解、生成和決策等任務(wù)。

與許多傳統(tǒng)機(jī)器學(xué)習(xí)方法相比,深度學(xué)習(xí)更強(qiáng)調(diào)讓模型在訓(xùn)練過(guò)程中自動(dòng)學(xué)習(xí)特征。以圖像為例,模型可以從像素中逐層提取邊緣、紋理、局部形狀、對(duì)象部件,最終形成對(duì)整張圖像的語(yǔ)義判斷;以文本為例,模型可以從詞語(yǔ)、句子和上下文中學(xué)習(xí)語(yǔ)義關(guān)系;以視頻為例,模型還需要理解連續(xù)畫面中的動(dòng)作變化和時(shí)間結(jié)構(gòu)。

因此,深度學(xué)習(xí)特別適合處理圖像、語(yǔ)音、文本、視頻、時(shí)間序列等復(fù)雜數(shù)據(jù)。理解深度學(xué)習(xí)的主要任務(wù),有助于把握它在人工智能系統(tǒng)中的基本分工。

一、深度學(xué)習(xí)任務(wù)的基本劃分

深度學(xué)習(xí)面對(duì)的問(wèn)題并不只是“分類”或“回歸”。在真實(shí)應(yīng)用中,它通常圍繞復(fù)雜數(shù)據(jù)展開,例如:

? 識(shí)別圖像中有什么對(duì)象

? 判斷語(yǔ)音中說(shuō)了什么內(nèi)容

? 理解一句話或一段文本的含義

? 預(yù)測(cè)一段序列的未來(lái)變化

? 生成圖片、文本、語(yǔ)音或視頻

? 將復(fù)雜數(shù)據(jù)轉(zhuǎn)換為向量表示

? 在環(huán)境中學(xué)習(xí)怎樣行動(dòng)

從整體上看,深度學(xué)習(xí)的主要任務(wù)可以概括為六類。


圖 1:深度學(xué)習(xí)的主要任務(wù)分類

1、感知任務(wù)

從圖像、語(yǔ)音、視頻等數(shù)據(jù)中識(shí)別對(duì)象、內(nèi)容、結(jié)構(gòu)和變化。

2、序列建模任務(wù)

處理文本、語(yǔ)音、時(shí)間序列、視頻幀等具有順序關(guān)系的數(shù)據(jù)。

3、生成任務(wù)

學(xué)習(xí)數(shù)據(jù)分布,并生成新的文本、圖像、音頻或視頻。

4、表示學(xué)習(xí)任務(wù)

把復(fù)雜數(shù)據(jù)轉(zhuǎn)換為便于計(jì)算、比較、檢索和遷移的向量表示。

5、多模態(tài)任務(wù)

聯(lián)合處理文本、圖像、音頻、視頻等不同類型的信息。

6、深度強(qiáng)化學(xué)習(xí)任務(wù)

使用神經(jīng)網(wǎng)絡(luò)與環(huán)境交互,學(xué)習(xí)更優(yōu)行動(dòng)策略。

需要注意的是,這些任務(wù)并不是完全割裂的。一個(gè)現(xiàn)代人工智能系統(tǒng)往往會(huì)同時(shí)涉及多種任務(wù)。

例如,大語(yǔ)言模型既涉及序列建模,也涉及文本生成和表示學(xué)習(xí);多模態(tài)模型通常同時(shí)包含圖像理解、文本理解、跨模態(tài)表示和生成能力;自動(dòng)駕駛系統(tǒng)則可能同時(shí)使用目標(biāo)檢測(cè)、圖像分割、軌跡預(yù)測(cè)和行為決策。

二、感知任務(wù):讓模型識(shí)別對(duì)象、內(nèi)容與結(jié)構(gòu)

感知任務(wù)(Perception Task)是深度學(xué)習(xí)最典型的應(yīng)用方向之一。它主要處理圖像、語(yǔ)音、視頻等感知數(shù)據(jù),使模型能夠識(shí)別其中的對(duì)象、內(nèi)容、位置、結(jié)構(gòu)和變化。

例如:

? 在圖片中識(shí)別貓、狗、汽車和行人

? 在醫(yī)學(xué)影像中識(shí)別病灶區(qū)域

? 在工業(yè)場(chǎng)景中檢測(cè)產(chǎn)品缺陷

? 在語(yǔ)音中識(shí)別說(shuō)話內(nèi)容

? 在視頻中理解人物動(dòng)作和事件變化

感知任務(wù)的核心是:把原始感知數(shù)據(jù)轉(zhuǎn)換為可理解的語(yǔ)義結(jié)果。

以圖像為例,一張圖片在計(jì)算機(jī)中本質(zhì)上是由像素組成的數(shù)組。深度學(xué)習(xí)模型要做的,不是直接“看懂”圖片,而是通過(guò)多層網(wǎng)絡(luò)逐步提取特征,從低級(jí)視覺模式逐漸形成高級(jí)語(yǔ)義判斷。


圖 2:圖像感知任務(wù)的一般過(guò)程

在深度學(xué)習(xí)中,感知任務(wù)常由卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、視覺 Transformer(Vision Transformer,ViT)等模型完成。

1、圖像分類

圖像分類(Image Classification)是最基礎(chǔ)的視覺任務(wù)。它的目標(biāo)是判斷一張圖像屬于哪個(gè)類別。

例如:

? 判斷一張圖片是貓還是狗

? 判斷手寫數(shù)字是 0 到 9 中的哪一個(gè)

? 判斷醫(yī)學(xué)影像是否存在某種疾病跡象

? 判斷產(chǎn)品圖片是否存在質(zhì)量缺陷

若用數(shù)學(xué)形式表示,圖像分類可以寫成:

其中:

? x 表示輸入圖像

? f 表示深度學(xué)習(xí)模型

? ? 表示模型預(yù)測(cè)的類別

y 表示真實(shí)標(biāo)簽,任務(wù)目標(biāo)是讓 ? 盡可能接近 y。

對(duì)于多分類任務(wù),模型通常會(huì)輸出每個(gè)類別的概率:

其中:

? z 表示模型最后一層輸出的原始分?jǐn)?shù)

? p? 表示各類別的預(yù)測(cè)概率

softmax 常用于把多個(gè)分?jǐn)?shù)轉(zhuǎn)換為概率分布,概率最大的類別通常作為最終預(yù)測(cè)結(jié)果。

例如,在手寫數(shù)字識(shí)別任務(wù)中,模型輸入一張數(shù)字圖片,輸出 0 到 9 共 10 個(gè)類別的概率,概率最高的類別就是模型的判斷結(jié)果。


圖 3:圖像分類任務(wù)

2、目標(biāo)檢測(cè)

目標(biāo)檢測(cè)(Object Detection)不僅要判斷圖像中有什么,還要指出對(duì)象在哪里。

例如,在自動(dòng)駕駛場(chǎng)景中,模型不僅要識(shí)別“行人”“汽車”“交通燈”,還要給出它們?cè)趫D像中的位置。這通常通過(guò)邊界框(Bounding Box)表示。

一個(gè)目標(biāo)檢測(cè)結(jié)果通常包含兩類信息:

? 類別:對(duì)象是什么

? 位置:對(duì)象在圖像中的區(qū)域

其結(jié)果可以簡(jiǎn)化表示為:

其中:

? c 表示預(yù)測(cè)類別

? b 表示邊界框位置

? ? 表示目標(biāo)檢測(cè)結(jié)果

邊界框常見形式為:

其中:

? x 表示邊界框中心點(diǎn)的橫坐標(biāo)

? y 表示邊界框中心點(diǎn)的縱坐標(biāo)

? w 表示邊界框?qū)挾?/p>

? h 表示邊界框高度

常見目標(biāo)檢測(cè)模型包括 R-CNN 系列、YOLO 系列、SSD 和 DETR 等。

目標(biāo)檢測(cè)比圖像分類更復(fù)雜,因?yàn)樗瑫r(shí)包含“識(shí)別”和“定位”兩個(gè)目標(biāo)。


圖 4:圖像分類與目標(biāo)檢測(cè)的區(qū)別

3、圖像分割

圖像分割(Image Segmentation)進(jìn)一步要求模型判斷圖像中每個(gè)像素屬于哪個(gè)類別。

與目標(biāo)檢測(cè)相比,圖像分割的結(jié)果更加精細(xì)。目標(biāo)檢測(cè)通常用矩形框標(biāo)出對(duì)象的大致位置,而圖像分割需要勾勒出對(duì)象的具體輪廓。

常見圖像分割任務(wù)包括:

? 語(yǔ)義分割(Semantic Segmentation)

? 實(shí)例分割(Instance Segmentation)

? 醫(yī)學(xué)影像分割

? 道路場(chǎng)景分割

? 智能摳圖

語(yǔ)義分割的目標(biāo)可以表示為:

其中:

? x 表示輸入圖像

? M 表示像素級(jí)類別掩碼。M 中的每個(gè)位置對(duì)應(yīng)原圖中一個(gè)像素的類別

例如,在道路場(chǎng)景分割中,模型需要把每個(gè)像素判斷為道路、天空、車輛、行人、建筑物等類別。


圖 5:視覺感知任務(wù)的層級(jí)關(guān)系

從任務(wù)粒度看,圖像分類最粗,目標(biāo)檢測(cè)更精細(xì),圖像分割最細(xì)。

4、語(yǔ)音識(shí)別與視頻理解

除了圖像任務(wù),語(yǔ)音識(shí)別和視頻理解也是重要的感知任務(wù)。

語(yǔ)音識(shí)別(Speech Recognition)的目標(biāo)是把語(yǔ)音信號(hào)轉(zhuǎn)換為文字內(nèi)容,可以簡(jiǎn)化表示為:

其中:

? a 表示輸入語(yǔ)音信號(hào)

? t? 表示模型識(shí)別出的文本

? f 表示語(yǔ)音識(shí)別模型

視頻理解(Video Understanding)則要求模型理解連續(xù)畫面中的對(duì)象、動(dòng)作和事件。例如:

? 判斷視頻中正在發(fā)生什么動(dòng)作

? 檢測(cè)視頻中的異常行為

? 識(shí)別體育比賽中的關(guān)鍵事件

? 理解監(jiān)控視頻中的人員活動(dòng)

視頻數(shù)據(jù)不僅包含空間信息,還包含時(shí)間變化。因此,視頻理解通常比單張圖像識(shí)別更復(fù)雜。

三、序列建模任務(wù):理解有順序關(guān)系的數(shù)據(jù)

序列建模任務(wù)(Sequence Modeling Task)處理的是有先后順序的數(shù)據(jù)。文本、語(yǔ)音、時(shí)間序列、視頻幀都屬于典型序列數(shù)據(jù)。

例如:

? 一句話中的詞語(yǔ)有前后順序

? 一段語(yǔ)音中的聲音幀按時(shí)間排列

? 股票價(jià)格、氣溫、電力負(fù)荷按時(shí)間變化

? 視頻由連續(xù)幀組成

序列建模的核心是:模型不僅要理解單個(gè)元素,還要理解元素之間的上下文關(guān)系。

一個(gè)序列可以表示為:

其中:

? x 表示完整序列

? x? 表示第 t 個(gè)時(shí)間步或位置上的元素

? T 表示序列長(zhǎng)度

序列建模的目標(biāo),是根據(jù)已有序列信息完成分類、預(yù)測(cè)、生成或轉(zhuǎn)換。


圖 6:序列建模任務(wù)

1、文本分類

文本分類(Text Classification)是自然語(yǔ)言處理中的基礎(chǔ)任務(wù)。它的目標(biāo)是判斷一段文本屬于哪個(gè)類別。

例如:

? 判斷一條評(píng)論是正面還是負(fù)面

? 判斷一封郵件是否為垃圾郵件

? 判斷一篇新聞屬于財(cái)經(jīng)、體育還是科技

? 判斷用戶問(wèn)題屬于哪個(gè)意圖類別

文本分類可以表示為:

其中:

? x?,x?,…,x? 表示文本中的詞、字或子詞

? f 表示文本模型

? ? 表示預(yù)測(cè)類別

與普通分類不同,文本分類需要考慮詞語(yǔ)順序和上下文含義。例如,“不太好”和“好”只差幾個(gè)字,但語(yǔ)義明顯不同。

常見文本模型包括循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)、門控循環(huán)單元(Gated Recurrent Unit,GRU)、TransformerBERT 類預(yù)訓(xùn)練模型等。

2、序列預(yù)測(cè)

序列預(yù)測(cè)(Sequence Prediction)是根據(jù)已有序列預(yù)測(cè)未來(lái)內(nèi)容。

例如:

? 根據(jù)過(guò)去幾天氣溫預(yù)測(cè)明天氣溫

? 根據(jù)歷史銷量預(yù)測(cè)未來(lái)銷量

? 根據(jù)前面的詞預(yù)測(cè)下一個(gè)詞

? 根據(jù)視頻前幾幀預(yù)測(cè)后續(xù)動(dòng)作

序列預(yù)測(cè)可以寫成:

其中:

? x?,x?,…,x? 表示已有序列

? x???? 表示模型預(yù)測(cè)的下一個(gè)元素

? f 表示序列預(yù)測(cè)模型

如果預(yù)測(cè)多個(gè)未來(lái)時(shí)間步,則可以寫成:

其中:

? k 表示需要預(yù)測(cè)的未來(lái)步數(shù)

模型需要根據(jù)歷史趨勢(shì)推斷未來(lái)變化。

在時(shí)間序列預(yù)測(cè)中,深度學(xué)習(xí)模型常用于處理非線性關(guān)系、長(zhǎng)時(shí)間依賴和多變量輸入。

3、機(jī)器翻譯

機(jī)器翻譯(Machine Translation)是典型的序列到序列任務(wù)。它的目標(biāo)是把一種語(yǔ)言的句子轉(zhuǎn)換成另一種語(yǔ)言的句子。

例如:

? 中文翻譯成英文

? 英文翻譯成日文

? 法文翻譯成中文

其基本形式可以寫成:

其中:

? x?,x?,…,x? 表示源語(yǔ)言序列

? y?,y?,…,y? 表示目標(biāo)語(yǔ)言序列

? n 和 m 可以不同,說(shuō)明輸入和輸出長(zhǎng)度不一定相等


圖 7:序列到序列任務(wù)

機(jī)器翻譯并不是逐詞替換,而是要理解上下文、語(yǔ)法結(jié)構(gòu)和語(yǔ)義關(guān)系。因此,它是深度學(xué)習(xí)在自然語(yǔ)言處理中的重要任務(wù)之一。

四、生成任務(wù):讓模型創(chuàng)造新的內(nèi)容

生成任務(wù)(Generative Task)的目標(biāo)不是簡(jiǎn)單判斷類別,也不是只預(yù)測(cè)一個(gè)數(shù)值,而是讓模型生成新的數(shù)據(jù)。

例如:

? 根據(jù)提示生成一段文字

? 根據(jù)文字生成一張圖片

? 根據(jù)文本生成語(yǔ)音

? 根據(jù)已有旋律生成音樂(lè)

? 根據(jù)已有視頻生成后續(xù)畫面

? 根據(jù)草圖、線稿或低清圖像生成新圖像

生成任務(wù)的核心是:模型需要學(xué)習(xí)數(shù)據(jù)分布,并從這種分布中生成新的樣本。

從數(shù)學(xué)角度看,真實(shí)數(shù)據(jù)可以表示為:

其中:

? x 表示真實(shí)數(shù)據(jù)樣本

? p_data(x) 表示真實(shí)數(shù)據(jù)分布

? x ~ p_data(x) 表示樣本 x 來(lái)自真實(shí)數(shù)據(jù)分布

生成模型學(xué)習(xí)到的分布可以表示為:

其中:

? pθ(x) 表示模型學(xué)習(xí)到的數(shù)據(jù)分布

? θ 表示模型參數(shù)

? 目標(biāo)是讓 pθ(x) 盡可能接近 p_data(x)

這說(shuō)明,生成任務(wù)的本質(zhì)不是簡(jiǎn)單記憶訓(xùn)練樣本,而是學(xué)習(xí)樣本背后的規(guī)律,并生成符合這種規(guī)律的新內(nèi)容。

2、文本生成

文本生成(Text Generation)是自然語(yǔ)言生成中的核心任務(wù)。它的目標(biāo)是根據(jù)已有上下文生成后續(xù)文本。

例如:

? 自動(dòng)續(xù)寫文章

? 生成摘要

? 生成問(wèn)答回復(fù)

? 生成代碼

? 生成對(duì)話內(nèi)容

在語(yǔ)言模型中,文本生成通常可以表示為:

其中:

? x? 表示第 t 個(gè)詞、字或 token

? p(x? ∣ x?,x?,…,x???) 表示在前文條件下生成當(dāng)前 token 的概率

? ∏ 表示連乘

? 整段文本的概率可以分解為逐步生成每個(gè) token 的條件概率

這說(shuō)明,文本生成通常不是一次性憑空產(chǎn)生整篇文本,而是根據(jù)已有上下文一步一步生成后續(xù)內(nèi)容。


圖 8:文本生成的一般過(guò)程

大語(yǔ)言模型(Large Language Model,LLM)就是典型的文本生成模型。它通過(guò)大規(guī)模語(yǔ)料訓(xùn)練,學(xué)習(xí)語(yǔ)言結(jié)構(gòu)、知識(shí)關(guān)聯(lián)和上下文表達(dá)方式。

2、圖像生成

圖像生成(Image Generation)的目標(biāo)是讓模型生成新的圖像。

例如:

? 根據(jù)文字提示生成圖片

? 根據(jù)線稿生成彩色圖像

? 根據(jù)低清圖像生成高清圖像

? 對(duì)舊照片進(jìn)行修復(fù)和上色

? 生成風(fēng)格化人像、場(chǎng)景圖或設(shè)計(jì)圖

圖像生成可以簡(jiǎn)化表示為:

其中:

? z 表示隨機(jī)噪聲或潛在向量

? G 表示生成模型

? x? 表示生成圖像

如果是文本生成圖像,則可以寫成:

其中:

? c 表示文本條件

? z 表示隨機(jī)噪聲或潛在變量

? G 表示條件生成模型

? x? 表示生成圖像

常見圖像生成模型包括生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)、變分自編碼器(Variational Autoencoder,VAE)和擴(kuò)散模型(Diffusion Model)等。

在擴(kuò)散模型中,模型通常先向圖像逐步加入噪聲,再學(xué)習(xí)如何從噪聲中逐步恢復(fù)圖像。這類方法已經(jīng)成為當(dāng)前圖像生成的重要技術(shù)路線。

3、語(yǔ)音、音頻與視頻生成

語(yǔ)音生成(Speech Generation)、音頻生成(Audio Generation)和視頻生成(Video Generation)也是深度學(xué)習(xí)的重要生成任務(wù)。

例如:

? 文本轉(zhuǎn)語(yǔ)音

? 語(yǔ)音克隆

? 音樂(lè)生成

? 音效生成

? 視頻補(bǔ)幀

? 根據(jù)文本生成短視頻

文本轉(zhuǎn)語(yǔ)音任務(wù)可以表示為:

其中:

? t 表示輸入文本

? a? 表示生成的語(yǔ)音信號(hào)

? f 表示文本到語(yǔ)音的生成模型

視頻生成可以簡(jiǎn)化表示為:

其中:

? z 表示隨機(jī)噪聲或潛在變量

? c 表示文本、圖像或其他條件信息

? G 表示視頻生成模型

? v? 表示生成視頻

語(yǔ)音生成不僅要讀出文字,還要控制發(fā)音、語(yǔ)調(diào)、停頓、節(jié)奏和情感。視頻生成則需要同時(shí)保持畫面質(zhì)量、對(duì)象一致性和時(shí)間連續(xù)性,因此通常比靜態(tài)圖像生成更加復(fù)雜。

五、表示學(xué)習(xí)任務(wù):把復(fù)雜數(shù)據(jù)轉(zhuǎn)換為向量表示

表示學(xué)習(xí)(Representation Learning)是深度學(xué)習(xí)的核心思想之一。它的目標(biāo)是讓模型自動(dòng)學(xué)習(xí)數(shù)據(jù)的有效表示,而不是完全依賴人工設(shè)計(jì)特征。

所謂“表示”,可以理解為模型內(nèi)部對(duì)數(shù)據(jù)的編碼方式。

例如:

? 把一個(gè)詞表示為一個(gè)向量

? 把一張圖像表示為一個(gè)特征向量

? 把一個(gè)用戶表示為一個(gè)興趣向量

? 把一段文本表示為一個(gè)語(yǔ)義向量

? 把一段音頻表示為一個(gè)聲學(xué)向量

表示學(xué)習(xí)的基本形式可以寫成:

其中:

? x 表示原始輸入

? fθ 表示帶參數(shù) θ 的神經(jīng)網(wǎng)絡(luò)

? h 表示模型學(xué)習(xí)到的表示向量

? θ 表示模型參數(shù)

這說(shuō)明,深度學(xué)習(xí)模型不僅會(huì)輸出最終結(jié)果,還會(huì)在中間層形成對(duì)數(shù)據(jù)的抽象表示。

1、詞向量與語(yǔ)義表示

在自然語(yǔ)言處理中,詞向量(Word Embedding)是表示學(xué)習(xí)的典型例子。它把詞語(yǔ)轉(zhuǎn)換為向量,使計(jì)算機(jī)可以對(duì)詞語(yǔ)進(jìn)行數(shù)學(xué)計(jì)算。

例如:

? “蘋果”可以表示為一個(gè)向量

? “橘子”可以表示為另一個(gè)向量

語(yǔ)義相近的詞,在向量空間中通常距離較近。

詞向量可以寫成:

其中:

? w 表示一個(gè)詞或 token

? e 表示該詞對(duì)應(yīng)的向量

? Embedding 表示嵌入層或嵌入函數(shù)

如果兩個(gè)詞語(yǔ)語(yǔ)義接近,它們的向量往往也更接近。常用的相似度計(jì)算方式是余弦相似度:

其中:

? a 和 b 表示兩個(gè)向量

? a · b 表示向量點(diǎn)積

? ‖a‖ 和 ‖b‖ 表示向量長(zhǎng)度

? 結(jié)果越接近 1,通常表示兩個(gè)向量方向越相似

2、圖像表示與跨模態(tài)表示

在計(jì)算機(jī)視覺中,深度學(xué)習(xí)模型也會(huì)把圖像轉(zhuǎn)換為特征向量。

例如,一張人臉圖像可以被編碼成一個(gè)向量,用于人臉識(shí)別;一張商品圖片可以被編碼成一個(gè)向量,用于相似商品檢索。

圖像表示可以寫成:

其中:

? x 表示輸入圖像

? f_image 表示圖像編碼模型

? h_image 表示圖像表示向量

在跨模態(tài)表示學(xué)習(xí)中,模型還需要把圖像、文本、音頻等不同類型的數(shù)據(jù)映射到統(tǒng)一表示空間。例如:

其中:

? t 表示文本

? x 表示圖像

? h_text 表示文本向量

? h_image 表示圖像向量

如果文本和圖像語(yǔ)義匹配,那么它們?cè)诒硎究臻g中的距離應(yīng)當(dāng)更近。


圖 9:跨模態(tài)表示學(xué)習(xí)

表示學(xué)習(xí)之所以重要,是因?yàn)樵S多復(fù)雜任務(wù)都依賴好的表示。表示質(zhì)量越高,分類、檢索、推薦、生成和推理往往越容易完成。

3、預(yù)訓(xùn)練與遷移學(xué)習(xí)

在深度學(xué)習(xí)中,表示學(xué)習(xí)常常與預(yù)訓(xùn)練(Pre-training)和遷移學(xué)習(xí)(Transfer Learning)結(jié)合使用。

預(yù)訓(xùn)練是指先讓模型在大規(guī)模數(shù)據(jù)上學(xué)習(xí)通用表示,再將這些表示遷移到具體任務(wù)中。遷移學(xué)習(xí)則是把一個(gè)任務(wù)中學(xué)到的知識(shí),用到另一個(gè)相關(guān)任務(wù)中。

這一過(guò)程可以簡(jiǎn)化表示為:

其中:

? θ_pretrain 表示預(yù)訓(xùn)練階段得到的模型參數(shù)

? θ_finetune 表示在具體任務(wù)上微調(diào)后的模型參數(shù)

? → 表示參數(shù)從通用任務(wù)遷移到具體任務(wù)

例如,一個(gè)在大規(guī)模圖像數(shù)據(jù)上預(yù)訓(xùn)練的視覺模型,可以遷移到醫(yī)學(xué)影像分類、工業(yè)缺陷檢測(cè)等任務(wù)中;一個(gè)在大規(guī)模文本數(shù)據(jù)上預(yù)訓(xùn)練的語(yǔ)言模型,可以遷移到問(wèn)答、摘要、分類、翻譯等任務(wù)中。

這說(shuō)明,深度學(xué)習(xí)中的表示并不只服務(wù)于單一任務(wù),還可以成為多個(gè)任務(wù)共享的基礎(chǔ)能力。

六、多模態(tài)任務(wù):聯(lián)合理解不同類型的數(shù)據(jù)

多模態(tài)任務(wù)(Multimodal Task)是深度學(xué)習(xí)發(fā)展的重要方向。它要求模型能夠同時(shí)處理文本、圖像、音頻、視頻等不同類型的數(shù)據(jù),并在它們之間建立語(yǔ)義聯(lián)系。

例如:

? 根據(jù)圖片回答問(wèn)題

? 根據(jù)文字生成圖片

? 根據(jù)視頻內(nèi)容生成摘要

? 根據(jù)語(yǔ)音和畫面理解會(huì)議內(nèi)容

? 根據(jù)圖文信息判斷商品是否匹配

? 根據(jù)圖片和文本進(jìn)行跨模態(tài)檢索

多模態(tài)任務(wù)的核心是:不同類型的數(shù)據(jù)雖然形式不同,但可以在語(yǔ)義層面建立聯(lián)系。


圖 10:多模態(tài)任務(wù)的一般結(jié)構(gòu)

1、圖文理解

圖文理解(Vision-Language Understanding)要求模型同時(shí)理解圖像內(nèi)容和文本問(wèn)題。

例如,用戶輸入一張交通場(chǎng)景圖片,并提出問(wèn)題:

“圖中是否有人正在過(guò)馬路?”

模型需要先識(shí)別圖像中的道路、行人、車輛和交通環(huán)境,再結(jié)合文本問(wèn)題給出回答。

圖文問(wèn)答可以表示為:

其中:

? q 表示文本問(wèn)題

? x_image 表示輸入圖像

? a 表示模型回答

? f 表示圖文理解模型

圖文理解不是簡(jiǎn)單的“看圖說(shuō)話”,而是要把視覺信息與語(yǔ)言問(wèn)題結(jié)合起來(lái)。

2、跨模態(tài)檢索

跨模態(tài)檢索(Cross-modal Retrieval)是指用一種模態(tài)的信息去檢索另一種模態(tài)的信息。

例如:

? 輸入一句文字,檢索相關(guān)圖片

? 輸入一張圖片,檢索相關(guān)文字描述

? 輸入一段音頻,檢索相關(guān)視頻片段

跨模態(tài)檢索依賴統(tǒng)一表示空間。可以簡(jiǎn)化表示為:

其中:

? h_text 表示文本向量

? h_image 表示圖像向量

? sim 表示相似度函數(shù)

相似度越高,表示文本與圖像越匹配。

跨模態(tài)檢索說(shuō)明,深度學(xué)習(xí)不僅可以處理單一類型數(shù)據(jù),還可以在不同類型數(shù)據(jù)之間建立語(yǔ)義橋梁。

七、深度強(qiáng)化學(xué)習(xí)任務(wù):用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)行動(dòng)策略

深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning)是深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合形成的方向。它使用神經(jīng)網(wǎng)絡(luò)表示策略函數(shù)或價(jià)值函數(shù),使智能體能夠在復(fù)雜環(huán)境中學(xué)習(xí)行動(dòng)策略。

普通強(qiáng)化學(xué)習(xí)常用于狀態(tài)空間較小的問(wèn)題,而深度強(qiáng)化學(xué)習(xí)適合處理高維狀態(tài),例如:

? 游戲畫面

? 機(jī)器人傳感器數(shù)據(jù)

? 自動(dòng)駕駛環(huán)境感知信息

? 連續(xù)控制任務(wù)

在深度強(qiáng)化學(xué)習(xí)中,智能體(Agent)通過(guò)與環(huán)境(Environment)交互,不斷嘗試動(dòng)作,并根據(jù)獎(jiǎng)勵(lì)反饋調(diào)整策略。


圖 11:深度強(qiáng)化學(xué)習(xí)交互過(guò)程

1、策略學(xué)習(xí)

策略(Policy)表示智能體在某個(gè)狀態(tài)下選擇動(dòng)作的規(guī)則。

在深度強(qiáng)化學(xué)習(xí)中,策略可以由神經(jīng)網(wǎng)絡(luò)表示:

其中:

? s 表示當(dāng)前狀態(tài)

? a 表示智能體選擇的動(dòng)作

? πθ 表示由參數(shù) θ 控制的策略網(wǎng)絡(luò)

如果動(dòng)作是離散的,策略也可以輸出每個(gè)動(dòng)作的概率:

其中:

? πθ(a ∣ s) 表示在狀態(tài) s 下選擇動(dòng)作 a 的概率

模型訓(xùn)練的目標(biāo)是讓高價(jià)值動(dòng)作獲得更高概率。

例如,在游戲智能體中,輸入可以是當(dāng)前游戲畫面,輸出可以是向上、向下、向左、向右、攻擊、跳躍等動(dòng)作的概率。

2、價(jià)值學(xué)習(xí)

價(jià)值函數(shù)(Value Function)用于評(píng)估某個(gè)狀態(tài)或某個(gè)動(dòng)作在長(zhǎng)期來(lái)看是否有利。

狀態(tài)價(jià)值函數(shù)可以寫成:

其中:

? V(s) 表示狀態(tài) s 的長(zhǎng)期價(jià)值

價(jià)值越高,說(shuō)明從該狀態(tài)出發(fā)越可能獲得較高累積獎(jiǎng)勵(lì)。

動(dòng)作價(jià)值函數(shù)可以寫成:

其中:

? Q(s,a) 表示在狀態(tài) s 下執(zhí)行動(dòng)作 a 的長(zhǎng)期價(jià)值

它不僅評(píng)價(jià)當(dāng)前狀態(tài),也評(píng)價(jià)具體動(dòng)作。

深度 Q 網(wǎng)絡(luò)(Deep Q-Network,DQN)中,Q 函數(shù)由神經(jīng)網(wǎng)絡(luò)近似:

其中:

? θ 表示神經(jīng)網(wǎng)絡(luò)參數(shù)

? 模型輸入狀態(tài) s,輸出不同動(dòng)作的價(jià)值估計(jì)

? 智能體通常選擇 Q 值較高的動(dòng)作

深度強(qiáng)化學(xué)習(xí)的核心難點(diǎn)在于:模型不僅要識(shí)別環(huán)境狀態(tài),還要在長(zhǎng)期獎(jiǎng)勵(lì)、探索與利用之間做權(quán)衡。

八、深度學(xué)習(xí)任務(wù)之間的區(qū)別與聯(lián)系

深度學(xué)習(xí)任務(wù)雖然形式多樣,但并不是彼此孤立的。


圖 12:深度學(xué)習(xí)任務(wù)之間的關(guān)系

感知任務(wù)強(qiáng)調(diào)從復(fù)雜輸入中識(shí)別對(duì)象和結(jié)構(gòu),例如圖像分類、目標(biāo)檢測(cè)、圖像分割、語(yǔ)音識(shí)別和視頻理解。

序列建模任務(wù)強(qiáng)調(diào)處理有順序關(guān)系的數(shù)據(jù),例如文本分類、機(jī)器翻譯、語(yǔ)音識(shí)別和時(shí)間序列預(yù)測(cè)。

生成任務(wù)強(qiáng)調(diào)學(xué)習(xí)數(shù)據(jù)分布,并創(chuàng)造新的內(nèi)容,例如文本生成、圖像生成、語(yǔ)音生成、音樂(lè)生成和視頻生成。

表示學(xué)習(xí)任務(wù)強(qiáng)調(diào)學(xué)習(xí)數(shù)據(jù)的內(nèi)部表示。它往往不是最終應(yīng)用本身,而是支撐分類、檢索、推薦、生成和推理的基礎(chǔ)能力。

多模態(tài)任務(wù)強(qiáng)調(diào)聯(lián)合處理不同類型的數(shù)據(jù),使模型能夠在文本、圖像、音頻和視頻之間建立聯(lián)系。

深度強(qiáng)化學(xué)習(xí)任務(wù)強(qiáng)調(diào)在交互過(guò)程中學(xué)習(xí)行動(dòng)策略。它不只是“看懂?dāng)?shù)據(jù)”,還要根據(jù)環(huán)境反饋決定“怎樣行動(dòng)”。

如果用更直觀的話概括:

? 感知任務(wù)回答“看到了什么、聽到了什么”

? 序列建模任務(wù)回答“前后關(guān)系是什么、接下來(lái)會(huì)怎樣”

? 生成任務(wù)回答“能否創(chuàng)造新的內(nèi)容”

? 表示學(xué)習(xí)任務(wù)回答“如何把復(fù)雜數(shù)據(jù)變成可計(jì)算的表示”

? 多模態(tài)任務(wù)回答“如何聯(lián)合理解不同類型的信息”

? 深度強(qiáng)化學(xué)習(xí)任務(wù)回答“在環(huán)境中應(yīng)該怎樣行動(dòng)”

從技術(shù)角度看,很多現(xiàn)代系統(tǒng)并不會(huì)只使用一種任務(wù)。例如,自動(dòng)駕駛系統(tǒng)可能同時(shí)使用目標(biāo)檢測(cè)、圖像分割、軌跡預(yù)測(cè)和強(qiáng)化學(xué)習(xí);大語(yǔ)言模型既涉及序列建模,也涉及生成任務(wù)和表示學(xué)習(xí);多模態(tài)模型則同時(shí)處理文本、圖像、音頻和視頻。

因此,理解深度學(xué)習(xí)的主要任務(wù),不只是記住若干任務(wù)名稱,更重要的是理解:深度學(xué)習(xí)如何圍繞數(shù)據(jù)表示、模式識(shí)別、內(nèi)容生成、多模態(tài)理解和行為決策,構(gòu)建完整的智能系統(tǒng)。

小結(jié)

深度學(xué)習(xí)的主要任務(wù)包括感知、序列建模、生成、表示學(xué)習(xí)、多模態(tài)理解和深度強(qiáng)化學(xué)習(xí)。它通過(guò)多層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)復(fù)雜數(shù)據(jù)表示,既能識(shí)別內(nèi)容、理解序列,也能生成數(shù)據(jù)、連接多種模態(tài),并支持智能決策。

點(diǎn)贊有美意,贊賞是鼓勵(lì)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
財(cái)務(wù)造假!10家A股公司退市,超25萬(wàn)股東踩雷

財(cái)務(wù)造假!10家A股公司退市,超25萬(wàn)股東踩雷

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-06-12 18:59:56
普京再次回應(yīng)戰(zhàn)爭(zhēng)起源:不是俄開戰(zhàn),是基輔先向頓巴斯開火

普京再次回應(yīng)戰(zhàn)爭(zhēng)起源:不是俄開戰(zhàn),是基輔先向頓巴斯開火

桂系007
2026-06-12 23:57:08
美加墨世界杯第二場(chǎng)比賽就現(xiàn)空座,票價(jià)爭(zhēng)議浮出水面

美加墨世界杯第二場(chǎng)比賽就現(xiàn)空座,票價(jià)爭(zhēng)議浮出水面

澎湃新聞
2026-06-12 17:40:29
剛剛,人類歷史上首位萬(wàn)億美元富豪誕生!

剛剛,人類歷史上首位萬(wàn)億美元富豪誕生!

每日經(jīng)濟(jì)新聞
2026-06-12 22:32:06
英媒一語(yǔ)驚人:中美貿(mào)易戰(zhàn)中,美國(guó)唯獨(dú)算錯(cuò)的是中國(guó)的底牌!

英媒一語(yǔ)驚人:中美貿(mào)易戰(zhàn)中,美國(guó)唯獨(dú)算錯(cuò)的是中國(guó)的底牌!

流史歲月
2026-06-12 18:30:08
現(xiàn)在的年輕人不敢開房了

現(xiàn)在的年輕人不敢開房了

微微熱評(píng)
2026-06-13 00:53:53
看完世界杯第2場(chǎng),球迷看清了3個(gè)不爭(zhēng)事實(shí),韓國(guó)最擅長(zhǎng)踢歐洲球隊(duì)

看完世界杯第2場(chǎng),球迷看清了3個(gè)不爭(zhēng)事實(shí),韓國(guó)最擅長(zhǎng)踢歐洲球隊(duì)

侃球熊弟
2026-06-12 11:56:01
CCTV5直播!世界杯“重頭戲”,超21億歐元對(duì)決,姆巴佩PK哈蘭德

CCTV5直播!世界杯“重頭戲”,超21億歐元對(duì)決,姆巴佩PK哈蘭德

麥子的籃球故事
2026-06-12 17:40:17
阿里高層這次真的生氣了

阿里高層這次真的生氣了

一見財(cái)經(jīng)
2026-06-12 11:11:21
國(guó)安部披露:在我國(guó)某海域發(fā)現(xiàn)有較大型活體海洋動(dòng)物被掛上傳感器,竊取海洋敏感數(shù)據(jù)

國(guó)安部披露:在我國(guó)某海域發(fā)現(xiàn)有較大型活體海洋動(dòng)物被掛上傳感器,竊取海洋敏感數(shù)據(jù)

每日經(jīng)濟(jì)新聞
2026-06-12 13:16:05
中國(guó)斷供稀土5個(gè)多月,日本工廠無(wú)一停產(chǎn),是真擺脫了還是在硬撐

中國(guó)斷供稀土5個(gè)多月,日本工廠無(wú)一停產(chǎn),是真擺脫了還是在硬撐

次元君情感
2026-06-01 14:27:53
63歲阿湯哥被曝“越老越瘋”,同行都看不下去了

63歲阿湯哥被曝“越老越瘋”,同行都看不下去了

生活觀察員啊
2026-06-11 01:22:03
打臉CBA,懷特塞德高調(diào)加入其他聯(lián)賽沒有傷病,上海隊(duì)陷入爭(zhēng)議

打臉CBA,懷特塞德高調(diào)加入其他聯(lián)賽沒有傷病,上海隊(duì)陷入爭(zhēng)議

宗介說(shuō)體育
2026-06-12 16:35:22
美軍開始空襲伊朗

美軍開始空襲伊朗

財(cái)聯(lián)社
2026-06-11 05:42:11
劉宇寧發(fā)文回應(yīng)戀情:清醒坦蕩的態(tài)度,才是明星該有的模樣

劉宇寧發(fā)文回應(yīng)戀情:清醒坦蕩的態(tài)度,才是明星該有的模樣

陳意小可愛
2026-06-13 00:50:31
“張雪機(jī)車”獲得WSBK艾米利亞-羅馬涅站桿位賽第三名

“張雪機(jī)車”獲得WSBK艾米利亞-羅馬涅站桿位賽第三名

極目新聞
2026-06-12 23:00:07
中央開始嚴(yán)查,多地機(jī)關(guān)事業(yè)單位大整頓啟動(dòng),這幾類人受影響最大

中央開始嚴(yán)查,多地機(jī)關(guān)事業(yè)單位大整頓啟動(dòng),這幾類人受影響最大

職場(chǎng)資深秘書
2026-06-12 14:47:02
老人入住精神病院7年后查出梅毒;哈爾濱精神專科白漁泡醫(yī)院稱系舊疾,家屬出示入院前梅毒陰性檢測(cè)報(bào)告反駁

老人入住精神病院7年后查出梅毒;哈爾濱精神專科白漁泡醫(yī)院稱系舊疾,家屬出示入院前梅毒陰性檢測(cè)報(bào)告反駁

大風(fēng)新聞
2026-06-12 12:12:20
內(nèi)塔尼亞胡:特朗普不打伊朗了,沒提前告訴我

內(nèi)塔尼亞胡:特朗普不打伊朗了,沒提前告訴我

政知新媒體
2026-06-12 19:06:11
謝娜再次翻車,這一次,她踢到鐵板了

謝娜再次翻車,這一次,她踢到鐵板了

桌子的生活觀
2026-06-12 11:58:27
2026-06-13 02:35:00
MediaTea
MediaTea
專業(yè)的數(shù)字媒體、新媒體技術(shù)
1888文章數(shù) 80關(guān)注度
往期回顧 全部

科技要聞

剛剛,人類歷史上首位萬(wàn)億美元富豪誕生!

頭條要聞

美加墨世界杯第二場(chǎng)比賽就現(xiàn)空座 英媒:尷尬

頭條要聞

美加墨世界杯第二場(chǎng)比賽就現(xiàn)空座 英媒:尷尬

體育要聞

歐洲恐韓?肉德維德?

娛樂(lè)要聞

一天4個(gè)瓜,肖戰(zhàn)熱巴最意外

財(cái)經(jīng)要聞

萬(wàn)億美元順差背后,透露這些信號(hào)

汽車要聞

標(biāo)配激光雷達(dá)/雙動(dòng)力可選 昊鉑S600限時(shí)售17.99萬(wàn)起

態(tài)度原創(chuàng)

旅游
親子
藝術(shù)
本地
公開課

旅游要聞

印度有錢人真多酷暑辦理旅游簽證!不是有錢任性,是熱到活不下去

親子要聞

給孩子報(bào)個(gè)幼兒園還要工資流水?難道這就是傳說(shuō)中的“因財(cái)施教”

藝術(shù)要聞

砸了640億,再賠160億!沙特“The Line”項(xiàng)目徹底涼了?

本地新聞

AK劉彰邂逅河北南大港濕地

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版