網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DL：深度學(xué)習(xí)的主要任務(wù)

2026-05-21 00:07:21　來(lái)源: MediaTea

湖南舉報(bào)

分享至

深度學(xué)習(xí)（Deep Learning）是機(jī)器學(xué)習(xí)的重要分支。它以多層神經(jīng)網(wǎng)絡(luò)為核心，通過(guò)大量數(shù)據(jù)訓(xùn)練，使模型能夠自動(dòng)學(xué)習(xí)數(shù)據(jù)中的特征表示，并完成識(shí)別、預(yù)測(cè)、理解、生成和決策等任務(wù)。

與許多傳統(tǒng)機(jī)器學(xué)習(xí)方法相比，深度學(xué)習(xí)更強(qiáng)調(diào)讓模型在訓(xùn)練過(guò)程中自動(dòng)學(xué)習(xí)特征。以圖像為例，模型可以從像素中逐層提取邊緣、紋理、局部形狀、對(duì)象部件，最終形成對(duì)整張圖像的語(yǔ)義判斷；以文本為例，模型可以從詞語(yǔ)、句子和上下文中學(xué)習(xí)語(yǔ)義關(guān)系；以視頻為例，模型還需要理解連續(xù)畫面中的動(dòng)作變化和時(shí)間結(jié)構(gòu)。

因此，深度學(xué)習(xí)特別適合處理圖像、語(yǔ)音、文本、視頻、時(shí)間序列等復(fù)雜數(shù)據(jù)。理解深度學(xué)習(xí)的主要任務(wù)，有助于把握它在人工智能系統(tǒng)中的基本分工。

一、深度學(xué)習(xí)任務(wù)的基本劃分

深度學(xué)習(xí)面對(duì)的問(wèn)題并不只是“分類”或“回歸”。在真實(shí)應(yīng)用中，它通常圍繞復(fù)雜數(shù)據(jù)展開，例如：

? 識(shí)別圖像中有什么對(duì)象

? 判斷語(yǔ)音中說(shuō)了什么內(nèi)容

? 理解一句話或一段文本的含義

? 預(yù)測(cè)一段序列的未來(lái)變化

? 生成圖片、文本、語(yǔ)音或視頻

? 將復(fù)雜數(shù)據(jù)轉(zhuǎn)換為向量表示

? 在環(huán)境中學(xué)習(xí)怎樣行動(dòng)

從整體上看，深度學(xué)習(xí)的主要任務(wù)可以概括為六類。

圖 1：深度學(xué)習(xí)的主要任務(wù)分類

1、感知任務(wù)

從圖像、語(yǔ)音、視頻等數(shù)據(jù)中識(shí)別對(duì)象、內(nèi)容、結(jié)構(gòu)和變化。

2、序列建模任務(wù)

處理文本、語(yǔ)音、時(shí)間序列、視頻幀等具有順序關(guān)系的數(shù)據(jù)。

3、生成任務(wù)

學(xué)習(xí)數(shù)據(jù)分布，并生成新的文本、圖像、音頻或視頻。

4、表示學(xué)習(xí)任務(wù)

把復(fù)雜數(shù)據(jù)轉(zhuǎn)換為便于計(jì)算、比較、檢索和遷移的向量表示。

5、多模態(tài)任務(wù)

聯(lián)合處理文本、圖像、音頻、視頻等不同類型的信息。

6、深度強(qiáng)化學(xué)習(xí)任務(wù)

使用神經(jīng)網(wǎng)絡(luò)與環(huán)境交互，學(xué)習(xí)更優(yōu)行動(dòng)策略。

需要注意的是，這些任務(wù)并不是完全割裂的。一個(gè)現(xiàn)代人工智能系統(tǒng)往往會(huì)同時(shí)涉及多種任務(wù)。

例如，大語(yǔ)言模型既涉及序列建模，也涉及文本生成和表示學(xué)習(xí)；多模態(tài)模型通常同時(shí)包含圖像理解、文本理解、跨模態(tài)表示和生成能力；自動(dòng)駕駛系統(tǒng)則可能同時(shí)使用目標(biāo)檢測(cè)、圖像分割、軌跡預(yù)測(cè)和行為決策。

二、感知任務(wù)：讓模型識(shí)別對(duì)象、內(nèi)容與結(jié)構(gòu)

感知任務(wù)（Perception Task）是深度學(xué)習(xí)最典型的應(yīng)用方向之一。它主要處理圖像、語(yǔ)音、視頻等感知數(shù)據(jù)，使模型能夠識(shí)別其中的對(duì)象、內(nèi)容、位置、結(jié)構(gòu)和變化。

例如：

? 在圖片中識(shí)別貓、狗、汽車和行人

? 在醫(yī)學(xué)影像中識(shí)別病灶區(qū)域

? 在工業(yè)場(chǎng)景中檢測(cè)產(chǎn)品缺陷

? 在語(yǔ)音中識(shí)別說(shuō)話內(nèi)容

? 在視頻中理解人物動(dòng)作和事件變化

感知任務(wù)的核心是：把原始感知數(shù)據(jù)轉(zhuǎn)換為可理解的語(yǔ)義結(jié)果。

以圖像為例，一張圖片在計(jì)算機(jī)中本質(zhì)上是由像素組成的數(shù)組。深度學(xué)習(xí)模型要做的，不是直接“看懂”圖片，而是通過(guò)多層網(wǎng)絡(luò)逐步提取特征，從低級(jí)視覺模式逐漸形成高級(jí)語(yǔ)義判斷。

圖 2：圖像感知任務(wù)的一般過(guò)程

在深度學(xué)習(xí)中，感知任務(wù)常由卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）、視覺 Transformer（Vision Transformer，ViT）等模型完成。

1、圖像分類

圖像分類（Image Classification）是最基礎(chǔ)的視覺任務(wù)。它的目標(biāo)是判斷一張圖像屬于哪個(gè)類別。

例如：

? 判斷一張圖片是貓還是狗

? 判斷手寫數(shù)字是 0 到 9 中的哪一個(gè)

? 判斷醫(yī)學(xué)影像是否存在某種疾病跡象

? 判斷產(chǎn)品圖片是否存在質(zhì)量缺陷

若用數(shù)學(xué)形式表示，圖像分類可以寫成：

其中：

? x 表示輸入圖像

? f 表示深度學(xué)習(xí)模型

? ? 表示模型預(yù)測(cè)的類別

y 表示真實(shí)標(biāo)簽，任務(wù)目標(biāo)是讓 ? 盡可能接近 y。

對(duì)于多分類任務(wù)，模型通常會(huì)輸出每個(gè)類別的概率：

其中：

? z 表示模型最后一層輸出的原始分?jǐn)?shù)

? p? 表示各類別的預(yù)測(cè)概率

softmax 常用于把多個(gè)分?jǐn)?shù)轉(zhuǎn)換為概率分布，概率最大的類別通常作為最終預(yù)測(cè)結(jié)果。

例如，在手寫數(shù)字識(shí)別任務(wù)中，模型輸入一張數(shù)字圖片，輸出 0 到 9 共 10 個(gè)類別的概率，概率最高的類別就是模型的判斷結(jié)果。

圖 3：圖像分類任務(wù)

2、目標(biāo)檢測(cè)

目標(biāo)檢測(cè)（Object Detection）不僅要判斷圖像中有什么，還要指出對(duì)象在哪里。

例如，在自動(dòng)駕駛場(chǎng)景中，模型不僅要識(shí)別“行人”“汽車”“交通燈”，還要給出它們?cè)趫D像中的位置。這通常通過(guò)邊界框（Bounding Box）表示。

一個(gè)目標(biāo)檢測(cè)結(jié)果通常包含兩類信息：

? 類別：對(duì)象是什么

? 位置：對(duì)象在圖像中的區(qū)域

其結(jié)果可以簡(jiǎn)化表示為：

其中：

? c 表示預(yù)測(cè)類別

? b 表示邊界框位置

? ? 表示目標(biāo)檢測(cè)結(jié)果

邊界框常見形式為：

其中：

? x 表示邊界框中心點(diǎn)的橫坐標(biāo)

? y 表示邊界框中心點(diǎn)的縱坐標(biāo)

? w 表示邊界框?qū)挾?/p>

? h 表示邊界框高度

常見目標(biāo)檢測(cè)模型包括 R-CNN 系列、YOLO 系列、SSD 和 DETR 等。

目標(biāo)檢測(cè)比圖像分類更復(fù)雜，因?yàn)樗瑫r(shí)包含“識(shí)別”和“定位”兩個(gè)目標(biāo)。

圖 4：圖像分類與目標(biāo)檢測(cè)的區(qū)別

3、圖像分割

圖像分割（Image Segmentation）進(jìn)一步要求模型判斷圖像中每個(gè)像素屬于哪個(gè)類別。

與目標(biāo)檢測(cè)相比，圖像分割的結(jié)果更加精細(xì)。目標(biāo)檢測(cè)通常用矩形框標(biāo)出對(duì)象的大致位置，而圖像分割需要勾勒出對(duì)象的具體輪廓。

常見圖像分割任務(wù)包括：

? 語(yǔ)義分割（Semantic Segmentation）

? 實(shí)例分割（Instance Segmentation）

? 醫(yī)學(xué)影像分割

? 道路場(chǎng)景分割

? 智能摳圖

語(yǔ)義分割的目標(biāo)可以表示為：

其中：

? x 表示輸入圖像

? M 表示像素級(jí)類別掩碼。M 中的每個(gè)位置對(duì)應(yīng)原圖中一個(gè)像素的類別

例如，在道路場(chǎng)景分割中，模型需要把每個(gè)像素判斷為道路、天空、車輛、行人、建筑物等類別。

圖 5：視覺感知任務(wù)的層級(jí)關(guān)系

從任務(wù)粒度看，圖像分類最粗，目標(biāo)檢測(cè)更精細(xì)，圖像分割最細(xì)。

4、語(yǔ)音識(shí)別與視頻理解

除了圖像任務(wù)，語(yǔ)音識(shí)別和視頻理解也是重要的感知任務(wù)。

語(yǔ)音識(shí)別（Speech Recognition）的目標(biāo)是把語(yǔ)音信號(hào)轉(zhuǎn)換為文字內(nèi)容，可以簡(jiǎn)化表示為：

其中：

? a 表示輸入語(yǔ)音信號(hào)

? t? 表示模型識(shí)別出的文本

? f 表示語(yǔ)音識(shí)別模型

視頻理解（Video Understanding）則要求模型理解連續(xù)畫面中的對(duì)象、動(dòng)作和事件。例如：

? 判斷視頻中正在發(fā)生什么動(dòng)作

? 檢測(cè)視頻中的異常行為

? 識(shí)別體育比賽中的關(guān)鍵事件

? 理解監(jiān)控視頻中的人員活動(dòng)

視頻數(shù)據(jù)不僅包含空間信息，還包含時(shí)間變化。因此，視頻理解通常比單張圖像識(shí)別更復(fù)雜。

三、序列建模任務(wù)：理解有順序關(guān)系的數(shù)據(jù)

序列建模任務(wù)（Sequence Modeling Task）處理的是有先后順序的數(shù)據(jù)。文本、語(yǔ)音、時(shí)間序列、視頻幀都屬于典型序列數(shù)據(jù)。

例如：

? 一句話中的詞語(yǔ)有前后順序

? 一段語(yǔ)音中的聲音幀按時(shí)間排列

? 股票價(jià)格、氣溫、電力負(fù)荷按時(shí)間變化

? 視頻由連續(xù)幀組成

序列建模的核心是：模型不僅要理解單個(gè)元素，還要理解元素之間的上下文關(guān)系。

一個(gè)序列可以表示為：

其中：

? x 表示完整序列

? x? 表示第 t 個(gè)時(shí)間步或位置上的元素

? T 表示序列長(zhǎng)度

序列建模的目標(biāo)，是根據(jù)已有序列信息完成分類、預(yù)測(cè)、生成或轉(zhuǎn)換。

圖 6：序列建模任務(wù)

1、文本分類

文本分類（Text Classification）是自然語(yǔ)言處理中的基礎(chǔ)任務(wù)。它的目標(biāo)是判斷一段文本屬于哪個(gè)類別。

例如：

? 判斷一條評(píng)論是正面還是負(fù)面

? 判斷一封郵件是否為垃圾郵件

? 判斷一篇新聞屬于財(cái)經(jīng)、體育還是科技

? 判斷用戶問(wèn)題屬于哪個(gè)意圖類別

文本分類可以表示為：

其中：

? x?,x?,…,x? 表示文本中的詞、字或子詞

? f 表示文本模型

? ? 表示預(yù)測(cè)類別

與普通分類不同，文本分類需要考慮詞語(yǔ)順序和上下文含義。例如，“不太好”和“好”只差幾個(gè)字，但語(yǔ)義明顯不同。

常見文本模型包括循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）、長(zhǎng)短期記憶網(wǎng)絡(luò)（Long Short-Term Memory，LSTM）、門控循環(huán)單元（Gated Recurrent Unit，GRU）、Transformer 和 BERT 類預(yù)訓(xùn)練模型等。

2、序列預(yù)測(cè)

序列預(yù)測(cè)（Sequence Prediction）是根據(jù)已有序列預(yù)測(cè)未來(lái)內(nèi)容。

例如：

? 根據(jù)過(guò)去幾天氣溫預(yù)測(cè)明天氣溫

? 根據(jù)歷史銷量預(yù)測(cè)未來(lái)銷量

? 根據(jù)前面的詞預(yù)測(cè)下一個(gè)詞

? 根據(jù)視頻前幾幀預(yù)測(cè)后續(xù)動(dòng)作

序列預(yù)測(cè)可以寫成：

其中：

? x?,x?,…,x? 表示已有序列

? x???? 表示模型預(yù)測(cè)的下一個(gè)元素

? f 表示序列預(yù)測(cè)模型

如果預(yù)測(cè)多個(gè)未來(lái)時(shí)間步，則可以寫成：

其中：

? k 表示需要預(yù)測(cè)的未來(lái)步數(shù)

模型需要根據(jù)歷史趨勢(shì)推斷未來(lái)變化。

在時(shí)間序列預(yù)測(cè)中，深度學(xué)習(xí)模型常用于處理非線性關(guān)系、長(zhǎng)時(shí)間依賴和多變量輸入。

3、機(jī)器翻譯

機(jī)器翻譯（Machine Translation）是典型的序列到序列任務(wù)。它的目標(biāo)是把一種語(yǔ)言的句子轉(zhuǎn)換成另一種語(yǔ)言的句子。

例如：

? 中文翻譯成英文

? 英文翻譯成日文

? 法文翻譯成中文

其基本形式可以寫成：

其中：

? x?,x?,…,x? 表示源語(yǔ)言序列

? y?,y?,…,y? 表示目標(biāo)語(yǔ)言序列

? n 和 m 可以不同，說(shuō)明輸入和輸出長(zhǎng)度不一定相等

圖 7：序列到序列任務(wù)

機(jī)器翻譯并不是逐詞替換，而是要理解上下文、語(yǔ)法結(jié)構(gòu)和語(yǔ)義關(guān)系。因此，它是深度學(xué)習(xí)在自然語(yǔ)言處理中的重要任務(wù)之一。

四、生成任務(wù)：讓模型創(chuàng)造新的內(nèi)容

生成任務(wù)（Generative Task）的目標(biāo)不是簡(jiǎn)單判斷類別，也不是只預(yù)測(cè)一個(gè)數(shù)值，而是讓模型生成新的數(shù)據(jù)。

例如：

? 根據(jù)提示生成一段文字

? 根據(jù)文字生成一張圖片

? 根據(jù)文本生成語(yǔ)音

? 根據(jù)已有旋律生成音樂(lè)

? 根據(jù)已有視頻生成后續(xù)畫面

? 根據(jù)草圖、線稿或低清圖像生成新圖像

生成任務(wù)的核心是：模型需要學(xué)習(xí)數(shù)據(jù)分布，并從這種分布中生成新的樣本。

從數(shù)學(xué)角度看，真實(shí)數(shù)據(jù)可以表示為：

其中：

? x 表示真實(shí)數(shù)據(jù)樣本

? p_data(x) 表示真實(shí)數(shù)據(jù)分布

? x ～ p_data(x) 表示樣本 x 來(lái)自真實(shí)數(shù)據(jù)分布

生成模型學(xué)習(xí)到的分布可以表示為：

其中：

? pθ(x) 表示模型學(xué)習(xí)到的數(shù)據(jù)分布

? θ 表示模型參數(shù)

? 目標(biāo)是讓 pθ(x) 盡可能接近 p_data(x)

這說(shuō)明，生成任務(wù)的本質(zhì)不是簡(jiǎn)單記憶訓(xùn)練樣本，而是學(xué)習(xí)樣本背后的規(guī)律，并生成符合這種規(guī)律的新內(nèi)容。

2、文本生成

文本生成（Text Generation）是自然語(yǔ)言生成中的核心任務(wù)。它的目標(biāo)是根據(jù)已有上下文生成后續(xù)文本。

例如：

? 自動(dòng)續(xù)寫文章

? 生成摘要

? 生成問(wèn)答回復(fù)

? 生成代碼

? 生成對(duì)話內(nèi)容

在語(yǔ)言模型中，文本生成通常可以表示為：

其中：

? x? 表示第 t 個(gè)詞、字或 token

? p(x? ∣ x?,x?,…,x???) 表示在前文條件下生成當(dāng)前 token 的概率

? ∏ 表示連乘

? 整段文本的概率可以分解為逐步生成每個(gè) token 的條件概率

這說(shuō)明，文本生成通常不是一次性憑空產(chǎn)生整篇文本，而是根據(jù)已有上下文一步一步生成后續(xù)內(nèi)容。

圖 8：文本生成的一般過(guò)程

大語(yǔ)言模型（Large Language Model，LLM）就是典型的文本生成模型。它通過(guò)大規(guī)模語(yǔ)料訓(xùn)練，學(xué)習(xí)語(yǔ)言結(jié)構(gòu)、知識(shí)關(guān)聯(lián)和上下文表達(dá)方式。

2、圖像生成

圖像生成（Image Generation）的目標(biāo)是讓模型生成新的圖像。

例如：

? 根據(jù)文字提示生成圖片

? 根據(jù)線稿生成彩色圖像

? 根據(jù)低清圖像生成高清圖像

? 對(duì)舊照片進(jìn)行修復(fù)和上色

? 生成風(fēng)格化人像、場(chǎng)景圖或設(shè)計(jì)圖

圖像生成可以簡(jiǎn)化表示為：

其中：

? z 表示隨機(jī)噪聲或潛在向量

? G 表示生成模型

? x? 表示生成圖像

如果是文本生成圖像，則可以寫成：

其中：

? c 表示文本條件

? z 表示隨機(jī)噪聲或潛在變量

? G 表示條件生成模型

? x? 表示生成圖像

常見圖像生成模型包括生成對(duì)抗網(wǎng)絡(luò)（Generative Adversarial Network，GAN）、變分自編碼器（Variational Autoencoder，VAE）和擴(kuò)散模型（Diffusion Model）等。

在擴(kuò)散模型中，模型通常先向圖像逐步加入噪聲，再學(xué)習(xí)如何從噪聲中逐步恢復(fù)圖像。這類方法已經(jīng)成為當(dāng)前圖像生成的重要技術(shù)路線。

3、語(yǔ)音、音頻與視頻生成

語(yǔ)音生成（Speech Generation）、音頻生成（Audio Generation）和視頻生成（Video Generation）也是深度學(xué)習(xí)的重要生成任務(wù)。

例如：

? 文本轉(zhuǎn)語(yǔ)音

? 語(yǔ)音克隆

? 音樂(lè)生成

? 音效生成

? 視頻補(bǔ)幀

? 根據(jù)文本生成短視頻

文本轉(zhuǎn)語(yǔ)音任務(wù)可以表示為：

其中：

? t 表示輸入文本

? a? 表示生成的語(yǔ)音信號(hào)

? f 表示文本到語(yǔ)音的生成模型

視頻生成可以簡(jiǎn)化表示為：

其中：

? z 表示隨機(jī)噪聲或潛在變量

? c 表示文本、圖像或其他條件信息

? G 表示視頻生成模型

? v? 表示生成視頻

語(yǔ)音生成不僅要讀出文字，還要控制發(fā)音、語(yǔ)調(diào)、停頓、節(jié)奏和情感。視頻生成則需要同時(shí)保持畫面質(zhì)量、對(duì)象一致性和時(shí)間連續(xù)性，因此通常比靜態(tài)圖像生成更加復(fù)雜。

五、表示學(xué)習(xí)任務(wù)：把復(fù)雜數(shù)據(jù)轉(zhuǎn)換為向量表示

表示學(xué)習(xí)（Representation Learning）是深度學(xué)習(xí)的核心思想之一。它的目標(biāo)是讓模型自動(dòng)學(xué)習(xí)數(shù)據(jù)的有效表示，而不是完全依賴人工設(shè)計(jì)特征。

所謂“表示”，可以理解為模型內(nèi)部對(duì)數(shù)據(jù)的編碼方式。

例如：

? 把一個(gè)詞表示為一個(gè)向量

? 把一張圖像表示為一個(gè)特征向量

? 把一個(gè)用戶表示為一個(gè)興趣向量

? 把一段文本表示為一個(gè)語(yǔ)義向量

? 把一段音頻表示為一個(gè)聲學(xué)向量

表示學(xué)習(xí)的基本形式可以寫成：

其中：

? x 表示原始輸入

? fθ 表示帶參數(shù) θ 的神經(jīng)網(wǎng)絡(luò)

? h 表示模型學(xué)習(xí)到的表示向量

? θ 表示模型參數(shù)

這說(shuō)明，深度學(xué)習(xí)模型不僅會(huì)輸出最終結(jié)果，還會(huì)在中間層形成對(duì)數(shù)據(jù)的抽象表示。

1、詞向量與語(yǔ)義表示

在自然語(yǔ)言處理中，詞向量（Word Embedding）是表示學(xué)習(xí)的典型例子。它把詞語(yǔ)轉(zhuǎn)換為向量，使計(jì)算機(jī)可以對(duì)詞語(yǔ)進(jìn)行數(shù)學(xué)計(jì)算。

例如：

? “蘋果”可以表示為一個(gè)向量

? “橘子”可以表示為另一個(gè)向量

語(yǔ)義相近的詞，在向量空間中通常距離較近。

詞向量可以寫成：

其中：

? w 表示一個(gè)詞或 token

? e 表示該詞對(duì)應(yīng)的向量

? Embedding 表示嵌入層或嵌入函數(shù)

如果兩個(gè)詞語(yǔ)語(yǔ)義接近，它們的向量往往也更接近。常用的相似度計(jì)算方式是余弦相似度：

其中：

? a 和 b 表示兩個(gè)向量

? a · b 表示向量點(diǎn)積

? ‖a‖ 和 ‖b‖ 表示向量長(zhǎng)度

? 結(jié)果越接近 1，通常表示兩個(gè)向量方向越相似

2、圖像表示與跨模態(tài)表示

在計(jì)算機(jī)視覺中，深度學(xué)習(xí)模型也會(huì)把圖像轉(zhuǎn)換為特征向量。

例如，一張人臉圖像可以被編碼成一個(gè)向量，用于人臉識(shí)別；一張商品圖片可以被編碼成一個(gè)向量，用于相似商品檢索。

圖像表示可以寫成：

其中：

? x 表示輸入圖像

? f_image 表示圖像編碼模型

? h_image 表示圖像表示向量

在跨模態(tài)表示學(xué)習(xí)中，模型還需要把圖像、文本、音頻等不同類型的數(shù)據(jù)映射到統(tǒng)一表示空間。例如：

其中：

? t 表示文本

? x 表示圖像

? h_text 表示文本向量

? h_image 表示圖像向量

如果文本和圖像語(yǔ)義匹配，那么它們?cè)诒硎究臻g中的距離應(yīng)當(dāng)更近。

圖 9：跨模態(tài)表示學(xué)習(xí)

表示學(xué)習(xí)之所以重要，是因?yàn)樵S多復(fù)雜任務(wù)都依賴好的表示。表示質(zhì)量越高，分類、檢索、推薦、生成和推理往往越容易完成。

3、預(yù)訓(xùn)練與遷移學(xué)習(xí)

在深度學(xué)習(xí)中，表示學(xué)習(xí)常常與預(yù)訓(xùn)練（Pre-training）和遷移學(xué)習(xí)（Transfer Learning）結(jié)合使用。

預(yù)訓(xùn)練是指先讓模型在大規(guī)模數(shù)據(jù)上學(xué)習(xí)通用表示，再將這些表示遷移到具體任務(wù)中。遷移學(xué)習(xí)則是把一個(gè)任務(wù)中學(xué)到的知識(shí)，用到另一個(gè)相關(guān)任務(wù)中。

這一過(guò)程可以簡(jiǎn)化表示為：

其中：

? θ_pretrain 表示預(yù)訓(xùn)練階段得到的模型參數(shù)

? θ_finetune 表示在具體任務(wù)上微調(diào)后的模型參數(shù)

? → 表示參數(shù)從通用任務(wù)遷移到具體任務(wù)

例如，一個(gè)在大規(guī)模圖像數(shù)據(jù)上預(yù)訓(xùn)練的視覺模型，可以遷移到醫(yī)學(xué)影像分類、工業(yè)缺陷檢測(cè)等任務(wù)中；一個(gè)在大規(guī)模文本數(shù)據(jù)上預(yù)訓(xùn)練的語(yǔ)言模型，可以遷移到問(wèn)答、摘要、分類、翻譯等任務(wù)中。

這說(shuō)明，深度學(xué)習(xí)中的表示并不只服務(wù)于單一任務(wù)，還可以成為多個(gè)任務(wù)共享的基礎(chǔ)能力。

六、多模態(tài)任務(wù)：聯(lián)合理解不同類型的數(shù)據(jù)

多模態(tài)任務(wù)（Multimodal Task）是深度學(xué)習(xí)發(fā)展的重要方向。它要求模型能夠同時(shí)處理文本、圖像、音頻、視頻等不同類型的數(shù)據(jù)，并在它們之間建立語(yǔ)義聯(lián)系。

例如：

? 根據(jù)圖片回答問(wèn)題

? 根據(jù)文字生成圖片

? 根據(jù)視頻內(nèi)容生成摘要

? 根據(jù)語(yǔ)音和畫面理解會(huì)議內(nèi)容

? 根據(jù)圖文信息判斷商品是否匹配

? 根據(jù)圖片和文本進(jìn)行跨模態(tài)檢索

多模態(tài)任務(wù)的核心是：不同類型的數(shù)據(jù)雖然形式不同，但可以在語(yǔ)義層面建立聯(lián)系。

圖 10：多模態(tài)任務(wù)的一般結(jié)構(gòu)

1、圖文理解

圖文理解（Vision-Language Understanding）要求模型同時(shí)理解圖像內(nèi)容和文本問(wèn)題。

例如，用戶輸入一張交通場(chǎng)景圖片，并提出問(wèn)題：

“圖中是否有人正在過(guò)馬路？”

模型需要先識(shí)別圖像中的道路、行人、車輛和交通環(huán)境，再結(jié)合文本問(wèn)題給出回答。

圖文問(wèn)答可以表示為：

其中：

? q 表示文本問(wèn)題

? x_image 表示輸入圖像

? a 表示模型回答

? f 表示圖文理解模型

圖文理解不是簡(jiǎn)單的“看圖說(shuō)話”，而是要把視覺信息與語(yǔ)言問(wèn)題結(jié)合起來(lái)。

2、跨模態(tài)檢索

跨模態(tài)檢索（Cross-modal Retrieval）是指用一種模態(tài)的信息去檢索另一種模態(tài)的信息。

例如：

? 輸入一句文字，檢索相關(guān)圖片

? 輸入一張圖片，檢索相關(guān)文字描述

? 輸入一段音頻，檢索相關(guān)視頻片段

跨模態(tài)檢索依賴統(tǒng)一表示空間。可以簡(jiǎn)化表示為：

其中：

? h_text 表示文本向量

? h_image 表示圖像向量

? sim 表示相似度函數(shù)

相似度越高，表示文本與圖像越匹配。

跨模態(tài)檢索說(shuō)明，深度學(xué)習(xí)不僅可以處理單一類型數(shù)據(jù)，還可以在不同類型數(shù)據(jù)之間建立語(yǔ)義橋梁。

七、深度強(qiáng)化學(xué)習(xí)任務(wù)：用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)行動(dòng)策略

深度強(qiáng)化學(xué)習(xí)（Deep Reinforcement Learning）是深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合形成的方向。它使用神經(jīng)網(wǎng)絡(luò)表示策略函數(shù)或價(jià)值函數(shù)，使智能體能夠在復(fù)雜環(huán)境中學(xué)習(xí)行動(dòng)策略。

普通強(qiáng)化學(xué)習(xí)常用于狀態(tài)空間較小的問(wèn)題，而深度強(qiáng)化學(xué)習(xí)適合處理高維狀態(tài)，例如：

? 游戲畫面

? 機(jī)器人傳感器數(shù)據(jù)

? 自動(dòng)駕駛環(huán)境感知信息

? 連續(xù)控制任務(wù)

在深度強(qiáng)化學(xué)習(xí)中，智能體（Agent）通過(guò)與環(huán)境（Environment）交互，不斷嘗試動(dòng)作，并根據(jù)獎(jiǎng)勵(lì)反饋調(diào)整策略。

圖 11：深度強(qiáng)化學(xué)習(xí)交互過(guò)程

1、策略學(xué)習(xí)

策略（Policy）表示智能體在某個(gè)狀態(tài)下選擇動(dòng)作的規(guī)則。

在深度強(qiáng)化學(xué)習(xí)中，策略可以由神經(jīng)網(wǎng)絡(luò)表示：

其中：

? s 表示當(dāng)前狀態(tài)

? a 表示智能體選擇的動(dòng)作

? πθ 表示由參數(shù) θ 控制的策略網(wǎng)絡(luò)

如果動(dòng)作是離散的，策略也可以輸出每個(gè)動(dòng)作的概率：

其中：

? πθ(a ∣ s) 表示在狀態(tài) s 下選擇動(dòng)作 a 的概率

模型訓(xùn)練的目標(biāo)是讓高價(jià)值動(dòng)作獲得更高概率。

例如，在游戲智能體中，輸入可以是當(dāng)前游戲畫面，輸出可以是向上、向下、向左、向右、攻擊、跳躍等動(dòng)作的概率。

2、價(jià)值學(xué)習(xí)

價(jià)值函數(shù)（Value Function）用于評(píng)估某個(gè)狀態(tài)或某個(gè)動(dòng)作在長(zhǎng)期來(lái)看是否有利。

狀態(tài)價(jià)值函數(shù)可以寫成：

其中：

? V(s) 表示狀態(tài) s 的長(zhǎng)期價(jià)值

價(jià)值越高，說(shuō)明從該狀態(tài)出發(fā)越可能獲得較高累積獎(jiǎng)勵(lì)。

動(dòng)作價(jià)值函數(shù)可以寫成：

其中：

? Q(s,a) 表示在狀態(tài) s 下執(zhí)行動(dòng)作 a 的長(zhǎng)期價(jià)值

它不僅評(píng)價(jià)當(dāng)前狀態(tài)，也評(píng)價(jià)具體動(dòng)作。

在深度 Q 網(wǎng)絡(luò)（Deep Q-Network，DQN）中，Q 函數(shù)由神經(jīng)網(wǎng)絡(luò)近似：

其中：

? θ 表示神經(jīng)網(wǎng)絡(luò)參數(shù)

? 模型輸入狀態(tài) s，輸出不同動(dòng)作的價(jià)值估計(jì)

? 智能體通常選擇 Q 值較高的動(dòng)作

深度強(qiáng)化學(xué)習(xí)的核心難點(diǎn)在于：模型不僅要識(shí)別環(huán)境狀態(tài)，還要在長(zhǎng)期獎(jiǎng)勵(lì)、探索與利用之間做權(quán)衡。

八、深度學(xué)習(xí)任務(wù)之間的區(qū)別與聯(lián)系

深度學(xué)習(xí)任務(wù)雖然形式多樣，但并不是彼此孤立的。

圖 12：深度學(xué)習(xí)任務(wù)之間的關(guān)系

感知任務(wù)強(qiáng)調(diào)從復(fù)雜輸入中識(shí)別對(duì)象和結(jié)構(gòu)，例如圖像分類、目標(biāo)檢測(cè)、圖像分割、語(yǔ)音識(shí)別和視頻理解。

序列建模任務(wù)強(qiáng)調(diào)處理有順序關(guān)系的數(shù)據(jù)，例如文本分類、機(jī)器翻譯、語(yǔ)音識(shí)別和時(shí)間序列預(yù)測(cè)。

生成任務(wù)強(qiáng)調(diào)學(xué)習(xí)數(shù)據(jù)分布，并創(chuàng)造新的內(nèi)容，例如文本生成、圖像生成、語(yǔ)音生成、音樂(lè)生成和視頻生成。

表示學(xué)習(xí)任務(wù)強(qiáng)調(diào)學(xué)習(xí)數(shù)據(jù)的內(nèi)部表示。它往往不是最終應(yīng)用本身，而是支撐分類、檢索、推薦、生成和推理的基礎(chǔ)能力。

多模態(tài)任務(wù)強(qiáng)調(diào)聯(lián)合處理不同類型的數(shù)據(jù)，使模型能夠在文本、圖像、音頻和視頻之間建立聯(lián)系。

深度強(qiáng)化學(xué)習(xí)任務(wù)強(qiáng)調(diào)在交互過(guò)程中學(xué)習(xí)行動(dòng)策略。它不只是“看懂?dāng)?shù)據(jù)”，還要根據(jù)環(huán)境反饋決定“怎樣行動(dòng)”。

如果用更直觀的話概括：

? 感知任務(wù)回答“看到了什么、聽到了什么”

? 序列建模任務(wù)回答“前后關(guān)系是什么、接下來(lái)會(huì)怎樣”

? 生成任務(wù)回答“能否創(chuàng)造新的內(nèi)容”

? 表示學(xué)習(xí)任務(wù)回答“如何把復(fù)雜數(shù)據(jù)變成可計(jì)算的表示”

? 多模態(tài)任務(wù)回答“如何聯(lián)合理解不同類型的信息”

? 深度強(qiáng)化學(xué)習(xí)任務(wù)回答“在環(huán)境中應(yīng)該怎樣行動(dòng)”

從技術(shù)角度看，很多現(xiàn)代系統(tǒng)并不會(huì)只使用一種任務(wù)。例如，自動(dòng)駕駛系統(tǒng)可能同時(shí)使用目標(biāo)檢測(cè)、圖像分割、軌跡預(yù)測(cè)和強(qiáng)化學(xué)習(xí)；大語(yǔ)言模型既涉及序列建模，也涉及生成任務(wù)和表示學(xué)習(xí)；多模態(tài)模型則同時(shí)處理文本、圖像、音頻和視頻。

因此，理解深度學(xué)習(xí)的主要任務(wù)，不只是記住若干任務(wù)名稱，更重要的是理解：深度學(xué)習(xí)如何圍繞數(shù)據(jù)表示、模式識(shí)別、內(nèi)容生成、多模態(tài)理解和行為決策，構(gòu)建完整的智能系統(tǒng)。

小結(jié)

深度學(xué)習(xí)的主要任務(wù)包括感知、序列建模、生成、表示學(xué)習(xí)、多模態(tài)理解和深度強(qiáng)化學(xué)習(xí)。它通過(guò)多層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)復(fù)雜數(shù)據(jù)表示，既能識(shí)別內(nèi)容、理解序列，也能生成數(shù)據(jù)、連接多種模態(tài)，并支持智能決策。

“點(diǎn)贊有美意，贊賞是鼓勵(lì)”

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.