網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

人工智能通識(shí)課：多模態(tài)大模型

2026-05-26 13:57:40　來源: MediaTea

湖南舉報(bào)

分享至

多模態(tài)大模型（Multimodal Large Model，MLM）是能夠處理多種信息形式的人工智能模型，典型模態(tài)包括文本、圖像、語音和視頻等。它不只處理文字，還可以理解圖片、分析聲音、識(shí)別視頻，并在不同模態(tài)之間建立聯(lián)系。

其中，多模態(tài)大語言模型（Multimodal Large Language Model，MLLM）是較常見的一類，通常以大語言模型為核心，擴(kuò)展圖像、語音、視頻等輸入輸出能力，使用戶可以用自然語言完成跨模態(tài)理解、推理和生成任務(wù)。

嚴(yán)格地說，MLLM 不等同于所有多模態(tài)大模型，而是其中以語言模型為核心的一類。

如果說大語言模型讓人工智能具備了以自然語言為核心的人機(jī)交互能力，那么多模態(tài)大模型則進(jìn)一步把這種能力擴(kuò)展到更接近真實(shí)世界的復(fù)雜信息環(huán)境中。

真實(shí)世界并不是只由文字組成的：醫(yī)生看影像，學(xué)生看圖表，司機(jī)看道路，工程師看圖紙，用戶上傳截圖或視頻提出問題。

多模態(tài)大模型的目標(biāo)，就是讓機(jī)器能夠綜合理解這些不同來源的信息，并用自然語言、圖像、語音或行動(dòng)結(jié)果進(jìn)行反饋。

圖 1：多模態(tài)大模型在人工智能體系中的位置

多模態(tài)大模型并不只是簡單調(diào)用幾個(gè)獨(dú)立模型，而是通過模態(tài)編碼、跨模態(tài)對(duì)齊、連接模塊或統(tǒng)一 Token 化等方式，使不同模態(tài)的信息能夠進(jìn)入同一任務(wù)系統(tǒng)，被共同理解、關(guān)聯(lián)、推理和生成。

從 CLIP 的圖文對(duì)齊，到 BLIP-2、LLaVA 等視覺語言模型，再到支持圖像、語音和視頻交互的通用模型，多模態(tài)大模型已經(jīng)逐漸從“圖文匹配”走向“跨模態(tài)理解、推理與生成”。

一、什么是多模態(tài)大模型

模態(tài)（Modality）是信息存在和表達(dá)的不同形式。對(duì)人工智能來說，最典型的模態(tài)是文本、圖像、語音和視頻。

文本適合表達(dá)概念、知識(shí)、邏輯和規(guī)則；

圖像適合表達(dá)空間結(jié)構(gòu)、顏色、形狀、位置和視覺細(xì)節(jié)；

語音不僅包含語言內(nèi)容，還包含語速、語調(diào)、停頓和情緒；

視頻則在圖像和音頻的基礎(chǔ)上增加了時(shí)間變化、動(dòng)作過程和事件順序。

多模態(tài)大模型，就是能夠同時(shí)處理這些不同模態(tài)信息的人工智能模型。它可以把文字、圖片、聲音、視頻等信息轉(zhuǎn)換為模型能夠計(jì)算的表示，并在不同模態(tài)之間建立聯(lián)系。

例如：

? 用戶上傳一道幾何題圖片，模型可以識(shí)別題目、圖形和條件，并用文字講解解題思路

? 用戶上傳一張軟件報(bào)錯(cuò)截圖，模型可以讀取界面文字，并分析可能原因

? 用戶上傳一張統(tǒng)計(jì)圖表，模型可以解釋坐標(biāo)軸、趨勢和異常變化

? 用戶用語音提出問題，模型可以聽懂指令并用語音或文字回答

? 用戶上傳一段視頻，模型可以總結(jié)其中的動(dòng)作、事件和場景變化

需要注意的是，“多模態(tài)大模型”是較寬泛的概念。它可以包括圖文理解模型、文生圖模型、語音模型、視頻生成模型、機(jī)器人感知模型等。

而“多模態(tài)大語言模型”更強(qiáng)調(diào)以大語言模型為核心，用自然語言作為統(tǒng)一交互接口，連接圖像、語音、視頻等模態(tài)能力。

在相關(guān)術(shù)語中，還常見以下概念：

? 視覺語言模型（Vision-Language Model，VLM）

主要處理圖像和文本之間的理解、檢索和生成任務(wù)。

? 大視覺語言模型（Large Vision-Language Model，LVLM）

規(guī)模更大、能力更強(qiáng)的視覺語言模型。

? 多模態(tài)大語言模型（MLLM）

通常以 LLM 為核心，擴(kuò)展視覺、語音、視頻等多模態(tài)能力。

? 多模態(tài)大模型（MLM）

更寬泛，可指各種面向多模態(tài)信息處理的大規(guī)模基礎(chǔ)模型。

因此，本文在討論通用概念時(shí)使用“多模態(tài)大模型”，在強(qiáng)調(diào)以語言模型為核心的圖文、語音、視頻交互系統(tǒng)時(shí)使用“多模態(tài)大語言模型”。

二、從單模態(tài)模型到多模態(tài)大模型

多模態(tài)大模型并不是突然出現(xiàn)的，而是人工智能從單一任務(wù)、單一模態(tài)逐步走向統(tǒng)一交互系統(tǒng)的結(jié)果。

1、單模態(tài)模型：一次只處理一種信息

早期許多人工智能模型主要面向單一模態(tài)。

例如，文本分類模型處理文章和評(píng)論，圖像分類模型識(shí)別圖片中的物體，語音識(shí)別模型把聲音轉(zhuǎn)換成文字。

這類模型在特定任務(wù)上很有效，但能力邊界比較清楚：文本模型看不懂圖片，圖像模型不能理解復(fù)雜語言指令，語音模型也無法直接分析圖表或視頻。

2、雙模態(tài)模型：建立兩種模態(tài)之間的聯(lián)系

隨著深度學(xué)習(xí)的發(fā)展，研究者開始探索圖像與文本之間的關(guān)系。

例如，模型可以根據(jù)圖片生成文字描述，也可以根據(jù)文字檢索相關(guān)圖片。

CLIP 的代表性思想，就是通過大量圖文對(duì)進(jìn)行對(duì)比學(xué)習(xí)，讓匹配的圖像和文字在向量空間中更接近，不匹配的圖像和文字距離更遠(yuǎn)。這使模型能夠?qū)W習(xí)視覺概念和語言概念之間的對(duì)應(yīng)關(guān)系。

視覺語言模型正是在這一方向上發(fā)展起來的。它們使模型不再只是“看圖分類”，而是能夠回答與圖片有關(guān)的問題，解釋圖片內(nèi)容，甚至按照語言指令分析視覺信息。

3、多模態(tài)大模型：統(tǒng)一處理多種信息

多模態(tài)大模型進(jìn)一步擴(kuò)展了信息處理范圍。它不僅處理文本和圖像，也可能處理語音、視頻、文檔、表格、網(wǎng)頁、傳感器信號(hào)和工具結(jié)果。

圖 2：從單模態(tài)模型到多模態(tài)大模型

更重要的是，它通常以自然語言作為交互接口。用戶可以用普通語言提出要求，模型再綜合分析圖像、文字、聲音或視頻，并生成可理解的回答。

因此，多模態(tài)大模型可以理解為大語言模型能力的擴(kuò)展：語言仍然是重要接口，但模型的感知范圍不再局限于文字。

三、什么是模態(tài)

模態(tài)（Modality）是信息存在和表達(dá)的不同形式。

人類認(rèn)識(shí)世界本身就是多模態(tài)的：我們通過眼睛獲得視覺信息，通過耳朵獲得聲音信息，通過語言表達(dá)想法，通過動(dòng)作與環(huán)境交互。

在人工智能中，最常見的模態(tài)包括文本、圖像、語音和視頻。

圖 3：多模態(tài)信息的基本類型

1、文本模態(tài)

文本是最常見的信息形式之一，包括文章、問答、代碼、網(wǎng)頁、書籍、論文、聊天記錄、說明書、合同、報(bào)告等。

文本模態(tài)具有高度抽象性，適合表達(dá)知識(shí)、邏輯、規(guī)則、概念和推理過程。大語言模型主要就是圍繞文本模態(tài)發(fā)展起來的。

2、圖像模態(tài)

圖像包括照片、截圖、醫(yī)學(xué)影像、遙感圖像、圖表、手寫內(nèi)容、設(shè)計(jì)圖、商品圖片等。

圖像模態(tài)具有空間結(jié)構(gòu)，包含顏色、形狀、位置、紋理、布局等信息。理解圖像，不僅要識(shí)別“圖中有什么”，還要理解對(duì)象之間的位置關(guān)系和整體場景。

3、語音與音頻模態(tài)

語音包含語言內(nèi)容，也包含語速、語調(diào)、音量、停頓和情緒等信息。音頻還包括音樂、環(huán)境聲、機(jī)器噪聲、動(dòng)物聲音等。

因此，語音理解不只是“把聲音轉(zhuǎn)成文字”，還可能涉及說話人狀態(tài)、情緒線索和環(huán)境背景。

4、視頻模態(tài)

視頻可以看作圖像序列與音頻信息的結(jié)合。它不僅包含畫面內(nèi)容，還包含時(shí)間變化、動(dòng)作過程、事件順序和場景轉(zhuǎn)換。

視頻理解比靜態(tài)圖像理解更復(fù)雜，因?yàn)槟Ｐ筒粌H要看懂畫面，還要理解“先發(fā)生什么，后發(fā)生什么”，以及動(dòng)作之間是否存在因果關(guān)系。

5、擴(kuò)展數(shù)據(jù)形式

除了文本、圖像、語音和視頻，表格、代碼、文檔版面、網(wǎng)頁、傳感器信號(hào)和動(dòng)作數(shù)據(jù)也常出現(xiàn)在廣義多模態(tài)系統(tǒng)中。

不過，這些信息通常具有更強(qiáng)的結(jié)構(gòu)化、程序化或時(shí)序特征。例如，代碼既是一種文本，也具有嚴(yán)格語法和執(zhí)行語義；表格既包含文字和數(shù)字，也包含行列結(jié)構(gòu)；傳感器數(shù)據(jù)則往往與時(shí)間、空間和設(shè)備狀態(tài)有關(guān)。

多模態(tài)大模型要解決的核心問題，就是如何讓這些不同形式的信息進(jìn)入同一個(gè)智能系統(tǒng)，并被統(tǒng)一理解和使用。

四、多模態(tài)大模型的基本思想

多模態(tài)大模型的基本思想可以概括為：把不同模態(tài)的數(shù)據(jù)轉(zhuǎn)換為模型能夠處理的表示，再通過對(duì)齊、融合和生成，使模型能夠在多種信息之間建立聯(lián)系。

這一過程可以分為四個(gè)關(guān)鍵環(huán)節(jié)：編碼（Encoding）、對(duì)齊（Alignment）、融合（Fusion）和生成（Generation）。

圖 4：多模態(tài)大模型的基本思想：編碼、對(duì)齊、融合、生成

1、編碼：把不同模態(tài)轉(zhuǎn)換成向量表示

不同模態(tài)的原始形式差異很大。文字是符號(hào)序列，圖片是像素矩陣，語音是聲波信號(hào)，視頻是隨時(shí)間變化的圖像和聲音序列。

模型不能直接“理解”這些原始數(shù)據(jù)，而是需要先把它們轉(zhuǎn)換為可計(jì)算的向量表示。

例如：

? 文本需要被切分為 Token，再轉(zhuǎn)換為文本向量

? 圖像需要通過視覺編碼器轉(zhuǎn)換為視覺特征

? 音頻需要轉(zhuǎn)換為聲學(xué)特征

? 視頻需要轉(zhuǎn)換為包含時(shí)間信息的視覺序列特征

編碼的作用，就是把不同形式的信息轉(zhuǎn)換為模型可以處理的數(shù)學(xué)表示。

2、對(duì)齊：讓不同模態(tài)表達(dá)同一含義

如果一張圖片中有一只貓，文字說明是“一只貓坐在沙發(fā)上”，那么模型需要知道這張圖片和這句話描述的是同一件事。

所謂跨模態(tài)對(duì)齊，就是讓圖像、文本、音頻等不同模態(tài)中語義相近的內(nèi)容，在表示空間中靠近。

圖文對(duì)比學(xué)習(xí)就是一種重要方法。它的直觀目標(biāo)是：匹配的圖像和文字在向量空間中更接近，不匹配的圖像和文字距離更遠(yuǎn)。

3、融合：綜合多種信息完成任務(wù)

對(duì)齊之后，模型還需要把多種模態(tài)的信息融合起來。

例如，回答圖片問題時(shí)，模型既要理解用戶的問題，也要理解圖片內(nèi)容，并把二者結(jié)合起來生成答案。

分析視頻時(shí)，模型需要融合畫面、聲音、字幕和時(shí)間順序。

閱讀文檔時(shí)，模型需要融合文字內(nèi)容、版面結(jié)構(gòu)、表格和圖像。

融合可以發(fā)生在不同層面：有的模型先分別編碼不同模態(tài)，再把特征連接到語言模型；

有的模型在中間層進(jìn)行跨模態(tài)注意力交互；

有的模型采用更統(tǒng)一的 Token 化方式，把文本、圖像、音頻組織成可進(jìn)入同一 Transformer 的序列。

4、生成：輸出文本、圖像、語音或動(dòng)作結(jié)果

多模態(tài)大模型不僅能理解輸入，也可以生成輸出。輸出可以是文字回答、圖片描述、圖像、語音、視頻、結(jié)構(gòu)化結(jié)果，甚至是工具調(diào)用或動(dòng)作指令。

因此，多模態(tài)大模型不只是“看圖聊天”，而是正在成為連接感知、語言、生成和行動(dòng)的重要技術(shù)基礎(chǔ)。

五、多模態(tài)大模型的基本架構(gòu)

多模態(tài)大模型的具體實(shí)現(xiàn)很多，但從通識(shí)角度看，可以把它理解為幾個(gè)模塊的協(xié)同系統(tǒng)：模態(tài)編碼器（Modality Encoder）、連接器（Connector）或投影層（Projection Layer）、大語言模型核心（LLM Core），以及輸出模塊（Output Module）。

圖 5：多模態(tài)大模型的基本結(jié)構(gòu)

1、模態(tài)編碼器

模態(tài)編碼器負(fù)責(zé)把不同類型的數(shù)據(jù)轉(zhuǎn)換成向量表示。

例如：

? 文本編碼器處理文字 Token

? 圖像編碼器處理圖片或圖像塊

? 音頻編碼器處理語音或聲音頻譜

? 視頻編碼器處理連續(xù)幀和時(shí)間變化

在視覺語言模型中，常見做法是用視覺編碼器提取圖像特征，再把視覺特征送入后續(xù)模塊，與語言信息結(jié)合。

2、連接器或投影層

連接器的作用是彌合不同模態(tài)之間的表示差異。

圖像編碼器輸出的是視覺特征，大語言模型接收的是語言相關(guān)向量，二者并不能天然匹配。因此，需要一個(gè)投影層、查詢變換器或跨模態(tài)適配模塊，將視覺特征轉(zhuǎn)換成語言模型可接收的形式。

BLIP-2 使用輕量連接模塊連接凍結(jié)圖像編碼器和凍結(jié)大語言模型，體現(xiàn)了“凍結(jié)大模型 + 輕量連接模塊”的一種重要思路。

LLaVA 則展示了視覺編碼器與大語言模型結(jié)合后，通過視覺指令微調(diào)構(gòu)建視覺語言助手的路線。

3、大語言模型核心

許多多模態(tài)大語言模型仍然以大語言模型為核心。原因在于，大語言模型已經(jīng)具備較強(qiáng)的語言理解、指令遵循、知識(shí)組織和文本生成能力。

視覺、音頻、視頻等模態(tài)經(jīng)過編碼和對(duì)齊后，可以作為額外上下文進(jìn)入語言模型，由語言模型完成推理、解釋和回答。

4、輸出模塊

多模態(tài)大模型的輸出可以是文本，也可以是圖像、語音、視頻、工具調(diào)用或動(dòng)作計(jì)劃。

例如：

? 看圖問答輸出文字答案

? 文生圖模型輸出圖像

? 語音助手輸出語音

? 智能體系統(tǒng)輸出工具調(diào)用

? 機(jī)器人系統(tǒng)輸出動(dòng)作計(jì)劃

5、常見架構(gòu)路線

從技術(shù)路線看，多模態(tài)大模型大致可以分為幾類。

第一類是編碼器—連接器—LLM路線。

這是當(dāng)前很多多模態(tài)大語言模型的常見形式，即用視覺或音頻編碼器提取特征，再通過連接器送入大語言模型。

第二類是跨模態(tài)注意力路線。

不同模態(tài)的信息在模型中間層進(jìn)行交互，模型通過注意力機(jī)制學(xué)習(xí)不同模態(tài)之間的關(guān)系。

第三類是統(tǒng)一 Token路線。

模型嘗試把文本、圖像、音頻等不同模態(tài)都轉(zhuǎn)換為統(tǒng)一的 Token 序列，使它們進(jìn)入同一模型框架處理。

第四類是多模型工具協(xié)作路線。

大語言模型負(fù)責(zé)理解任務(wù)和組織結(jié)果，視覺識(shí)別、語音識(shí)別、圖像生成、檢索系統(tǒng)等專用工具負(fù)責(zé)完成具體操作。

這些路線并不是互相排斥的。在真實(shí)系統(tǒng)中，它們常常結(jié)合使用。

六、跨模態(tài)對(duì)齊：讓圖像和文字理解同一件事

跨模態(tài)對(duì)齊（Cross-modal Alignment）是多模態(tài)學(xué)習(xí)的核心問題之一。它要解決的是：不同模態(tài)的信息如何表達(dá)同一語義。

例如：

? 圖片中有“一只狗在草地上奔跑”

? 文字說明寫著“狗正在草地上跑”

? 視頻展示了狗從左向右奔跑

? 音頻中可能有狗叫聲

這些模態(tài)形式不同，但都與“狗”“草地”“奔跑”這些語義有關(guān)。跨模態(tài)對(duì)齊的目標(biāo)，就是讓模型知道它們之間的對(duì)應(yīng)關(guān)系。

圖 6：圖文對(duì)齊的基本思想

1、圖文對(duì)比學(xué)習(xí)

圖文對(duì)比學(xué)習(xí)是跨模態(tài)對(duì)齊的重要方法。其基本思想是：

? 匹配的圖像和文字說明應(yīng)當(dāng)更接近

? 不匹配的圖像和文字說明應(yīng)當(dāng)更遠(yuǎn)離

? 模型通過大量圖文對(duì)學(xué)習(xí)視覺概念和語言概念之間的對(duì)應(yīng)關(guān)系

這種方法的價(jià)值在于，它可以利用互聯(lián)網(wǎng)上大量“圖片—文字說明”數(shù)據(jù)，而不必完全依賴人工標(biāo)注的固定類別。

CLIP（Contrastive Language-Image Pre-training，中文常譯為“對(duì)比語言-圖像預(yù)訓(xùn)練”）就是這一方向的代表性工作之一。它通過大規(guī)模圖文對(duì)比學(xué)習(xí)展示了自然語言監(jiān)督對(duì)視覺表征學(xué)習(xí)的價(jià)值，也推動(dòng)了后續(xù)圖文檢索、零樣本分類和視覺語言模型的發(fā)展。

2、對(duì)齊不等于完全理解

需要注意的是，對(duì)齊只是多模態(tài)理解的基礎(chǔ)，并不等于模型真正具備可靠的視覺推理能力。

模型可能知道“貓”和貓的圖片有關(guān)，但未必能準(zhǔn)確數(shù)出圖片中有幾只貓；

可能能識(shí)別圖表類型，但未必能正確讀取細(xì)小數(shù)字；

可能能描述場景，但會(huì)忽略關(guān)鍵細(xì)節(jié)。

因此，多模態(tài)大模型還需要更復(fù)雜的訓(xùn)練任務(wù)、指令微調(diào)、視覺推理數(shù)據(jù)和安全評(píng)估。

七、多模態(tài)大模型能做什么

多模態(tài)大模型不是單純“看圖聊天”的工具，而是可以圍繞理解、問答、生成、檢索和行動(dòng)完成多種任務(wù)。

圖 7：多模態(tài)大模型主要任務(wù)體系圖

1、理解：看懂圖像、文檔、圖表、視頻和語音

多模態(tài)理解任務(wù)要求模型根據(jù)多種輸入信息進(jìn)行識(shí)別、分析和解釋。

常見任務(wù)包括：

? 圖像描述：根據(jù)圖片生成文字說明

? OCR：識(shí)別圖片、截圖、掃描件中的文字

? 文檔理解：理解 PDF、PPT、試卷、合同、網(wǎng)頁和教材頁面

? 圖表分析：讀取柱狀圖、折線圖、餅圖、散點(diǎn)圖中的趨勢和比較關(guān)系

? 視頻理解：分析動(dòng)作、事件順序、場景變化和人物互動(dòng)

? 語音理解：識(shí)別語音內(nèi)容、語調(diào)、停頓和部分情緒線索

例如，用戶上傳一張折線圖并問：“哪個(gè)月份增長最快？”模型需要識(shí)別橫軸、縱軸、數(shù)據(jù)點(diǎn)和變化趨勢，再生成解釋。

2、問答：根據(jù)多模態(tài)信息回答問題

視覺問答（Visual Question Answering，VQA）是典型多模態(tài)問答任務(wù)。模型需要同時(shí)理解圖片和問題，再生成答案。

圖 8：視覺問答 VQA 的工作流程

例如，用戶上傳一張餐桌圖片并問：“桌子上有幾杯飲料？”模型需要先識(shí)別圖片中的杯子，再計(jì)數(shù)，再用語言回答。

類似地，多模態(tài)模型也可以進(jìn)行文檔問答、圖表問答、截圖問答、視頻問答和語音問答。

3、生成：從一種模態(tài)生成另一種模態(tài)

多模態(tài)生成任務(wù)包括文生圖、圖生文、圖像編輯、語音生成和視頻生成等。

例如：

? 文生圖：根據(jù)文字提示生成圖片

? 圖生文：根據(jù)圖片生成說明、摘要或報(bào)告

? 圖像編輯：根據(jù)自然語言修改圖片

? 語音生成：把文本轉(zhuǎn)換為自然語音

? 視頻生成：根據(jù)提示生成或編輯視頻片段

其中，文生圖和圖像編輯已經(jīng)廣泛用于教學(xué)插圖、廣告設(shè)計(jì)、創(chuàng)意草圖和內(nèi)容生產(chǎn)。視頻生成則更復(fù)雜，因?yàn)樗枰３謺r(shí)間連續(xù)性、角色一致性、動(dòng)作合理性和場景穩(wěn)定性。

4、檢索：用一種模態(tài)查找另一種模態(tài)

跨模態(tài)檢索是指用一種模態(tài)查詢另一種模態(tài)。例如：

? 用文字搜索圖片

? 用圖片搜索相似商品

? 用截圖檢索相關(guān)文檔

? 用語音搜索視頻片段

? 用自然語言查詢圖表或表格

跨模態(tài)檢索使用戶不必準(zhǔn)確知道文件名、標(biāo)簽或關(guān)鍵詞，而可以用更自然的方式查找信息。

5、行動(dòng)：連接工具、智能體和機(jī)器人

當(dāng)多模態(tài)大模型與工具、環(huán)境和執(zhí)行系統(tǒng)結(jié)合時(shí)，可以進(jìn)一步用于智能體和機(jī)器人任務(wù)。

例如，模型可以看屏幕、讀說明、聽指令、調(diào)用工具，并執(zhí)行一系列操作。

機(jī)器人系統(tǒng)還可能結(jié)合攝像頭、語音、傳感器和動(dòng)作控制，使模型從“理解信息”進(jìn)一步走向“輔助行動(dòng)”。

不過，這類任務(wù)對(duì)安全性、實(shí)時(shí)性和可靠性要求更高，不能只依賴模型生成結(jié)果。

八、多模態(tài) RAG 與工具增強(qiáng)

在大語言模型中，可以讓模型連接外部文本知識(shí)庫。

在多模態(tài)場景中，RAG 也可以擴(kuò)展為多模態(tài)檢索增強(qiáng)生成。它不只檢索文字，還可以檢索圖片、表格、圖表、PDF 頁面、音頻片段和視頻片段。

圖 9：多模態(tài) RAG 與工具增強(qiáng)流程

1、多模態(tài) RAG

一個(gè)典型多模態(tài) RAG 系統(tǒng)可以包括以下步驟：

（1）用戶提出問題，可能同時(shí)上傳圖片、截圖、文檔或視頻；

（2）系統(tǒng)識(shí)別問題涉及的模態(tài)類型；

（3）檢索器從文本庫、圖片庫、文檔庫或視頻庫中找出相關(guān)內(nèi)容；

（4）系統(tǒng)把檢索結(jié)果轉(zhuǎn)換為模型可處理的上下文；

（5）多模態(tài)大模型綜合用戶問題與檢索結(jié)果生成回答；

（6）輸出答案，并盡可能提供依據(jù)或來源。

多模態(tài) RAG 適合企業(yè)文檔問答、教材輔助學(xué)習(xí)、工業(yè)設(shè)備維護(hù)、商品客服、合同審閱等場景。

但多模態(tài) RAG 比文本 RAG 更復(fù)雜。

圖片需要視覺特征檢索，文檔需要版面解析，視頻需要切片和時(shí)間定位，表格需要結(jié)構(gòu)化理解。

檢索到相關(guān)資料并不等于模型一定能正確理解，因此仍然需要來源標(biāo)注、結(jié)果核查和人工審核。

2、工具增強(qiáng)

多模態(tài)大模型還可以調(diào)用外部工具完成任務(wù)。例如：

? 調(diào)用 OCR 工具識(shí)別圖片中文字

? 調(diào)用搜索工具獲取最新資料

? 調(diào)用計(jì)算工具處理表格數(shù)據(jù)

? 調(diào)用代碼工具生成圖表

? 調(diào)用圖像生成工具生成配圖

? 調(diào)用數(shù)據(jù)庫查詢業(yè)務(wù)信息

工具增強(qiáng)的核心思想是：讓大模型負(fù)責(zé)理解任務(wù)、組織流程和生成解釋，讓外部工具負(fù)責(zé)檢索、計(jì)算、識(shí)別、生成和驗(yàn)證。

3、智能體工作流

當(dāng)模型能夠根據(jù)目標(biāo)拆解步驟、選擇工具、讀取反饋并調(diào)整行動(dòng)時(shí)，就形成了更復(fù)雜的智能體工作流。

例如，用戶要求模型根據(jù)一份產(chǎn)品說明書和一組設(shè)備照片生成維修建議。系統(tǒng)可能先讀取說明書，再分析設(shè)備照片，然后檢索故障碼，最后整理成排查步驟。

這類系統(tǒng)的價(jià)值在于處理復(fù)雜任務(wù)，但也更容易在工具選擇、參數(shù)設(shè)置、結(jié)果解釋和責(zé)任歸屬上出錯(cuò)。因此，重要應(yīng)用必須保留日志、權(quán)限控制和人工確認(rèn)機(jī)制。

九、如何評(píng)估多模態(tài)大模型

高質(zhì)量使用多模態(tài)大模型，不能只看它“能不能回答”，還要看它“看得準(zhǔn)不準(zhǔn)、讀得對(duì)不對(duì)、推理是否可靠、輸出是否安全”。

多模態(tài)模型的評(píng)估通常比純文本模型更復(fù)雜，因?yàn)殄e(cuò)誤可能來自多個(gè)環(huán)節(jié)：視覺識(shí)別錯(cuò)誤、OCR 錯(cuò)誤、圖表讀數(shù)錯(cuò)誤、視頻時(shí)間理解錯(cuò)誤、跨模態(tài)對(duì)齊錯(cuò)誤，也可能來自語言生成階段的幻覺。

1、視覺識(shí)別準(zhǔn)確性

視覺識(shí)別準(zhǔn)確性關(guān)注模型能否正確識(shí)別圖片中的對(duì)象、屬性、數(shù)量、位置和關(guān)系。

例如，模型是否能準(zhǔn)確判斷圖片中有幾個(gè)人、物體在哪里、顏色是否正確、人物動(dòng)作是否符合畫面內(nèi)容。

這類評(píng)估對(duì)于看圖問答、圖像描述、工業(yè)質(zhì)檢、醫(yī)學(xué)影像輔助閱讀等任務(wù)很重要。

2、OCR 與文檔理解準(zhǔn)確性

OCR（Optical Character Recognition，光學(xué)字符識(shí)別）準(zhǔn)確性關(guān)注模型能否正確讀取圖片或文檔中的文字。

文檔理解還要求模型理解標(biāo)題、正文、表格、圖注、頁碼、腳注、編號(hào)和版面結(jié)構(gòu)之間的關(guān)系。

在合同、票據(jù)、藥品說明、考試題目、財(cái)務(wù)報(bào)表等場景中，OCR 或版面理解錯(cuò)誤可能導(dǎo)致嚴(yán)重后果。

3、圖表讀數(shù)與數(shù)據(jù)理解準(zhǔn)確性

圖表理解要求模型正確識(shí)別坐標(biāo)軸、單位、圖例、數(shù)值和趨勢。

模型不僅要看懂圖表類型，還要避免誤讀比例尺、單位、顏色含義和數(shù)據(jù)點(diǎn)位置。對(duì)于涉及數(shù)字結(jié)論的任務(wù)，關(guān)鍵數(shù)值必須人工復(fù)核或使用專門工具驗(yàn)證。

4、視頻時(shí)間理解能力

視頻理解不僅是看懂某一幀，而是理解動(dòng)作、事件順序和時(shí)間變化。

評(píng)估視頻理解時(shí)，需要關(guān)注模型是否能正確識(shí)別關(guān)鍵幀、動(dòng)作開始和結(jié)束、事件先后順序，以及人物或物體之間的因果關(guān)系。

5、跨模態(tài)一致性

跨模態(tài)一致性關(guān)注模型能否讓不同模態(tài)的信息相互匹配。

例如，圖片內(nèi)容是否支持文字回答；圖表數(shù)據(jù)是否支持模型總結(jié)；視頻畫面是否支持模型描述的事件；檢索到的文檔是否真正回答了用戶問題。

這類評(píng)估對(duì)于多模態(tài) RAG、視覺問答和文檔問答尤其重要。

6、生成內(nèi)容真實(shí)性與安全性

多模態(tài)生成模型可以生成圖片、語音和視頻，因此還要評(píng)估生成內(nèi)容是否真實(shí)可信、是否侵犯版權(quán)、是否可能造成誤導(dǎo)、是否涉及隱私和肖像風(fēng)險(xiǎn)。

對(duì)于 AI 生成圖片、語音和視頻，應(yīng)在需要時(shí)標(biāo)注生成來源，避免造成真實(shí)內(nèi)容與生成內(nèi)容混淆。

7、高風(fēng)險(xiǎn)場景人工復(fù)核

醫(yī)療、法律、金融、交通、安防、教育評(píng)價(jià)等場景對(duì)錯(cuò)誤容忍度很低。即使模型表現(xiàn)良好，也不能直接替代專業(yè)人員判斷。

在這些場景中，多模態(tài)模型更適合做輔助閱讀、信息整理、風(fēng)險(xiǎn)提示和初步分析，最終判斷必須由有資質(zhì)的人承擔(dān)。

十、能力邊界、風(fēng)險(xiǎn)與正確使用

多模態(tài)大模型擴(kuò)展了 AI 的感知與交互能力，但也擴(kuò)大了錯(cuò)誤來源。它不僅可能在語言上出錯(cuò)，還可能在視覺識(shí)別、OCR、圖表讀數(shù)、視頻時(shí)間理解和跨模態(tài)推理中出錯(cuò)。

因此，多模態(tài)模型的風(fēng)險(xiǎn)治理必須同時(shí)關(guān)注內(nèi)容安全、事實(shí)準(zhǔn)確、隱私保護(hù)和模態(tài)理解可靠性。

圖 10：多模態(tài)大模型的能力邊界與風(fēng)險(xiǎn)

1、能看圖，不等于看得準(zhǔn)

視覺幻覺是指模型描述了圖片中不存在的內(nèi)容，或錯(cuò)誤判斷對(duì)象、屬性、數(shù)量和關(guān)系。

例如，圖中明明只有兩個(gè)人，模型卻說有三個(gè)人；圖片中沒有文字，模型卻編造出文字內(nèi)容；圖片中某個(gè)細(xì)小區(qū)域很關(guān)鍵，模型卻直接忽略。

因此，看圖任務(wù)不能只看回答是否流暢，還要對(duì)照原圖檢查關(guān)鍵細(xì)節(jié)。

2、能讀文字，不等于 OCR 完全可靠

多模態(tài)模型可以讀取圖片中的文字，但在小字、模糊圖片、復(fù)雜背景、手寫文字、傾斜文本和低分辨率截圖中容易識(shí)別錯(cuò)誤。

在合同、票據(jù)、藥品說明、考試題目等場景中，OCR 錯(cuò)誤可能導(dǎo)致嚴(yán)重后果。關(guān)鍵文字和數(shù)字必須與原圖核對(duì)。

3、能讀圖表，不等于數(shù)值一定正確

圖表理解要求模型正確識(shí)別坐標(biāo)軸、圖例、單位、顏色含義和數(shù)據(jù)變化。模型如果誤讀坐標(biāo)尺度或忽略單位，就可能生成錯(cuò)誤分析。

因此，涉及數(shù)字結(jié)論時(shí)，應(yīng)使用原始數(shù)據(jù)或?qū)ｉT工具復(fù)核，不應(yīng)只依賴模型的視覺判斷。

4、能理解視頻，不等于理解完整因果

視頻包含時(shí)間順序和動(dòng)作變化。模型可能看懂某一幀，卻誤解整個(gè)事件過程；也可能忽略關(guān)鍵幀，導(dǎo)致對(duì)動(dòng)作原因和結(jié)果判斷錯(cuò)誤。

因此，視頻分析尤其需要關(guān)注時(shí)間線、關(guān)鍵幀和事件證據(jù)。

5、能生成圖像，不等于內(nèi)容真實(shí)可信

多模態(tài)生成模型可以生成逼真的圖片、語音和視頻，也可能被濫用于虛假新聞、身份冒充、詐騙、偽造證據(jù)和輿論操縱。

因此，生成內(nèi)容應(yīng)明確標(biāo)注來源。涉及人物肖像、新聞事件、公共信息和商業(yè)傳播時(shí)，更要注意真實(shí)性、版權(quán)和倫理風(fēng)險(xiǎn)。

6、能跨模態(tài)推理，不等于推理過程可靠

多模態(tài)推理要求模型同時(shí)處理圖片、文字、圖表、語音、視頻等多種信息。任何一個(gè)環(huán)節(jié)出錯(cuò)，都可能影響最終結(jié)論。

例如，模型先誤讀圖表，再基于錯(cuò)誤數(shù)據(jù)做出流暢解釋；或者先識(shí)別錯(cuò)圖片中的對(duì)象，再生成看似合理但完全不符合事實(shí)的回答。

因此，復(fù)雜任務(wù)應(yīng)要求模型說明依據(jù)，并對(duì)關(guān)鍵證據(jù)進(jìn)行人工復(fù)核。

7、隱私與數(shù)據(jù)安全風(fēng)險(xiǎn)

圖片、音頻和視頻常常包含個(gè)人隱私，例如人臉、車牌、地址、票據(jù)、屏幕內(nèi)容和地理位置。上傳這些內(nèi)容時(shí)，需要特別注意數(shù)據(jù)安全與權(quán)限管理。

使用多模態(tài)模型時(shí)，應(yīng)避免隨意上傳：

? 身份證、護(hù)照、銀行卡等證件圖片

? 醫(yī)療影像和病歷資料

? 企業(yè)內(nèi)部文檔、合同和截圖

? 含有人臉、住址、車牌和定位信息的照片或視頻

? 未授權(quán)的課堂、會(huì)議、監(jiān)控或工作場所影像

8、偏見與不公平

視覺和語言數(shù)據(jù)中都可能包含偏見。模型在識(shí)別人、職業(yè)、性別、年齡、地域、文化和社會(huì)身份相關(guān)內(nèi)容時(shí)，可能產(chǎn)生不公平判斷。

因此，在涉及人物評(píng)價(jià)、身份判斷、招聘篩選、教育評(píng)價(jià)、風(fēng)險(xiǎn)判斷等場景中，不能把模型輸出作為唯一依據(jù)。

9、高風(fēng)險(xiǎn)場景不能替代專業(yè)判斷

在醫(yī)療、法律、金融、交通、安防、教育評(píng)價(jià)等場景中，多模態(tài)大模型輸出必須經(jīng)過專業(yè)人員復(fù)核。模型可以輔助閱讀、總結(jié)和提示風(fēng)險(xiǎn)，但不能承擔(dān)最終責(zé)任。

尤其是在醫(yī)學(xué)影像、法律證據(jù)、交通判斷和公共安全等場景中，錯(cuò)誤可能帶來嚴(yán)重后果。模型應(yīng)被視為輔助工具，而不是最終裁決者。

十一、如何正確學(xué)習(xí)和使用多模態(tài)大模型

學(xué)習(xí)多模態(tài)大模型，不應(yīng)只停留在“模型能看圖聊天”這一表層現(xiàn)象，而應(yīng)理解其背后的基本問題：不同模態(tài)如何表示，如何對(duì)齊，如何融合，如何生成，以及如何驗(yàn)證。

1、先理解模態(tài)差異

文本、圖像、語音和視頻不是同一種數(shù)據(jù)。文本適合表達(dá)抽象概念，圖像適合表達(dá)空間結(jié)構(gòu)，語音包含語言和情緒，視頻包含時(shí)間變化。

理解模態(tài)差異，是理解多模態(tài)大模型的基礎(chǔ)。

2、再理解對(duì)齊與融合

多模態(tài)模型的關(guān)鍵不只是“能輸入圖片”，而是能把圖片內(nèi)容和語言問題對(duì)應(yīng)起來。

圖文對(duì)齊、視覺編碼器、投影層、跨模態(tài)注意力、視覺指令微調(diào)等概念，都是圍繞這一目標(biāo)展開的。

3、學(xué)會(huì)設(shè)計(jì)多模態(tài)提示詞

使用多模態(tài)模型時(shí)，提示詞應(yīng)盡量明確說明：

? 需要模型觀察什么

? 應(yīng)重點(diǎn)關(guān)注圖片、文字、表格還是圖表

? 是否需要逐步分析

? 是否要求引用圖中依據(jù)

? 輸出采用什么格式

? 不確定時(shí)是否需要說明不確定性

例如：

“請(qǐng)只根據(jù)這張圖表回答。先說明橫軸和縱軸分別表示什么，再指出最高值和最低值，最后用三句話總結(jié)變化趨勢。如果圖中文字無法識(shí)別，請(qǐng)明確說明。”

這個(gè)提示詞比“分析這張圖”更可靠，因?yàn)樗鞔_限定了依據(jù)、步驟和輸出要求。

4、重要任務(wù)必須驗(yàn)證

多模態(tài)模型輸出尤其需要驗(yàn)證。圖片、圖表、表格和文檔中的細(xì)節(jié)容易出錯(cuò)，因此應(yīng)養(yǎng)成以下習(xí)慣：

? 關(guān)鍵數(shù)字要人工復(fù)核

? 圖中文字要與原圖對(duì)照

? 醫(yī)療、法律、金融內(nèi)容要請(qǐng)專業(yè)人員確認(rèn)

? 圖像生成內(nèi)容要標(biāo)注 AI 生成

? 涉及隱私的圖片和文件不要隨意上傳

? 對(duì)模型無法確定的內(nèi)容，不要強(qiáng)迫它給確定答案

5、把多模態(tài)模型當(dāng)作協(xié)作工具

多模態(tài)大模型最適合承擔(dān)以下角色：

? 幫助理解復(fù)雜圖文資料

? 輔助閱讀圖表、截圖和頁面

? 生成教學(xué)配圖和說明

? 輔助整理文檔、表格和報(bào)告

? 作為無障礙輔助工具

? 作為創(chuàng)意設(shè)計(jì)和內(nèi)容生產(chǎn)助手

? 作為智能體系統(tǒng)的感知與語言接口

但它仍然不是全知全能的判斷者。真正可靠的應(yīng)用，需要把模型、外部工具、數(shù)據(jù)來源和人工審核結(jié)合起來。

小結(jié)

多模態(tài)大模型把 AI 的能力從文本擴(kuò)展到圖像、語音、視頻和文檔等信息形式。其核心在于模態(tài)編碼、跨模態(tài)對(duì)齊、信息融合和多模態(tài)生成。正確使用多模態(tài)大模型，應(yīng)理解其能力邊界，核查關(guān)鍵證據(jù)，保護(hù)隱私數(shù)據(jù)，并在高風(fēng)險(xiǎn)場景中堅(jiān)持人工復(fù)核。

“點(diǎn)贊有美意，贊賞是鼓勵(lì)”

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.