多模態(tài)大模型(Multimodal Large Model,MLM)是能夠處理多種信息形式的人工智能模型,典型模態(tài)包括文本、圖像、語音和視頻等。它不只處理文字,還可以理解圖片、分析聲音、識(shí)別視頻,并在不同模態(tài)之間建立聯(lián)系。
其中,多模態(tài)大語言模型(Multimodal Large Language Model,MLLM)是較常見的一類,通常以大語言模型為核心,擴(kuò)展圖像、語音、視頻等輸入輸出能力,使用戶可以用自然語言完成跨模態(tài)理解、推理和生成任務(wù)。
嚴(yán)格地說,MLLM 不等同于所有多模態(tài)大模型,而是其中以語言模型為核心的一類。
如果說大語言模型讓人工智能具備了以自然語言為核心的人機(jī)交互能力,那么多模態(tài)大模型則進(jìn)一步把這種能力擴(kuò)展到更接近真實(shí)世界的復(fù)雜信息環(huán)境中。
真實(shí)世界并不是只由文字組成的:醫(yī)生看影像,學(xué)生看圖表,司機(jī)看道路,工程師看圖紙,用戶上傳截圖或視頻提出問題。
多模態(tài)大模型的目標(biāo),就是讓機(jī)器能夠綜合理解這些不同來源的信息,并用自然語言、圖像、語音或行動(dòng)結(jié)果進(jìn)行反饋。
![]()
圖 1:多模態(tài)大模型在人工智能體系中的位置
多模態(tài)大模型并不只是簡單調(diào)用幾個(gè)獨(dú)立模型,而是通過模態(tài)編碼、跨模態(tài)對(duì)齊、連接模塊或統(tǒng)一 Token 化等方式,使不同模態(tài)的信息能夠進(jìn)入同一任務(wù)系統(tǒng),被共同理解、關(guān)聯(lián)、推理和生成。
從 CLIP 的圖文對(duì)齊,到 BLIP-2、LLaVA 等視覺語言模型,再到支持圖像、語音和視頻交互的通用模型,多模態(tài)大模型已經(jīng)逐漸從“圖文匹配”走向“跨模態(tài)理解、推理與生成”。
一、什么是多模態(tài)大模型
模態(tài)(Modality)是信息存在和表達(dá)的不同形式。對(duì)人工智能來說,最典型的模態(tài)是文本、圖像、語音和視頻。
文本適合表達(dá)概念、知識(shí)、邏輯和規(guī)則;
圖像適合表達(dá)空間結(jié)構(gòu)、顏色、形狀、位置和視覺細(xì)節(jié);
語音不僅包含語言內(nèi)容,還包含語速、語調(diào)、停頓和情緒;
視頻則在圖像和音頻的基礎(chǔ)上增加了時(shí)間變化、動(dòng)作過程和事件順序。
多模態(tài)大模型,就是能夠同時(shí)處理這些不同模態(tài)信息的人工智能模型。它可以把文字、圖片、聲音、視頻等信息轉(zhuǎn)換為模型能夠計(jì)算的表示,并在不同模態(tài)之間建立聯(lián)系。
例如:
? 用戶上傳一道幾何題圖片,模型可以識(shí)別題目、圖形和條件,并用文字講解解題思路
? 用戶上傳一張軟件報(bào)錯(cuò)截圖,模型可以讀取界面文字,并分析可能原因
? 用戶上傳一張統(tǒng)計(jì)圖表,模型可以解釋坐標(biāo)軸、趨勢和異常變化
? 用戶用語音提出問題,模型可以聽懂指令并用語音或文字回答
? 用戶上傳一段視頻,模型可以總結(jié)其中的動(dòng)作、事件和場景變化
需要注意的是,“多模態(tài)大模型”是較寬泛的概念。它可以包括圖文理解模型、文生圖模型、語音模型、視頻生成模型、機(jī)器人感知模型等。
而“多模態(tài)大語言模型”更強(qiáng)調(diào)以大語言模型為核心,用自然語言作為統(tǒng)一交互接口,連接圖像、語音、視頻等模態(tài)能力。
在相關(guān)術(shù)語中,還常見以下概念:
? 視覺語言模型(Vision-Language Model,VLM)
主要處理圖像和文本之間的理解、檢索和生成任務(wù)。
? 大視覺語言模型(Large Vision-Language Model,LVLM)
規(guī)模更大、能力更強(qiáng)的視覺語言模型。
? 多模態(tài)大語言模型(MLLM)
通常以 LLM 為核心,擴(kuò)展視覺、語音、視頻等多模態(tài)能力。
? 多模態(tài)大模型(MLM)
更寬泛,可指各種面向多模態(tài)信息處理的大規(guī)模基礎(chǔ)模型。
因此,本文在討論通用概念時(shí)使用“多模態(tài)大模型”,在強(qiáng)調(diào)以語言模型為核心的圖文、語音、視頻交互系統(tǒng)時(shí)使用“多模態(tài)大語言模型”。
二、從單模態(tài)模型到多模態(tài)大模型
多模態(tài)大模型并不是突然出現(xiàn)的,而是人工智能從單一任務(wù)、單一模態(tài)逐步走向統(tǒng)一交互系統(tǒng)的結(jié)果。
1、單模態(tài)模型:一次只處理一種信息
早期許多人工智能模型主要面向單一模態(tài)。
例如,文本分類模型處理文章和評(píng)論,圖像分類模型識(shí)別圖片中的物體,語音識(shí)別模型把聲音轉(zhuǎn)換成文字。
這類模型在特定任務(wù)上很有效,但能力邊界比較清楚:文本模型看不懂圖片,圖像模型不能理解復(fù)雜語言指令,語音模型也無法直接分析圖表或視頻。
2、雙模態(tài)模型:建立兩種模態(tài)之間的聯(lián)系
隨著深度學(xué)習(xí)的發(fā)展,研究者開始探索圖像與文本之間的關(guān)系。
例如,模型可以根據(jù)圖片生成文字描述,也可以根據(jù)文字檢索相關(guān)圖片。
CLIP 的代表性思想,就是通過大量圖文對(duì)進(jìn)行對(duì)比學(xué)習(xí),讓匹配的圖像和文字在向量空間中更接近,不匹配的圖像和文字距離更遠(yuǎn)。這使模型能夠?qū)W習(xí)視覺概念和語言概念之間的對(duì)應(yīng)關(guān)系。
視覺語言模型正是在這一方向上發(fā)展起來的。它們使模型不再只是“看圖分類”,而是能夠回答與圖片有關(guān)的問題,解釋圖片內(nèi)容,甚至按照語言指令分析視覺信息。
3、多模態(tài)大模型:統(tǒng)一處理多種信息
多模態(tài)大模型進(jìn)一步擴(kuò)展了信息處理范圍。它不僅處理文本和圖像,也可能處理語音、視頻、文檔、表格、網(wǎng)頁、傳感器信號(hào)和工具結(jié)果。
![]()
圖 2:從單模態(tài)模型到多模態(tài)大模型
更重要的是,它通常以自然語言作為交互接口。用戶可以用普通語言提出要求,模型再綜合分析圖像、文字、聲音或視頻,并生成可理解的回答。
因此,多模態(tài)大模型可以理解為大語言模型能力的擴(kuò)展:語言仍然是重要接口,但模型的感知范圍不再局限于文字。
三、什么是模態(tài)
模態(tài)(Modality)是信息存在和表達(dá)的不同形式。
人類認(rèn)識(shí)世界本身就是多模態(tài)的:我們通過眼睛獲得視覺信息,通過耳朵獲得聲音信息,通過語言表達(dá)想法,通過動(dòng)作與環(huán)境交互。
在人工智能中,最常見的模態(tài)包括文本、圖像、語音和視頻。
![]()
圖 3:多模態(tài)信息的基本類型
1、文本模態(tài)
文本是最常見的信息形式之一,包括文章、問答、代碼、網(wǎng)頁、書籍、論文、聊天記錄、說明書、合同、報(bào)告等。
文本模態(tài)具有高度抽象性,適合表達(dá)知識(shí)、邏輯、規(guī)則、概念和推理過程。大語言模型主要就是圍繞文本模態(tài)發(fā)展起來的。
2、圖像模態(tài)
圖像包括照片、截圖、醫(yī)學(xué)影像、遙感圖像、圖表、手寫內(nèi)容、設(shè)計(jì)圖、商品圖片等。
圖像模態(tài)具有空間結(jié)構(gòu),包含顏色、形狀、位置、紋理、布局等信息。理解圖像,不僅要識(shí)別“圖中有什么”,還要理解對(duì)象之間的位置關(guān)系和整體場景。
3、語音與音頻模態(tài)
語音包含語言內(nèi)容,也包含語速、語調(diào)、音量、停頓和情緒等信息。音頻還包括音樂、環(huán)境聲、機(jī)器噪聲、動(dòng)物聲音等。
因此,語音理解不只是“把聲音轉(zhuǎn)成文字”,還可能涉及說話人狀態(tài)、情緒線索和環(huán)境背景。
4、視頻模態(tài)
視頻可以看作圖像序列與音頻信息的結(jié)合。它不僅包含畫面內(nèi)容,還包含時(shí)間變化、動(dòng)作過程、事件順序和場景轉(zhuǎn)換。
視頻理解比靜態(tài)圖像理解更復(fù)雜,因?yàn)槟P筒粌H要看懂畫面,還要理解“先發(fā)生什么,后發(fā)生什么”,以及動(dòng)作之間是否存在因果關(guān)系。
5、擴(kuò)展數(shù)據(jù)形式
除了文本、圖像、語音和視頻,表格、代碼、文檔版面、網(wǎng)頁、傳感器信號(hào)和動(dòng)作數(shù)據(jù)也常出現(xiàn)在廣義多模態(tài)系統(tǒng)中。
不過,這些信息通常具有更強(qiáng)的結(jié)構(gòu)化、程序化或時(shí)序特征。例如,代碼既是一種文本,也具有嚴(yán)格語法和執(zhí)行語義;表格既包含文字和數(shù)字,也包含行列結(jié)構(gòu);傳感器數(shù)據(jù)則往往與時(shí)間、空間和設(shè)備狀態(tài)有關(guān)。
多模態(tài)大模型要解決的核心問題,就是如何讓這些不同形式的信息進(jìn)入同一個(gè)智能系統(tǒng),并被統(tǒng)一理解和使用。
四、多模態(tài)大模型的基本思想
多模態(tài)大模型的基本思想可以概括為:把不同模態(tài)的數(shù)據(jù)轉(zhuǎn)換為模型能夠處理的表示,再通過對(duì)齊、融合和生成,使模型能夠在多種信息之間建立聯(lián)系。
這一過程可以分為四個(gè)關(guān)鍵環(huán)節(jié):編碼(Encoding)、對(duì)齊(Alignment)、融合(Fusion)和生成(Generation)。
![]()
圖 4:多模態(tài)大模型的基本思想:編碼、對(duì)齊、融合、生成
1、編碼:把不同模態(tài)轉(zhuǎn)換成向量表示
不同模態(tài)的原始形式差異很大。文字是符號(hào)序列,圖片是像素矩陣,語音是聲波信號(hào),視頻是隨時(shí)間變化的圖像和聲音序列。
模型不能直接“理解”這些原始數(shù)據(jù),而是需要先把它們轉(zhuǎn)換為可計(jì)算的向量表示。
例如:
? 文本需要被切分為 Token,再轉(zhuǎn)換為文本向量
? 圖像需要通過視覺編碼器轉(zhuǎn)換為視覺特征
? 音頻需要轉(zhuǎn)換為聲學(xué)特征
? 視頻需要轉(zhuǎn)換為包含時(shí)間信息的視覺序列特征
編碼的作用,就是把不同形式的信息轉(zhuǎn)換為模型可以處理的數(shù)學(xué)表示。
2、對(duì)齊:讓不同模態(tài)表達(dá)同一含義
如果一張圖片中有一只貓,文字說明是“一只貓坐在沙發(fā)上”,那么模型需要知道這張圖片和這句話描述的是同一件事。
所謂跨模態(tài)對(duì)齊,就是讓圖像、文本、音頻等不同模態(tài)中語義相近的內(nèi)容,在表示空間中靠近。
圖文對(duì)比學(xué)習(xí)就是一種重要方法。它的直觀目標(biāo)是:匹配的圖像和文字在向量空間中更接近,不匹配的圖像和文字距離更遠(yuǎn)。
3、融合:綜合多種信息完成任務(wù)
對(duì)齊之后,模型還需要把多種模態(tài)的信息融合起來。
例如,回答圖片問題時(shí),模型既要理解用戶的問題,也要理解圖片內(nèi)容,并把二者結(jié)合起來生成答案。
分析視頻時(shí),模型需要融合畫面、聲音、字幕和時(shí)間順序。
閱讀文檔時(shí),模型需要融合文字內(nèi)容、版面結(jié)構(gòu)、表格和圖像。
融合可以發(fā)生在不同層面:有的模型先分別編碼不同模態(tài),再把特征連接到語言模型;
有的模型在中間層進(jìn)行跨模態(tài)注意力交互;
有的模型采用更統(tǒng)一的 Token 化方式,把文本、圖像、音頻組織成可進(jìn)入同一 Transformer 的序列。
4、生成:輸出文本、圖像、語音或動(dòng)作結(jié)果
多模態(tài)大模型不僅能理解輸入,也可以生成輸出。輸出可以是文字回答、圖片描述、圖像、語音、視頻、結(jié)構(gòu)化結(jié)果,甚至是工具調(diào)用或動(dòng)作指令。
因此,多模態(tài)大模型不只是“看圖聊天”,而是正在成為連接感知、語言、生成和行動(dòng)的重要技術(shù)基礎(chǔ)。
五、多模態(tài)大模型的基本架構(gòu)
多模態(tài)大模型的具體實(shí)現(xiàn)很多,但從通識(shí)角度看,可以把它理解為幾個(gè)模塊的協(xié)同系統(tǒng):模態(tài)編碼器(Modality Encoder)、連接器(Connector)或投影層(Projection Layer)、大語言模型核心(LLM Core),以及輸出模塊(Output Module)。
![]()
圖 5:多模態(tài)大模型的基本結(jié)構(gòu)
1、模態(tài)編碼器
模態(tài)編碼器負(fù)責(zé)把不同類型的數(shù)據(jù)轉(zhuǎn)換成向量表示。
例如:
? 文本編碼器處理文字 Token
? 圖像編碼器處理圖片或圖像塊
? 音頻編碼器處理語音或聲音頻譜
? 視頻編碼器處理連續(xù)幀和時(shí)間變化
在視覺語言模型中,常見做法是用視覺編碼器提取圖像特征,再把視覺特征送入后續(xù)模塊,與語言信息結(jié)合。
2、連接器或投影層
連接器的作用是彌合不同模態(tài)之間的表示差異。
圖像編碼器輸出的是視覺特征,大語言模型接收的是語言相關(guān)向量,二者并不能天然匹配。因此,需要一個(gè)投影層、查詢變換器或跨模態(tài)適配模塊,將視覺特征轉(zhuǎn)換成語言模型可接收的形式。
BLIP-2 使用輕量連接模塊連接凍結(jié)圖像編碼器和凍結(jié)大語言模型,體現(xiàn)了“凍結(jié)大模型 + 輕量連接模塊”的一種重要思路。
LLaVA 則展示了視覺編碼器與大語言模型結(jié)合后,通過視覺指令微調(diào)構(gòu)建視覺語言助手的路線。
3、大語言模型核心
許多多模態(tài)大語言模型仍然以大語言模型為核心。原因在于,大語言模型已經(jīng)具備較強(qiáng)的語言理解、指令遵循、知識(shí)組織和文本生成能力。
視覺、音頻、視頻等模態(tài)經(jīng)過編碼和對(duì)齊后,可以作為額外上下文進(jìn)入語言模型,由語言模型完成推理、解釋和回答。
4、輸出模塊
多模態(tài)大模型的輸出可以是文本,也可以是圖像、語音、視頻、工具調(diào)用或動(dòng)作計(jì)劃。
例如:
? 看圖問答輸出文字答案
? 文生圖模型輸出圖像
? 語音助手輸出語音
? 智能體系統(tǒng)輸出工具調(diào)用
? 機(jī)器人系統(tǒng)輸出動(dòng)作計(jì)劃
5、常見架構(gòu)路線
從技術(shù)路線看,多模態(tài)大模型大致可以分為幾類。
第一類是編碼器—連接器—LLM路線。
這是當(dāng)前很多多模態(tài)大語言模型的常見形式,即用視覺或音頻編碼器提取特征,再通過連接器送入大語言模型。
第二類是跨模態(tài)注意力路線。
不同模態(tài)的信息在模型中間層進(jìn)行交互,模型通過注意力機(jī)制學(xué)習(xí)不同模態(tài)之間的關(guān)系。
第三類是統(tǒng)一 Token路線。
模型嘗試把文本、圖像、音頻等不同模態(tài)都轉(zhuǎn)換為統(tǒng)一的 Token 序列,使它們進(jìn)入同一模型框架處理。
第四類是多模型工具協(xié)作路線。
大語言模型負(fù)責(zé)理解任務(wù)和組織結(jié)果,視覺識(shí)別、語音識(shí)別、圖像生成、檢索系統(tǒng)等專用工具負(fù)責(zé)完成具體操作。
這些路線并不是互相排斥的。在真實(shí)系統(tǒng)中,它們常常結(jié)合使用。
六、跨模態(tài)對(duì)齊:讓圖像和文字理解同一件事
跨模態(tài)對(duì)齊(Cross-modal Alignment)是多模態(tài)學(xué)習(xí)的核心問題之一。它要解決的是:不同模態(tài)的信息如何表達(dá)同一語義。
例如:
? 圖片中有“一只狗在草地上奔跑”
? 文字說明寫著“狗正在草地上跑”
? 視頻展示了狗從左向右奔跑
? 音頻中可能有狗叫聲
這些模態(tài)形式不同,但都與“狗”“草地”“奔跑”這些語義有關(guān)。跨模態(tài)對(duì)齊的目標(biāo),就是讓模型知道它們之間的對(duì)應(yīng)關(guān)系。
![]()
圖 6:圖文對(duì)齊的基本思想
1、圖文對(duì)比學(xué)習(xí)
圖文對(duì)比學(xué)習(xí)是跨模態(tài)對(duì)齊的重要方法。其基本思想是:
? 匹配的圖像和文字說明應(yīng)當(dāng)更接近
? 不匹配的圖像和文字說明應(yīng)當(dāng)更遠(yuǎn)離
? 模型通過大量圖文對(duì)學(xué)習(xí)視覺概念和語言概念之間的對(duì)應(yīng)關(guān)系
這種方法的價(jià)值在于,它可以利用互聯(lián)網(wǎng)上大量“圖片—文字說明”數(shù)據(jù),而不必完全依賴人工標(biāo)注的固定類別。
CLIP(Contrastive Language-Image Pre-training,中文常譯為“對(duì)比語言-圖像預(yù)訓(xùn)練”)就是這一方向的代表性工作之一。它通過大規(guī)模圖文對(duì)比學(xué)習(xí)展示了自然語言監(jiān)督對(duì)視覺表征學(xué)習(xí)的價(jià)值,也推動(dòng)了后續(xù)圖文檢索、零樣本分類和視覺語言模型的發(fā)展。
2、對(duì)齊不等于完全理解
需要注意的是,對(duì)齊只是多模態(tài)理解的基礎(chǔ),并不等于模型真正具備可靠的視覺推理能力。
模型可能知道“貓”和貓的圖片有關(guān),但未必能準(zhǔn)確數(shù)出圖片中有幾只貓;
可能能識(shí)別圖表類型,但未必能正確讀取細(xì)小數(shù)字;
可能能描述場景,但會(huì)忽略關(guān)鍵細(xì)節(jié)。
因此,多模態(tài)大模型還需要更復(fù)雜的訓(xùn)練任務(wù)、指令微調(diào)、視覺推理數(shù)據(jù)和安全評(píng)估。
七、多模態(tài)大模型能做什么
多模態(tài)大模型不是單純“看圖聊天”的工具,而是可以圍繞理解、問答、生成、檢索和行動(dòng)完成多種任務(wù)。
![]()
圖 7:多模態(tài)大模型主要任務(wù)體系圖
1、理解:看懂圖像、文檔、圖表、視頻和語音
多模態(tài)理解任務(wù)要求模型根據(jù)多種輸入信息進(jìn)行識(shí)別、分析和解釋。
常見任務(wù)包括:
? 圖像描述:根據(jù)圖片生成文字說明
? OCR:識(shí)別圖片、截圖、掃描件中的文字
? 文檔理解:理解 PDF、PPT、試卷、合同、網(wǎng)頁和教材頁面
? 圖表分析:讀取柱狀圖、折線圖、餅圖、散點(diǎn)圖中的趨勢和比較關(guān)系
? 視頻理解:分析動(dòng)作、事件順序、場景變化和人物互動(dòng)
? 語音理解:識(shí)別語音內(nèi)容、語調(diào)、停頓和部分情緒線索
例如,用戶上傳一張折線圖并問:“哪個(gè)月份增長最快?”模型需要識(shí)別橫軸、縱軸、數(shù)據(jù)點(diǎn)和變化趨勢,再生成解釋。
2、問答:根據(jù)多模態(tài)信息回答問題
視覺問答(Visual Question Answering,VQA)是典型多模態(tài)問答任務(wù)。模型需要同時(shí)理解圖片和問題,再生成答案。
![]()
圖 8:視覺問答 VQA 的工作流程
例如,用戶上傳一張餐桌圖片并問:“桌子上有幾杯飲料?”模型需要先識(shí)別圖片中的杯子,再計(jì)數(shù),再用語言回答。
類似地,多模態(tài)模型也可以進(jìn)行文檔問答、圖表問答、截圖問答、視頻問答和語音問答。
3、生成:從一種模態(tài)生成另一種模態(tài)
多模態(tài)生成任務(wù)包括文生圖、圖生文、圖像編輯、語音生成和視頻生成等。
例如:
? 文生圖:根據(jù)文字提示生成圖片
? 圖生文:根據(jù)圖片生成說明、摘要或報(bào)告
? 圖像編輯:根據(jù)自然語言修改圖片
? 語音生成:把文本轉(zhuǎn)換為自然語音
? 視頻生成:根據(jù)提示生成或編輯視頻片段
其中,文生圖和圖像編輯已經(jīng)廣泛用于教學(xué)插圖、廣告設(shè)計(jì)、創(chuàng)意草圖和內(nèi)容生產(chǎn)。視頻生成則更復(fù)雜,因?yàn)樗枰3謺r(shí)間連續(xù)性、角色一致性、動(dòng)作合理性和場景穩(wěn)定性。
4、檢索:用一種模態(tài)查找另一種模態(tài)
跨模態(tài)檢索是指用一種模態(tài)查詢另一種模態(tài)。例如:
? 用文字搜索圖片
? 用圖片搜索相似商品
? 用截圖檢索相關(guān)文檔
? 用語音搜索視頻片段
? 用自然語言查詢圖表或表格
跨模態(tài)檢索使用戶不必準(zhǔn)確知道文件名、標(biāo)簽或關(guān)鍵詞,而可以用更自然的方式查找信息。
5、行動(dòng):連接工具、智能體和機(jī)器人
當(dāng)多模態(tài)大模型與工具、環(huán)境和執(zhí)行系統(tǒng)結(jié)合時(shí),可以進(jìn)一步用于智能體和機(jī)器人任務(wù)。
例如,模型可以看屏幕、讀說明、聽指令、調(diào)用工具,并執(zhí)行一系列操作。
機(jī)器人系統(tǒng)還可能結(jié)合攝像頭、語音、傳感器和動(dòng)作控制,使模型從“理解信息”進(jìn)一步走向“輔助行動(dòng)”。
不過,這類任務(wù)對(duì)安全性、實(shí)時(shí)性和可靠性要求更高,不能只依賴模型生成結(jié)果。
八、多模態(tài) RAG 與工具增強(qiáng)
在大語言模型中, 可以讓模型連接外部文本知識(shí)庫。
在多模態(tài)場景中,RAG 也可以擴(kuò)展為多模態(tài)檢索增強(qiáng)生成。它不只檢索文字,還可以檢索圖片、表格、圖表、PDF 頁面、音頻片段和視頻片段。
![]()
圖 9:多模態(tài) RAG 與工具增強(qiáng)流程
1、多模態(tài) RAG
一個(gè)典型多模態(tài) RAG 系統(tǒng)可以包括以下步驟:
(1)用戶提出問題,可能同時(shí)上傳圖片、截圖、文檔或視頻;
(2)系統(tǒng)識(shí)別問題涉及的模態(tài)類型;
(3)檢索器從文本庫、圖片庫、文檔庫或視頻庫中找出相關(guān)內(nèi)容;
(4)系統(tǒng)把檢索結(jié)果轉(zhuǎn)換為模型可處理的上下文;
(5)多模態(tài)大模型綜合用戶問題與檢索結(jié)果生成回答;
(6)輸出答案,并盡可能提供依據(jù)或來源。
多模態(tài) RAG 適合企業(yè)文檔問答、教材輔助學(xué)習(xí)、工業(yè)設(shè)備維護(hù)、商品客服、合同審閱等場景。
但多模態(tài) RAG 比文本 RAG 更復(fù)雜。
圖片需要視覺特征檢索,文檔需要版面解析,視頻需要切片和時(shí)間定位,表格需要結(jié)構(gòu)化理解。
檢索到相關(guān)資料并不等于模型一定能正確理解,因此仍然需要來源標(biāo)注、結(jié)果核查和人工審核。
2、工具增強(qiáng)
多模態(tài)大模型還可以調(diào)用外部工具完成任務(wù)。例如:
? 調(diào)用 OCR 工具識(shí)別圖片中文字
? 調(diào)用搜索工具獲取最新資料
? 調(diào)用計(jì)算工具處理表格數(shù)據(jù)
? 調(diào)用代碼工具生成圖表
? 調(diào)用圖像生成工具生成配圖
? 調(diào)用數(shù)據(jù)庫查詢業(yè)務(wù)信息
工具增強(qiáng)的核心思想是:讓大模型負(fù)責(zé)理解任務(wù)、組織流程和生成解釋,讓外部工具負(fù)責(zé)檢索、計(jì)算、識(shí)別、生成和驗(yàn)證。
3、智能體工作流
當(dāng)模型能夠根據(jù)目標(biāo)拆解步驟、選擇工具、讀取反饋并調(diào)整行動(dòng)時(shí),就形成了更復(fù)雜的智能體工作流。
例如,用戶要求模型根據(jù)一份產(chǎn)品說明書和一組設(shè)備照片生成維修建議。系統(tǒng)可能先讀取說明書,再分析設(shè)備照片,然后檢索故障碼,最后整理成排查步驟。
這類系統(tǒng)的價(jià)值在于處理復(fù)雜任務(wù),但也更容易在工具選擇、參數(shù)設(shè)置、結(jié)果解釋和責(zé)任歸屬上出錯(cuò)。因此,重要應(yīng)用必須保留日志、權(quán)限控制和人工確認(rèn)機(jī)制。
九、如何評(píng)估多模態(tài)大模型
高質(zhì)量使用多模態(tài)大模型,不能只看它“能不能回答”,還要看它“看得準(zhǔn)不準(zhǔn)、讀得對(duì)不對(duì)、推理是否可靠、輸出是否安全”。
多模態(tài)模型的評(píng)估通常比純文本模型更復(fù)雜,因?yàn)殄e(cuò)誤可能來自多個(gè)環(huán)節(jié):視覺識(shí)別錯(cuò)誤、OCR 錯(cuò)誤、圖表讀數(shù)錯(cuò)誤、視頻時(shí)間理解錯(cuò)誤、跨模態(tài)對(duì)齊錯(cuò)誤,也可能來自語言生成階段的幻覺。
1、視覺識(shí)別準(zhǔn)確性
視覺識(shí)別準(zhǔn)確性關(guān)注模型能否正確識(shí)別圖片中的對(duì)象、屬性、數(shù)量、位置和關(guān)系。
例如,模型是否能準(zhǔn)確判斷圖片中有幾個(gè)人、物體在哪里、顏色是否正確、人物動(dòng)作是否符合畫面內(nèi)容。
這類評(píng)估對(duì)于看圖問答、圖像描述、工業(yè)質(zhì)檢、醫(yī)學(xué)影像輔助閱讀等任務(wù)很重要。
2、OCR 與文檔理解準(zhǔn)確性
OCR(Optical Character Recognition,光學(xué)字符識(shí)別)準(zhǔn)確性關(guān)注模型能否正確讀取圖片或文檔中的文字。
文檔理解還要求模型理解標(biāo)題、正文、表格、圖注、頁碼、腳注、編號(hào)和版面結(jié)構(gòu)之間的關(guān)系。
在合同、票據(jù)、藥品說明、考試題目、財(cái)務(wù)報(bào)表等場景中,OCR 或版面理解錯(cuò)誤可能導(dǎo)致嚴(yán)重后果。
3、圖表讀數(shù)與數(shù)據(jù)理解準(zhǔn)確性
圖表理解要求模型正確識(shí)別坐標(biāo)軸、單位、圖例、數(shù)值和趨勢。
模型不僅要看懂圖表類型,還要避免誤讀比例尺、單位、顏色含義和數(shù)據(jù)點(diǎn)位置。對(duì)于涉及數(shù)字結(jié)論的任務(wù),關(guān)鍵數(shù)值必須人工復(fù)核或使用專門工具驗(yàn)證。
4、視頻時(shí)間理解能力
視頻理解不僅是看懂某一幀,而是理解動(dòng)作、事件順序和時(shí)間變化。
評(píng)估視頻理解時(shí),需要關(guān)注模型是否能正確識(shí)別關(guān)鍵幀、動(dòng)作開始和結(jié)束、事件先后順序,以及人物或物體之間的因果關(guān)系。
5、跨模態(tài)一致性
跨模態(tài)一致性關(guān)注模型能否讓不同模態(tài)的信息相互匹配。
例如,圖片內(nèi)容是否支持文字回答;圖表數(shù)據(jù)是否支持模型總結(jié);視頻畫面是否支持模型描述的事件;檢索到的文檔是否真正回答了用戶問題。
這類評(píng)估對(duì)于多模態(tài) RAG、視覺問答和文檔問答尤其重要。
6、生成內(nèi)容真實(shí)性與安全性
多模態(tài)生成模型可以生成圖片、語音和視頻,因此還要評(píng)估生成內(nèi)容是否真實(shí)可信、是否侵犯版權(quán)、是否可能造成誤導(dǎo)、是否涉及隱私和肖像風(fēng)險(xiǎn)。
對(duì)于 AI 生成圖片、語音和視頻,應(yīng)在需要時(shí)標(biāo)注生成來源,避免造成真實(shí)內(nèi)容與生成內(nèi)容混淆。
7、高風(fēng)險(xiǎn)場景人工復(fù)核
醫(yī)療、法律、金融、交通、安防、教育評(píng)價(jià)等場景對(duì)錯(cuò)誤容忍度很低。即使模型表現(xiàn)良好,也不能直接替代專業(yè)人員判斷。
在這些場景中,多模態(tài)模型更適合做輔助閱讀、信息整理、風(fēng)險(xiǎn)提示和初步分析,最終判斷必須由有資質(zhì)的人承擔(dān)。
十、能力邊界、風(fēng)險(xiǎn)與正確使用
多模態(tài)大模型擴(kuò)展了 AI 的感知與交互能力,但也擴(kuò)大了錯(cuò)誤來源。它不僅可能在語言上出錯(cuò),還可能在視覺識(shí)別、OCR、圖表讀數(shù)、視頻時(shí)間理解和跨模態(tài)推理中出錯(cuò)。
因此,多模態(tài)模型的風(fēng)險(xiǎn)治理必須同時(shí)關(guān)注內(nèi)容安全、事實(shí)準(zhǔn)確、隱私保護(hù)和模態(tài)理解可靠性。
![]()
圖 10:多模態(tài)大模型的能力邊界與風(fēng)險(xiǎn)
1、能看圖,不等于看得準(zhǔn)
視覺幻覺是指模型描述了圖片中不存在的內(nèi)容,或錯(cuò)誤判斷對(duì)象、屬性、數(shù)量和關(guān)系。
例如,圖中明明只有兩個(gè)人,模型卻說有三個(gè)人;圖片中沒有文字,模型卻編造出文字內(nèi)容;圖片中某個(gè)細(xì)小區(qū)域很關(guān)鍵,模型卻直接忽略。
因此,看圖任務(wù)不能只看回答是否流暢,還要對(duì)照原圖檢查關(guān)鍵細(xì)節(jié)。
2、能讀文字,不等于 OCR 完全可靠
多模態(tài)模型可以讀取圖片中的文字,但在小字、模糊圖片、復(fù)雜背景、手寫文字、傾斜文本和低分辨率截圖中容易識(shí)別錯(cuò)誤。
在合同、票據(jù)、藥品說明、考試題目等場景中,OCR 錯(cuò)誤可能導(dǎo)致嚴(yán)重后果。關(guān)鍵文字和數(shù)字必須與原圖核對(duì)。
3、能讀圖表,不等于數(shù)值一定正確
圖表理解要求模型正確識(shí)別坐標(biāo)軸、圖例、單位、顏色含義和數(shù)據(jù)變化。模型如果誤讀坐標(biāo)尺度或忽略單位,就可能生成錯(cuò)誤分析。
因此,涉及數(shù)字結(jié)論時(shí),應(yīng)使用原始數(shù)據(jù)或?qū)iT工具復(fù)核,不應(yīng)只依賴模型的視覺判斷。
4、能理解視頻,不等于理解完整因果
視頻包含時(shí)間順序和動(dòng)作變化。模型可能看懂某一幀,卻誤解整個(gè)事件過程;也可能忽略關(guān)鍵幀,導(dǎo)致對(duì)動(dòng)作原因和結(jié)果判斷錯(cuò)誤。
因此,視頻分析尤其需要關(guān)注時(shí)間線、關(guān)鍵幀和事件證據(jù)。
5、能生成圖像,不等于內(nèi)容真實(shí)可信
多模態(tài)生成模型可以生成逼真的圖片、語音和視頻,也可能被濫用于虛假新聞、身份冒充、詐騙、偽造證據(jù)和輿論操縱。
因此,生成內(nèi)容應(yīng)明確標(biāo)注來源。涉及人物肖像、新聞事件、公共信息和商業(yè)傳播時(shí),更要注意真實(shí)性、版權(quán)和倫理風(fēng)險(xiǎn)。
6、能跨模態(tài)推理,不等于推理過程可靠
多模態(tài)推理要求模型同時(shí)處理圖片、文字、圖表、語音、視頻等多種信息。任何一個(gè)環(huán)節(jié)出錯(cuò),都可能影響最終結(jié)論。
例如,模型先誤讀圖表,再基于錯(cuò)誤數(shù)據(jù)做出流暢解釋;或者先識(shí)別錯(cuò)圖片中的對(duì)象,再生成看似合理但完全不符合事實(shí)的回答。
因此,復(fù)雜任務(wù)應(yīng)要求模型說明依據(jù),并對(duì)關(guān)鍵證據(jù)進(jìn)行人工復(fù)核。
7、隱私與數(shù)據(jù)安全風(fēng)險(xiǎn)
圖片、音頻和視頻常常包含個(gè)人隱私,例如人臉、車牌、地址、票據(jù)、屏幕內(nèi)容和地理位置。上傳這些內(nèi)容時(shí),需要特別注意數(shù)據(jù)安全與權(quán)限管理。
使用多模態(tài)模型時(shí),應(yīng)避免隨意上傳:
? 身份證、護(hù)照、銀行卡等證件圖片
? 醫(yī)療影像和病歷資料
? 企業(yè)內(nèi)部文檔、合同和截圖
? 含有人臉、住址、車牌和定位信息的照片或視頻
? 未授權(quán)的課堂、會(huì)議、監(jiān)控或工作場所影像
8、偏見與不公平
視覺和語言數(shù)據(jù)中都可能包含偏見。模型在識(shí)別人、職業(yè)、性別、年齡、地域、文化和社會(huì)身份相關(guān)內(nèi)容時(shí),可能產(chǎn)生不公平判斷。
因此,在涉及人物評(píng)價(jià)、身份判斷、招聘篩選、教育評(píng)價(jià)、風(fēng)險(xiǎn)判斷等場景中,不能把模型輸出作為唯一依據(jù)。
9、高風(fēng)險(xiǎn)場景不能替代專業(yè)判斷
在醫(yī)療、法律、金融、交通、安防、教育評(píng)價(jià)等場景中,多模態(tài)大模型輸出必須經(jīng)過專業(yè)人員復(fù)核。模型可以輔助閱讀、總結(jié)和提示風(fēng)險(xiǎn),但不能承擔(dān)最終責(zé)任。
尤其是在醫(yī)學(xué)影像、法律證據(jù)、交通判斷和公共安全等場景中,錯(cuò)誤可能帶來嚴(yán)重后果。模型應(yīng)被視為輔助工具,而不是最終裁決者。
十一、如何正確學(xué)習(xí)和使用多模態(tài)大模型
學(xué)習(xí)多模態(tài)大模型,不應(yīng)只停留在“模型能看圖聊天”這一表層現(xiàn)象,而應(yīng)理解其背后的基本問題:不同模態(tài)如何表示,如何對(duì)齊,如何融合,如何生成,以及如何驗(yàn)證。
1、先理解模態(tài)差異
文本、圖像、語音和視頻不是同一種數(shù)據(jù)。文本適合表達(dá)抽象概念,圖像適合表達(dá)空間結(jié)構(gòu),語音包含語言和情緒,視頻包含時(shí)間變化。
理解模態(tài)差異,是理解多模態(tài)大模型的基礎(chǔ)。
2、再理解對(duì)齊與融合
多模態(tài)模型的關(guān)鍵不只是“能輸入圖片”,而是能把圖片內(nèi)容和語言問題對(duì)應(yīng)起來。
圖文對(duì)齊、視覺編碼器、投影層、跨模態(tài)注意力、視覺指令微調(diào)等概念,都是圍繞這一目標(biāo)展開的。
3、學(xué)會(huì)設(shè)計(jì)多模態(tài)提示詞
使用多模態(tài)模型時(shí),提示詞應(yīng)盡量明確說明:
? 需要模型觀察什么
? 應(yīng)重點(diǎn)關(guān)注圖片、文字、表格還是圖表
? 是否需要逐步分析
? 是否要求引用圖中依據(jù)
? 輸出采用什么格式
? 不確定時(shí)是否需要說明不確定性
例如:
“請(qǐng)只根據(jù)這張圖表回答。先說明橫軸和縱軸分別表示什么,再指出最高值和最低值,最后用三句話總結(jié)變化趨勢。如果圖中文字無法識(shí)別,請(qǐng)明確說明。”
這個(gè)提示詞比“分析這張圖”更可靠,因?yàn)樗鞔_限定了依據(jù)、步驟和輸出要求。
4、重要任務(wù)必須驗(yàn)證
多模態(tài)模型輸出尤其需要驗(yàn)證。圖片、圖表、表格和文檔中的細(xì)節(jié)容易出錯(cuò),因此應(yīng)養(yǎng)成以下習(xí)慣:
? 關(guān)鍵數(shù)字要人工復(fù)核
? 圖中文字要與原圖對(duì)照
? 醫(yī)療、法律、金融內(nèi)容要請(qǐng)專業(yè)人員確認(rèn)
? 圖像生成內(nèi)容要標(biāo)注 AI 生成
? 涉及隱私的圖片和文件不要隨意上傳
? 對(duì)模型無法確定的內(nèi)容,不要強(qiáng)迫它給確定答案
5、把多模態(tài)模型當(dāng)作協(xié)作工具
多模態(tài)大模型最適合承擔(dān)以下角色:
? 幫助理解復(fù)雜圖文資料
? 輔助閱讀圖表、截圖和頁面
? 生成教學(xué)配圖和說明
? 輔助整理文檔、表格和報(bào)告
? 作為無障礙輔助工具
? 作為創(chuàng)意設(shè)計(jì)和內(nèi)容生產(chǎn)助手
? 作為智能體系統(tǒng)的感知與語言接口
但它仍然不是全知全能的判斷者。真正可靠的應(yīng)用,需要把模型、外部工具、數(shù)據(jù)來源和人工審核結(jié)合起來。
小結(jié)
多模態(tài)大模型把 AI 的能力從文本擴(kuò)展到圖像、語音、視頻和文檔等信息形式。其核心在于模態(tài)編碼、跨模態(tài)對(duì)齊、信息融合和多模態(tài)生成。正確使用多模態(tài)大模型,應(yīng)理解其能力邊界,核查關(guān)鍵證據(jù),保護(hù)隱私數(shù)據(jù),并在高風(fēng)險(xiǎn)場景中堅(jiān)持人工復(fù)核。
“點(diǎn)贊有美意,贊賞是鼓勵(lì)”
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.