網易首頁 > 網易號 > 正文 申請入駐

謝作如:當信息系統遇上人工智能之向量檢索——多模態數據分析初體驗

0
分享至

隨著圖像、視頻、音頻等非結構化數據日益成為信息主體,傳統信息系統在處理多模態內容時面臨理解與檢索的瓶頸。本文首先圍繞“向量檢索”這一人工智能關鍵技術,探討如何通過嵌入模型將多模態數據轉化為特征向量,并利用輕量級向量數據庫(如sqlite-vec)實現高效的相似性檢索,接著系統介紹了從“以圖搜圖”到“以文搜圖”的具體實現方法,最后對向量檢索在檢索增強生成(RAG)、視頻內容搜索等復雜AI應用中的潛力進行了展望。

數據是信息系統的核心要素。在傳統認知中,信息系統擅長處理規整的、存儲在表格里的結構化數據,如學生信息、商品庫存或交易記錄。然而,感知技術的發展使我們正身處一個數據爆炸的時代,圖像、視頻、音頻、文檔等非結構化數據已成為信息的主流形式。面對這些多模態數據,傳統信息系統往往力不從心。如何讓信息系統“看懂”圖片、“聽懂”聲音,并實現跨模態的智能檢索?這正是多模態向量檢索技術要解決的核心問題。

向量檢索技術簡介:

從“數據”走向“向量”

要理解多模態數據,可以借助嵌入(Embedding)模型與向量化技術的支持。我們可以將嵌入模型理解為一個高效的“翻譯官”,它能將非結構化的原始數據(如“一只在草地上奔跑的金毛犬”這段文本,或一張對應的照片)轉換成一串能夠捕捉其核心特征的數字,即特征向量(如圖1)。


圖1

通過深度學習模型(如CLIP模型),語義相近的內容會被“翻譯”成空間中距離相近的向量。例如,“狗”和“貓”之類的文本,在向量空間中的距離會非常接近,而相對來說,“狗”和“電腦”之類的距離,則比“動物”要遠一些。一旦數據被轉化為向量,復雜且模糊的語義相似度比較,就轉變為精確且高效的向量空間距離計算,如余弦相似度。這些向量被存儲在專門的向量數據庫中,從而實現快速、可擴展的相似性搜索和分析,這便是向量檢索的基石。

向量數據庫的選擇:

輕量化利器sqlite-vec

要實現多模態檢索,需一個能夠高效存儲與檢索向量的“倉庫”。盡管市面上已有諸多專業向量數據庫,但在教學環境、個人項目或資源受限的中小型應用中,它們的部署復雜度與資源消耗往往較高。考慮到高中信息技術課程普遍以SQLite作為數據庫教學基礎,sqlite-vec這一輕量級工具顯得尤為適用。

sqlite-vec是一個專注于向量搜索、無任何外部依賴的SQLite擴展,支持跨平臺使用。其使用方式延續了SQLite的簡潔風格,開發者只需聲明一個帶有向量列的“虛擬表”,隨后使用標準的INSERT INTO語句插入向量數據,再通過形如“SELECT…WHERE content_embedding MATCH?”的SQL語句執行相似性搜索。這種將強大功能封裝于熟悉接口之下的設計,大幅降低了向量檢索的開發門檻與技術復雜度。代碼如圖2所示。


圖2

sqlite-vec支持pip安裝,操作便捷。性能測試顯示,相較于傳統手動遍歷計算向量相似度的方式,sqlite-vec在查詢效率上具備壓倒性優勢,足以勝任中小規模檢索場景的需求。

功能展示:

從“以圖搜圖”到“以文搜圖”

要實現向量檢索功能,首先需將原始數據轉化為向量并存入數據庫。sqlite-vec本身不提供向量化功能,需借助其他模型完成特征提取。作為中小學廣泛使用的深度學習工具,XEduHub內置了多種向量化模型,成為sqlite-vec的理想搭檔。XEduHub提供的向量特征提取任務如下表所示。


借助XEduHub的特征提取功能,我們可以輕松實現以圖搜圖、以文搜圖之類的AI檢索功能。

01

以圖搜圖

“以圖搜圖”指用戶上傳一張圖片,系統即可在海量圖庫中快速找出視覺內容相似的圖像。其實現流程如下:

首先,將圖庫中所有圖像轉換為特征向量并存入數據庫;其次,將用戶上傳的查詢圖片也轉換為特征向量;最后,在向量數據庫中將查詢向量與庫中所有圖像向量進行相似度比較,按相似度從高到低返回結果。測試代碼如圖3所示。


圖3

02

以文搜圖

“以文搜圖”指用戶通過輸入文字描述來搜索相關圖片。XEduHub所采用的CLIP模型屬于多模態理解模型,能夠將圖像和文本映射到同一向量空間。因此,文本“一只在沙灘上的金毛犬”與其對應圖片的向量在空間中位置鄰近。

“以文搜圖”的實現流程與“以圖搜圖”基本一致,區別僅在于:先使用CLIP的文本編碼器將用戶輸入的自然語言轉換為文本向量,隨后在向量數據庫中進行檢索,找出語義最匹配的圖片。

測試代碼中僅需修改生成查詢向量的部分(如圖4)。


圖4

更多AI功能的實現

向量檢索的能力遠不止于此,它還是實現更復雜AI應用的腳手架。

01

檢索增強生成

檢索增強生成是當前提升大語言模型回答質量、抑制其“幻覺”的關鍵技術。其核心思路是:在讓大模型回答問題之前,先從外部知識庫(如專業文檔、教材)中檢索出相關信息,并將這些信息作為上下文提供給模型,從而生成更準確的答案。在此過程中,向量檢索扮演了“信息篩選員”的角色。例如,當用戶提問“光合作用的主要階段是什么?”時,系統會先將問題轉化為向量,隨后在向量化的知識庫中快速檢索出最相關的文檔片段,再將這些片段交給大語言模型,生成精準且有據可依的答案。

02

視頻畫面搜索

視頻可以視為一系列連續幀圖像(可能包含音頻)的集合。對視頻內容的檢索可借鑒圖像檢索的技術路徑。我們可以使用視頻描述或視頻問答模型,對視頻關鍵幀進行抽幀與理解,生成每一幀的特征向量,或對整個視頻內容生成概括性向量。當用戶搜索“視頻中貓咪跳上沙發的片段”時,系統可將該文本轉換為向量,并與視頻關鍵幀的向量進行匹配,從而快速定位事件發生的時間點,實現精準的“視頻畫面搜索”。

總結

信息系統是信息技術課程的核心概念。在傳統教學中,我們多聚焦于結構化數據的處理。然而,人工智能的快速發展,尤其是多模態理解與檢索技術的成熟,正推動傳統信息系統實現功能上的跨越。向量檢索僅僅是這輪變革中的一環,它使信息系統進化為能夠“理解”豐富世界、支持智能問答與跨模態搜索的“智能信息助手”。借助sqlite-vec等輕量化工具,這些前沿技術變得觸手可及,更易融入教學實踐。

本文作者:

謝作如

浙江省溫州科技高級中學

文章刊登于《中國信息技術教育》

2025年第23期

引用請注明參考文獻:

謝作如.當信息系統遇上人工智能之向量檢索——多模態數據分析初體驗[J].中國信息技術教育,2025(23):80-82.


歡迎訂閱

識別上方二維碼即可訂閱

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
為了擺脫“右派”家屬身份,她果斷離婚并嫁給恩師,令人唏噓!

為了擺脫“右派”家屬身份,她果斷離婚并嫁給恩師,令人唏噓!

鶴羽說個事
2026-04-17 22:54:53
CBA積分榜:上海鎖定常規賽冠軍 山東排第8

CBA積分榜:上海鎖定常規賽冠軍 山東排第8

閃電新聞
2026-04-20 19:53:00
“見過最廉價的兜底”,一份山姆燒雞,讓低認知母子淪為全網笑柄

“見過最廉價的兜底”,一份山姆燒雞,讓低認知母子淪為全網笑柄

妍妍教育日記
2026-04-15 09:30:09
張倫碩估計挺后悔的,腦子正常一點的未婚男人,都不會娶她

張倫碩估計挺后悔的,腦子正常一點的未婚男人,都不會娶她

南萬說娛26
2026-04-20 11:50:09
深圳女子花7299元從國美電器買格力空調 用1年就異響,一看銘牌發現是“僵尸機” 交涉30多次才解決

深圳女子花7299元從國美電器買格力空調 用1年就異響,一看銘牌發現是“僵尸機” 交涉30多次才解決

信網
2026-04-20 09:14:12
祥鵬航空回應“旅客與地服起沖突”:其行李超規,正配合調查

祥鵬航空回應“旅客與地服起沖突”:其行李超規,正配合調查

南方都市報
2026-04-20 17:16:09
山東省青島市委常委、副市長王波被查

山東省青島市委常委、副市長王波被查

新京報
2026-04-20 11:12:09
本科爛大街,碩士遍地走,博士很尷尬?上海交大今年招5000博士!

本科爛大街,碩士遍地走,博士很尷尬?上海交大今年招5000博士!

驊駿老師張
2026-04-19 07:49:40
教育部剛通知!9月起上學新規全覆蓋,普通家庭孩子上學迎公平

教育部剛通知!9月起上學新規全覆蓋,普通家庭孩子上學迎公平

復轉這些年
2026-04-18 11:43:46
2000噸英國潛艇消失,我國暗中打撈拆解研究,39年后首相卻上門討要

2000噸英國潛艇消失,我國暗中打撈拆解研究,39年后首相卻上門討要

睡前講故事
2026-03-30 13:48:58
AI算力爆發!算力租賃10大龍頭,業績暴漲、訂單鎖死至2028年

AI算力爆發!算力租賃10大龍頭,業績暴漲、訂單鎖死至2028年

我不叫阿哏
2026-04-19 11:54:29
老蔣得知毛岸英犧牲,半夜支開宋美齡,向兒子蔣經國吐露心聲

老蔣得知毛岸英犧牲,半夜支開宋美齡,向兒子蔣經國吐露心聲

歷史點行
2026-04-09 23:52:43
太可怕了!繼注射藥物、熱巴事件后,王陽再揭娛樂圈最臟的一面

太可怕了!繼注射藥物、熱巴事件后,王陽再揭娛樂圈最臟的一面

橙星文娛
2026-04-17 13:19:56
79年計劃生育,一家只準生一個,陳云:搞不好要被罵斷子絕孫!

79年計劃生育,一家只準生一個,陳云:搞不好要被罵斷子絕孫!

老范談史
2026-04-20 14:02:16
伊朗軍方:美軍向伊朗貨船開火,伊方發射無人機還擊

伊朗軍方:美軍向伊朗貨船開火,伊方發射無人機還擊

界面新聞
2026-04-20 07:04:17
張子強團伙中,唯一聽了李嘉誠建議買28套豪宅的青年,后來如何了

張子強團伙中,唯一聽了李嘉誠建議買28套豪宅的青年,后來如何了

深度報
2026-04-14 22:45:47
36萬億美債還不起,特朗普決定“弄死”大債主,為此不惜自曝家丑

36萬億美債還不起,特朗普決定“弄死”大債主,為此不惜自曝家丑

杰絲聊古今
2026-04-19 20:21:05
12萬!大衣哥商演最新報價,網友:沒想到這么多年,價格沒怎么漲

12萬!大衣哥商演最新報價,網友:沒想到這么多年,價格沒怎么漲

火山詩話
2026-04-20 16:19:35
徹底失控!張敬軒一露頭就被舉報,網友強烈抵制!英皇被拉下水

徹底失控!張敬軒一露頭就被舉報,網友強烈抵制!英皇被拉下水

小娛樂悠悠
2026-04-20 08:58:04
1898 年,譚嗣同就義,他永遠不知,自己的后人有多讓人心疼

1898 年,譚嗣同就義,他永遠不知,自己的后人有多讓人心疼

小燕聊劇
2026-04-14 19:53:58
2026-04-20 21:44:49
中國信息技術教育 incentive-icons
中國信息技術教育
中國信息技術教育雜志
1350文章數 2541關注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發布 售價10999元起

頭條要聞

保價2000元機蓋運輸中損壞 德邦僅愿以1300元回購

頭條要聞

保價2000元機蓋運輸中損壞 德邦僅愿以1300元回購

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經要聞

利潤暴跌7成,字節到底在做什么

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態度原創

旅游
健康
教育
數碼
公開課

旅游要聞

京城春日頂流!國家植物園 20 萬株郁金香盛放,藏著最浪漫的四月

干細胞抗衰4大誤區,90%的人都中招

教育要聞

關注!海淀這所學校不再具備辦學資格

數碼要聞

惠普推出2026款HyperX暗影精靈MAX游戲本

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版