網易首頁 > 網易號 > 正文 申請入駐

AI 成為主流負載后,數據基礎設施將如何演進?|Apache Doris 2026 Roadmap

0
分享至


在過去幾年中,數據基礎設施的演進始終圍繞一個核心問題展開:如何更快地分析數據?

但進入 2026 年,這個問題正在被重新定義。隨著 AI 應用的爆發式增長,數據系統不再只是分析工具,而逐漸成為 智能系統的一部分。數據不再只是被查詢,而是被 Agent 調用、被模型理解、被系統實時消費。

在這樣的背景下,Apache Doris 社區提出了 2026 年的年度主題:

Scale Intelligence, Accelerate Insight

如果說過去 Doris 關注的是更快的數據分析,那么在 2026 年,我們要回答的問題是:

AI成為主流負載之后,數據庫應該演進成什么樣子?

01

2025:變化的起點

回看 2025 年,Apache Doris 的演進路徑其實已經顯露出這一變化的方向。

過去一年,社區發布了兩個重要版本——3.1 與 4.0,分別在數據分析能力與檢索能力上實現了關鍵突破。

在 3.1 版本中,進一步夯實了 Doris 在半結構化數據分析場景與 Lakehouse 上的基礎能力,并在大量生產環境中得到穩定應用。

  • 在半結構化數據分析上,圍繞面向 JSON 的 ,持續完善功能并優化性能,同時提升倒排索引與全文檢索在空間利用率與可擴展性上的表現,并引入更靈活的 tokenizer 插件機制;

  • 在 Lakehouse 方向,增強了對 Iceberg、Paimon 等外部數據源的支持能力,物化視圖與查詢優化能力持續提升,同時優化了數據寫入與更新性能。

在 3.1 版本中,大量的精力被投入到一個看似比較局部的能力上——JSON,在當時主要是為日志、事件等半結構化數據服務。但進入AI時代,這類結構不穩定、模式不固定的數據,正在成為主流數據形態

到了 4.0,這種變化進一步加速。

相較于 3.1,4.0 的核心演進可以概括為“”的建立。越來越多的業務負載從結構化與半結構化數據,延伸至非結構化數據分析場景。從數據庫視角來看,這一變化本質上對語義檢索能力提出了更高要求。

以典型應用為例,企業需要對音頻、視頻、圖像等非結構化數據進行 embedding,將其轉化為向量形式存儲,并在此基礎上實現語義檢索。

基于這一趨勢,Doris 在 4.0 版本中正式引入了 ,從而實現在同一引擎內對結構化數據、半結構化數據以及向量數據的統一檢索。

而這,也讓 Doris 的定位發生本質的轉變:從一個分析型數據庫,走向一個能夠在AI時代同時承載分析與檢索的統一數據平臺。

02

AI 帶來哪些機遇與挑戰?

進入 2026 年,AI 正在從應用層快速滲透至數據基礎設施層。

首先,數據形態發生顯著變化。以 Agent 交互、模型輸出與用戶行為記錄為代表的數據,大量以 JSON 形式存在,且在規模與結構上高度不確定。這使問題不再只是能否支持 JSON,而是:

在 schema 持續變化、列數不斷膨脹的情況下,如何仍然保持高效的存儲與分析能力?

由此延伸出的,是AI可觀測性(AI Observability)問題。圍繞 Agent 行為日志展開分析,正在重塑傳統以 trace、logs、metrics 為核心的分析方式,成為理解系統運行機制與識別行為模式的重要手段。

與此同時,AI數據還帶來了更高并發與更強實時性的要求。單個 Agent 請求往往會觸發大量底層訪問,從而顯著提高系統對并發處理能力與響應時效的要求。未來的使用模式,將更強調快速反饋,而非長時間等待復雜推理過程完成。

此外,統一平臺的重要性進一步提升。企業更傾向于在同一數據基礎上,同時支持分析、檢索等多樣化需求,從而降低系統復雜度并保證數據一致性。

03

2026 年:從場景看演進

圍繞這些變化,Doris 在 2026 年的演進可以從四類關鍵場景來理解。

半結構化數據分析 & AI 可觀測性

AI 應用帶來的一個直接變化,是 JSON 等半結構化數據的快速增長。問題的關鍵在于如何在深層嵌套結構、列數持續擴展的情況下,仍然保持可接受的存儲成本與查詢性能。與此同時,隨著 Agent、LLM tracing 等新型應用快速發展,圍繞 JSON 日志的分析也正逐步成為 AI 可觀測性的重要組成部分。

  • 在技術路徑上,持續增強 Variant Type,在兼顧靈活性的同時兼具列式存儲性能;構建統一的可觀測性數據底座,將 trace、logs、metrics 等統一納入 Doris,并與 OpenTelemetry 等生態深度集成。

  • 在具體實現上,支持深層嵌套 JSON 結構,持續優化稀疏列與字符串列的高效存儲機制,以提升存儲效率與查詢性能。

在此基礎上,繼續完善列式能力支持,如部分列更新、索引能力及超寬表處理,進一步強化 Variant 類型在 JSON 與半結構化數據分析場景中的整體支撐能力。

在此背景下,AI可觀測性也逐漸成為這一場景的重要延伸。此前,社區已通過相關實踐展示了,并從中識別包括安全風險在內的多種行為模式,這正是 AI 可觀測性的典型應用場景之一。

混合檢索與分析(HSAP)

在 AI 場景中,檢索范式正在從單一模式走向融合。在混合檢索出現之前,用戶通常需要額外引入向量數據庫或 Elasticsearch 等檢索系統,以滿足語義檢索與全文檢索需求。然而,這種割裂式架構存在明顯局限:僅依賴向量檢索時,精確匹配能力不足;僅依賴文本檢索時,又難以覆蓋語義相關但不包含關鍵詞的內容。

基于這一背景,Doris 在 4.0 版本中引入了混合檢索能力,使用戶能夠通過單一 SQL 同時完成全文檢索、語義打分與向量檢索,從而兼顧關鍵詞精確匹配與語義召回能力。

在 2026 年,混合檢索與分析及相關能力將進一步增強:

  • 持續增強語義檢索與 Vector Search,引入基于磁盤的 ANN 算法與數據結構,以支持百億級向量的高效存儲與檢索。

  • 進一步融合向量能力與存儲計算體系,包括在 Merge-on-Write 上構建可更新索引、優化索引優先訪問路徑,以及提升向量數據壓縮與管理效率。

  • 持續增強全局索引與延遲物化能力以優化以 TopN 為主的語義檢索查詢,在減少數據訪問量的同時顯著提升性能。

  • 探索開放湖格式上的向量能力建設使用戶在無需遷移數據的前提下,即可在 Iceberg、Paimon 等數據湖之上實現高效的向量檢索與分析,進一步打通湖倉一體化生態。

多模態場景 & AI SQL

作為以 SQL 為核心的數據庫系統,Doris 最初面向結構化數據設計,但隨著 AI 應用發展,多模態需求快速增長,推動其在該方向持續演進。

Doris 在這一方向的核心目標,是降低數據處理門檻并統一處理流程:

  • AISQL 與 PythonUDF結合形成覆蓋數據預處理、特征提取、向量構建與分析的一體化能力體系,支撐更加完整的多模態數據處理鏈路。

  • 引入 File 數據類型該數據類型在不同執行環境下可具備不同語義。如在 SQL 中用于訪問文件元數據,在 AI SQL 或 Python UDF 中則可直接處理文件內容,從而支持 embedding 與內容分析。

通過上述能力的逐步完善,Doris 的目標是在多模態場景下,依托統一的數據平臺,為用戶提供從數據接入、處理到分析的端到端能力支持。

面向 Agent 的分析能力

當數據庫的主要調用方從人轉向 Agent,交互方式也隨之改變。僅依賴 Text-to-SQL 難以支撐復雜場景,因為 Agent 在缺乏語義信息時難以穩定生成正確查詢。

因此,Doris 在 2026 年將重點建設:

  • 加強語義層建設,包括數據標簽體系與元數據開放 API,以支持構建更靈活、可控的語義層,并提升 Agent 交互質量。

  • 持續推進 Data Agent 集成,使數據庫具備面向 Agent 的原生服務能力,從而支持更自然的交互與更準確的結果返回。

  • 完善元數據API,強化對外部 Catalog 的集成能力,以對接統一的數據管理、權限與語義體系,為 Agent 提供一致、可靠的數據理解基礎。

04

2026 年:從能力看演進

上述場景的落地,最終依賴于底層能力的持續演進。

查詢引擎:能力、性能與穩定性提升

在 2026 年,查詢引擎的演進將圍繞三個核心目標展開。

  • 能力完善。提供更豐富且兼容性更強的 SQL 語法與函數支持,包括 ASOF Join、Recursive CTE、UNNEST 等能力;持續推進語法簡化與兼容性增強,降低 Lakehouse 場景下的遷移成本;MERGE INTO 能力增強,支持在單條 SQL 或事務中完成更完整的 CDC 流程。

  • 性能優化。強化 Condition Cache,緩存 Block 級過濾結果以降低運行時計算開銷;重構 ZoneMap(智能索引)表達式,提升數據過濾效率;提升復雜列場景(JSON)列裁剪能力,支撐高并發場景下穩定性能表現。

  • 大規模任務的執行能力與穩定性提升,即“Run Big, Run Stable”。優化 Spill-to-Disk 與 Global Buffer Mgmt 內存管理能力,系統在資源受限情況下仍能穩定執行大規模任務。

同時,持續完善查詢可觀測性,使用戶在調度平臺與交互式查詢場景中直觀地理解執行狀態。

存儲引擎:規模、緩存與彈性優化

在存儲層面,圍繞規模(Scale)、緩存(Cache)與彈性(Elasticity)三個核心方向展開。

  • 在規模方面,重點解決超寬表場景與大規模 Tablet 帶來的元數據與管理問題,比如 JSON 經 Variant 子列抽取后,列數可能擴展至數千甚至上萬列,類似問題在 Parquet 等列式系統中同樣存在。

  • 在緩存方面,持續優化 Smart Caching 加強跨計算組緩存預熱、細粒度緩存策略及分布式共享緩存能力;緩存策略也將支持基于時間范圍、表級或分區級定義緩存策略,或對特定熱點分區進行定向預熱。

  • 在彈性方面,結合云基礎設施優化動態伸縮能力,提升擴縮容效率、優化多計算組讀寫分離,以及通過元數據持久化與本地緩存機制加快節點啟動過程,降低切換帶來的性能影響。

總體而言,存儲層的演進一方面面向更大規模與更復雜數據結構,另一方面致力于在存算分離架構下提供更加穩定、高效的實時服務能力。

開放數據湖:讀寫能力與統一治理

在開放數據湖方向,隨著 Lakehouse 架構逐步成為主流,Iceberg、Paimon 等開放湖格式持續演進。2026 年,Doris 將圍繞讀(Read)、寫(Write)與治理(Govern)三個核心維度展開能力建設。

  • 查詢能力:在不遷移數據的前提下,讓湖表查詢性能盡可能接近內表。優化在 Iceberg、Paimon 等湖表的實時查詢能力,增強 Parquet Page Cache 與本地 File Block Cache,并將 Condition Cache 擴展至湖表場景,同時通過 Distributed Planning 優化超大規模湖表的元數據規劃與解析。

  • 湖表管理能力:支持 Iceberg 與 Paimon 的完整生命周期管理,包括 DDL 與 DML(Update、Delete、Merge Into)。同時持續跟進生態演進,如 Iceberg V3 行級血緣與 Paimon 索引能力。

  • 生態接入能力:一方面,深化與 Flink 的集成,推進 Streaming Lakehouse;另一方面,擴展 Arrow Flight 能力,并引入基于 Arrow Flight 的 Catalog,降低多數據源接入成本,拓展數據訪問邊界。

  • 統一治理能力:加強與各類 Catalog 服務的深度集成,包括支持第三方認證接入、兼容 Iceberg 與 Paimon 的 REST Catalog 標準,以及完善自身元數據 Open API 能力。使 Doris 能無縫融入現有數據治理體系。

06

結束語

數據形態正在從結構化走向 JSON、向量與多模態,數據使用方式也從面向人擴展到面向 Agent 。數據庫面對的,不再是單一分析負載,而是分析、檢索與 AI Agent 并存的復合負載。

Apache Doris 在 2026 年的規劃,核心不再只是提升分析性能,而是響應AI時代數據基礎設施的根本變化。

Scale Intelligence, Accelerate Insight,不僅是年度主題,也定義了 Doris 在AI時代的演進方向。

如果你對這些方向感興趣,或者正在做相關探索,歡迎了解和參與 Apache Doris 社區:

  • 想看看最新能力 可以體驗最新版本

  • 想了解實現細節 可以閱讀官方文檔

  • 有實踐經驗或問題 歡迎一起交流討論

  • 也歡迎一起參與開源貢獻,讓這些能力真正落地

GitHub: https://github.com/apache/doris

官方網站:https://doris.apache.org

PREVIOUS RECOMMENDATIONS

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
陳海濤找杜鋒溝通,下達了廣東隊最新的目標!

陳海濤找杜鋒溝通,下達了廣東隊最新的目標!

體育哲人
2026-04-23 10:36:46
迪麗熱巴上學時無人追求,看到她早期照片,網友:這誰敢追啊

迪麗熱巴上學時無人追求,看到她早期照片,網友:這誰敢追啊

喬話
2026-04-22 20:36:30
追成1平!坎寧安27+11活塞一節擊潰魔術,哈里斯16+11班凱羅18分

追成1平!坎寧安27+11活塞一節擊潰魔術,哈里斯16+11班凱羅18分

湖人崛起
2026-04-23 09:48:48
“醫院一主任巨額財產來源不明、非法侵占公有資金”新進展:葉某被作為違紀違法典型;知情人士:涉案金額超300萬

“醫院一主任巨額財產來源不明、非法侵占公有資金”新進展:葉某被作為違紀違法典型;知情人士:涉案金額超300萬

大風新聞
2026-04-22 21:31:01
女子腳踹保安,被反手扇耳光后續:監控還原真相,原來我們被騙了

女子腳踹保安,被反手扇耳光后續:監控還原真相,原來我們被騙了

攬星河的筆記
2026-04-23 14:12:35
殲-35總師:中國兩款六代機或將再出意外

殲-35總師:中國兩款六代機或將再出意外

丁鋏驚悚影視解說
2026-04-21 17:47:14
結婚第二天,發現婚房已被婆婆過戶給了小叔子,我當場提出了離婚

結婚第二天,發現婚房已被婆婆過戶給了小叔子,我當場提出了離婚

清水家庭故事
2026-04-23 17:49:20
具身數據才是最大「金礦」,數據云商城來了:全球首個、百億級

具身數據才是最大「金礦」,數據云商城來了:全球首個、百億級

機器之心Pro
2026-04-18 12:41:20
“哥,爸治病要10萬,趕緊打過來”哥哥:你搞錯了吧,我爸好著呢

“哥,爸治病要10萬,趕緊打過來”哥哥:你搞錯了吧,我爸好著呢

多久情感
2026-04-23 18:04:09
格局太小!樊振東和黃仁勛合照,國際乒聯故意發布樊振東輸給張本智和的比賽

格局太小!樊振東和黃仁勛合照,國際乒聯故意發布樊振東輸給張本智和的比賽

夕落秋山
2026-04-23 17:44:53
用戶都氣笑了!700元路由器保修剩15天壞了:廠商只愿退款10元了事

用戶都氣笑了!700元路由器保修剩15天壞了:廠商只愿退款10元了事

快科技
2026-04-23 19:07:05
江西南昌發布一企業窒息事故致3人死亡調查結果,多人被建議追刑責

江西南昌發布一企業窒息事故致3人死亡調查結果,多人被建議追刑責

齊魯壹點
2026-04-23 07:43:09
廣東一路邊攤炒鍋里趴著大老鼠,路人:不知道老鼠呆了多久,攤位上沒有人

廣東一路邊攤炒鍋里趴著大老鼠,路人:不知道老鼠呆了多久,攤位上沒有人

大象新聞
2026-04-23 17:49:17
23號收評:滬指跌破4100點,所有人都注意了,大盤后市或將這樣走

23號收評:滬指跌破4100點,所有人都注意了,大盤后市或將這樣走

春江財富
2026-04-23 15:26:20
112名“中國留學生”,被調查

112名“中國留學生”,被調查

中國新聞周刊
2026-04-22 07:35:10
大澤鄉起義成功后,陳勝為何要殺掉吳廣,司馬遷說出了其中的原因

大澤鄉起義成功后,陳勝為何要殺掉吳廣,司馬遷說出了其中的原因

芳芳歷史燴
2026-04-23 02:45:51
最新:曝俄軍敗退扎波羅熱!丟失幾年來占領的全部土地

最新:曝俄軍敗退扎波羅熱!丟失幾年來占領的全部土地

項鵬飛
2026-04-20 20:13:15
臺灣專家賴岳謙:印度確實有一點比中國強很多,那就是——嘴。

臺灣專家賴岳謙:印度確實有一點比中國強很多,那就是——嘴。

荊楚寰宇文樞
2026-04-22 23:16:37
他曾擔任廣東省委書記,被調任湖北省委書記時,卻被年輕人代替

他曾擔任廣東省委書記,被調任湖北省委書記時,卻被年輕人代替

老范談史
2026-04-22 09:22:44
到賬230億,股價暴漲85%,賈躍亭直接起飛!

到賬230億,股價暴漲85%,賈躍亭直接起飛!

新浪財經
2026-04-23 00:58:58
2026-04-23 20:52:49
開源中國 incentive-icons
開源中國
每天為開發者推送最新技術資訊
7705文章數 34536關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

特朗普"狂怒"稱滅掉了伊朗軍隊 美國官員:不 并沒有

頭條要聞

特朗普"狂怒"稱滅掉了伊朗軍隊 美國官員:不 并沒有

體育要聞

萊斯特城降入英甲,一場虧麻了的豪賭

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

關于AI算力鏈"瓶頸" 這是高盛的最新看法

汽車要聞

令人驚艷的奇瑞車 風云A9可不只是樣子貨

態度原創

健康
手機
親子
旅游
軍事航空

干細胞如何讓燒燙傷皮膚"再生"?

手機要聞

REDMI雙旗艦新品同臺發布,讓天璣9500坐實「性能魔王」稱號

親子要聞

我宣布:我再也不怕喝牛奶了!

旅游要聞

渝見遵義!遵義文旅在重慶“一會一節”發出“清涼邀請函”

軍事要聞

人民海軍成立77周年 主力艦艇亮相上海

無障礙瀏覽 進入關懷版