網易首頁 > 網易號 > 正文申請入駐

快手OneSearch-V2全量上線，生成式搜索進入「懂你」時代

2026-05-13 18:45:51　來源: 機器之心Pro

河北舉報

分享至

針對生成式檢索范式在電商搜索場景下面臨的復雜查詢理解不足、用戶潛在意圖挖掘乏力、獎勵系統易過擬合歷史窄偏好等落地瓶頸，快手技術團隊在已規模化部署的工業級生成式搜索框架 OneSearch 基礎上，發布了一篇系統性升級的研究論文，正式推出新一代框架 OneSearch-V2。

該論文詳盡闡述了以潛空間推理增強與自蒸餾訓練為核心的端到端演進方案，創新性地提出了思維增強的復雜查詢理解、推理內化的自蒸餾訓練 pipeline，以及基于真實用戶行為反饋的偏好對齊優化體系的原生化設計。

目前，該系統已在快手電商搜索平臺全量上線，在不增加任何推理成本與服務時延的前提下，取得了商品 CTR 提升 3.98%、買家數提升 2.07%、訂單量提升 2.11% 的顯著業務收益，并有效緩解了搜索系統長期存在的信息繭房與長尾稀疏問題。

論文標題：《OneSearch-V2: The Latent Reasoning Enhanced Self-distillation Generative Search Framework》
論文地址：https://arxiv.org/abs/2603.24422
代碼地址：https://github.com/benchen4395/onesearch-family

一、背景

1.1 OneSearch V1 回顧與成果

OneSearch V1 通過端到端生成式架構在顯著降低推理成本的同時，大幅提升了中高頻query 的在線效果與轉化效率，尤其是針對中高頻的 query 和中長尾用戶偏好的推理能力有著比較顯著的提升（OneSearch：電商搜索端到端生成式建模）。

1.2 V1 仍存在的核心瓶頸

隨著用戶偏好日趨多樣化、搜索 query 日益復雜，我們識別出制約 OneSearch 進一步提升的三個關鍵限制：

復雜 query 的理解不足：大量短 query 未指定具體商品（如 “室內健身器材” 可能是跑步機或啞鈴，但不應是山地車），長尾 query 則存在顯著詞匯差異（如否定型 “緩解疲勞，不要保健品” 或問答型 “游泳需要準備什么”）。這類復雜 query 在平臺占總 PV 約 1/3，卻僅貢獻 8% 的轉化，V1 難以處理這種泛 / 弱意圖。
用戶上下文的個性化意圖推理不足：模型過度依賴歷史共現模式和日志擬合，導致淺層匹配。例如對花粉過敏的用戶搜索 “當季鮮花”，模型無法推理出應規避致敏品種。
脆弱的獎勵系統與分布偏差：多階段更新的混合排序框架（依賴獨立 Reward Model）更新遲緩，易受采樣偏差影響，過擬合于狹窄的歷史偏好。

1.3 OneSearch V2 的核心思路

針對上述瓶頸，OneSearch V2 提出Latent Reasoning Enhanced Self-distillation（基于自蒸餾隱式推理增強）框架：

Thought-augmented Query Understanding（思維增強的 query 理解）：利用 LLM 生成緊湊的關鍵詞級 CoT（keyword-based CoT），在提升信息密度的同時避免長文本開銷，作為 SFT 對齊語料和后續蒸餾的 “教師端” 特權輸入。
Reasoning-internalized Self-distillation（推理內化的自蒸餾）：無需引入額外參數，通過信息不對稱的自蒸餾機制，將顯式推理能力直接編碼進模型權重中，轉化為 “直覺”。
Behavior Feedback Preference Alignment（行為反饋偏好對齊）：拋棄獨立 Reward Model，引入直接用戶交互反饋。提出 TPMA-GRPO（Token-Position Marginal Advantage），針對 SID 序列的層次因果結構，實現基于生成位置的精準信用分配。

二、實驗方案

2.1 編碼方案（沿用 V1）

OneSearch-V2 中沿用 V1 的編碼方案 KHQE+RQ-OPQ。

近期研究將 SID 編碼方法分為單模態與多模態兩類。不同于推薦系統，搜索引擎需在統一分詞體系下對齊 query 與商品，保障語義約束的魯棒性，這對單模態 query 與多模態商品（含文本、多視角圖片、講解視頻）間的表征差異提出精細建模要求。V1 采用 Qwen-VL 從多源信息中提取商品核心關鍵詞，構建統一文本表征；其他方法則嘗試聯合輸入或多模態分別編碼后拼接。但多圖易呈現互斥屬性（如連衣裙不同顏色），冗余屬性（如 T 恤紐扣數量 / 位置）易引入偏差，導致關鍵屬性被淹沒。為此，V2 開展大量實驗，系統評估不同編碼范式在電商生成式搜索中的適用性。

為全面比較多模態與單模態 embedding 的效果，我們在多種模型配置下開展了對比實驗，包括：

僅使用文本描述的單模態編碼；
多模態編碼，涵蓋統一編碼（聯合處理）和分別編碼后拼接兩種方式；
OneSearch 的關鍵詞層次量化方案 KHQE（使用單模態表征多模態信息）。

為簡化實驗，我們收集約 500 萬條線上點擊的 < query, item > 對，商品輸入僅含標題和兩張主圖；所有 embedding 統一采用 RQ-OPQ 分詞。結果表明：單模態方法顯著優于多模態（如小規模 bge-base 優于大規模 Qwen3-VL），主因跨模態表征差異與冗余屬性削弱了多模態編碼有效性；“先分離后拼接” 策略表現最差，進一步驗證該挑戰；KHQE 效果最佳，兼具強關鍵屬性提取與層級表征能力，且模型輕量，支持實時 query 處理，在性能與效率間取得良好平衡。結論指出：電商搜索編碼需聚焦兩大關鍵 —— 緩解跨模態差異、增強關鍵信息。

2.2 Thought-augmented Query Understanding（思維增強的 query 理解）

2.2.1 動機

電商搜索引擎日均處理海量 query，用戶意圖復雜：頭部 query（如 “室內健身器材”）表達模糊、意圖發散，導致候選過寬；尾部 query 類型多樣（問答 / 推薦 / 排行榜 / 知識 / 否定 / 平替等），語義約束強、行為信號稀疏，意圖識別與商品匹配難度高。在快手商城，此類復雜 query 占 PV 約 1/3，但轉化率僅 8%，效率偏低。OneSearch-V1 通過表征對齊與增強緩解語義鴻溝，但 CTR 增益呈 “倒 U 型”，頭部與尾部提升有限 —— 頭部瓶頸在于 “檢索哪個”，尾部在于 “能檢索什么”。顯式 CoT 雖提升可解釋性，但輸出冗長、小模型難復現；SID 與文本 CoT 異構性強；且電商更需聚焦意圖對齊的關鍵詞，而非全鏈路推理。亟需輕量、高效、意圖導向的語義增強方法。

2.2.2 思維增強 pipeline

我們基于 Qwen3-32B 在語義約束下生成精準 CoT，提取高信息密度關鍵詞（確保意圖、類目、屬性一致），作為訓練階段的補充語義信號，提升 query 意圖識別與用戶偏好校準；同時以關鍵詞驅動 CoT，顯著降低推理開銷。整體采用三步推理 Pipeline。

Step 1. query 分析。包含四個組成部分：

意圖理解，識別主要檢索目標（即商品、店鋪或直播主播）；
類目識別，按從粗到細的粒度進行層級類目匹配；
屬性識別，從 query 中抽取屬性類型及其對應值；
話題推薦，推測滿足用戶需求的潛在候選話題。

Step 2. 關鍵詞提取。針對商品檢索意圖的 query，從分析結果中提取關鍵詞，并施加意圖、類目與屬性一致性約束；再經同義合并與冗余剔除，最終按商品熱度降序輸出；其余意圖 query 由專用引擎處理，Pipeline 直接終止。

Step 3. 偏好校準。基于用戶畫像與歷史行為（如搜索詞、交互商品序列），LLM 動態感知偏好，對關鍵詞集合進行個性化過濾或增補；訓練時注入當前會話已交互商品作為強信號，確保關聯真實標注商品的關鍵詞被保留或顯式引入。

2.2.3 部署方式

上述第二步和第三步構建 < query, keywords > 和 < query, user, keywords > 訓練語料；設計 4 個 CoT 任務，融入 OneSearch-V1 SFT 第一階段（語義對齊），使模型超越日志學習 query 知識，并結合用戶偏好挖掘其感興趣的商品話題，提升復雜性與個性化推理能力；在線部署時，關鍵詞驅動的 CoT 生成異步執行，結果用于流式訓練與近線推理；相同 query 或 < query, user > 可復用緩存，顯著降低算力開銷且零延遲。

注："\+" 表示在前一行模型基礎上累加新組件（逐步疊加），"+" 表示在 CoT tasks 完成后的模型上單獨添加組件。

結果顯示：在規模相當時，單模態顯著優于多模態（即使小規模的 bge-base 也優于更大規模的 Qwen3-VL），這源于跨模態表征差異與冗余屬性；先分離后拼接策略表現最差，進一步印證上述挑戰。KHQE 取得最佳結果，展現出卓越的核心屬性提取與層級表征能力；其較小規模還支持實時處理 query，在性能與效率間達成良好平衡。這也印證了電商搜索編碼的兩個關鍵點：緩解跨模態差異、增強關鍵信息。

2.3 Reasoning-internalized Self-distillation（推理內化的自蒸餾）

2.3.1 動機：保留推理增益，消除推理開銷

直覺方案（OneSearch 先生成推理關鍵詞再生成 SID）因離散 SID 與文本關鍵詞表征異質性強，小模型難以建模，實驗顯示顯式 CoT 推理反而顯著降低性能，甚至不如 baseline。替代方案（將關鍵詞作為 query 補充信息 + RAG）雖提升檢索與排序效果，但需在線調用 thought-augmented query understanding 模塊，帶來不可接受的延遲，不滿足電商搜索嚴苛的實時性要求；且關鍵詞覆蓋有限，易導致模型僅聚焦于關鍵詞顯式涵蓋的商品，泛化能力受限。

核心問題：能否保留甚至進一步增強推理帶來的性能增益，同時不承擔推理帶來的開銷？

2.3.2 自蒸餾的核心機制

我們提出推理內化自蒸餾機制，將關鍵詞引導的深思型 CoT 推理能力直接編碼至模型參數，轉化為快速直覺式推理；無需修改架構、不增參數、不加推理 token，僅通過定制化蒸餾將推理能力注入原模型權重。

信息不對稱的自蒸餾公式

學生接收不含關鍵詞的相同輸入：

為驗證自蒸餾相對于其他推理內化方案的優越性，對比了四種替代策略：

特殊 token 蒸餾，在學生輸入中插入專用標記 token；
CODI 風格隱狀態對齊，通過連續思維向量和 L1 損失對齊隱層表征；
EMA 教師模式，教師權重為學生的指數移動平均；
聯合訓練模式，教師與學生雙向互學習共同更新。

緩解表征不穩定性

教師與學生之間的信息不對稱引入根本性挑戰：學生必須從嚴格更少信息的輸入中產生同樣自信的預測，這迫使損失曲面在關鍵詞缺失輸入的鄰域變尖銳：嵌入空間的微小擾動可能導致輸出分布不成比例的大變化。我們識別出兩種互補失敗模式，并用針對性正則化應對：

輸入魯棒性：FGM 對抗擾動。補充 R-Drop 的輸出空間正則化，我們對輸入嵌入空間應用 FGM。第一次反向傳播后，沿梯度方向擾動共享嵌入層：

總優化目標

此外，用 focal loss 替換標準交叉熵，緩解 SID 詞表中的長尾類別不均衡問題。

2.3.3 關鍵實驗結論

自蒸餾是主要性能驅動：單項最大提升（Order HR@10 +1.17%，Click HR@10 +1.67%）；
Self-Distill (S) 優于 Base (T)：即使推理時從未觀察到關鍵詞，自蒸餾后的學生仍持續優于使用關鍵詞增強訓練與評估的教師，證實推理能力已被編碼進模型權重；
self-mode 優于所有替代方案：相比 special-token、CODI 式隱狀態對齊、EMA-mode、joint-mode，完全共享權重 + 輸入層信息不對稱是最有效的范式；
三種正則化協同增效：R-Drop+FGM+focal loss 的組合效果超過各自貢獻之和，表明信息不對稱導致的表征不穩定是多維度的。

2.4 Behavior Feedback Preference Alignment（行為反饋偏好對齊）

2.4.1 動機：替換獨立 Reward Model，直接利用用戶行為反饋

OneSearch-V2 以直接行為反饋替代獨立 Reward Model，構建偏好對齊系統：

設計復合獎勵，兼顧 query-item 相關性與多階轉化目標；
引入 Token-Position Marginal Advantage（TPMA）機制，按 SID 序列位置差異分配信用，適配其粗→細的層次因果結構；
支持流式更新與靈活業務干預。

2.4.2 復合獎勵設計

2.4.3 標準 GRPO 及其局限

2.4.4 TPMA-GRPO：Token-Position Marginal Advantage

為解決信用分配問題，提出 TPMA-GRPO，將序列級獎勵分解為位置級邊際貢獻，并基于前綴正確性門控梯度流。

前綴獎勵（Prefix Reward）

前綴門控（Prefix Gate）

該機制自然實現了層次化課程學習：模型先學習生成正確的粗粒度 token，再訓練細粒度 token。

使模型同時學習生成什么（通過 TPMA）和生成的價值（通過商品級獎勵）。

TPMA-GRPO Loss

三、效果評測

3.1 離線效果評測

3.1.1 主實驗

我們從用戶搜索日志中選取 30,000 個有有效交互的 PV 作為測試集，包含 30,000 次點擊與 7,229 次下單。對每個 PV 提取 Top-10 生成商品進行公平對比，所有模型基于相同原始預訓練模型訓練，采用 HitRate@10 與 MRR@10 評估。離線實驗分為 SFT 階段逐步優化、RL 階段對齊優化、以及最終完整模型三部分。

注："\+" 表示在前一行模型基礎上累加新組件（逐步疊加），"+" 表示在 SFT 完成后的模型上單獨添加對齊任務。最優結果加粗。

離線實驗分析：

OneSearch (baseline)：V1 基線模型，作為所有實驗對照基準。
+ CoT tasks：SFT Stage 1 引入四項 CoT 任務后 Order HR@10 +0.48%，驗證關鍵詞級 CoT 對 query 語義歧義的有效緩解。
+ self-distill：單項最大提升（Order HR@10 +1.17%，Click HR@10 +1.67%），確認將推理能力編碼進權重是主要驅動。
+ R-Drop：MRR@10 由 0.1017 升至 0.1045，預測一致性約束有效緩解信息不對稱導致的輸出分布波動。
+ FGM：Order HR@10 升至 0.2180，Click HR@10 升至 0.2422，輸入魯棒性進一步增強。
+ focal loss：緩解 SID 長尾類別不均衡，Order HR@10 達 0.2214，Click HR@10 達 0.2471，三種正則化組合效果超過各自貢獻之和，SFT 階段收尾。
+ PARS：V1 原有自適應獎勵系統作 RL 基線，Click HR@10 0.2538，但 Order MRR@10 相對偏低。
+ GRPO：替換 PARS 后 Order HR@10 0.2248、MRR@10 0.1106，驗證復合獎勵與組相對優化。
+ TPMA：Order MRR@10 進一步升至 0.1136，體現層次化信用分配對細粒度 token 生成的增益。
OneSearch-V2：Listwise DPO + TPMA-GRPO 聯合優化，達全指標最優（Order HR@10 0.2314，Click HR@10 0.2568），相比 baseline 平均 HR@10 +2.68%、MRR@10 +1.66%。DPO 學基礎偏好擬合、TPMA 平衡多維獎勵與泛化，二者互補達到最佳效果。

3.1.2 消融實驗（自蒸餾模型 vs. 獨立訓練的教師 / 學生模型）

為驗證自蒸餾是否真正將推理能力內化進模型權重（而非僅依賴關鍵詞輸入），我們對比三種配置：Base (S) 不含關鍵詞訓練 + 評估的學生模型，Base (T) 含關鍵詞訓練 + 評估的教師模型，以及自蒸餾模型分別在教師端與學生端的評估結果。

? Student 模型：不含關鍵詞訓練和評估。? Teacher 模型：含關鍵詞增強數據訓練和評估。

消融實驗分析：

Base (S)：不含關鍵詞的基線學生，僅依賴原始 query 與用戶特征推理，作為信息劣勢下的性能下界。
Base (T)：含關鍵詞增強的基線教師，蒸餾前全面優于 Base (S)，符合 "更多信息帶來更好性能" 的直覺。
Self-Distill (T)：自蒸餾后在教師端（含關鍵詞）評估，相比 Base (T) 仍有提升，但略低于 Self-Distill (S)。原因是 self-mode 下教師與學生共享參數，梯度完全由學生損失驅動（含鼓勵從截斷輸入準確預測的 KL 約束），優化方向偏向信息缺失條件下的魯棒性。
Self-Distill (S)：自蒸餾后在學生端（不含關鍵詞）評估，在推理時從未觀察到關鍵詞的情況下仍持續優于 Base (T)，有力證實推理能力已被編碼進模型權重、內化為 "直覺" 式推理。

3.2 在線 A/B 測試

為了驗證線下收益能否轉化為實際的生產價值，我們將 OneSearch-V2 與 V1 進行了嚴格的 A/B 測試。在關鍵業務指標方面，OneSearch-V2 取得了統計學意義上的顯著提升（p < 0.05）：商品點擊率提升 3.98%，頁面點擊率提升 1.17%，頁面轉化率提升 2.90%，買家數提升 2.07%，訂單量提升 2.11%。三個逐步啟用的部署版本（V2_RAG、V2_Reason、V2 (full)）也呈現清晰的單調遞增趨勢。

OneSearch V1 OneSearch V2

3.3 人工 GSB 評測

對 3,200 個 q-i 查詢項對進行人工評估，進一步證實了搜索體驗的提升，具體表現為：頁面良好率提高了 1.37%，商品質量提高了 0.55%，q-i 相關性提高了 1.65%。

OneSearch V1 OneSearch V2

四、深入分析

4.1 分用戶 /query 頻次 / 商品冷啟動維度下探

在所有用戶群體、query 頻率類別和 item 熱度級別上，OneSearch-V2 均展現出持續且顯著的 CTR 提升，體現了模型的魯棒性和泛化性。
對于低活用戶和冷啟商品，OneSearch-V2 的提升尤為顯著。
從 query 頻率維度分析，相較于 V1 的倒 U 型曲線，V2 呈現出U 型曲線，彌補了 V1 在頭部、長尾 query 上的理解不足，這表明了基于 CoT 的思維增強在處理模糊或罕見 query 方面的突出能力。

4.2 分行業 CTR 增益分析

幾乎所有行業的 CTR 都得到了提升，平均增益為 3.98%，其中排名前十、中間十和后十的行業的 CTR 相對增益，如下圖所示。
另一個有趣的發現是，在標題內容豐富但存在歧義的 query 類別中，例如服裝、鞋類、化妝品和五金電器，CTR 的提升更為顯著，這表明新模型具有更準確的語義理解和更個性化的預測能力。

4.3 CoT 關鍵詞覆蓋率下鉆

CoT keyword 是論文關鍵信號來源，但其覆蓋質量直接影響 self-distillation 效果。
在線部署中，我們對線上實時 query 采用近線推理的方式更新到語料庫中。我們下鉆了 2026 年 3 月復雜 query 的 CoT 覆蓋率，整體覆蓋率持續上漲，保證了自蒸餾的穩定更新。

4.4 相關性和轉化率的 Trade-off

OneSearch_V2_RAG/FULL 的相關性和轉化指標都顯著高于 OneSearch_V1；
比較有趣的是，OneSearch_V2_FULL 的相關性、ctr 均低于 OneSearch_V2_RAG，但最終的 ctcvr 轉化指標卻大幅提升（0.231% -> 0.242%）。這與我們設計自蒸餾隱式推理的出發點一致，模型應該學習的是推理的能力，而非推理的結果。RAG 雖然能提升模型的相關性指標，但卻縮小了潛在商品空間，不利于最終的 order 目標。

4.5 TPMA 的靈活目標調節能力（3.18 大促實驗）

如何針對動態優化目標進行實時干預和自適應訓練，一直是生成式檢索系統面臨的長期挑戰。

五、下一步計劃

未來方向應遵循三大核心原則：業務需求、場景多樣性和以用戶為中心的需求。我們發現了幾個值得進一步研究的有前景的方向：

對于歷史交互數據有限的長尾 query，我們應該設計更有效的超越日志（Beyond Logs）的訓練策略來解決樣本不足的問題。
電子商務平臺的內容形式日益多樣化，包括視頻、直播和傳統商品列表。一個根本性的挑戰是如何構建一個統一的 SID 編碼方案，既能有效地表示異構內容類型，又能保留它們的獨特特征和跨模態關系。
向智能體搜索系統（Agentic Search Systems）的演進是另一個充滿前景的前沿領域。這種范式轉變需要高效的在線學習機制的創新，以便在不影響系統延

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.