網易首頁 > 網易號 > 正文申請入駐

OneReason：當推薦系統學會思考

2026-06-09 20:21:15　來源: 機器之心Pro

河北舉報

分享至

機器之心發布

推薦系統的過去十年，本質是把 "用戶 - 物料" 的統計共現挖到極致 —— 從協同過濾、深度模型，到生成式 OneRec 系列，每一代都在讓 "記憶" 更精細、參數更大、序列更長，也讓 Scaling 這件事在工業級推薦系統上跑通，持續釋放算力紅利。但走到 LLM 時代，我們發現：純把 "統計" 做大已經在多個方向上撞到了硬墻—— 冷啟用戶、長尾物料推不準、跨域遷移做不好、多目標多業務的策略組合靠權重調參越來越難往前推。

同一時期的基礎大模型領域，主旋律從 Scaling，Reasoning 再到 Agentic—— 智能的高度與維度被持續重定義：從 "知道多少"，走向 "想得對不對"，再到 "能不能把事情做好"。OpenAI o1、DeepSeek R1 已經把 "先思考再回答" 做成共識范式，讓模型在數學、代碼、agent 任務上獲得跨代的能力躍遷。這條主軸并非 LLM 專屬 —— 推薦系統過去十年靠 Scaling 拿到的紅利，下一階段同樣需要 Reasoning 來釋放新的增長曲線。

但 Reasoning 在推薦里不是 LLM 范式的簡單復制—— 它要回答的是推薦系統自己的三個本質問題：

(1) 推薦天然是 "溯因"，不是模式匹配。用戶行為是 "果"，潛在意圖是 "因"—— 從嘈雜、跨域、跨時段的行為序列里反推某個具體物料 "為什么適合此刻"，本質是溯因推理。統計模型記得住 "看過 A 的人也看 B"，但回答不了用戶多跳因果鏈；尤其在冷啟用戶、新物料、長尾品類、跨域遷移這些行為信號天然稀疏的場景里。

(2) 推薦從 "黑盒打分" 變成 "可解釋、可干預的認知過程"，業務杠桿顯著放大。一個會推理的基模，把過去藏在權重里的決策過程顯式寫在 CoT 里，直接讓推理鏈直接讀出 "為什么推這條"，讓業務約束直接可以寫在推理層，讓策略迭代節奏從周級降到天級；讓新業務接入也不再需要為每個域從零搭召回排序棧，一個懂物料語義的基模 + 一段業務說明即可跨域出方案。

(3) Reasoning 是 Agentic RecSys 的前置地基。推薦的下一站，是從 "千人一面的固定流水線" 走向 "千人千策、能規劃、能用工具、能多輪對話" 的 Agentic 推薦系統。規劃、工具調用、長程對話推薦這些能力的前提，都需要一個懂物料語義、有推理能力、能穩定指令遵循的基模在底層托住。

正是基于以上三點判斷，快手技術團隊推出OneReason—— 把 Reasoning 真正注入推薦基模的一次系統性嘗試。其核心改進點包括：(1) 578B 數據的三階段預訓練，分層遞進地完成推薦與通識知識的語義對齊；(2) 設計基于歸納 / 溯因 / 演繹的推薦 CoT 格式，在 SFT 階段教會模型推薦任務的思維邏輯；(3) 通過 "先專后合" 的強化學習鏈路平衡多業務推薦能力，使 CoT 真正輔助推薦決策。

在評測與部署上，OneReason 同時驗證了 Reasoning 在推薦里的真實價值：

業務上—— 在快手本地生活廣告 10 天 A/B 實驗中帶來+10.33% 曝光、+8.23% 廣告收入、ROI > 5，對應年化數億元商業增量；
推薦 Benchmark 評測上——OneReason首次在推薦基礎模型上讓 thinking 模式穩定超過 non-thinking 模式。在此之前，多個公開嘗試（OneRec-Think、OpenOneRec）都觀察到 thinking 反而 hurts 的反常識現象；OneReason 在 Pass@4 上 thinking 平均領先 non-thinking+13.45%，把 "思考" 在推薦基模上第一次變成正資產；
通識能力上——MMLU-pro、GPQA-Diamond 等評估基本保留 Qwen3-8B 原始水平，沒有因為推薦訓練把基座的通用認知和指令遵循能力訓壞。

在 LLM 已經把 Scaling-Reasoning-Agentic 這條主軸走到第三步的同時，OneReason 把推薦域的 "Reasoning" 補上了關鍵一步 —— 通過物料語義與通識語義的深度對齊，把推薦過程轉化為一種可解釋、可干預、可進化的認知過程，使推薦背后的邏輯不再是黑盒，也為原生 ReAct 范式的 Agentic RecSys 打下基礎。

OneReason 技術報告：https://arxiv.org/abs/2606.06260
HuggingFace：https://huggingface.co/OpenOneRec/OneReason-0.8B-pretrain

一、背景

在生成式推薦方向上，OneRec 系列模型驗證了 Scaling Law 在推薦系統中也依然成立，并通過 OneRec V1、OneRec V2 持續釋放算力紅利，推動模型能力提升。而后 LLM 時代，模型能力的進一步躍遷不再僅依賴規模擴展，Scaling 與 Reasoning 的協同正在成為新的關鍵路徑。但在工業推薦場景中，OneRec 團隊此前嘗試過一些初步探索（如 OneRec-Think、OpenOneRec），發現直接引入這一范式并未帶來預期收益：在推薦任務上，thinking 模式并不穩定優于 non-thinking 模式，這一現象與 LLM/MLLM 的直覺完全相反。這表明推薦基模與通用基礎大模型在任務目標、信息結構和能力形成機制上存在顯著差異，簡單疊加 CoT 并不能自然轉化為推薦效果的提升。

因此，“推薦 CoT 應該怎么做” 成為生成式推薦繼續發展過程中必須迎面的挑戰。針對于這一問題，OneRec 團隊交出了他們最新答卷 --OneReason：在工業級推薦場景分析了推薦推理失效的根因，并提出一套覆蓋感知對齊、認知結構化與 CoT 能力增強的完整實驗流程，為生成式推薦領域的技術體系打開了新的探索空間，也為行業理解和構建面向推薦場景的推理能力提供了重要參考。

二、推薦 CoT 應該怎么做？

在回答這個問題之前，OneReason 先將視角切換到基礎大模型領域，參考在多模態領域 Thinking 弱于 Non-Thinking 的類似現象，以及社區積累的解決經驗。針對這一現象，基礎模型領域結論為：推理能力的形成并不只取決于是否引入 CoT，更依賴兩個基礎條件：

模態或表示空間之間需要建立深度語義對齊。若對齊不足，模型容易停留在表層模式匹配，難以真正圍繞深層語義信息展開推理。
推理鏈本身需要具備清晰、連貫、由粗到細的認知結構。即使模型具備一定感知能力，如果推理過程缺少穩定的組織方式，長鏈推理也容易引入噪聲并累積誤差。

類似的，在推薦場景上，以上兩個問題變得更加顯著和突出：

推薦基模中的 itemic token 與自然語言之間尚未形成足夠深的語義連接，模型更多是將 item 作為離散標識符進行關聯預測，而不是把它作為可理解、可組合、可推理的語義單元；
直接混合大量通用 Reasoning 數據，沿用通用 LLM 的 CoT 形式，期待模型完全通過泛化能力實現推薦任務的推理，卻沒有針對推薦任務設計專屬的推理結構，導致難以得到有推薦思維的邏輯鏈。

更進一步看，推薦推理與數學推理在問題形態上存在根本差異。數學推理通常是演繹式的：從明確前提出發，經過一系列邏輯步驟推導出相對確定的結論。而推薦推理更接近溯因推理：用戶興趣并不直接可見，模型需要從長期、嘈雜且不斷變化的行為序列中反推出潛在興趣，理解興趣隨時間的演化，并判斷某個候選物品為何適合當前上下文。因此，一條有效的推薦 CoT 不是簡單地 “展開更多的思考”，而是要完成高質量的信息壓縮：從噪聲行為中提取有效信號，從歷史行為中假設用戶興趣，再從興趣假設中收斂到推薦決策。因此，推薦基礎模型需要至少具備以下幾方面能力：

R0 感知：看懂每個 itemic pattern，解釋每個物料含義，讓 item 可總結為興趣點
R1 推導：學習 Item2Item 關系，通過常識知識，理解 item 關聯背后的原因
R2 演進：學習用戶序列長期演化過程，找到影響用戶未來決策的原因和潛在興趣點
R3 推薦：根據興趣點推理，推薦高質量、高相關物料，且有跨域推薦能力

基于上述思考，OneReason 形成了一套面向推薦推理的系統性解法，下面將按預訓練、SFT、RL 三個階段分別展開：

三、預訓練設計

OneReason 預訓練旨在構建一個實現 item 與自然語言深度語義對齊的推薦基座。推薦場景中的 itemic token 不只是離散物品表示，還承載著子 token 組合、物料內容、物料關系以及用戶行為上下文等多層語義。為此，預訓練階段首先設計了 Token、Item、Relational、User 四層遞進式數據架構，總規模達 578B token，并配合三階段分步訓練策略：先穩定新增 item 表征，再進行全參數語義對齊，最后面向長用戶行為序列進行優化。該方案解決了前代 OpenOneRec 系列因 item-text 語義割裂導致 CoT 推理低效的根本痛點，從預訓練層面夯實了推薦推理落地的基礎。

四級分層預訓練數據搭配通用多源語料，實現 Item 與自然語言全維度語義對齊

整套推薦預訓練數據從微觀到宏觀劃分為四大粒度，逐級打通物品標識與文本的語義關聯：

Token 粒度：圍繞子 Token 拆解與組合邏輯，設計單 Token 釋義、前綴語義預測及部分到整體的層級推理等任務，在最細顆粒度完成子單元語義綁定；
Item 粒度：對物料描述進行容量感知的粗粒化處理，過濾三個 token 無法承載的冗余細節與無效參數，配套多視角 Item QA 樣本，實現單品內容與文本的雙向精準映射；
Relational 粒度：依托用戶看后搜、協同過濾及跨用戶同窗共現等多源信號，構造 “物品→興趣說明文本→后續物品” 的鏈路數據，將隱式協同偏好翻譯為可解釋的文本遷移邏輯；
User 粒度：采用分域分組、全時序穿插兩種數據范式，按真實時間串聯跨域行為記錄，并隨機將部分 Item 替換為文本描述，實現全場景用戶興趣對齊。

在推薦專項數據之外，混合大量數理、代碼、科普等通用文本，并精選粗粒度多模態數據，將通用視覺知識遷移復用至短視頻、商品、直播等各類推薦物料，有效規避模型因專攻推薦任務而造成的通用理解能力下滑與任務過擬合。

三階段分步訓練

在整個預訓練階段，全量 Token 數合計 578B token，相對 OpenOneRec 160B 的數據量大幅提升：

預熱（110B）：凍結主干，僅優化新增 item 嵌入及對應輸出層權重，讓 item 表征平穩融入 LLM 語義空間；
全參訓練（449B）：全參數開放，四層數據聯合深度對齊；
長序列優化（19B）：上下文窗口放開至 32K，適配長用戶行為序列。

在預訓練數據層面，相比 OpenOneRec 基線，OneReason 在各方面能力全面躍升。具體來說，在統一數據量的實驗條件下，OneReason 預訓練方案相對 OpenOneRec 基線模型實現全面提升：

R0 物品錨定漲幅 160.5%，物品理解提升 35.7%，基礎感知能力實現全方位突破；
R3 核心跨域推薦指標提升 65.1%。

整套預訓練體系為后續結構化 CoT 微調和推理式推薦上線提供了堅實的語義底座，也是思考型推薦實現業務增收的關鍵前置支撐。

四、SFT 設計

預訓練完成后，模型已經具備 itemic token 的語義基礎。然而，推薦場景下的 SFT 不能等同于普通問答式指令微調。它面對的是長序列用戶行為、跨場景物料、隱式的興趣變化，以及最終落到候選物品選擇的決策問題。基于此，OneReason 的 SFT 階段向上承接預訓練建立的物料語義，向下為強化學習提供一個可探索、可評價的推薦推理起點。該階段的核心目標是：讓模型基于物料語義來推斷物料間關系、抽象用戶興趣并理解其演進過程，最終將這些信息組織成面向推薦決策的 reasoning trace。

圍繞上述目標，SFT 階段的重點是推理表達：讓模型在真實推薦場景中學會有效引用上述語義證據，并生成可監督、可校驗、可追溯的推理過程。具體而言，基于預訓練的強大的對齊能力，SFT 數據將能力升級為貼近推薦落地的監督信號，使模型逐步習得可解釋的推薦推理。數據分布如表 1 所示。

表 1：SFT 數據分布。

R3 推薦 CoT：把長歷史壓縮成可決策的推理鏈

在推薦系統建模中，首先需要解決兩大核心問題：一是對用戶歷史做高效壓縮，讓模型能從冗長、存在噪聲的用戶行為中，提煉出清晰的用戶畫像與緊湊的興趣變化模式，使后續推理能夠立足于壓縮后的少量候選方向，避免受到冗雜行為歷史的干擾；二是實現精準的動態推理，讓模型具備關聯物品、追蹤興趣變化、判斷下一步行為的能力。圍繞這兩個目標，OneReason 將 R3 思維鏈（CoT）顯式拆解為三個連貫的模塊：Persona Abstraction（用戶抽象）、Interest Expansion（興趣發散）、Transition Inference（興趣推斷）。

Persona Abstraction (用戶抽象)：在這一階段中，OneReason 事先定義了 20 類不同的用戶偏好類型，Persona Abstraction 會從稀疏、包含噪聲的行為里抽象出可解釋的偏好先驗（如家庭生活主導用戶、游戲技巧提升、直播購物愛好者、多人共用設備用戶等），并引用典型證據進行推斷。表 2 給出了若干畫像示例。

表 2：Persona Abstraction 的典型畫像示例。

Interest Expansion (興趣發散): 為了避免模型過早對用戶意圖做出單一判斷，OneReason 在推理鏈路中設計了 Interest Expansion（興趣發散）環節，將用戶近期的行為軌跡轉化為一組候選的興趣假設。針對發散寬度 n 的消融實驗展示了一個有趣的“少即是多”現象：當 n 保持在 1、3、5 的緊湊范圍時，模型表現最佳；而一旦擴大到 10 或 20，效果反而大幅衰減。OneReason 認為這種現象的本質在于 “推理信號的聚焦”：過大的候選集會引入低置信度的冗余興趣，從而模糊了用戶真正的核心興趣，干擾最終的決策。較小的假設集并沒有削弱推理能力，反而防止了推理路徑的碎片化。

圖 3：Interest Expansion 寬度消融。

Transition Inference (興趣推斷): 在最后一步 Transition Inference 中，模型會對候選方向進行綜合評估。評估維度不僅涵蓋證據強度、行為近期性與時間連貫性，還兼顧了畫像匹配、目標域兼容性以及潛在的答案泄露風險。這一過程有效串聯了前序的推理邏輯：既利用 R1 建立跨域的一跳橋接，又結合 R2 判斷興趣的時序演進。最終推斷出的興趣，不能僅僅停留在語義層面的 “相關”，更需要通過多跳的興趣演化推理，清晰地還原出它是如何從用戶的歷史軌跡中一步步自然延伸而來。

表 3：Interest Expansion 和 Transition Inference 的例子。

CoT 質量評估

為了評估推薦思維鏈（CoT）的生成質量并規避常見的推理缺陷， OneReason 設計了一套多維度的評估體系。在落地實踐中發現，推薦 CoT 極易陷入兩個極端：一是 “結果劇透”，即推理文本提前暴露了目標商品，讓解釋變成了同義反復；二是 “偽解釋”，即生成的文本看似邏輯通順，但完全脫離了用戶的真實行為支撐。針對這些痛點，OneReason 從以下五個核心維度對 R3 階段的推理鏈路進行量化評測：

Safety：排查推理文本中是否混入了目標 Item ID、商品標題等特征，防止模型 “偷懶” 直接劇透最終的推薦結果。
Consistency：校驗推理鏈路最終導出的結論，與系統預設的推薦目標是否嚴格對齊，避免推理過程與最終結果南轅北轍。
Logic：甄別模型是在真正歸納、提煉用戶的行為規律，還是僅僅用自然語言把用戶的歷史行為流水賬式地 “復讀” 了一遍。
Factuality：確保推理內容嚴格基于真實的用戶行為序列，杜絕大模型常見的 “事實幻覺”（如虛構交互行為、打亂時間線，或強行腦補、夸大用戶的興趣偏移）。
Informativeness：評估推理過程是否提供了具體、有洞察的解釋視角，摒棄那些放之四海而皆準、毫無信息增量的 “廢話” 描述。

圖 4：R3 推理軌跡質量評估，覆蓋 Safety、Consistency、Logic、Factuality、Informativeness 五個維度）。

五、RL 設計

在 SFT 階段，模型已經學會理解用戶需求、生成推薦推理過程，并輸出相應的推薦結果。但 SFT 本質上仍是在模仿已有數據，其能力容易受到訓練樣本和教師模型的限制。因此，推薦基礎模型需要進一步引入強化學習階段，讓模型不再只是復現已有軌跡，而是能夠根據推薦結果反饋進行自我探索，發現更有效的推薦策略。

讓強化學習適配推薦任務

相比于數學推理、代碼生成等可驗證場景，推薦任務所涉及到的候選空間極大，正確推薦信號極其稀疏，同時用戶興趣往往具有多個方向。直接套用通用 GRPO，難以獲得足夠有效的獎勵反饋。為此，OneReason 對 GRPO 進行了三方面改進。

兩階段軌跡生成：先生成推理軌跡，再基于同一軌跡擴展多個候選推薦，以較小額外開銷顯著增加有效軌跡數量，緩解推薦獎勵稀疏問題。
Set-wise 獎勵：OneReason 把獎勵從 point-wise 抬升到 set-wise/list-wise：在同一條推理軌跡下并行生成多條候選，并基于這組候選整體評估其覆蓋度、多樣性，鼓勵模型探索能夠覆蓋用戶多方向興趣的推理路徑。
優化穩定策略：針對推理文本 token 和推薦 itemic token 采用不同的裁剪范圍，并降低大量未命中樣本在梯度中的權重，從而緩解稀疏獎勵下的訓練震蕩，使模型更穩定地學習推薦推理能力。

先專后合的強化學習鏈路

推薦基座模型需要同時服務于視頻、商品、廣告、直播等多個領域。由于不同領域的用戶行為模式、物品語義和獎勵分布存在明顯差異，直接在混合數據上進行強化學習容易產生跨領域干擾。為此，OneReason 提出了先專后合（Specialize-then-Unify）的訓練鏈路：首先在每個領域內獨立進行強化學習，學習領域特有的推薦知識；隨后再將多個領域專家模型的能力融合到統一模型中。具體來說，其探索了兩條不同的技術路線：RFT（Rejection Sampling Fine-tuning）通過學習專家生成的高質量成功軌跡進行知識整合；MOPD（Multi-Teacher On-Policy Distillation）則從策略層面持續吸收多個領域專家的能力。兩種方法各有優勢：RFT 能夠更好地保留專家發現的高質量推理模式，并且隨著 Recall@K 中 K 的增大，其收益更加明顯；MOPD 則能夠更充分地繼承多領域專家知識，對 thinking 和 non-thinking 模式帶來同步提升，使 non-thinking 模式也取得具有競爭力的表現。

六、Benchmark

評估的核心思路是把推薦模型的能力拆成四個遞進層級來衡量，從 “能否看懂物料內容” 一路深入到 “能否做好推薦”。其中，第一層是感知（R0），關注模型能否真正理解 itemic token 背后的語義；第二層是推導（R1），關注模型能否從單個內容出發，進一步理解內容與內容之間的關聯；第三層是演進（R2），關注模型能否從用戶歷史行為中識別興趣主題，并理解興趣隨時間變化的過程；第四層是推薦（R3），則進一步考察模型能否把前面三層能力綜合起來，最終完成真實業務場景中的推薦決策。為了考察以上幾方面模型能力，OneReason-Bench 設計了大量針對性任務，包括物料理解、物料問答、i2i、興趣鏈條抽取等多方面評估任務。

七、實驗結果

主實驗結果

在評測方面，OneReason 在短視頻、電商商品、廣告、直播四類跨域推薦任務中完成對標評測，對比基線覆蓋三大模型品類：ID 序列類（SASRec、HSTU）、通用大模型（Qwen3、DeepSeek-V3.2、GPT-5.4 等）、物品 Token 架構模型（TIGER、LC - 全系列），實測結論如下：

1. OneReason-RFT 綜合全維度領跑，thinking 范式在推薦領域全面超越 non-thinking 范式

RFT 版本 thinking 效果在四大業務域全面優于全部對照模型，且超越 non-thinking 效果。以短視頻推薦為例，相較最優基線 LC-Rec-PT-SFT-8B，指標相對漲幅超 60%；廣告、直播場景增益更為突出，直播域召回指標相較通用 LLM 整體高出一個量級。

2. 推理增益依托 RL 專項優化，原生 SFT 無法激活思考能力

僅經過 SFT 微調的模型，其 Thinking 模式的表現反而劣于 Non-Thinking 模式，這印證了業界普遍面臨的痛點：直接在推薦任務中引入 CoT 容易引發 “過度思考”，反而損害基礎推薦性能；但后續依托 “先專后合” 的 RL 方案優化后，thinking 指標實現反超領跑，證實強化學習是解鎖推理收益的必備環節。

3. 四層分級預訓練筑牢能力上限，是模型性能躍遷核心底座

搭載 OneReason 預訓練權重的 LC-Rec，對比從零 SFT 訓練版本，廣告域命中率提升近 5 倍。印證 Token、Item、Relational、User 四層預訓練實現 itemic Token 與自然語言深度語義對齊，構成后續 CoT 推理的底層基礎。

4. ID-Based 模型、通用 LLM 各有短板，專用推薦基座更適配落地

傳統 ID 架構受大量新物品冷啟動制約；通用大模型缺少用戶協同行為特征，依賴 ANN 檢索落地，跨域推薦效果顯著落后 OneReason，佐證通用能力不能等價于推薦能力，定制化生成推薦基座是更優技術路線。

CoT 能力內化現象

此外，在 OneReason 的實驗中，存在另一個有意思的 CoT 能力內化現象：即引入 CoT 推理監督，不僅能提升模型的 think 能力，還能間接反哺 non-think 的推薦性能。為進一步驗證這一結論，在固定總 Token 規模（0.25B tokens）的約束下開展了對照實驗：一組僅使用 100K 純無推理（unCoT）樣本訓練；另一組采用 40K CoT 樣本與 50K unCoT 樣本混合訓練。兩組模型統一采用 non-thinking 模式進行評測，各域 Pass@64 結果如下：

結果表明，在短視頻、商品和直播域，混入 CoT 數據均帶來了不同程度的收益（除廣告域以外）。在此基礎上，OneReason 進一步通過消融實驗探究各業務域下 CoT 與 unCoT 的最優混合比例。實驗證明：CoT 樣本并非占比越高越好，不同域對 “推理濃度” 的偏好存在顯著差異。短視頻與直播域在 CoT 與 unCoT 配比趨于均衡（或適度偏向 CoT）時達到最優。本文猜測是由于這兩個域的用戶歷史通常包含多意圖信號，因此 CoT 的證據梳理能力能發揮較大價值。電商域更適配高 CoT 占比的配置，這一現象可能因為電商域的購買意圖往往需要從內容線索和行為躍遷中進行深度推斷。相反廣告域的性能隨配比變化的曲線較為平緩，整體更偏好 unCoT 數據，這可能是因為廣告轉化更依賴短期的曝光模式與即時轉化信號，這些特征很難被自然語言推理鏈完全捕獲。

圖 5：CoT/unCoT 配比對 non-thinking 推薦的影響。

CoT 信息熵增益

圖 6：Delta LL 對比，RFT 后全域轉正。

與此同時，OneReason 發現隨著推理步驟的逐步展開，目標 Item 的似然值呈現整體上升趨勢。而且RFT 模型往往在推理的極早期就達到了似然峰值。這說明高質量的推薦推理長度不應過長，盡早提取關鍵證據。這一特性也為未來探索 “推理鏈壓縮” 或 “自適應早停” 機制提供了理論依據。

圖 7：CoT prefix likelihood progression。

案例分析

在這起真實推薦案例中，推薦目標是一條《三角洲行動》的裝備玩法視頻。該案例的難點在于：用戶歷史行為中并沒有大量的《三角洲行動》直接交互，僅包含一次微弱的三角洲游戲廣告點擊信號。如果模型單純依賴歷史高頻 IP，很容易陷入傳統 SFT 路徑，繼續推薦《和平精英》或《王者榮耀》相關內容，從而失去外推到新游的能力。

從兩者的思考過程分析，SFT 和 RFT 雖都能識別出用戶是 18-23 歲的年輕男性游戲受眾，但在興趣推斷階段產生了本質差異

SFT 的局限（路徑依賴）： SFT 的思考過程完全被高頻的《和平精英》和《王者榮耀》主導。在分析潛在興趣點 A 時，它直接將后續可能性局限在《和平精英》上。因為缺乏深度推斷能力其推薦結果仍然是《和平精英》，進而導致推薦失敗。
RFT 的優勢（多跳推理）： RFT 展現出了更強的泛化推導能力。其思考過程沒有被高頻的熱門游戲淹沒（如《和平精英》），而是準確提煉出用戶最深層的核心關注點是 “《絕地求生》/ 戰術競技類游戲的新玩法或裝備”。基于 “戰術競技新玩法” 這一底層邏輯，RFT 成功建立了歷史高頻游戲與 “三角洲行動” 新游之間的聯系。它在思考中明確指出：用戶對射擊游戲的熱情不局限于《和平精英》，已延伸至類似玩法（如地逃），而《三角洲行動》作為熱門新游，恰好承接了這一細分需求。

業務收益

在線上部署結果上，OneReason 在快手本地生活廣告場景進行了10 天線上 A/B 實驗，實驗組和對照組各使用 5% 流量。系統采用 Fast-Slow Thinking 架構：近線 OneReason 負責慢思考召回，實時 OneReason 賦能 OneRec 負責在線快思考服務，兩者結果進入排序模型融合。

圖 8：Fast-Slow Thinking 在線部署架構。

圖 9：Fast 部署架構。

通過 Fast-Slow Thinking 架構，OneReason 已初步賦能業務，收益對應快手平臺年化數億元人民幣級別的商業收入增量，并達到 ROI > 5。這說明 OneReason 不只是離線 benchmark 上的探索，也具備在嚴格延遲與成本約束下進入工業系統的可行性。

八、總結與展望

生成式推薦一路走來，快手技術團隊從 OneRec V1/V2 驗證了生成式推薦的 Scaling 能力，到 OneReason 真正打開推薦基模的 Reasoning 能力，用一個完整閉環回答了三個曾經懸而未決的問題：

a. 推薦基模能不能 "會推理"？

i. 答：能，但必須先做好 itemic token 感知對齊，同時設計合理的溯因類型 CoT 格式，才能夠在 RL 階段完全激發 Thinking 潛力。

b. 推薦 CoT 應該長什么樣？

i. 答：結合 “用戶抽象 -> 興趣發散 -> 興趣轉移和推導” 形式的 CoT 能夠在 RL 階段顯著提升 Thinking 能力。

c. 推理基模能不能上線工業場景？

i. 答：完全可以，通過 Fast-Slow Thinking 架構結合近線與實時部署，同時 ROI 可觀。

下一步，OneRec 團隊將繼續深入推薦技術與大模型技術的融合，打造 Agentic Recommender Harness，讓推薦基模具備規劃與工具調用能力，逐步驅動推薦系統向 Agentic 架構演進。后續，OneReason 的更多技術細節以及 OneReason 系列的模型權重將陸續開源，歡迎學術界與工業界同行一起把推薦系統的 Reasoning 時代推向更遠。

本文相關內容也將在6 月 13 日舉辦的快手技術沙龍現場進行分享，歡迎對生成式推薦、推薦推理能力以及 Agentic Recommender 感興趣的同學到場交流，共同探討推薦系統與大模型融合的前沿實踐。

同時，OneRec 團隊也將在活動現場正式發布「快手探索者 LLM-Rec 挑戰賽」，面向全球對推薦技術感興趣的同學開放，邀請大家共同探索推薦系統與大模型深度融合的技術邊界，攜手打造更懂世界的推薦基礎模型。

報名技術沙龍：https://www.huodongxing.com/event/1862626323800?sessionid=

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.