无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

生成式推理再排序,可能會是LLM4RecSys的新突破口嗎?

0
分享至



大模型(LLM)的世界知識和推理能力是實現下一代推薦系統,即基于大模型的推薦系統(LLM4Recsys)的重要基石。來自meta ai的研究者們嘗試將推理模型引入再排序階段,推薦系統的最后一環。

推薦系統需要推理模型嗎?

深度學習成為推薦系統的標準范式已經有十年左右的歷史。RNN/Transformer/GNN等模型在用戶交互數據上的性能已經被開發得非常接近飽和。正如近些年大語言模型,尤其是推理模型在通用任務上的優異性能所揭示得,讓推薦系統先思考再做出決定或許可以再次突破現有框架的性能上限;同時,還能為推薦的結果提供一定的可解釋性。

論文通過監督微調(SFT)和強化學習(RL)來賦予通用推理模型在序列推薦任務上的推理能力。提出的訓練策略最終超過了LLM4Recsys標桿,OneRec-Think;提升了約2.4%Recall@5和約1.3%NDCG@5。





●論文標題:

Generative Reasoning Re-ranker

●論文地址:

https://arxiv.org/pdf/2602.07774

中期訓練,內化物品的語意ID

語意ID(semantic ID,SID)已經成為基于序列模型的推薦系統的標準技術之一,它的核心想法是通過多層次的聚類來賦予物品從粗到細粒度的標簽。常用的模型一般有Residual-Quantized Variational Autoencoder(RQ-VAE)和RQ-Kmeans;這篇論文使用的是RQ-VAE,并且基于常規的對比學習損失函數。同時,為了防止碼本坍縮,即有多個物品會被同時映射到一個SID的情況,本文采用了成熟的處理方案,用RQ-Kmeans先做初始化,結合EMA平滑更新字典,重置死碼本,加入多樣性損失函數,并且對最后一至兩位SID賦予隨機整數。

本文的中期訓練采用的策略和OneRec-Think保持一致,將生成的SID混入自然語言組成的物品描述、物品預測等一系列任務中,去最小化next token prediction loss以優化SID的embedding來內化物品的本身語意。

推理路徑的生成

推理路徑(Reasoning trace)的生成是本文的核心技術之一。預訓練的推理模型并不具有(很強的)對物品序列的推理和解釋能力,尤其是考慮到在現實場景中需要實際部署時受限于延遲限制,LLM的體量有限,例如僅僅能支持最大8B。

論文的核心想法是將大體量的LLM(比如32B模型)的推理能力蒸餾給小體量的LLM:即大LLM產生高質量的推理路徑,再讓小LLM去學習以增強其在推薦場景下的推理能力。目標采樣(target sampling)和拒絕采樣(reject sampling)兩種技術被使用了:



目標采樣的核心想法就是把交互歷史和下一個真實交互物品的信息都交給LLM以生成解釋。該解釋就被作為reasoning trace。



拒絕采樣則是只將交互歷史提供給LLM以預測下一個交互的物品以及生成解釋。一旦預測的結果和數據集的標準答案(ground truth)不一致,則繼續重復推理直到答對或者達到設定的最多重復推理次數。

這兩種推理路徑的生成方式各有優劣:

  • 目標采樣對每一個樣本只需要推理一次,但是LLM可能會“牽強附會”,做“馬后炮”式的解釋。
  • 拒絕采樣生成的reasoning trace一般質量更高,因為錯誤的reasoning trace很可能沒法引導出正確的答案,而采樣過程又會一直持續到得到正確的答案為止。缺點也很顯然,對單一樣本需要多次推理,尤其是一些難的樣本。

推理賦能的再排序階段

開頭提過,論文重點關注再排序(re-ranking)階段。該階段在常規業界推薦漏斗中位于最后一環,以檢索(retrieval)和排序(ranking)階段的輸出作為輸入。作為學術研究,為了保持整個pipeline簡潔,論文將LLM本身預先作為retriever,輸入交互歷史,預測下一個最有可能的物品,采用beam search生成排序過的候選列表。再將該候選列表和交互歷史一同輸入LLM去做重排序。

為了賦于小體量LLM(比如8B)完整的貼合推薦場景的推理能力,上一步生成的推理路徑先通過SFT手把手教給模型,這一步可以保證LLM的推理能力的下限。



為了進一步提高模型的推理能力,強化學習配合推薦場景設計的reward在本文中被使用。在再排序場景下,顯然,目標物品的排序被模型提升的越多,模型的表現越好;這就是排序獎勵



它測量的是經過模型重排序以后目標物品的排位變化。

另一種常見的獎勵則是格式獎勵,即LLM的輸出還是保持著reasoning trace加最終答案,即排序過的列表,的理想格式。然而,簡單地將格式獎勵和任務相關的排序獎勵加和成最終獎勵在再排序任務中不可行,原因是預排序的候選列表是作為模型輸入的,模型可以通過完全不改變候選列表來放棄排序獎勵,而單純hack格式獎勵。基于此,最終的格式獎勵被設計成只有排序獎勵為正的時候才會被考慮。該獎勵被嵌入在DAPO優化框架中去更新LLM的參數。



重排序的提升空間

論文的最重要實驗結果披露出,重排序階段引入推理能力,尤其是通過強化學習增強,可以進一步提升性能上限。具體實驗對比了(1)該模型的預排序結果(Pre-rank),(2)僅依靠SFT訓練過得排序結果,和(3)強化學習進一步增強過的排序結果:



有一些有趣的發現:

  • SFT可以給模型一定的推理能力,但是單單依靠SFT可能會傷害模型最終的準確度。
  • 沒有SFT直接通過強化學習(RL-zeroshot)并不能直接帶來顯著性能提升。
  • 拒絕采樣相比目標采樣能獲得更高質量的推理路徑。

下一步?

這篇論文的有趣之處在于,它不僅僅提供了~2%的Recall性能提升,而是提供了一種新的范式:模型不再是去單純擬合交互的概率分布,而是去擬合推理路徑和交互的聯合分布。

同時也不可否認的是,重排序階段是應用推理模型的好場所,因為該階段剩下的候選物品是整個推薦漏斗中最少的了。模型在給予候選集的情況下逐一比較、推理,符合人類的思維流程。

那么,在檢索和排序階段,候選集大小成千上萬的情況下,如何有效率地進行超大規模的候選集篩選?如何把海量的候選集有效率地塞入推理模型有限的輸入窗口?如何控制昂貴的推理成本?如何滿足用戶體驗所需要的超低時限?此外,現有策略也依賴拒絕采樣生成的高質量推理路徑,這在候選集超大的情況下所需要的重采樣次數將完全不可接受,樣本的效率將成為訓練成敗的關鍵因素。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
紅棗還敢隨便吃嗎?提醒:以后吃紅棗時,一定要多注意了!

紅棗還敢隨便吃嗎?提醒:以后吃紅棗時,一定要多注意了!

今日養生之道
2026-06-12 15:57:18
謹防中國版的“薩哈羅夫”出現,有抬頭之勢,有人已經冒頭了

謹防中國版的“薩哈羅夫”出現,有抬頭之勢,有人已經冒頭了

談古論今歷史有道
2026-06-09 15:50:03
一同事被裁員,立馬退工作群,中午準備交接時,才發現所有同事微信好友都被刪了!問題來了,天天一起的打工人,有資格成為朋友嗎?

一同事被裁員,立馬退工作群,中午準備交接時,才發現所有同事微信好友都被刪了!問題來了,天天一起的打工人,有資格成為朋友嗎?

品讀時刻
2026-06-16 09:09:06
網紅小姐姐這身打扮,誰看了不迷糊

網紅小姐姐這身打扮,誰看了不迷糊

牛彈琴123456
2026-06-10 15:37:34
1949年國民黨軍統特務周鎬被處決,其妻子面見上海市長:他是烈士

1949年國民黨軍統特務周鎬被處決,其妻子面見上海市長:他是烈士

舊史新譚
2026-06-17 01:20:21
CCTV5直播!中國女排沖擊四連勝,首發恐變陣,輸球最多扣15分

CCTV5直播!中國女排沖擊四連勝,首發恐變陣,輸球最多扣15分

跑者排球視角
2026-06-16 07:13:49
14天的冷淡期已過!中國不再給機會,欺負海外中企的荷蘭要遭殃

14天的冷淡期已過!中國不再給機會,欺負海外中企的荷蘭要遭殃

阿傖說事
2026-06-11 13:43:12
宗慶后失算了,宗馥莉最狠的報復不是爭,而是4個字:我不要了

宗慶后失算了,宗馥莉最狠的報復不是爭,而是4個字:我不要了

李哥專欄
2026-06-15 16:28:44
陪睡陪玩只是冰山一角!知名港星又曝大瓜,55歲還有人想潛規則她

陪睡陪玩只是冰山一角!知名港星又曝大瓜,55歲還有人想潛規則她

妙知
2026-06-17 04:25:36
最大利空消失,金屬要王者歸來了?

最大利空消失,金屬要王者歸來了?

生活新鮮市
2026-06-16 18:35:38
貝克漢姆留名星光大道,15歲貝小七美成芭比娃娃!

貝克漢姆留名星光大道,15歲貝小七美成芭比娃娃!

ChicMyGeek
2026-06-14 11:03:06
巨型補給艦建造速度驚人,或在未來3個月內下水,噸位7萬噸

巨型補給艦建造速度驚人,或在未來3個月內下水,噸位7萬噸

愛吃醋的貓咪
2026-06-16 21:28:49
球王影響力!外媒:全球35億人愛梅西 中國印度把阿根廷當主隊

球王影響力!外媒:全球35億人愛梅西 中國印度把阿根廷當主隊

愛奇藝體育
2026-06-16 11:44:50
重磅官宣!《西游記真假美猴王》來襲,老牌西游陣容重塑大圣宿命

重磅官宣!《西游記真假美猴王》來襲,老牌西游陣容重塑大圣宿命

深度娛樂分析
2026-06-17 00:47:32
HVLP算力銅箔,深度關聯10家核心龍頭

HVLP算力銅箔,深度關聯10家核心龍頭

風風順
2026-06-17 04:05:03
注意!中老年男性有性生活和沒性生活,差別居然這么大?

注意!中老年男性有性生活和沒性生活,差別居然這么大?

皓皓情感說
2026-04-22 08:20:32
俄羅斯沒想到,美國更沒想到,中國幾乎全部“關鍵”技術遙遙領先

俄羅斯沒想到,美國更沒想到,中國幾乎全部“關鍵”技術遙遙領先

向日葵向陽西曬
2026-04-18 12:17:10
43歲王皓現狀:靠自己落戶北京,家庭事業雙豐收,騎自行車上下班

43歲王皓現狀:靠自己落戶北京,家庭事業雙豐收,騎自行車上下班

白面書誏
2026-06-14 20:43:41
鏡報:西漢姆無意低價出售薩默維爾,愿等世界杯結束后再談判

鏡報:西漢姆無意低價出售薩默維爾,愿等世界杯結束后再談判

懂球帝
2026-06-17 02:24:26
國際足聯世界杯爭議引發了人們對其日益增長的加密貨幣合作關系的質疑

國際足聯世界杯爭議引發了人們對其日益增長的加密貨幣合作關系的質疑

七元宇宙
2026-06-16 06:06:25
2026-06-17 05:40:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13280文章數 142670關注度
往期回顧 全部

科技要聞

DeepSeek融資500億,梁文鋒牢牢握住控制權

頭條要聞

美被指拒絕以色列看美伊諒解備忘錄 以總理發聲

頭條要聞

美被指拒絕以色列看美伊諒解備忘錄 以總理發聲

體育要聞

身價5萬的門將,擋住了12億歐元的狂轟濫炸

娛樂要聞

吳文忻葬禮:2個女兒在靈堂內茫然失措

財經要聞

從123美元到62美元 白銀價格上演過山車

汽車要聞

三車齊發 零跑全新C10/C11/C16上市12.58萬元起

態度原創

教育
親子
數碼
家居
軍事航空

教育要聞

人工智能填志愿,關鍵學會這一招!

親子要聞

童裝巨頭轉型背后:一代人有一代人品牌,育兒觀正重塑市場

數碼要聞

微軟發布第12代Surface Pro/第8代Surface Laptop,1499美元起

家居要聞

綠意盎然 自然之境

軍事要聞

美伊達成諒解備忘錄 內塔尼亞胡表態

無障礙瀏覽 進入關懷版