无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

別再把長文切碎了,HiLight讓AI直接在原文里劃重點

0
分享至



在實際應用中,模型常常會忽略關鍵線索,這就是 “Lost in the Middle” 現象,即模型對出現在輸入中間位置的信息關注度明顯下降。現有的優化思路大致分為兩類:

  • 硬選擇:先檢索或裁剪出相關片段,再送入模型,但可能會丟失對推理至關重要的上下文。
  • 軟選擇:通過摘要或壓縮來縮短輸入,但有損壓縮難免引入失真。

兩類方法都在 “動” 原始輸入或原始權重。那么,能不能既保留完整的上下文,又能準確地告訴模型 “重點看哪里”?HiLight 提出一條 “輸入側干預” 的新路徑:在原文中插入少量高亮標簽,引導模型的注意力。

方法概述

在實際部署當中,大模型往往是API 付費調用、規模巨大,甚至權重不開放的黑盒服務,直接對它做 SFT 或 RL 微調往往不現實。因此,HiLight 選擇了一條更實用的路徑:凍結推理模型,訓練一個輕量的 “助手模型” 來幫助它劃重點。



  • 論文標題:Learning Evidence Highlighting for Frozen LLMs
  • 論文地址:https://arxiv.org/abs/2604.22565
  • 作者:Shaoang Li1,?, Yanhang Shi1,?, Yufei Li2, Mingfu Liang2, Xiaohan Wei2, Yunchen Pu2, Fei Tian2, Chonglin Sun2, Frank Shyu2, Luke Simon2, Sandeep Pandey2, Xi Liu2,?, Jian Li1,?
  • 機構:1 石溪大學(Stony Brook University),2 Meta AI
  • 說明:? 共同第一作者;? 共同通訊作者

流程如下:

1. 輕量模型(Emphasis Actor)閱讀完整的上下文,為每個 token 打出重要性分數。

2. 輕量模型在得分最高的片段兩邊插入高亮標簽,如 < start_important > 和 < end_important>。

3. 凍結的推理模型(Solver LLM)接收帶標簽的文本,完成推理并輸出結果。



該訓練過程只用 Solver 的任務獎勵作為反饋信號,不需要任何人工標注的證據。在訓練方式上,因為沒有 token 級別的證據標注,研究者將高亮選擇建模為強化學習問題,用下游任務指標(如 HR@10、EM、F1)作為獎勵信號,通過分組策略梯度來更新 Actor。

為了防止 Actor “全部高亮” 的偷懶行為,該框架還引入了高亮預算機制:輕量語言模型最多只能標注一定比例的 token,并通過 span 合并策略將零散的 token 級選擇合并為語義連貫的片段。



實驗表明,HiLight 對預算取值并不敏感。這意味著,在實際部署時無需精細調參,選取一個合理的中間值即可。

實驗結果

研究者在四個任務上進行了評測:Amazon-Beauty(序列推薦)、HotpotQA(多跳問答)、SQuAD 2.0(閱讀理解)和 PubMedQA(生物醫學分類)。對比方法涵蓋了當前主流的 prompt optimization 方法,包括 PRL、BFRS、OPRO、DSPy(MIPROv2)和 APE。



提升幅度最大的是序列推薦(Amazon-Beauty),在其它任務上,雖然提升相對溫和,但依然一致正向。

高亮>裁剪,保留上下文的優勢

消融實驗做了一個有趣的對比:把 Actor 選擇的高亮片段單獨裁剪出來喂給 Solver,會怎么樣?



結果顯示,在 Amazon-Beauty 上,裁剪也能取得不錯的效果。但在 HotpotQA 上出現了相反的情況。因為多跳問答推理需要保留連接性的上下文,裁剪雖然能選出關鍵證據,卻破壞了語義的完整性。而HiLight 在標注重點的同時保留了完整語境。

一個高亮模型,服務多個大模型

Actor 學習到的高亮策略具有很強的遷移能力。研究者用 Qwen3-14B 作為 Solver 訓練 Actor,直接將其應用到五個從未見過的 Solver 上。與之相對比的做法是讓目標 Solver 自己先高亮證據再作答。



結果顯示,HiLight 的 Actor 高亮在五個 Solver 上的效果都明顯優于自我高亮。原因也很簡單,專門訓練的輕量模型,比大模型自己猜 “哪里重要” 更靠譜。HiLight 的 Actor 是通過任務獎勵顯式訓練出來的,知道什么樣的證據能真正提升下游指標。

沒有人工標注,卻與人工高度重合

盡管訓練過程中沒有任何 token 級別的證據標注,但Actor 的高亮區域與 HotpotQA 數據集中人工標注的支持事實高度重合,最高達到 0.78 F1。隨著 Actor 規模從 0.6B 增大到 8B,F1 從 0.68 單調上升到 0.78。



如圖所示,Precision、Recall、F1 三項指標都隨 Actor 規模單調提升,Precision 甚至達到 0.84,說明Actor 高亮的 token 中,絕大多數都是人工判定的關鍵證據。



上圖展示了一個 HotpotQA 樣本上的 token 級分數分布:藍色曲線是 Actor 打出的重要性分數,紅色陰影區是人工標注的支持事實所在區間。在一個包含 1200 多個 token 的長上下文中,Actor 只在兩個狹窄的區域打出高分,而這兩個區域正是數據集標注的 ground-truth 證據所在。

低部署成本

  • Solver 端 token 開銷:< 1.01 倍(僅插入少量標簽 token)。
  • Actor 推理延遲:0.6B 模型約 0.05 秒,4B 模型約 0.23 秒(p50),相比 Solver 的 8 至 18 秒可忽略不計。
  • 訓練成本:僅需約 12K 次 Solver 調用,而 PRL 需要 120K 次,APE 需要 60K 次。

一個直觀案例:序列推薦優化

在 Amazon-Beauty 的一個典型案例中,模型需要通過給定的用戶歷史購買摘要和一批候選商品,依據用戶下一個可能感興趣的商品,對候選商品進行重排序。Actor 精準地高亮標記了兩個關鍵內容。這兩個信號幫助 Solver 將真實目標商品(一款主打 “Grips Makeup To Last” 的底妝產品)的推薦排序從第 14 名提升到第 5 名,是一個顯著的排序改進。



與黑盒注意力機制不同,HiLight 直接告訴用戶:模型之所以提升該商品的排名,是因為看到了這兩段高亮文本。這大大提升了模型推薦結果的可信度。

結語

HiLight 的思路非常簡單,用一個輕量模型劃重點,讓大模型集中精力推理。這種方式帶來了幾個好處:

  • 性能提升:推薦任務性能提升可達 27%,問答任務也正向提升。
  • 不用改模型:Solver 凍結,API 友好。
  • 可解釋:高亮標簽能夠直接告訴人類 “模型在看哪里”,以及模型決策的依據。
  • 可遷移:一個 Actor 可以服務于多個不同的大模型。
  • 低成本:訓練成本低,額外延遲和推理成本小。

隨著越來越多系統通過 API 調用大模型,HiLight 提供了一種不必改動 Solver 也能實現性能提升的辦法。

值得一提的是,本文作者名單與 Meta 的 GR2(Generative Reasoning Re-ranker,arXiv:2602.07774)團隊有相當程度的重疊,HiLight 這套做法很可能在不遠的將來被用進 GR2 這樣的生產級 re-ranking 系統里。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
韓媒:墨西哥應阻擊捷克,報答韓國當年擊敗德國助他們出線的恩情

韓媒:墨西哥應阻擊捷克,報答韓國當年擊敗德國助他們出線的恩情

懂球帝
2026-06-25 02:30:20
大錢來臨時,你身上一定有這3個預兆。

大錢來臨時,你身上一定有這3個預兆。

老陸不老
2026-06-25 08:18:00
李盈瑩吳夢潔回歸倒計時,中國女排香港站迎4關鍵戰,目標總決賽

李盈瑩吳夢潔回歸倒計時,中國女排香港站迎4關鍵戰,目標總決賽

小犙拍客在北漂
2026-06-25 14:47:40
連小敏同志逝世

連小敏同志逝世

政知新媒體
2026-06-25 09:22:16
大陸“向陽紅22”科研船在臺灣東部水域遭臺灣海巡驅離,國臺辦:如再借此滋事挑釁,升高兩岸對立對抗,必遭挫敗

大陸“向陽紅22”科研船在臺灣東部水域遭臺灣海巡驅離,國臺辦:如再借此滋事挑釁,升高兩岸對立對抗,必遭挫敗

政知新媒體
2026-06-24 13:57:50
2026高考分數線揭曉:物理類普降、歷史類堅挺,“分裂式運行”

2026高考分數線揭曉:物理類普降、歷史類堅挺,“分裂式運行”

海右那人
2026-06-24 22:30:53
官方公開打假!謹防假冒“陽光高考”APP或小程序,記者實測:有高仿軟件推“1v1”填志愿服務,費用高達3980元,正牌網站免費使用

官方公開打假!謹防假冒“陽光高考”APP或小程序,記者實測:有高仿軟件推“1v1”填志愿服務,費用高達3980元,正牌網站免費使用

極目新聞
2026-06-25 18:37:28
黃金暴跌28%!水貝平臺集體爆雷,一場“死于繁榮”的資本賭局

黃金暴跌28%!水貝平臺集體爆雷,一場“死于繁榮”的資本賭局

說故事的阿襲
2026-06-25 01:16:07
掘金選秀夜引老板不滿 交易后鼓掌變拍桌

掘金選秀夜引老板不滿 交易后鼓掌變拍桌

晚風知我意21
2026-06-25 00:45:15
為啥今年六月遲遲不熱,早晚還透著涼意,聽聽老一輩怎么說

為啥今年六月遲遲不熱,早晚還透著涼意,聽聽老一輩怎么說

喵咪文化
2026-06-25 15:35:39
溫網種子名單公布:七冠德約位列七號!

溫網種子名單公布:七冠德約位列七號!

網球之家
2026-06-25 22:54:38
能接住火箭的大船來了,長征十號乙蓄勢待發,跟馬斯克路線不一樣

能接住火箭的大船來了,長征十號乙蓄勢待發,跟馬斯克路線不一樣

巔峰高地
2026-06-25 20:00:27
高考721分!全國同專業第一 郭斌(6歲永久失明)已被錄取 成為一名盲人雙學位大學生#郭斌被錄取

高考721分!全國同專業第一 郭斌(6歲永久失明)已被錄取 成為一名盲人雙學位大學生#郭斌被錄取

每日經濟新聞
2026-06-25 00:35:45
圖片報解釋奧利塞大腿傷疤:2023年歐青賽大腿肌肉嚴重撕裂而手術

圖片報解釋奧利塞大腿傷疤:2023年歐青賽大腿肌肉嚴重撕裂而手術

蘭亭墨未干
2026-06-25 13:02:01
立陶宛新任總理現身,上來就對臺當局喊話,又一個狠角色登上臺面

立陶宛新任總理現身,上來就對臺當局喊話,又一個狠角色登上臺面

郭長包工頭
2026-06-24 19:41:14
在廣東,多少分可以上暨南大學?

在廣東,多少分可以上暨南大學?

新浪財經
2026-06-25 19:53:41
終于承認了:房價跌了,真的變窮了

終于承認了:房價跌了,真的變窮了

大川東山再起
2026-06-23 12:11:47
2026年養老金調整通知何時發布?人社部一季度已明確表態,退休人員別急

2026年養老金調整通知何時發布?人社部一季度已明確表態,退休人員別急

暖心人社
2026-06-25 23:33:56
到兒子家住睡沙發,陽臺門一連三天半夜敞開,查明原因我迅速離開

到兒子家住睡沙發,陽臺門一連三天半夜敞開,查明原因我迅速離開

惟來
2026-06-24 14:59:46
1955年,韓先楚被列在中將名單,毛主席審閱時大為驚詫,當場發怒

1955年,韓先楚被列在中將名單,毛主席審閱時大為驚詫,當場發怒

人生錄
2026-06-15 15:41:43
2026-06-26 00:12:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13360文章數 142682關注度
往期回顧 全部

科技要聞

存儲成本壓力山大!蘋果罕見全球提價

頭條要聞

男子徒手抓蛇被咬還淡定合影 結果歷經4次搶救兩進ICU

頭條要聞

男子徒手抓蛇被咬還淡定合影 結果歷經4次搶救兩進ICU

體育要聞

世界杯最動人一吻:我若離世 你就改嫁吧

娛樂要聞

這國產劇太裝了,居然還熱播第一?

財經要聞

又有紙尿褲送檢后被檢測出甲酰胺!

汽車要聞

老板們的新座駕!65萬元起,尊界V800/V680開啟預訂

態度原創

時尚
健康
親子
本地
公開課

女人不管多大年紀,夏天都要準備一兩條過膝裙,舒適又提氣質

醫生如何快速診斷腦梗和腦出血?

親子要聞

這10句保命原則一定要讓孩子背下來!

本地新聞

2026世界杯全勤太難?這份保姆級攻略請收好

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版