網易首頁 > 網易號 > 正文申請入駐

Google新數據集首次大規模捕捉用戶「未言明的想法」

2026-05-28 16:49:48　來源: 機器之心Pro

天津舉報

分享至

當對話型 AI 服務于數十億用戶時，我們能否看見用戶沒說出口的那一層？JHU、MIT 和 Google Research 給出了新的解法。

對話型 AI 系統的部署規模已達到前所未有的量級，每天處理數十億次用戶交互。然而，絕大多數現有研究都聚焦于用戶「說了什么」，對于用戶在對話中「想了什么」這一更深層的維度，仍是一片幾乎未被探索的空白。

無論是 WildChat、LMSYS-Chat-1M 這類對話數據集，還是相關的方法和測試基準，它們都將對話文本視為唯一可觀測單元 —— 用戶未說出口的動機、限制、風格期望以及對回復的真實評價，則被默認丟棄。事實上，由于「最少努力原則」(principle of least effort) 與語用層面的壓力，用戶寫下的提示與他們腦中的真實意圖之間存在天然的信息損失：口頭表達高效、社交得體、目的導向，卻并非內部心理狀態的完整呈現。

目前主流的對齊方法大多依賴偏好評分、點贊點踩或基于消息文本的反饋，這些信號難以分辨「哪一部分回答讓用戶不滿意」「為什么不滿意」，也無法揭示用戶在多輪交互中如何在內心演進自己的目標。因此，一個關鍵問題浮出水面：

如何在真實的人機對話中，系統性地捕捉用戶那些「未言明的思考」，并將其作為新的數據模態用于訓練和評估 AI 助手？

近日，一篇來自JHU、MIT 與 Google Research的研究，為這一問題提供了一種解法。

他們提出了ThoughtTrace—— 首個將真實多輪人機對話與用戶「自我報告的思考」配對的大規模數據集。這里所說的思考分為兩類：用戶發送提示前的 reasons（動機、目標、上下文、內容與風格期望等），以及用戶讀到 AI 回復后的 reactions（滿意、對內容、風格或范圍的具體不滿等）。這些第一人稱認知痕跡捕捉了每一次對話背后的隱藏認知層，將「可觀測的語句」與「真實的用戶意圖」之間的鴻溝系統性地填補起來。

在這一框架下，研究人員構建了一個具有以下規模的語料庫：

1,058 名用戶
2,155 段多輪對話
17,058 次交互輪次
10,174 條思考標注
覆蓋 20 個不同的語言模型（包括 GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro Preview 等前沿模型，以及若干開源輕量模型）

基于這一數據，作者證明：思考能夠將下一條用戶消息預測的語義相似度從 21.6 提升至 30.6（相對提升 41.7%），并將基于 Arena-Hard 的對齊勝率提升 25.6%。這為后續 RL、DPO 等訓練范式提供了一種全新的、ground-truth 級別的監督信號。

論文標題：ThoughtTrace: Understanding User Thoughts in Real-World LLM Interactions
論文鏈接：https://arxiv.org/abs/2605.20087

方法概覽

為了讓用戶在自然對話中誠實地外化自己的思考，作者通過 Prolific 招募參與者，并設計了一套四步的采集流程：

知情同意：參與者簽署知情同意書，明確自愿參與與可隨時退出的權利。
教程與測驗：通過引導式教程學習聊天界面、標注思考，并通過簡短的理解測驗后才進入正式環節。
帶思考標注的對話：參與者自行設定兩個開放式任務，自由地與 AI 多輪交流；在每條用戶消息上標注 reason、在每條 AI 回復上標注 reaction。用戶可以隨時開啟新對話或結束任務，且標注對 AI 完全不可見。
任務后調查：完成任務后描述自己實際完成了什么、對 AI 有什么期望，并填寫涵蓋年齡、性別、教育、職業、AI 使用頻率與主要用途的問卷。

每條 ThoughtTrace 記錄對應一段完整的對話，按時間戳保存所有用戶消息、AI 回復以及附著其上的思考。其中 reason 來自 7 種類型之一，reaction 來自 5 種類型之一，每條思考都帶有自己的時間戳與文本內容。

視頻鏈接：https://mp.weixin.qq.com/s/fxYJRiIsVNbVHO3HMZ9TEQ?click_id=18

數據特性

作者從兩個維度刻畫 ThoughtTrace：對話層面和思考層面。

對話層面有三大特性：

代表性的用戶群：覆蓋 18 至 65+ 各年齡段、多種教育水平與職業身份，AI 使用頻率從「從未」到「每日多次」，符合頻繁 AI 用戶的人口畫像。
長程、多元的對話：ThoughtTrace 的對話中位數為 8 輪，而 WildChat 與 LMSYS-Chat-1M 都是 2 輪；話題分布跨越 7 個大類、36 個細分子主題，沒有單一類別占主導。
任務延伸主導：57.0% 的用戶消息屬于「在已有任務上擴展、深化、迭代」，遠超新請求 (12.5%)、重試 (2.9%) 和變體 (2.3%)，且這種延伸模式隨對話進展而愈發顯著。

思考層面則呈現四個關鍵性質：

思考與消息顯著不同：嵌入空間可視化與基于 LLM 的語義覆蓋打分均顯示，用戶消息對其背后 reason 的覆蓋度僅 3.22 (1–5 分制)，對前一輪 reaction 的覆蓋度僅 2.00—— 對話文本遠不能完整復現用戶的內心活動。
思考對前沿 LLM 而言難以推斷：讓 GPT-5.4、Gemini 3.1 Pro Preview、Claude Opus 4.6 從對話上下文中推測用戶的 reason 與 reaction，三模型平均得分僅為 2.93 和 2.54，介于「極少重疊」與「部分重疊」之間。
思考內容高度多元：7 種 reason 涵蓋 Task Motivation & Goal (36.9%)、Task Continuation (21.4%)、Context Grounding & Constraints (13.1%)、Content Expectation (11.5%)、Task Reorientation (11.1%)、Style Expectation (5.0%) 和 Social and Others (1.0%)；5 種 reaction 包括 Explicit Affirmation (72.2%)、Content Relevance (11.9%)、Presentation Style (6.4%)、Scope Fit (6.1%)、Partial Satisfaction (3.4%)。
思考隨對話階段動態變化：Task Motivation 主導早期，Task Continuation 在中后期占主導；Explicit Affirmation 從早期 67% 上升至晚期 79%，反映對話向令人滿意的回答收斂。這種動態獨立于話題或長度，僅與對話階段和多輪關系相關。

實驗結果

為了驗證這些「內心思考」是否真能用于下游建模，作者設計了兩組關鍵實驗，分別考察 thoughts 在推理時和訓練時的價值。

實驗一：Thoughts Predict User Behavior

讓 LLM 預測用戶的下一條消息 —— 分別在「僅有對話歷史」與「歷史 + 用戶思考標注」兩種條件下，評估三個前沿模型，并使用隨機抽取的另一個模型作為 LLM judge 評判 0–100 分的語義相似度。

僅僅向模型提供用戶的內心思考，平均預測分數從 21.6 躍升到 30.6，相對提升 41.7%。Opus 4.6 的提升尤為顯著，單獨提升 14.2 個點。這說明 ThoughtTrace 中的 reason 與 reaction 提供了對話歷史所不具備的、能夠預示用戶未來行為的可執行信號 —— 這一發現對構建高保真用戶模擬器、面向用戶主動協助的智能體均有直接價值。

實驗二：Thoughts Improve Model Alignment

作者直接利用 ThoughtTrace 的 reaction 標簽定位「用戶實際不滿意的回復」，再用對應的思考內容指引模型重寫，形成 thought-guided rewrites；將其與原始消息配對，在 Qwen3.5-4B 上進行 DPO 訓練，于 Arena-Hard 上評估。

相較基礎模型，思考引導版本在風格控制勝率上提升 25.6%；
相較 WildChat 基線，提升 6.6%；
同樣在 ThoughtTrace 上，思考引導比消息引導高 4.5%，表明思考承載著比消息更豐富的不滿與修正信號。

更值得關注的是，思考能從同一批對話中識別出 1,000 條不滿意實例，而僅依賴消息只能挖出 450 條，前者是后者的 2.2 倍，證明了思考天然提供了更密集的監督。這意味著 thoughts 不僅告訴我們「哪一條回答用戶不滿意」，還直接說明「應當如何修正」，把響應識別和響應修正兩件事統一進了同一條監督信號。

結語

作者將 thoughts 定位為人機交互研究的一種新數據模態：它捕捉用戶的潛在認知，難以從語句中復原，跨越多種內容形態，并隨對話階段動態變化。無論是用戶行為預測、模型對齊，還是未來的獎勵建模、On-Policy Distillation 等在線學習范式，思考都提供了消息文本所無法替代的細粒度信號。

ThoughtTrace 由此打開了三條新的研究方向：（1）用戶建模 —— 系統研究人機交互中的動態心理過程；（2）模型訓練 —— 把思考作為新的監督信號，用于訓練真正理解用戶潛在目標與偏好的助手；（3）評估 —— 構建以思考為中心的基準，把評估從表面語句推進到潛在意圖與主觀體驗。

正如論文所言，ThoughtTrace 將用戶思考確立為研究人機交互背后認知動力學的一種基礎信號，也為構建真正理解用戶「潛在目標、偏好與需求」的下一代 AI 助手，鋪設了一條新的研究路徑。

更多內容請參閱論文原文與項目主頁。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.