網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

騰訊混元CL-bench續作發布，讓大模型讀懂你的日常生活

2026-05-01 19:53:00　來源: 機器之心Pro

河北舉報

0

分享至

機器之心發布

我們對于 “個人助手” 的想象，正在變得越來越具體。

一個真正嵌入日常生活的 AI 助手，需要能夠從每個人生活中的蛛絲馬跡里學習和理解，解決復雜生活場景中問題。

在 AGI-Next 前沿峰會上，騰訊姚順雨舉了一個很生活化的例子：當你問 AI “今天吃什么” 時，真正限制答案質量的，可能不是模型不夠大，也不是推理不夠強，而是它不知道你今天冷不冷、想不想吃熱的、最近和朋友聊過什么、家人又有什么偏好需要納入考慮。

因此，下一代 AI 助手真正需要的，往往不是記住更多 “知識”，而是對 “生活上下文（context）” 的理解與推理。這也正是 CL-Bench family 最新續作 CL-Bench Life 想要回答的問題。

論文題目：CL-Bench Life: Can Language Models Learn from Real-Life Context？
項目主頁：www.clbench.com

下面，我們將結合混元模型團隊的最新博客《Real life is where context gets hard》，看看那些人類應對起來幾乎毫不費力的日常，對于 AI 來說為何如此棘手。

博客鏈接：https://hy.tencent.com/research/100039

在日常生活中，Context 的復雜性以另一形式展現

The other half of context learning

想要真正解決現實世界的問題，AI 不能僅僅依賴訓練時記住的知識，它必須從當下正在發生的事情中學習新的 context、基于它們進行推理，并記住那些真正關鍵的信息。此前，我們打造了CL-Bench來測試這種上下文學習能力。但現在回過頭看，我們給 AI 了一個巨大的捷徑：context 已被提前整理好。

圖：專業領域或工作場景中的 context 結構相對清晰，知識點更聚焦（左）；日常生活中的 context 更凌亂，更碎片化，往往包含多個話題（右）。

這種假設在專業的領域下相對成立，但在大家的日常生活中卻截然不同。回想一下我們每天都要面對的 context：

① 在一個日常閑聊和各種話題交錯展開的親友群中，理清大家本周末的時間安排、出行意愿、忌口等信息，敲定一份大家都能接受的周末旅行計劃；

② 從 “文件傳輸助手” 里散落的幾十條沒來得及讀的分享鏈接和隨手寫的備忘錄中，拼湊出一份完整的產品規劃；

③ 又或是從自己過去大半年斷斷續續的運動打卡和康復日志中，分析出某個部位總是容易受傷的真正原因。生活是混亂的、極其碎片化的，僅僅依靠時間線勉強串聯。

圖：三個日常生活面臨的 context 例子。Case 1: AI 需要分析一段冗長、嘈雜的多人群聊，其中包含多條交錯討論線、不斷變化的計劃，以及分散在不同時段的時間沖突，來幫助組織一次讀書會；Case 2: AI 需要分析大量零散的騎行記錄、車況維修記錄、突發事件和日記，為五天騎行計劃籌備一份以安全為核心的檢查單；Case 3: AI 需要分析某個用戶數百條受傷前后的訓練記錄，判斷哪些肌群受到的影響最大并安排恢復計劃。

我們常常低估了這對 AI 來說有多難。最初的CL-Bench測試的是模型能否掌握并用好復雜的新知識。但現實生活從來沒有發給我們一本 “說明書”。AI 不能只停留在理解干巴巴的規則上；它還必須能夠在混亂、稀碎的線索中拼湊出事情的真相，并在各種干擾下保持極高的魯棒性。

圖：CL-bench 和 CL-bench Life 所覆蓋的兩類 context-learning。

如果真想讓 AI 蛻變為真正的私人助手，它們就必須切實讀懂我們到底是如何生活的。為了邁出這一步，騰訊混元團隊彌補了 CL-bench 未覆蓋的場景，正式推出CL-Bench Life

Introducing CL-bench Life

為了精準衡量 AI 在現實生活中的 “上下文學習” 能力，騰訊混元正式推出了CL-Bench Life。這是一個完全由人工精心構建的基準，包含了 405 個真實的任務

為了最大限度地覆蓋最常見的真實場景，研究團隊將整個測試基準劃分為三大核心類別

圖：CL-bench Life 的 context 分類體系。

1.溝通與社交互動（與他人交互時產生的上下文）：這一類覆蓋一對一私聊，混亂的多人群聊，活躍的社區討論等場景。要在這類任務中成功，AI 必須學會 “讀懂話外之意”。它需要理解復雜的人際關系，感知隱藏的情緒變化，推理出一個群體如何逐漸形成共識，并從日常閑聊中分析出真正有用的信息。

2.碎片信息與修改軌跡（圍繞自身主動產生的上下文）：這一類包括零散的個人筆記、公共信息流，以及文檔反復修改留下的歷史記錄。這一類 context 的難點包括但不限于：需要模型必須從非常凌亂的日常信息碎片中重建出完整的邏輯線，或整理并推理出一個想法或者安排是如何被多次修改的。

3.行為記錄與活動軌跡（在生活中被動產生的上下文）：這一類涵蓋游戲日志、數字足跡，以及長期個人追蹤記錄。在這一類型的 context 中，AI 往往需要從一串行為痕跡中推理出背后所隱含的原因。例如，它要求模型進行分析一長段消費流水 / 健身數據等的行為記錄，或者理解人的潛在習慣并發現長期習慣中的異常變化等。

CL-Bench Life 還包含了5348 條完全由純人工編寫的評分標準，平均每個任務對應 13.2 個考核點。這些 rubrics 被設計得盡可能原子化，從而能夠更全面、更細粒度地評估模型的答案是否正確。

表：CL-bench Life 的統計信息，包括 context 和任務數量、rubrics 數量、context 中多輪對話的平均輪次、每個任務的 rubrics 數量，以及 context 的 token 長度。

What we found

研究團隊測試了 12 個不同的語言模型（更多模型的評測結果詳見的開源榜單），初步的評測結果表明，這些模型平均只能解決 CL-bench Life 中14.5%的任務。即便是表現最好的 GPT-5.5（High）也只能解決 22.2% 的任務。這表明模型還不擅長處理高噪聲的零碎 context。

表：前沿語言模型在 CL-bench Life 上的任務解決率。

這一結果甚至比在 CL-bench 中的表現更低。在 CL-bench 中，同一批模型平均能夠解決 20% 以上的任務。這一差異也證實了CL-bench Life 測試的是另一維度的 context learning。CL-bench 中的 context 是來自專業領域的、往往相對更清楚，結構清晰，被有序的組織整理。此時，模型需要具備的能力是掌握新的知識例如規則或流程等，并有效使用它們。而相反的是，CL-bench Life 中的 context 是來自日常生活的，往往更混亂，無序，信息隨時間軸可能被反復修改。在 CL-bench Life 中，模型需要整理分散在 context 各處的線索，處理噪聲，并始終保持魯棒。

這說明了，當模型面對的不再是清晰的、被相對有序整理過的 context，而是面對雜亂、碎片化、弱結構化的 context 時，context learning 會變得更加困難。這兩個場景對模型提出不同方面和程度的 context learning 要求。

除了整體表現之外，進一步的實驗分析還揭示了一些重要發現：

1.在 CL-bench Life 中，雖然模型完美解決任務的比例不高，但部分正確的比例要高得多。當研究團隊調整任務通過閾值時（即一個回答至少需要滿足多少比例的 rubrics 才算正確），模型的通過率會發生明顯變化。閾值越寬松，各個模型的通過率都會顯著上升。這說明模型雖然很難完整解決一個任務，但確實能夠理解其中一部分 context，并完成一部分任務。

圖：模型在不同任務通過閾值下的表現。

與此同時，在不同閾值下，模型之間的相對排名大體保持穩定。這意味著 CL-bench Life 既能很好地區分 “理解部分 context” 和 “完美解決任務”，也能在這種情況下支持對不同模型進行相對穩定的比較。

表：CL-bench Life 各類別和子類別上的模型表現。

2.不同類別的 context 對模型 context learning 能力的要求各有側重。即便 CL-bench Life 中的 context 都屬于日常生活場景，信息也都是碎片化的，但信息的類型并不一樣，也導致了對模型的能力要求有不同的側重。例如，在溝通和日常交流大類中，除了信息的碎片化外，困難也主要來自社交關系和多人互動：相關信息分散在交錯的話題、討論線也是重疊的、人物關系和對話的指代關系也更加復雜。而在碎片化信息和修訂記錄大類中，模型需要整合不連續的線索，并推理一個內容是如何隨時間變化而不斷被修改的。

3.模型在日常生活中 context learning 能力的不足，不能簡單歸因于長文推理能力的問題。研究團隊發現，更長的輸入確實可能讓任務更難，但輸入長度本身并不能完全決定任務難度。具體來說，模型一旦開啟 reasoning 模式，context 長度和模型表現之間的關系就變得不那么相關（如下圖所示）。這說明日常生活 context learning 的主要瓶頸并不只是模型能否處理更長的輸入（即長文推理能力），還在于能否處理高噪聲輸入。

這與 CL-bench 中的現象有所不同。在 CL-bench 中，隨著 context 變長，模型表現通常會更明顯地下滑，因為更長的輸入往往意味著模型需要吸收更多新的復雜知識。而在 CL-bench Life 中，長度只是一個較弱的預測因素。即使 context 不長，但只要它包含大量的噪聲、被反復修改，或真正的有用信息分散在的各處時，模型處理這些 context 也可能會非常困難。

圖：在 reasoning 和 non-reasoning 下，不同 context 長度區間中的任務解決率。

4. 為了進一步理解這些局限，研究團隊分析了模型的失敗原因�？缒Ｐ蛠砜�，最主要的錯誤類型是 context misuse：模型通常確實看到了 context，但仍然誤解或誤用了它。值得注意的是，這與 CL-bench 中的 context misuse 不完全相同。在 CL-bench 中，誤用 context 往往意味著模型錯誤地應用了 context 新定義的知識。而在 CL-bench Life 中，錯誤更多來自模型理解錯了一個日常中經常發生的 context。例如，混淆了一個隨口提到的 “他” 到底指誰；依賴已經被后續的修訂推翻了的早期信息進行推理；誤把臨時的草稿修改 / 口頭的隨意說辭當成最終決策；或者把一段個人的行為軌跡看成孤立事件，而沒有推理出一個長期的習慣。另外，相比之下，格式錯誤在 CL-bench Life 中要少得多，模型直接拒答的情況也很少。

圖：四類錯誤在不同模型中的分布。Context misuse 是主要失敗因素，而格式錯誤和拒答相對較少。

下面，研究團隊深入分析了模型在群聊類 context 中的常見錯誤，來進一步探索模型在日常生活場景下 context learning 失敗的原因。

圖：溝通和日常交流類別中群聊 context 的錯誤分析。

在群聊和會議類 context 中，最常見的錯誤是角色混淆以及說話人歸因錯誤，例如模型不能正確記憶哪些話是誰說的以及引用了哪些話。例如，在一個由 Alice、Brenda、Clara 三人協作答復用戶食譜與園藝提問的 Slack 頻道中，Gemini 把 "創建頻道、發起規則" 的 Alice 誤認為是上級，把真正拍板裁決的 Clara 當作其下屬，推斷錯了這個組織里面的人際關系角色。因此之后一連串的上下級匯報關系也搞錯了。

這說明模型理解群聊 context 的核心難點不僅在于需要時刻跟蹤事件的發生，這還需要在混亂的多人互動中持續維護用戶信息、說話人的身份，以及在實際參與者之間不斷變化的關系中保持魯棒。

總體來看，這些進一步的實驗發現說明了CL-bench Life 并不只是 CL-bench 一個更難的版本，而是一個互補的評估基準：它評估模型是否能夠在真實生活中那些雜亂、碎片化、持續變化的 context 上進行魯棒推理。

The end

CL-Bench Life 揭示了一個不容忽視的結論：即使是當今最頂尖的 AI 模型，也還遠沒有真正讀懂我們的日常。這也解釋了很多人和 AI 交流時，會覺得 AI 還是不夠機靈。即使我們把聊天記錄、零散筆記、行為記錄都交給模型，希望他能處理這些日常事務時，它有時還是 “抓不住重點”。這是因為它可能僅僅讀到了信息，卻沒有真正理解這些信息在現實生活中的含義。

騰訊混元團隊希望CL-bench 和 CL-bench Life 能從兩個互補方向共同推動 context learning 的發展：一手掌控專業領域中聚焦、有條理的知識；一手應對真實生活中碎片、混亂的現實，最終幫助 AI 在人類的工作和日常生活中都變得更加智能、實用和可靠。

但顯而易見的是，這條圍繞 context 發展的路并不會停在這里。讓 AI 學會處理復雜 context，是它真正走進現實世界的關鍵。CL-bench 系列工作推動 AI 更深入理解 context 是這其中非常重要的一步，而讓 AI 學會在長期使用中記憶、整理和組織 context，則是邁向真正能服務人類的個人助手的下一步。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

我在騰訊ima里，養了一個最佳員工

智東西 2026-04-30 18:51:51
0 跟貼 0
撕開Claude Code真相：讓它好用的98.4%，是工程不是AI

新智元 2026-05-01 13:30:20
3 跟貼 3

GPU神話松動，AI真正的戰場變了

虎嗅APP 2026-05-01 01:19:11
20 跟貼 20

Karpathy：很多App就不該出生,人類護城河只剩理解,CPU將淪為配角

機器之心Pro 2026-05-01 20:44:49
0 跟貼 0
GPT-5.6現身后，下一個Claude Sonnet 4.8又曝光了！

新智元 2026-05-01 19:06:33
0 跟貼 0

AI畫了一張大餅，“賺錢”兩個字不在上面

DeepTech深科技 2026-04-29 17:08:12
0 跟貼 0

AI能改10萬行代碼，卻讓你走路去洗車！Karpathy戳破「鋸齒狀智能」

新智元 2026-05-01 17:08:00
0 跟貼 0
Claude Opus 4.7深夜「叛變」！群發20封奪命郵件，開發者凌晨被炸醒

新智元 2026-05-01 19:07:13
1 跟貼 1

我在OpenAI修中文

機器之心Pro 2026-05-01 20:00:11
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
騰訊增持《黑神話》開發商股份！天使投資方退出

游民星空 2026-05-01 12:03:09
2 跟貼 2
僅靠推理不具備法律效力

浪嫂剪輯 2026-04-30 16:43:05
4 跟貼 4
我的生活日常，努力讓日子越來越明亮

靈犬影視 2026-04-27 10:04:29
4 跟貼 4
帶中國設計師來哈國，體驗當地桑拿項目，沒想到滿座率這么高！

娜塔莎一家 2026-04-29 10:00:52
23 跟貼 23
中國制造征服史！日本車鐵粉舅舅買坦克500，二妹夫搶購摩托

娜塔莎一家 2026-04-30 10:26:58
8 跟貼 8
DeepSeek用V4重畫了坐標系

鈦媒體APP 2026-05-01 09:52:15
1 跟貼 1
《小樂數學科普》2026年4月文章精選

小樂數學科普 2026-05-01 08:20:15
0 跟貼 0
DeepSeek“開眼”背后的技術，公開了！

智東西 2026-04-30 22:35:23
10 跟貼 10
生活實用小妙招

秋雪 2026-04-28 11:14:58
0 跟貼 0
四川小伙做的導彈車模型，準備開出去測試，結果被拉走了！

星君搞笑怪 2026-04-29 16:01:55
0 跟貼 0
生活實用小技巧

秋雪 2026-04-30 17:12:02
0 跟貼 0
廣西平陸運河建240米動物通道橋，供豹貓等動物通行

星視頻 2026-05-01 11:08:08
86 跟貼 86
懸疑推理女王，阿加莎筆下最為精彩的一案

谷谷追劇人 2026-05-01 14:18:01
1 跟貼 1
百歲老人留給兒孫的，6條社交忠告，關系再好不介紹工作和對象

搞笑社密碼 2026-04-30 09:27:36
3 跟貼 3
上海迪士尼回應游客勸阻吸煙被打：園區沒有禁煙；被打男子發聲：對方已賠錢和解

中國新聞周刊 2026-04-27 14:25:00
15250 跟貼 15250
生活主打一個精打細算

酒酒愛追劇 2026-04-28 15:46:05
2 跟貼 2
北漂的盡頭——結婚、天津、回老家

老陸不老 2026-05-01 20:06:13
0 跟貼 0
美軍新一代班用機槍，XM250輕機槍，重塑美軍火力壓制邏輯！

環球武器 2026-04-30 09:30:56
0 跟貼 0
蘋果股價盤前擴大漲幅至4.1%，觸及日內高點

每日經濟新聞 2026-05-01 20:06:53
0 跟貼 0
騰訊太害怕失敗了，所以做出了一款面面俱到的游戲

圈內師老師 2026-04-30 14:44:35
0 跟貼 0
索尼勸你快買固態和會員!PS5容量不夠靠這個就解決

游民星空 2026-05-01 21:08:23
1 跟貼 1
五款游戲真能提升智商？我試了一個月

時光慢郵啊 2026-05-01 00:34:35
0 跟貼 0
說不定隨心所欲的生活，更順風順水呢？

小喜悅 2026-04-27 15:23:47
0 跟貼 0
女孩嫁給大叔開始了先婚后愛的生活

瘋癲影視 2026-05-01 07:48:33
1 跟貼 1
生活的好壞，關鍵是我們對待它的態度和心境！

笑笑東北瘋 2026-05-01 16:29:20
0 跟貼 0
認真生活總能找到，生活藏起來的糖，愛笑的人運氣不會差

最愛娛綜坊 2026-05-01 13:30:00
0 跟貼 0
女生28歲攢到10萬塊，努力把生活過成自己想要的樣子

小莉幫忙 2026-05-01 21:16:56
0 跟貼 0
生活中就要扭一扭才快樂！

平原杉杉 2026-04-30 09:59:22
0 跟貼 0
員工用個人手機號綁定工作微信，離職后被法院判歸還賬號給公司

新京報 2026-04-30 22:00:24
0 跟貼 0
鐵液做模型

劉姐愛拉呱 2026-04-30 11:43:18
1 跟貼 1

大師靠“美國崩潰論”卷走百億，跑路美國后，痛罵中國人

大師靠“美國崩潰論”卷走百億，跑路美國后，痛罵中國人

談史論天地

2026-04-25 11:00:08

震驚！一女生在小區騎平衡車摔倒骨折，要求物業賠償，評論區炸鍋

震驚！一女生在小區騎平衡車摔倒骨折，要求物業賠償，評論區炸鍋

火山詩話

2026-05-01 07:42:27

證據有了：山海經顯示，三星堆文明，極有可能是夏朝遺民

證據有了：山海經顯示，三星堆文明，極有可能是夏朝遺民

觀史搜尋著

2026-03-21 23:23:56

我退休金1萬，找個農村50歲老伴，她：你每月給我2千，其他不用管

我退休金1萬，找個農村50歲老伴，她：你每月給我2千，其他不用管

白云故事

2025-05-07 07:30:09

男子在火葬場值夜班，半夜走廊巡邏聽到哭聲，推開停尸房門后怔住

男子在火葬場值夜班，半夜走廊巡邏聽到哭聲，推開停尸房門后怔住

古怪奇談錄

2025-08-15 16:07:02

還能活多久，看體重就知？醫生強調：上了年紀的人，體重這些剛好

還能活多久，看體重就知？醫生強調：上了年紀的人，體重這些剛好

醫學科普匯

2026-04-18 17:05:51

史詩級奇景！東部第一聯手第二一起跪？71年一遇就在眼前

史詩級奇景！東部第一聯手第二一起跪？71年一遇就在眼前

劉哥談體育

2026-05-01 19:16:29

34年后，《縱橫四�！窇{什么還能收割票房？

34年后，《縱橫四�！窇{什么還能收割票房？

閃存獵手

2026-04-16 11:05:49

審判開始，莎拉臨上飛機前取消行程，老杜派系集體掉頭反擊馬科斯

審判開始，莎拉臨上飛機前取消行程，老杜派系集體掉頭反擊馬科斯

墨羽怪談

2026-05-01 20:04:43

破案了！杜鋒用年輕球員時間為何減少？張明池道出了原因

破案了！杜鋒用年輕球員時間為何減少？張明池道出了原因

體育哲人

2026-04-30 23:37:12

歐洲正在被奪舍

文青大叔說

2026-04-30 08:15:49

天氣預報｜1日夜間重慶各地迎降雨局部地區有暴雨

天氣預報｜1日夜間重慶各地迎降雨局部地區有暴雨

上游新聞

2026-05-01 18:40:08

又一匹黑馬殺出！第一人出局，史上最偉大爆冷

又一匹黑馬殺出！第一人出局，史上最偉大爆冷

體育新角度

2026-05-01 17:34:43

4-0,中超第13碾壓中超第8,河南終結6輪不勝,48歲李金羽率隊4連敗

4-0,中超第13碾壓中超第8,河南終結6輪不勝,48歲李金羽率隊4連敗

側身凌空斬

2026-05-01 20:54:17

炸裂！高校教授136頁PDF丑聞：玩弄女學生，出軌已婚女，細節曝光

炸裂！高校教授136頁PDF丑聞：玩弄女學生，出軌已婚女，細節曝光

李晚書

2026-04-30 13:36:16

俄羅斯前10大煉油廠停產5個！彼爾姆石油樞紐遭受重創

俄羅斯前10大煉油廠停產5個！彼爾姆石油樞紐遭受重創

項鵬飛

2026-04-29 19:13:54

戲里演夫妻戲外真結婚！33歲郭曉婷簡直是人生贏家

戲里演夫妻戲外真結婚！33歲郭曉婷簡直是人生贏家

小椰的奶奶

2026-05-01 00:24:29

“骨盆前傾成這樣，還不去醫院？”家長曬一年級女兒體態，被群嘲

“骨盆前傾成這樣，還不去醫院？”家長曬一年級女兒體態，被群嘲

妍妍教育日記

2026-04-24 11:15:25

王鷗的腳真漂亮

喜歡歷史的阿繁

2026-05-01 18:21:52

男人和女人睡過，女人就一定真心愛你嗎？

男人和女人睡過，女人就一定真心愛你嗎？

阿凱銷售場

2026-04-24 09:10:48

機器之心Pro

專業的人工智能媒體

12902文章數 142639關注度

往期回顧全部

科技要聞

DeepSeek發布多模態論文又連夜刪除

頭條要聞

74歲老人郵輪旅行登船次日突發急癥離世家屬索賠90萬

頭條要聞

74歲老人郵輪旅行登船次日突發急癥離世家屬索賠90萬

體育要聞

無奈！約基奇：這要在塞爾維亞全隊早被炒了

娛樂要聞

馬筱梅產后身材恢復超好現身戶外直播

財經要聞

GPU神話松動，AI真正的戰場變了

汽車要聞

限時9.67萬起吉利星越L/星瑞i-HEV智擎混動上市

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

藝術

健康

教育

親子

她們看起來氣血好足，每套搭配我都想抄

藝術要聞

Nikolai Vryasov：當代俄羅斯畫家

干細胞治燒燙傷面臨這些“瓶頸”

教育要聞

南外又添新學校？南外江北新區學校，今天正式掛牌！

親子要聞

這個爸爸老是老了點但是真可愛

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版