網易首頁 > 網易號 > 正文 申請入駐

再見,數據標注!騰訊發布R-Zero框架,讓AI自己訓練自己

0
分享至

大數據文摘出品

一個不再依賴人類數據標注的大模型訓練框架,它來了!

由騰訊AI Lab與美國圣路易斯華盛頓大學聯合開發的新框架“R-Zero”,成功展示出大語言模型(LLM)如何靠自己訓練自己,不再需要人類提供任務或答案。

論文地址: https://www.arxiv.org/pdf/2508.05004

這個突破的核心,是徹底擺脫人類標注數據的依賴,靠模型之間的博弈,自動生成、篩選和吸收新的訓練內容。

他們用強化學習的方法,讓兩個AI模型互相挑戰、不斷進化,從零開始構建出一個高質量的訓練體系。

R-Zero采用的結構,是將一個基礎模型一分為二,分別扮演“挑戰者”和“解答者”兩個角色,分別訓練,但共同進化。

挑戰者的目標是設計剛好夠難的問題,逼迫解答者必須進步;而解答者在解決這些問題中獲得獎勵和提升。

“不是找到答案難,而是提出好問題難。”顯然,真正稀缺的是“好老師”,而不是“好學生”。

R-Zero就是通過自動化產生“老師”,讓模型不斷面對新的、更難的考題,從而不斷突破原有水平。

01 R-Zero的實驗結果

R-Zero的實驗效果遠超預期,尤其是在推理能力方面,不同規模的開源大模型均出現明顯性能躍升

騰訊測試了多個模型家族,包括Qwen3系列和OctoThinker,在基礎模型上僅通過R-Zero訓練,就讓推理能力顯著提升。

例如,Qwen3-4B-Base在數學推理測試中得分平均提升+6.49分;Qwen3-8B-Base在三輪訓練后得分也提升了+5.51分。

更重要的是,這種通過數學任務訓練得到的推理能力,可以成功遷移到通用推理任務上

在MMLU-Pro和SuperGPQA等通用領域測試中,Qwen3-4B-Base同樣表現出+7.54分的躍升,說明R-Zero訓練的不只是技巧,而是底層能力。

甚至在后續再用傳統標注數據微調時,經過R-Zero預訓練的模型也能表現得更好。

對企業而言,R-Zero的“從零數據”方式尤其具有吸引力,因為許多垂直行業領域,壓根沒有高質量的大規模數據集可供使用

騰訊的這項研究直接繞開了數據收集、人工標注這些最昂貴、最耗時的流程,變相打破了AI發展的最大天花板:人類知識和數據的邊界。

02 但問題同樣存在

盡管R-Zero在性能上令人振奮,但它也暴露出自我進化AI的核心風險:數據質量的失控

研究者發現,隨著挑戰者不斷提出更復雜的問題,解答者給出的“多數票答案”正確率開始下降。

第一輪訓練中,自動生成數據的準確率為79%,而到第三輪下降至63%

相比之下,一個“強大而理想”的大模型如GPT-4,可以保持更高的正確率,這種落差說明自我進化的過程可能存在精度塌陷的風險。這是這個新范式面臨的最大瓶頸。

目前論文成果只是概念驗證,要真正做到持續穩定進化,不出現性能平臺期,是接下來整個研究社區要攻克的難關。

此外,R-Zero目前僅適用于“答案可驗證”的任務,如數學推理、科學問答等,其優勢來自于能夠清晰判斷“對”與“錯”。

那在沒有“標準答案”的領域怎么辦?比如營銷文案、情感寫作、摘要生成?

騰訊提出了未來的一種可能方向:引入第三個模型角色“驗證者”或“評論員”。

驗證者將不再判斷對錯,而是評價內容的質量,從多個維度給予評分。

如此一來,挑戰者繼續生成題目,解答者負責作答,而驗證者則提供反饋。三方協同進化,形成更復雜、更全面的智能結構。

或許會推動AI從“邏輯能力”邁向“主觀判斷”,不僅懂計算,更懂人類世界的模糊與語境。

注:頭圖AI生成

作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!

GPU 訓練特惠!

H100/H200 GPU算力按秒計費,平均節省開支30%以上!

掃碼了解詳情?

點「贊」的人都變好看了哦!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
卡戴珊和漢密爾頓海邊熱吻被拍 兩人是相隔8000公里的40歲+異地戀

卡戴珊和漢密爾頓海邊熱吻被拍 兩人是相隔8000公里的40歲+異地戀

勁爆體壇
2026-04-22 07:28:05
男女關系曖昧了,大多會有以下三種“互動”,一看便知

男女關系曖昧了,大多會有以下三種“互動”,一看便知

葉飛飛情感屋
2026-04-23 15:21:41
導彈直逼上海?中方忍無可忍,打出禁空令,覆蓋范圍超臺灣兩倍

導彈直逼上海?中方忍無可忍,打出禁空令,覆蓋范圍超臺灣兩倍

小楊侃事
2026-04-23 14:17:02
人一旦到80歲,如果能記住這4句大白話,多半能活到100歲

人一旦到80歲,如果能記住這4句大白話,多半能活到100歲

顧一宸
2026-04-23 20:05:03
誰都沒想到,40天的伊朗戰爭,讓我國國運大爆發了

誰都沒想到,40天的伊朗戰爭,讓我國國運大爆發了

農夫史記
2026-04-17 20:06:56
王雷夫婦否認懷三胎,也沒住4億豪宅,李小萌胖了好多看著有140斤

王雷夫婦否認懷三胎,也沒住4億豪宅,李小萌胖了好多看著有140斤

柒佰娛
2026-04-23 09:42:14
戴著媽媽的項鏈去面試,被董事長看到,董事長震驚問:你媽媽是誰

戴著媽媽的項鏈去面試,被董事長看到,董事長震驚問:你媽媽是誰

千秋文化
2026-04-18 19:08:36
真相大白!張繼科方博張煜東接連復出原因曝光,真是因為樊振東嗎

真相大白!張繼科方博張煜東接連復出原因曝光,真是因為樊振東嗎

曹說體育
2026-04-23 17:05:24
宋慧喬新照被嘲又老又丑?新活動輕松美回來,力壓李冰冰蘇菲瑪索

宋慧喬新照被嘲又老又丑?新活動輕松美回來,力壓李冰冰蘇菲瑪索

阿傖說事
2026-04-24 01:07:51
回家不撅兩下,都覺得委屈它!

回家不撅兩下,都覺得委屈它!

飛娛日記
2026-04-23 08:10:41
綠色是生命的顏色:它不是背景,是主角

綠色是生命的顏色:它不是背景,是主角

疾跑的小蝸牛
2026-04-23 21:36:36
當約會軟件開始押注"年齡差":7種男性畫像的產品邏輯

當約會軟件開始押注"年齡差":7種男性畫像的產品邏輯

晚風也遺憾
2026-04-22 23:46:42
殺夫案主犯程海燕被執行死刑,執刑前,向兒子坦白丈夫的秘密

殺夫案主犯程海燕被執行死刑,執刑前,向兒子坦白丈夫的秘密

紙鳶奇譚
2025-03-15 15:19:06
南京威雅關校真相:不是辦砸了,是太真誠,敗給了南京的“教育功利主義”

南京威雅關校真相:不是辦砸了,是太真誠,敗給了南京的“教育功利主義”

帥領留學真話
2026-04-23 00:20:58
施壓中方讓步?日代表團強求訪華,中國“4箭齊發”,抗議也無效

施壓中方讓步?日代表團強求訪華,中國“4箭齊發”,抗議也無效

探索新高度
2026-04-24 01:52:01
當不成總統了?美國四大前總統罕見聯手,打響扳倒特朗普的第一槍

當不成總統了?美國四大前總統罕見聯手,打響扳倒特朗普的第一槍

風干迷茫人
2026-04-24 04:41:30
萬斯救了特朗普一命!美伊戰爭中,特朗普的政治生命恐怕已經終結

萬斯救了特朗普一命!美伊戰爭中,特朗普的政治生命恐怕已經終結

西樓知趣雜談
2026-04-23 10:50:03
隨著曼城英超登頂,巴薩領先皇馬9分,五大聯賽最終冠軍基本如下

隨著曼城英超登頂,巴薩領先皇馬9分,五大聯賽最終冠軍基本如下

球場沒跑道
2026-04-23 07:38:18
曾經那些真實的特供,超出普通人的想象…

曾經那些真實的特供,超出普通人的想象…

深度報
2026-04-21 22:56:47
有人說:打麻將和性生活是縣城的底色?

有人說:打麻將和性生活是縣城的底色?

燈錦年
2026-04-21 12:32:46
2026-04-24 06:12:49
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6852文章數 94541關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領袖

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領袖

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態度原創

旅游
游戲
親子
本地
公開課

旅游要聞

來廣州,分享10億元“中國旅游日”專屬優惠福利

任天堂NS2銷量4倍碾壓PS5!差距懸殊 索尼難挽頹勢

親子要聞

新華讀報|打乒乓球有助提高兒童注意力

本地新聞

SAGA GIRLS 2026女團選秀

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版