網易首頁 > 網易號 > 正文 申請入駐

僅有訓練是不夠的:大型語言模型和推理模型需要強化學習

0
分享至

大多數熟悉生成式模型的人都知道,許多大型語言模型(LLM)是在互聯網全部內容上訓練的。許多人認為,其數百萬的參數和超參數(數量遠超上一代神經網絡)是一項重大進步。然而,很少有人意識到,如果沒有強化學習,這些語言模型遠未準備好投入生產環境,尤其是對企業用戶而言。


這種機器學習形式對于完善(或優化)LLM以及這些模型的下一階段演進,即推理模型,是必不可少的。推理模型是指那些在返回問題答案時,同時給出模型生成輸出所采用的步驟或推理過程的模型。相比之下,LLM主要設計用于預測序列中下一個出現的詞——并不一定理解其含義或與問題的關系(這也解釋了它們的"幻覺"現象)??傮w而言,它們缺乏具體的知識庫。

據SAS人工智能與機器學習總監Jorge Silva介紹,"強化學習在這一切中扮演什么角色?因為你需要在訓練的每一步都知道自己做得如何,而訓練是迭代的,要反復多次通過數據,所以你要看到自己表現如何。而你最想確保的事情是預測正確的詞。"

強化學習為Jorge Silva提到的訓練步驟提供獎勵,同時構建有效的策略來優化語言模型的預測。

對于推理模型,強化學習超越了僅預測序列中下一個詞的范疇。它確保模型為其回答提供具體的理由——賦予它們比LLM更完整的宇宙觀或世界觀。

"訓練推理模型時,你不僅想預測下一個詞,"Jorge Silva說,"當訓練像DeepSeek-R1這樣的模型時,你還想提供格式良好、有充分依據的推理部分。"

解構強化學習

與監督學習和自監督學習不同,強化學習不需要訓練數據。相反,模型的學習源于代理與環境的動態交互。主要基于自監督學習訓練的推理模型和LLM,正是提供了這樣的環境。

"因為強化學習是在不確定性的情況下順序做出決策,所以讓強化學習策略作為你的智能體是理想的選擇。"Jorge Silva表示。

強化學習策略為智能體提供了邏輯基礎,使其能夠對模型在訓練中經歷的各個步驟的輸出進行獎勵或懲罰。例如,包含推理模型輸出解釋的回答,比沒有解釋的輸出獲得更高的獎勵。


群體相對策略優化

群體相對策略優化是用于DeepSeek-R1等推理模型的具體強化學習方法。采用這種技術,"本質上是生成各種候選答案,"Jorge Silva解釋道,"如果你給它同樣的提示詞重復10次,它會得到10個不同的補全。然后,它會判斷這些補全中哪一個具有最大優勢。"

在更廣泛的機器學習語境中,"補全"(completions)一詞有多種含義。然而,當具體應用于強化學習時,補全"意味著它生成自己的標簽,從而避免依賴監督學習,"Jorge Silva說。

采用這種方法,對手頭任務具有最大優勢的補全會被納入獎勵計算——這指導強化學習策略的構建。

"然后,該補全作為訓練整體LLM的標簽,"Jorge Silva表示。因此,獎勵(基于數值)指導策略如何發展,以最好地促進模型的整體目標。

此外,當具體應用于推理模型時,"這是將DeepSeek-V3轉化為DeepSeek-R1的優化的一部分,讓你從基礎模型轉變為推理模型,"Jorge Silva評論道。

候選補全

補全是群體相對策略優化的一個核心方面,因為它們代表了推理模型可能執行的邏輯步驟的各種潛在回答。雖然強化學習不涉及訓練數據,但用于訓練LLM和推理模型的自監督學習方法確實涉及訓練數據。采用這種機器學習形式,"你拿一份文檔,在訓練時只給LLM一部分內容,它必須猜測其余部分。"Jorge Silva說。

群體相對策略優化中涉及的不同候選補全,部分基于模型已經完成的訓練。據Jorge Silva介紹,"每個補全都會提供替代的推理解釋,每個都有不同的獎勵值,這在很大程度上取決于匹配正確解釋應該是什么,并確保正確答案存在。"

計算不同補全獎勵的方法各不相同。有時,強化學習智能體可以審查伴隨的搜索和響應字符串,例如如何求解特定一元二次方程。在這種情況下,它們會給予涉及特定數學運算(如正負一的平方根)的補全更高獎勵。


其他時候,獎勵可能基于與思考標簽相關的分隔符中的信息。采用這種方法,補全中有一個詳盡的推理部分作為獎勵的基礎。

一如既往,"你需要知道正確答案,但你需要確保存在推理部分,"Jorge Silva說,"所以我們有一種方法來計算所有候選補全的獎勵。"

推理模型的意義

推理模型的重要性是多方面的。它們編碼了輸出所采用的邏輯和步驟,這些通過群體相對策略優化等強化學習技術得到最大化。此外,通過被構建為提供解釋,它們在與人的交互中可能更具人性化。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
扎心!丈夫勸妻子停止化療,怕人財兩空,網友:這或是最好的決定

扎心!丈夫勸妻子停止化療,怕人財兩空,網友:這或是最好的決定

火山詩話
2026-05-02 17:54:15
荷蘭光刻機巨頭急了:中國人太聰明,封鎖中國先餓死的是西方企業

荷蘭光刻機巨頭急了:中國人太聰明,封鎖中國先餓死的是西方企業

同一片海空里
2026-05-03 00:57:55
5月開始將迎來4大降價潮:除房價以外,這幾類也開始降價了

5月開始將迎來4大降價潮:除房價以外,這幾類也開始降價了

梁佇愛玩車
2026-05-01 21:50:57
2026北京車展:113.98萬起!4.0T V8!爆500馬力!全新奧迪SQ8上市!

2026北京車展:113.98萬起!4.0T V8!爆500馬力!全新奧迪SQ8上市!

聊聊車生活
2026-05-03 10:09:48
吃他汀不能碰牛奶?多次警告:不止牛奶,這5物再饞也要忌嘴

吃他汀不能碰牛奶?多次警告:不止牛奶,這5物再饞也要忌嘴

小胡軍事愛好
2026-05-03 10:03:21
55年,薄一波同志如果參與授銜,應該授什么軍銜?這個軍銜最合適

55年,薄一波同志如果參與授銜,應該授什么軍銜?這個軍銜最合適

薦史
2026-05-02 17:21:51
廣東3消息!杜鋒更衣室發言曝光,胡明軒做尿檢,徐昕做好準備

廣東3消息!杜鋒更衣室發言曝光,胡明軒做尿檢,徐昕做好準備

多特體育說
2026-05-03 11:41:31
“窮人炫富,難掩心酸!”男大學生炫耀坐高鐵一等座,因長相被嘲

“窮人炫富,難掩心酸!”男大學生炫耀坐高鐵一等座,因長相被嘲

妍妍教育日記
2026-04-24 09:05:03
百億美元砸出的荒誕死局:一國正規軍為何永遠打不贏一支民兵

百億美元砸出的荒誕死局:一國正規軍為何永遠打不贏一支民兵

寰球經緯所
2026-04-20 22:59:41
中國足球未來無望?孫繼海:試訓40人最終0人入圍 可怕!太可怕了

中國足球未來無望?孫繼海:試訓40人最終0人入圍 可怕!太可怕了

風過鄉
2026-05-02 18:34:46
一嫁日本,二嫁美國,三嫁法國,絕不嫁中國人的李勤勤,咋樣了?

一嫁日本,二嫁美國,三嫁法國,絕不嫁中國人的李勤勤,咋樣了?

傲傲講歷史
2026-03-09 10:19:52
以革命的名義殺人,對法國大革命的重新審視與批判

以革命的名義殺人,對法國大革命的重新審視與批判

壹家言
2026-04-28 20:27:12
38歲袁姍姍曬近況疑整容失敗!撞臉楊冪被指認不出,鼻子突兀變化大

38歲袁姍姍曬近況疑整容失敗!撞臉楊冪被指認不出,鼻子突兀變化大

八卦王者
2026-05-02 13:16:05
賽后謝場環節,浙江死忠球迷區打出橫幅:拒絕外行指導內行

賽后謝場環節,浙江死忠球迷區打出橫幅:拒絕外行指導內行

懂球帝
2026-05-02 22:44:16
汪小菲他爸,汪則翰,可真不是一般人

汪小菲他爸,汪則翰,可真不是一般人

小鯨叫我照顧海
2026-05-01 23:38:19
兩年8次手術!早已透支!他今年會離隊嗎?

兩年8次手術!早已透支!他今年會離隊嗎?

柚子說球
2026-05-02 12:30:03
騎士3-3猛龍!哈登談搶七把話挑明,米切爾毫無退路,2點也成關鍵

騎士3-3猛龍!哈登談搶七把話挑明,米切爾毫無退路,2點也成關鍵

魚崖大話籃球
2026-05-02 16:31:09
石油巨震!阿聯酋宣布退出歐佩克!話音剛落,中國就發現了新油田

石油巨震!阿聯酋宣布退出歐佩克!話音剛落,中國就發現了新油田

探源歷史
2026-05-03 02:07:29
足壇瘋狂一夜:阿森納橫掃富勒姆,大巴黎爆冷丟分,巴薩2-1險勝

足壇瘋狂一夜:阿森納橫掃富勒姆,大巴黎爆冷丟分,巴薩2-1險勝

足球狗說
2026-05-03 05:19:37
人不會無緣無故患帶狀皰疹!調查發現:得帶狀皰疹,離不開這5點

人不會無緣無故患帶狀皰疹!調查發現:得帶狀皰疹,離不開這5點

岐黃傳人孫大夫
2026-05-01 14:35:03
2026-05-03 12:56:49
Ai時代前沿
Ai時代前沿
人工智能新聞動態及應用案例。
1726文章數 512關注度
往期回顧 全部

科技要聞

庫克罕見"拒答"!蘋果正被AI供應鏈卡脖子

頭條要聞

上??萍即髮W王晨輝教授因營救至親不幸去世 年僅39歲

頭條要聞

上海科技大學王晨輝教授因營救至親不幸去世 年僅39歲

體育要聞

裁判準備下班,結果吳宜澤進了決賽

娛樂要聞

蔡卓妍婚后首現身 戴結婚戒指笑容不斷

財經要聞

后巴菲特時代,首場股東會透露了啥

汽車要聞

同比大漲190% 方程豹4月銷量29138臺

態度原創

數碼
親子
手機
家居
公開課

數碼要聞

Perplexity稱贊Mac mini是其Personal Computer的最佳本地部署平臺

親子要聞

勞動小能手節日快樂

手機要聞

榮耀羅巍透露同期還有一家手機廠商也在尋求與ARRI阿萊的合作

家居要聞

靈動實用 生活藝術場

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版