網易首頁 > 網易號 > 正文 申請入駐

獨立研究者發表的大模型強化學習獎勵分配全景報告

0
分享至


這篇由獨立研究者完成的綜述論文發表于2026年4月,arXiv編號為2604.09459(v2版本于2026年4月13日更新),是目前學術界首篇系統性聚焦于大型語言模型強化學習中"功勞認定"問題的專題綜述。感興趣的讀者可通過該編號在arXiv平臺檢索全文。

當你雇了一個團隊幫你裝修房子,最后裝修效果很差,你會怎么追責?是罵負責設計的人、還是罵負責施工的人、還是罵負責采購材料的人?如果整個團隊分工明確、每人只做了一部分,而你只知道最終結果很糟糕,那要怎么判斷究竟是哪個環節出了問題、下次應該換掉誰?

這個看似日常的困境,正是當前人工智能領域最核心的技術難題之一。一個大型語言模型(也就是類似ChatGPT這樣的AI)在被訓練成"會做事的助手"時,會經歷成千上萬次嘗試。每次嘗試,它可能做了幾十步、幾百步才得到一個結果,但訓練系統只告訴它"這次成功了"或"這次失敗了"——根本不知道是哪一步起了關鍵作用。這就是所謂的"功勞認定"問題(Credit Assignment),也是本文的核心議題。

這篇綜述梳理了2024年到2026年初之間發表的47篇相關論文,把這些解決方案分門別類地整理成一套完整的知識體系。它不只是一本目錄,還附帶了一套幫助研究者和工程師選方法的決策樹、一份給未來研究者的寫作規范清單,以及一個基準測試的協議規范。對于任何想在這一方向上開展研究或實際應用的人來說,這篇綜述是一份難得的導航地圖。

一、從"寫作業"到"干活":AI能力進化帶來的新麻煩

要理解這個問題有多棘手,先得了解AI是如何一步步"進化"的。

早期的AI訓練方式,有點像雇人寫一篇作文然后請老師打分。系統生成一段話,人類或者評分程序打一個總分,AI據此調整自己。這個過程中,整篇作文只拿到一個分數,每個句子、每個詞都獲得了同等的"獎懲"。這就是所謂的"結果級別獎勵"。在任務比較簡單、回答比較短的情況下,這種方式勉強夠用。

后來,隨著DeepSeek-R1和OpenAI的o1這類模型的出現,AI開始被訓練去解數學題和寫代碼,而且要展示完整的推理過程。這時候,一段回答可能長達一兩萬個詞,里面包含幾十個推理步驟。這就是所謂的"推理型強化學習"階段。光靠最后一個"答對了"或"答錯了"來訓練,效率太低了——就像老師批改數學作業只寫"錯"但不指出哪一步算錯了,學生根本不知道該從哪里改。

再往后發展,AI被賦予了真正"干活"的能力:它可以上網搜索、執行代碼、調用工具、發送消息、與其他AI協作。一個任務可能要來回操作幾十次甚至上百次,耗費的文字量可能高達幾十萬到上百萬個詞。這就是"智能體型強化學習"階段,也是目前技術前沿所在。在這種情況下,"功勞認定"問題達到了前所未有的復雜程度。

綜述提供了一組非常直觀的數字對比來說明這個落差。在解簡單數學題時,AI大約只需要兩三百到八百個詞,做出三到十個關鍵決策。在解競賽數學題時,可能需要一兩萬個詞、幾十到一百個關鍵步驟。而在處理像SWE-bench這樣的軟件工程任務時,AI可能需要來回操作二三十次到一百多次,總共用掉十萬到五十萬個詞,做出幾十到上百個關鍵決策。當一個AI在第三步做了一個糟糕的選擇,但之后的九十七步都還算正常,最終任務失敗——訓練系統如何知道是第三步的鍋?這就是問題的本質。

二、"所有人平分獎金"為什么行不通

現在最流行的大模型訓練方法叫做GRPO(群體相對策略優化),它的核心邏輯是:讓AI對同一個任務做出多次嘗試,然后根據每次嘗試的結果好壞來給那次嘗試的所有步驟打同樣的分。換句話說,如果這次嘗試成功了,那么這次嘗試中的每一個詞、每一步操作都獲得同等的"功勞";如果失敗了,每一步都背同等的"黑鍋"。

這就像一家公司的績效考核制度是這樣的:如果這個月業績好,所有員工無論貢獻多少都拿同樣的獎金;如果業績差,所有人無論犯沒犯錯都被扣同等的工資。這種制度在員工很少、每個人的工作都清晰可見的小團隊中或許還能接受,但在一個有一百個部門、每個部門又有幾十個人的大公司里,就完全失效了。

綜述用了一個嚴格的數學分析來說明這個問題。在單純的統計學上,當你對一百個不同的決策都用同一個信號來判斷好壞時,平均到每個決策上的"信息量"只有單決策情況的百分之一。這不只是效率低的問題,而是會導致模型學到錯誤的東西。研究者們發現,在這種訓練方式下,AI會逐漸傾向于做那些"安全但毫無意義"的重復動作——因為做任何新奇的嘗試風險太高,不如一直重復已知的動作,反正獎懲信號那么模糊,誰也說不清楚。這個現象被研究者稱為"回聲陷阱"。

正因如此,四十七篇論文的核心目標只有一個:找到更好的方式,把那個模糊的最終結果獎勵,精準地分配到真正值得獎勵或懲罰的那一步上。

三、分類整理:解決問題的四十七種思路

這篇綜述把四十七種方法整理成了一張二維地圖。橫軸是"方法論"——用什么技術來計算功勞;縱軸是"粒度"——把功勞分配到哪個層級。

從粒度來說,最細的是詞語級別(每個詞都分開算),往上是段落級別(把一段推理當一個單元),再往上是步驟或回合級別(每一次AI說話或做操作算一個單元),最頂層是多AI級別(多個AI協作時,每個AI各算各的)。不同任務適合不同粒度——就像餐廳績效考核可以精細到每道菜(詞語級),也可以粗略到每個班次(回合級),更可以整體評價前廳還是后廚團隊(多智能體級)。

從方法論來說,主要有五大家族。第一類叫"蒙特卡洛法",思路是:從中間某步開始,讓AI從那里繼續把任務做完,做很多次,用這多次的平均結果來估計這步的重要性。第二類叫"時序差分法",思路是:訓練一個專門負責打分的輔助模型,這個模型負責預測"從當前狀態繼續下去大概能得多少分",用這個預測值來分配功勞。第三類叫"AI自評法",思路是:直接問AI自己"你覺得這一步重要嗎",用AI自己的語言理解能力來做裁判。第四類叫"博弈論法",主要是Shapley值——這是個來自經濟學的方法,核心是問"如果去掉這一步,結果會差多少",通過所有可能的組合排列來公平地分配貢獻。第五類叫"信息論法",思路是衡量"這一步提供了多少關于任務成功的新信息"。

在這張地圖上,從左上角到右下角有一條進化路徑:推理型任務的方法主要集中在詞語級和段落級,用蒙特卡洛或時序差分;而智能體型任務的方法主要集中在回合級和多AI級,用事后分析、反事實推理和信息論。這條路徑本身就是一個重要發現。

四、推理AI的功勞分配:已有成熟方案

在推理型任務領域,方法已經相對成熟,這里重點介紹幾個有代表性的。

VinePPO這個方法的核心比喻是"在棋局中途換人接著下"。它的做法是:在AI正在生成回答的某個詞的位置上,讓AI從那里繼續往下寫,寫很多個不同的版本,統計這些版本最終有多少比例能得到正確答案。這個比例就是那個詞的"預期價值",而實際的功勞就是"真實結果"減去"預期價值"。好處是完全沒有偏差,不依賴任何輔助模型;壞處是計算量很大,每個詞都要生成額外的很多個版本。實驗證明,這個方法在數學推理上比傳統PPO效果顯著更好,說明功勞分配質量本身就是訓練的瓶頸,而不是優化算法的問題。

SPO走了一條更實用的路:不在每個詞上分配功勞,而是找到推理鏈條中的"分叉點"——那些推理從一個子問題跳躍到另一個子問題的地方,以這些有意義的段落作為單位。每個段落的功勞用比較"共享同一前綴的不同軌跡的結果"來估算。這樣既保留了比詞語級更細的信息,又避免了計算量爆炸。

SCAR走的是博弈論路線:把整段推理鏈條看作一個團隊協作,每個段落是一個"隊員",用Shapley值來公平分配"誰的功勞最大"。Shapley值有一個很好的性質,它滿足效率(所有人的功勞加起來等于總收益)、對稱性(貢獻相同則獎勵相同)和零貢獻性(對結果沒影響的步驟得零分)。缺點是計算復雜,因為要考慮所有可能的組合順序,但研究者用了抽樣近似來解決。

PURE提出了一個有趣的理論洞察。傳統的過程獎勵模型(簡單理解為"步驟打分器")用的是"這步之后預期總得分"來衡量步驟質量,PURE認為這樣會被模型鉆空子——模型可能學會制造一些看起來分數不低但實際上沒用的中間步驟。PURE改用"這步之后所有未來步驟中最低分"來衡量,強迫模型確保每一步都不拖后腿,而不是靠后面某些高分步驟來平攤。

HICRA發現了一個有趣的學習規律:AI在強化學習訓練的過程中,先學會的是"程序性技能"(也就是固定套路和計算步驟),后學會的是"戰略規劃"(也就是高層次的問題分解方式)。基于此,HICRA建議把更多功勞集中在那些具有戰略意義的詞語和步驟上,而不是均勻分配。這個發現對智能體任務同樣有重要啟發價值。

五、智能體AI的功勞分配:全新挑戰,全新方案

從推理型到智能體型,不只是任務變復雜了那么簡單,而是有六個本質性的結構變化,這六個變化共同構成了"為什么推理型方法不能直接搬過來用"的完整解釋。

第一個變化是"環境變得不可控"。當AI只是在生成文字時,環境完全可預測——下一步的狀態就是已有文字加上剛生成的詞。但當AI開始調用工具、執行代碼、搜索網頁時,同樣的操作可能因為網絡狀態、數據庫變化、執行時序而得到完全不同的結果。這讓"從中間狀態出發多次模擬"變得要么成本極高,要么根本不可能。

第二個變化是"只能看到部分信息"。推理型任務是全透明的,AI看到的就是完整狀態。但在智能體任務中,AI只能看到它執行查詢后得到的返回結果,看不到數據庫的全貌;只能看到文件系統中它選擇查看的文件,看不到整個代碼庫的結構。這意味著即便某一步看起來是個"壞"決策,也可能是因為信息不足,而非真的決策失誤。

第三個變化是"時間跨度爆炸"。從做幾十步推理變成了做幾十到上百次來回操作,計算信號質量急劇下降。統計上,信噪比大約下降了一百倍。

第四個變化是"操作類型千差萬別"。推理鏈條里的每一步都是"想清楚下一個論證",相對同質。但智能體的操作中,有制定高層計劃的戰略性決策,有選擇用哪個工具的技術性決策,有具體填寫參數的執行性操作,有格式化輸出的收尾性操作。這些操作的"重要程度"天差地別,但如果用統一的功勞分配方式,就會一視同仁。

第五個變化是"中間過程難以驗證"。數學推理的每一步在邏輯上是可以檢驗的——這個代數變形對不對、這個推導步驟合不合法。但在智能體任務中,"選擇搜索哪個關鍵詞是個好選擇嗎"只有等看到搜索結果再說,"這段代碼寫得好不好"只有執行之后才知道。

第六個變化是"分叉點稀少但致命"。在智能體任務中,大多數操作都是常規動作,真正改變命運走向的"關鍵決策點"其實非常少,但一旦在這個節點上做錯,就可能導致整個任務走入死胡同。這些點事先根本不知道是哪里,只有事后回頭看才能認出來。

基于這六個挑戰,研究者們發展出了一批專門針對智能體任務的新方法。

AgentPRM是把推理型的"步驟打分器"概念移植到智能體任務上,但把計算方式從"蒙特卡洛多次模擬"改成了"時序差分學習"——訓練一個輔助模型,讓它不斷預測"從當前步驟繼續下去,大概能得多少分",通過迭代更新來學會這個預測。這樣就不需要重啟環境去模擬,但引入了預測誤差。實驗顯示樣本效率提升了八倍。

SWEET-RL提出了一個非常聰明的思路。訓練的時候,人們可以掌握AI在推理時看不到的信息——比如正確答案是什么、整個任務最終是否成功。這叫做"特權信息"。SWEET-RL用這些特權信息訓練一個專門的"裁判"模型,讓它在訓練期間給每一步打出高質量的功勞分;而參與實際任務的AI在執行任務時并不依賴這個裁判——它只用自己能看到的信息來做決策。這種"訓練時用特權,運行時不用特權"的不對稱設計,既提升了信號質量,又不影響AI在真實環境中的獨立性。

CARL(關鍵行動強化學習)提出了一個大膽的簡化思路:與其給所有操作都分配精細的功勞,不如只管那些真正關鍵的操作。怎么判斷哪步關鍵?用"熵"——在某個狀態下,如果AI面臨很多種可能的操作選擇且各有可能,說明這是個真正需要做決策的關鍵時刻,熵值高;如果AI幾乎必然會做某個操作,說明這只是常規步驟,熵值低。CARL只對高熵操作步驟進行梯度更新,跳過其他所有步驟。結果令人意外:減少了72%的梯度更新量,但性能幾乎不下降。這說明智能體軌跡中絕大多數操作根本不值得優化,只有少數關鍵決策真的重要。

GiGPO提出了一種"組中組"的巧妙設計。在GRPO原本的基礎上,它增加了一層:不只是在多次完整嘗試之間做比較,而是在同一次嘗試中,找出那些"從相同出發點繼續"的步驟,把它們相互比較,用組內相對表現來分配步驟級別的功勞。這樣既不需要額外的輔助模型,也不需要重啟環境,在計算效率和信號質量之間找到了一個不錯的平衡點。實驗中在網頁購物和家居任務兩個基準測試上分別超越GRPO達12%和9%。

最引人關注的是2026年3月同一周內冒出的三篇獨立論文,它們都走向了同一個方向:事后反事實分析。

HCAPO的核心思路是"事后諸葛亮":等整個任務做完之后,再回過頭來評估每一步的貢獻。它用AI來扮演裁判,讓裁判用完整的事后信息去問"如果這步換成另一個操作,結果會不同嗎"。這種方法的關鍵洞察是:事后的功勞評估天然比事前更準確,因為你已經知道結果了,可以真正區分"這步是真的好"和"這步只是恰好運氣不錯"。

C3(上下文反事實功勞分配)用的是"留一法"——把某一步的操作替換成一個"默認操作",用AI來估計在這種反事實情況下任務最終會怎么發展,然后比較真實結果和反事實結果的差值作為那步的功勞。不需要重跑環境,反事實估算完全在AI的"想象中"完成。

CCPO提供了更嚴格的理論框架:把整個任務軌跡看作一個因果結構,每步操作是一個"干預變量",任務結果是被影響的"效果"。每步的功勞就是這個"干預"的平均處理效應。這個框架在一定假設條件下有嚴格的理論保證。

三篇論文獨立得出相同結論,本身就是一個強烈信號:對于智能體任務,"事后回溯式"的功勞認定思路正在成為主流范式。

六、多AI協作:最新的功勞認定前沿

當任務不是由一個AI獨立完成,而是由多個AI分工協作時,問題又多了一個維度:這個成果里,有多少是你的功勞,有多少是隊友的功勞?

這個問題在現實中并不陌生。電影上映后,演員、導演、攝影師、劇本作者各自貢獻了多少,誰應該拿最多的獎勵,一直是討論不完的話題。多AI場景面臨的是完全類似的挑戰,而且還更復雜:不同AI的能力和角色完全不同(一個專門負責搜索,一個專門寫代碼,一個專門做總結),共同完成了一個無法單獨拆開評估的整體任務。

SHARP把Shapley值從推理任務的"步驟層面"搬到了多AI任務的"智能體層面":把整個AI團隊看作一個合作游戲,每個AI的功勞是它在所有可能的團隊組合中的"平均邊際貢獻"。實驗顯示,平均比單一AI高出23.7%,比沒有Shapley功勞分配的多AI系統高出14.1%。

MAPPA走了另一條路:不等任務結束才算總賬,而是在每個AI的每一步操作完成后,就用另一個AI來評判這一步的即時價值。這樣每次訓練時可以從每個軌跡里提取出更多的學習信號。實驗中,在數學競賽任務上提升幅度高達5到17個百分點,是目前多AI方向上報告的最大增益之一。

Dr. MAS發現了一個具體的失效模式:當用GRPO來訓練多AI系統時,如果用全局統一的基準線來計算各AI的優勢分,會出問題——因為不同AI的任務難度和獎勵分布完全不同,一個統一的基準線對某些AI來說太高,對另一些來說太低。解決方案是給每個AI各自維護獨立的統計基準,分別歸一化。這個改動看起來簡單,但卻把原本發散的訓練過程穩定下來,并帶來了5.6%的性能提升。

七、做選擇時的實用指南

這篇綜述不只是盤點方法,還給出了一套決策框架,幫助實際工作者根據自己的情況選擇合適的方法。

核心邏輯是一棵決策樹。首先問的是任務性質:是推理型(AI生成一段文字)、智能體型(AI與環境交互多個回合),還是多AI協作?在推理型任務中,再問推理鏈條多長。如果短(五千詞以內),用GRPO家族就夠,加上PURE或SPRO來強化步驟級別信號;如果長(超過五千詞),且計算資源有限,用HICRA或CAPO;如果計算資源充裕,用VinePPO或SCAR來追求更高質量的功勞分配。

在智能體型任務中,先問軌跡有多長。如果不超過三十個回合,再問有沒有輔助模型資源:沒有的話用GiGPO、CARL或iStar;有的話用AgentPRM或SWEET-RL。如果超過三十個回合,再問計算資源是否充裕:資源有限就用CARL或HCAPO或ArCHer的簡化版;資源充裕就用C3/CCPO或HCAPO的完整版或IGPO。多AI協作場景則推薦M-GRPO、SHARP或MAPPA。

綜述還整理了幾個關鍵取舍。粒度越細的方法(詞語級)提供越精確的信號,但計算成本越高;事后分析(HCAPO、C3)信息質量高但引入延遲;不需要輔助模型的方法(CARL、GiGPO、iStar)更容易部署;專門為推理型設計的方法在智能體任務上往往失效,反之則不然。

八、這個領域還缺什么

綜述誠實地指出了幾個尚未解決的重要問題。

在實踐層面,目前評測各種功勞分配方法的基準測試嚴重不統一。每篇論文用的任務、基礎模型、訓練配置各不相同,導致無法真正比較哪個方法更好,還是說哪個方法只是恰好在某個任務上更有優勢。這讓整個領域的進展變得模糊。研究者呼吁建立一套共享的基準測試協議,包括已知正確功勞分配的推理任務、有控制分叉點的智能體任務,以及有設計好功勞結構的多AI任務。

在理論層面,絕大多數方法只有經驗驗證而沒有理論保證。只有極少數方法(如VinePPO的無偏性證明、CCPO的因果假設下的保證)提供了形式化分析。在部分可觀測環境下,功勞分配如何收斂、樣本復雜度是多少,這些基本問題幾乎沒有答案。

在新興應用層面,當AI任務跨度極長(比如持續幾天的科研實驗)、獎勵信號本身不確定(比如"用戶是否滿意"這種主觀評價),或者AI的操作影響到了AI自己的"記憶"(比如把某些信息存入外部數據庫以備后用),功勞應該如何分配,現有方法幾乎無從應對。

還有一個被忽略的機會:功勞認定和探索策略本來可以互相增益。在功勞認定最不確定的狀態上,恰恰是AI最應該去探索的地方——因為那里信息最缺乏。但目前沒有任何方法把這兩件事真正結合在一起。

歸根結底,這個領域正在經歷一個快速成熟的階段。推理型任務上的功勞分配問題,大致已有可用的工程答案;智能體任務上的功勞分配問題,思路已經清晰但工具還不完備;多AI協作的功勞分配問題,才剛剛開始被認真對待。

三年前,幾乎沒有人把"功勞分配"當作一個獨立的研究方向來看待,它只是深藏在各種算法細節里的小問題。但隨著AI從"會回答問題"進化到"會干活",這個問題已經從背景噪音變成了舞臺中央最響亮的那個聲音。下一波突破,很可能就藏在"怎么讓AI明白自己真正做對了什么"這個問題的答案里。

有興趣深入了解的讀者可以通過arXiv編號2604.09459檢索這篇論文,或直接訪問作者在GitHub上維護的相關論文列表(xxzcc/Awesome-Credit-Assignment-in-LLM-RL)以獲取持續更新的研究動態。

Q&A

Q1:大模型強化學習中的功勞認定問題具體是什么?

A:功勞認定問題是指當AI完成一項多步驟任務后,訓練系統只知道最終結果的好壞,但不知道是哪一步操作真正起了決定性作用。就像一場球賽贏了,但說不清楚是誰的功勞。在AI做復雜任務時,可能經歷幾十步到上百步,如果只靠最終獎勵來訓練,效率極低,甚至會讓AI學到錯誤的行為模式。

Q2:GRPO方法在智能體任務上為什么會出現"回聲陷阱"?

A:GRPO對整個任務軌跡中的每一步都給同樣的獎懲信號,當任務變得復雜、步驟達到幾十甚至上百步時,這個信號對每一步來說變得極其微弱且充滿噪聲。AI因為無法分清哪步真正有用,為了降低風險就開始不斷重復已知的安全動作,變得越來越保守和重復,完全失去了探索新方法的動力,這就是所謂的"回聲陷阱"。

Q3:CARL方法中用來判斷關鍵決策點的"熵"是什么意思?

A:在CARL方法里,"熵"衡量的是AI在某個狀態下面對多少種可能選擇、且這些選擇的可能性有多均勻。如果AI幾乎肯定會做某一個操作,熵值低,說明這只是常規步驟不需要特別訓練;如果AI面臨很多種同樣可能的選擇,熵值高,說明這是真正需要做判斷的關鍵時刻,才值得投入梯度更新資源。實驗發現跳過低熵步驟可以減少72%的計算量但性能幾乎不變。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
阿斯:國際足聯傾向于在馬德里舉辦2030年世界杯決賽

阿斯:國際足聯傾向于在馬德里舉辦2030年世界杯決賽

懂球帝
2026-04-21 09:50:56
澤連斯基怒批特朗普:烏克蘭之所以打不贏俄羅斯,全是你幫倒忙

澤連斯基怒批特朗普:烏克蘭之所以打不贏俄羅斯,全是你幫倒忙

流年恰似繁花汐
2026-04-21 18:00:40
吉姆·法利叫囂:美貿易保護丑態畢露

吉姆·法利叫囂:美貿易保護丑態畢露

烽火瞭望者
2026-04-21 19:22:28
身家一年暴漲560億元成“惠州首富” 勝宏科技創始人陳濤:加速擴充高端產能

身家一年暴漲560億元成“惠州首富” 勝宏科技創始人陳濤:加速擴充高端產能

每日經濟新聞
2026-04-21 11:13:18
伊朗議會要員:外交語言無效時將選擇繼續戰事

伊朗議會要員:外交語言無效時將選擇繼續戰事

新華社
2026-04-21 22:36:01
王立群教授:用權力泡女人,女人在你面前服服帖帖,用金錢泡女人,女人是滿臉不服氣,甚至討價還價...

王立群教授:用權力泡女人,女人在你面前服服帖帖,用金錢泡女人,女人是滿臉不服氣,甚至討價還價...

深度知局
2026-04-08 07:41:14
喜歡肌膚白皙無瑕,自帶柔光的樣子

喜歡肌膚白皙無瑕,自帶柔光的樣子

飛娛日記
2026-04-14 07:47:36
當年為什么查辦褚時健?

當年為什么查辦褚時健?

百曉生談歷史
2025-08-20 21:55:53
特朗普訪華行程推進中,團隊擬加入新成員,中方再拋售美債!

特朗普訪華行程推進中,團隊擬加入新成員,中方再拋售美債!

近史博覽
2026-04-22 01:10:38
時長超過蘇德戰爭,俄羅斯該點到為止了

時長超過蘇德戰爭,俄羅斯該點到為止了

新車知多少
2026-04-21 18:28:58
今年,科創板「最大IPO」誕生!

今年,科創板「最大IPO」誕生!

芯榜
2026-04-21 20:46:18
茅臺不行了,貴州靠什么?

茅臺不行了,貴州靠什么?

BT財經
2026-04-21 22:25:03
一周最少8次,54歲女子肛裂住院,丈夫哭訴:怎么勸她就是不聽!

一周最少8次,54歲女子肛裂住院,丈夫哭訴:怎么勸她就是不聽!

健康之光
2026-04-13 09:01:59
令英國痛苦的“入侵花”,在中國淪為咸菜,吃到人工種植成笑談

令英國痛苦的“入侵花”,在中國淪為咸菜,吃到人工種植成笑談

真的好愛你
2026-04-21 12:37:54
能得分能組織還能防守,森林狼完全應該給后場新援多一些信任?

能得分能組織還能防守,森林狼完全應該給后場新援多一些信任?

稻谷與小麥
2026-04-21 23:00:24
美容院老板娘大實話:脫了衣服,女人的差距根本不在臉上!

美容院老板娘大實話:脫了衣服,女人的差距根本不在臉上!

夜深愛雜談
2026-03-08 21:28:24
賴清德,恐成為新中國歷史上,唯一在任上出事的臺灣地區領導人

賴清德,恐成為新中國歷史上,唯一在任上出事的臺灣地區領導人

真正能保護你的
2026-04-05 00:55:35
女兒用父親公司賬戶1700萬元打賞主播、拆卡,已前往當地派出所自首 能否以“職務侵占”立案仍需調查

女兒用父親公司賬戶1700萬元打賞主播、拆卡,已前往當地派出所自首 能否以“職務侵占”立案仍需調查

紅星新聞
2026-04-21 12:54:20
收拾完伊朗,下一個輪到中國?以色列發戰爭威脅,中方送出5個字

收拾完伊朗,下一個輪到中國?以色列發戰爭威脅,中方送出5個字

千羽解讀
2026-04-18 10:12:15
定了!中國隊進“死亡之組”!

定了!中國隊進“死亡之組”!

五星體育
2026-04-22 01:19:29
2026-04-22 04:47:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業世界
8088文章數 562關注度
往期回顧 全部

科技要聞

創造4萬億帝國、訪華20次,庫克留下了什么

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

體育要聞

一到NBA季后賽,四屆DPOY就成了主角

娛樂要聞

宋承炫曬寶寶B超照,宣布老婆懷孕

財經要聞

現實是最大的荒誕:千億平臺的沖突始末

汽車要聞

全新坦克700正式上市 售價42.8萬-50.8萬元

態度原創

健康
數碼
游戲
藝術
手機

干細胞抗衰4大誤區,90%的人都中招

數碼要聞

大疆DJI Mic Mini 2發布:329元起 可更換麥克風磁吸前蓋

漲價兩周即回調!索尼官方PS5數字版定價重回399美元

藝術要聞

任伯年寫竹,真帶勁

手機要聞

iOS 26.5 Beta 3新版體驗:改進解鎖流暢度,信號也變好了?

無障礙瀏覽 進入關懷版