无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

<noscript id="3krjr"><optgroup id="3krjr"></optgroup></noscript>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

大模型越訓越自信，卻越采不到新解？LED給LRM找回探索上限

2026-06-21 18:53:27　來源: 機器之心Pro

天津舉報

0

分享至

本文一作為中國人民大學高瓴人工智能學院博士生譚文輝，師從宋睿華長聘副教授，研究方向為大模型推理與交互，預計 2027 年畢業。譚文輝在讀期間以第一作者身份在 ICLR、NeurIPS、ICML、CVPR 等會議共發表六篇論文，并獲得過 MMM 2025 Best Paper。

近一年，大型推理模型（Large Reasoning Models，LRMs）在數學競賽、代碼生成、科學問答等高難度任務上取得了令人印象深刻的進展。

從 OpenAI o1、DeepSeek-R1 到 Qwen3、MiMo，這一輪提升主要歸功于兩大引擎：（1）讓模型在標簽里進行長鏈路的思考；（2）用以 GRPO 為代表的強化學習（RL）算法進行后訓練，把 pass@1 （平均正確率）推上去。

然而，pass@1 提高的同時，一個反常的現象正在出現：把解碼時的采樣溫度調高，模型的 pass@n （多次嘗試的上限正確率）不再隨之改善，有時甚至更差。這意味著：模型在單次采樣里更加「自信」，但在多次嘗試中「探索」新解的能力卻坍縮了。對于代碼生成、定理證明、數學競賽等「只要采到一次正解就判對」的任務，這種坍縮直接拉低了模型的真實能力上限。

在最新被 ICML 2026 接收的工作中，來自中國人民大學高瓴人工智能學院、小米 MiLM Plus 等單位的研究團隊提出了Latent Exploration Decoding（LED）。這是一種無需任何額外訓練的解碼策略，它從 LRM 內部的中間層恢復被 RL 壓扁的熵，將探索從最后一層重新搬到潛在空間。在 5 個模型與 6 個推理基準上，LED 一致地把 pass@1 與 pass@16 平均提升了 0.61 與 1.03 個百分點，并且把 GRPO 的 rollout 也變得更高效。

論文標題：Restoring Exploration after Post-Training: Latent Exploration Decoding for Large Reasoning Models
作者列表：Wenhui Tan，Fiorenzo Parascandolo，Enver Sangineto，Jianzhong Ju，Zhenbo Luo，Qian Cao，Rita Cucchiara，Ruihua Song，Jian Luan
論文鏈接：https://arxiv.org/pdf/2602.01698
代碼鏈接：https://github.com/AlbertTan404/LED

下圖為 Qwen3-4B-Thinking 在 AIME 2025 數據集上使用常規解碼（CoT）與本文提出的 LED 的案例研究。

一、問題發現：最后一層熵被 RL 后訓練壓扁

在相對更早的一代 LLM 上，調高采樣溫度幾乎是改善多次采樣表現核心方法。從 0.1 到 0.6，模型在解碼時更愿意探索其他可能性，pass@n 順勢升高。研究團隊用了一個簡單的指標來量化這種行為，叫作accuracy-temperature slope (alpha)：把 pass@1 到 pass@16 在不同溫度下的準確率擬合成一個平面，平面沿溫度方向的斜率就是 alpha。alpha 越大，說明提高溫度對模型探索的正向激勵越高。

在 QwQ-32B、DeepSeek-R1-Distill-Llama-8B（早期思考模型）以及 Qwen3-4B-Instruct （非思考模型）上，alpha 都是正數。但到了最近一代 LRMs 上，alpha 開始接近零，甚至變成負數：在 Qwen3-4B-Thinking、Qwen3-30B-A3B-Thinking、MiMo-7B-RL 上，提高溫度并不能更高的 pass@n。

團隊從廣泛使用的 RL 后訓練算法 GRPO 出發給出了一個機制性的解釋：GRPO 在一個 group 內只獎勵「整段輸出是否正確」這一稀疏信號，于是真正承擔學習壓力的是少數分枝 token，也就是那些一旦選錯、整條推理就跑偏的關鍵位置。RL 反復把 token 預測概率推向「成功分支」，最終把這幾個關鍵位置的分布壓成接近 one-hot 的尖峰，即「熵坍縮」。因此，在這些模型上調高溫度本質上只是「把一座單峰的高山變扁平」，并不會重新長出第二座山，即可能的另一條探索路徑。

二、關鍵觀察：熵保留在中間層

如果最后一層輸出已經坍縮了，模型還有探索能力嗎？團隊把視線轉向了 LLM 內部。

得益于 Transformer 的層間殘差連接，每一層的隱狀態都可以直接通過 LM-Head 得到一組詞表分布，即 LLM 早退（early exit）。研究團隊系統統計了 LRMs 各層早退后的分布熵，發現了一個非常清晰的趨勢：早期與中間層保留著相當高的熵，而進入末幾層，熵急劇下降，到最后一層幾乎收斂到 0。

這意味著，模型在中間層還沒「拿定主意」，候選詞之間的概率分布相對平緩。也就是說，RL 雖然把最后一層壓扁了，但其算法本身對中間層的影響是間接的，所以這些中間層就像一片仍然蘊含「不確定性」的熵礦，是探索得以重啟的入口。

這一觀察回答了「溫度為什么不靈」的問題：溫度僅作用在最后一層已坍縮的分布上，無論怎么放縮，也補不回已經丟失的概率質量。要恢復探索，就必須把目光移到中間層。

三、提出方法：聚合中間層早退概率

LED 的核心很樸素：在解碼時，把中間層的分布也算進來，構造出一個最具探索價值的分布來采樣。但要讓這件事真正可用，團隊解決了三個具體問題。

第一，避免在詞表噪聲里探索。

中間層雖然熵高，但很多概率質量其實分布在與上下文無關的稀有詞上，直接采樣會讓模型胡言亂語。研究團隊對每一層的詞表分布做了一項 top-k 覆蓋率分析：把最后一層 top-k 的候選詞固定下來，看每一層中間分布給這些候選詞分配了多少概率。結果顯示，最后一層的 top-1 概率往往超過 90%，top-2 超過 99%，幾乎是 one-hot；而中間層在這些候選上的覆蓋率則平滑地從低到高過渡。LED 由此得到一個干凈的設計：只在「最后一層認可」的 top-k 候選詞上做探索，避免引入無意義的詞，也保證了最終生成的連貫性。

第二，跨層信息聚合。

直覺做法是給每一層一個權重做加權平均，但這要面對模型大小、深度差異等導致的超參敏感問題。LED 選擇了一種沒有超參的方式：從最后一層向更淺的層做累加（cumulative sum），每加進一層就得到一種聚合分布；然后對每一種聚合分布計算熵，挑出熵最高的那一種作為最終的「探索分布」。這相當于讓模型自己決定使用多深的潛在變量來拿到最有價值的探索信號，整個流程沒有手工調參。

第三，平衡探索 - 利用。

推理過程中并不是每一步都需要探索：很多 token 是高度確定的（比如標點符號），強行進行探索化反而會破壞推理。LED 用一個簡單直接的方法解決這個問題：最后一層 top-1 的概率本身就是模型的「自信度」。若 top-1 概率非常高，說明此處該走「利用」路線，直接按常規解碼；若 top-1 概率相對比較低，說明此處是分支點，啟用潛在探索分布去采樣。這一判據無須設閾值，也同樣沒有引入沒有超參數。

更進一步，LED 把這套機制限定在思考階段。論文統計了 LRM 在思考與回答兩段的行為，發現思考階段消耗了超過 90% 的 token、熵也明顯更高。而進入回答階段后，模型應當跟隨已經形成的思路，不再適合「再探索一條路」。LED 在回答階段自動退化為常規解碼，避免對最終答案造成擾動。

整套方法不需要任何額外訓練、幾乎不引入額外超參數，開銷只是把最后幾層（論文中默認 d=8，后續試驗證明 LED 對該超參數不敏感）的隱狀態多送進一次 LM-Head，配合一次累加和一次熵的比較。在 8×H100 、上下文 16K、批大小 128 的高并發場景下，LED 的吞吐量仍能保持常規解碼的 91.8% 左右，遠高于基線方法 DoLa 與 SoftThinking。

四、實驗效果：pass@k 穩定提升

研究團隊在 6 個標準基準上做了系統評估，涵蓋數學（GSM8K、MATH-500、AIME 2024、AIME 2025）、科學（GPQA-Diamond）和代碼（LiveCodeBench v5），并選取了從 4B 到 32B、覆蓋稠密和 MoE 架構的 5 個模型：Qwen3-4B-Thinking、MiMo-7B-RL、Qwen3-30B-A3B-Thinking、QwQ-32B 與 DeepSeek-R1-Distill-Llama-8B（后兩個模型為早期推理模型，實驗結果在論文附錄）。

在三種 LRM 上，LED 把 pass@1 平均從 77.4 提到 78.0，把 pass@16 平均從 88.8 提到 89.7；和 DoLa、SoftThinking、SoftThinking-Gumbel 這些強基線相比，LED 在 pass@1 與 pass@16 上幾乎全部領先，并且生成長度不增反持平（在 Qwen3-4B-Thinking 上是 12,269 vs 12,277 token），這意味著提升不是靠推理開銷換來的。

更直接體現 LED 價值的是溫度曲線。前文那張 alpha 由正變負的圖，在加上 LED 之后被反向扳了回來：對所有最新一代 LRM，alpha 重新變成了正數。低溫度下不掉點，高溫度下重新拿到收益，溫度調參又一次成為可用的探索方式。

消融實驗進一步說明了幾個關鍵設計：去掉「只在思考階段探索」，pass@1 會掉 0.58 個點；去掉「利用」分支，完全交給探索，pass@1 會暴跌約 14.7 個點，同時生成長度膨脹 33%；去掉 top-k 過濾，模型會陷入死循環，幾乎全部撞到上下文極限。在不同探索深度 d 下（也是 LED 引入的唯一超參數），LED 均能助力模型提升 pass@k，證明 LED 并不依賴超參調優。

五、為什么需要探索：把 LED 放進 RL 訓練

LED 增強探索能力的動機并不只在測試階段成立?，F有的在線強化學習算法，比如 GRPO 訓練本身就需要在每一步用模型自己生成多條軌跡再打分；如果生成階段就缺乏探索，那么 advantage 信號也會收斂到很小的值。

研究團隊把 LED 直接接進了 GRPO 的生成環節，在 Qwen3-4B-Thinking 與 MATH-lighteval 數據上對比常規 rollout。結果顯示，用 LED 做 rollout 訓練出來的模型，即便在測試時切回常規解碼，準確率也從 41.99 提升到 43.10。這樣的結果顯示 LED 不只是讓某次推理更高效地探索，它還幫助模型學到了更好的策略。如果訓練和測試都用 LED，最終精度可以達到 45.44。一個有趣的效果是：因為 LED 更高效的探索能力，整次 GRPO 平均生成長度降低了 10%，訓練時間也從 4.87 小時降到 4.44 小時。這一結果表明 LED 不僅是一種推理側的解碼補丁，也是在線 RL 訓練階段的一種探索增強機制。

六、總結

LED 從兩個方向展開了研究：

發現現象：RL post-training 把 LRM 的最后一層熵壓扁了，讓調高溫度這種最直觀的增強探索的手段失效；
找到機制：這種熵其實沒有消失，它被推到了中間層。只要把潛在分布從中間層調出來、做合適的過濾與聚合，就能把探索能力還給模型，而無需任何額外訓練。

LED 沒有引入新參數、改變模型架構、或是讓模型多出大量計算開銷，卻在 5 個模型、 6 個基準上穩定地提升了 pass@16（同時保持或提升 pass@1），并讓采樣溫度重新發揮其應有的作用。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

快手開源GoLongRL：23K樣本、9大任務類型，長上下文RL荒時代結束

機器之心Pro 2026-06-21 19:52:29
0 跟貼 0
哈？改個URL就行！alphaXiv甩出論文復現神器，單卡也能跑

機器之心Pro 2026-06-21 17:10:57
0 跟貼 0

25億美金估值，零收入、這家公司試圖用大腦算法破解AI能耗危機

DeepTech深科技 2026-06-21 21:13:02
0 跟貼 0

南洋理工推出支持物理仿真三維模型！生成資產可部署于機器人訓練

DeepTech深科技 2026-06-21 21:17:07
0 跟貼 0
“AI領域最被濫用的術語”李飛飛終于把世界模型講明白了

量子位 2026-06-07 04:37:43
0 跟貼 0

大批歌手即將失業？實測AI作曲僅需5分鐘，傳統音樂被逼死胡同？

雷科技 2026-06-21 21:37:09
0 跟貼 0

全球首個人形機器人通用小腦：2萬小時人類動作數據，零樣本泛化

量子位 2026-06-19 11:27:35
7 跟貼 7
GLM-5.2全球免費6小時，馬斯克點贊，HuggingFace掏錢

機器之心Pro 2026-06-21 20:17:58
0 跟貼 0

AI隱私訓練時，那個最難控制的「閥門」能自動調節嗎？

機器之心Pro 2026-06-21 21:19:41
0 跟貼 0
ICML 2026｜從「鑒偽」到「修復」，AI圖像取證進入閉環時代

機器之心Pro 2026-06-21 19:01:01
0 跟貼 0
從眼控到腦控，蔡磊化身“賽博軀體”稱將把意識傳送到具身機器人

第一財經資訊 2026-06-21 15:40:24
112 跟貼 112
FlashAR：僅用0.05%數據，讓預訓練好的自回歸圖像模型飛起來

機器之心Pro 2026-05-24 17:52:21
0 跟貼 0
ChatGPT 免費、豆包收費：同一道商業題的兩種解法

鈦媒體APP 2026-05-08 15:28:12
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
劉偉：分層構建人機協同架構，重塑公募基金AI生產系統新形態

財聯社 2026-06-20 04:42:08
0 跟貼 0
OpenRouter推出復合方案，用一半價格實現性能碾壓

DeepTech深科技 2026-06-21 21:20:46
1 跟貼 1
GRPO過時了嗎？

機器之心Pro 2026-06-21 17:26:45
0 跟貼 0
柔性超大高清LED顯示屏，收放如同卷簾門

裝甲鏟史官 2026-05-18 11:26:38
0 跟貼 0
充氣式LED燈管，太陽能充電照明好幫手

裝甲鏟史官 2026-06-19 11:27:01
0 跟貼 0
一張無意間拍下的照片，揭示了狼群的組織架構?#科普??#狼群?

小白聊科普 2026-06-19 08:49:41
29 跟貼 29
二歲追風少女，以56秒09撕裂生理極限，碾壓賽場的少年戰書！

半夏微涼qvq 2026-06-21 02:56:53
21 跟貼 21
計算所、ETH研究者提出WorldCache，視頻世界模型近無損提速3.7倍

機器之心Pro 2026-06-03 10:58:06
0 跟貼 0
外國知名學者：當今世界只有四個大國

參考消息 2026-06-21 12:27:22
9441 跟貼 9441
沿著何愷明團隊漂移模型再走一步：單步文生圖偏好優化提速3.51倍

機器之心Pro 2026-06-21 19:31:40
0 跟貼 0
全球軍力十強榜，第一名勝過其余九國之和，實力前所未有極限！

清晨的世界 2026-06-20 00:57:12
1 跟貼 1
你就這么明晃晃的把參數亮出來了

阿彪動畫 2026-06-17 10:55:00
0 跟貼 0
不出意外！廣東隊未來5年5大主力架構如下

一只會跳舞的熊 2026-06-20 01:56:35
0 跟貼 0
無底價拍賣本田發光廣告牌：142英寸寬LED燈箱

林間小溫柔 2026-06-21 01:21:22
0 跟貼 0
黑龍江省哈爾濱市呼蘭區發布暴雨橙色預警信號

北青網-北京青年報 2026-06-21 19:35:02
0 跟貼 0
Agent通訊的「運營商」哪家強？UIUC團隊發布ProtocolBench

機器之心Pro 2026-06-21 20:25:26
0 跟貼 0
廣東惠來龍舟賽，“抱樁漂移”極限過彎，網友：每看一次都熱血沸騰

氧氣周末 2026-06-21 15:42:11
0 跟貼 0
反坦克導彈走位靈活，飛行軌跡難以琢磨，最終竟成功擊中目標！

胖塌塌生活 2026-06-20 10:07:50
0 跟貼 0
大學生實習日薪180元弄丟客戶6.5萬元勞力士表

極目新聞 2026-06-21 14:57:13
3314 跟貼 3314
憤怒！日軍拿中國人做人體實驗新罪證曝出，曾給23名中國人輸馬血

胡侃社會百態 2026-06-21 18:05:50
0 跟貼 0
化學與生活息息相關

宗老師化學知識學習 2026-06-21 17:29:46
0 跟貼 0
英偉達x清華Gamma World迅速登頂抱抱臉多智能體世界模型γ-World

量子位 2026-05-30 20:18:29
0 跟貼 0
媒體：兩大核武國家“水仗”升級巴基斯坦陷入恐慌

中國新聞周刊 2026-06-21 19:23:56
329 跟貼 329
潛水被鯊魚咬傷、玩懸崖秋千墜亡……誰為“勇敢者游戲”系緊安全繩？

大象新聞 2026-06-21 16:14:31
0 跟貼 0
鋼管舞展現極致曲線之美，優雅與力量完美融合，讓人直呼驚艷4

搞笑嘻哈哈 2026-06-19 00:00:00
0 跟貼 0
庫拉索門將多次撲救厄瓜多爾0-0戰平庫拉索

央視新聞 2026-06-21 09:58:57
2236 跟貼 2236

徹查！信號強烈！中央升級反腐“天網”！

徹查！信號強烈！中央升級反腐“天網”！

職場資深秘書

2026-06-21 14:07:53

黃粱一夢，俄國人加速撤離克島，烏3位前總統集體退還波蘭勛章

黃粱一夢，俄國人加速撤離克島，烏3位前總統集體退還波蘭勛章

史政先鋒

2026-06-21 20:15:46

德國總理站出來，呼吁27國聯手，用美國搞垮日本那套，來對付中國

德國總理站出來，呼吁27國聯手，用美國搞垮日本那套，來對付中國

流史歲月

2026-06-21 15:50:06

日本4-0大勝，賽后，看看中國球迷都怎么說

日本4-0大勝，賽后，看看中國球迷都怎么說

小樓侃體育

2026-06-21 15:02:41

手把手教徒弟反被抄家！中企印度遭洗劫，國家新規一招反殺！

手把手教徒弟反被抄家！中企印度遭洗劫，國家新規一招反殺！

52赫茲實驗室

2026-06-21 14:28:41

“讓巴基斯坦得不到一滴水”：印度的狠話表明，一些規則邊界正在被打破

“讓巴基斯坦得不到一滴水”：印度的狠話表明，一些規則邊界正在被打破

澎湃新聞

2026-06-21 13:24:28

紙尿褲全面失控！舉報人再拿重磅鐵證，真相恐不只是嬰兒生殖受損

紙尿褲全面失控！舉報人再拿重磅鐵證，真相恐不只是嬰兒生殖受損

冰語歷史

2026-06-21 11:09:21

央視曝光！多款水果跌落神壇，濫用甜味劑8000倍甜度、違規防腐劑

央視曝光！多款水果跌落神壇，濫用甜味劑8000倍甜度、違規防腐劑

陳博世財經

2026-06-21 16:42:08

老黃終于瞞不住了：直言大兒子確實去世了，大女兒一直在身邊

老黃終于瞞不住了：直言大兒子確實去世了，大女兒一直在身邊

以茶帶書

2026-06-21 15:54:37

世界杯主哨首秀馬寧掏6黃牌搶鏡+拒判壓哨點球霸氣喝退球員質疑

世界杯主哨首秀馬寧掏6黃牌搶鏡+拒判壓哨點球霸氣喝退球員質疑

我愛英超

2026-06-21 10:09:07

日本日清食品召回超28萬份杯裝炒面：工廠設備發生故障，混入了約1厘米長的合成樹脂碎片；有消費者投訴吃出異物

日本日清食品召回超28萬份杯裝炒面：工廠設備發生故障，混入了約1厘米長的合成樹脂碎片；有消費者投訴吃出異物

中國能源網

2026-06-20 22:17:04

一場5-1，日本漁翁得利！世界杯F組亂了：榜首易主，瑞典出線反轉

一場5-1，日本漁翁得利！世界杯F組亂了：榜首易主，瑞典出線反轉

侃球熊弟

2026-06-21 02:57:42

花80萬開店，90天就倒閉，火遍全國的零食店，“陰謀”露頭角了？

花80萬開店，90天就倒閉，火遍全國的零食店，“陰謀”露頭角了？

科技故事聚焦

2026-06-16 10:07:38

1457萬枚爛在銀行！武夷山紀念幣創下近十年最尷尬紀錄

1457萬枚爛在銀行！武夷山紀念幣創下近十年最尷尬紀錄

老孟談錢

2026-06-19 03:17:17

0-0！平局不可怕，可怕的是厄瓜多爾主帥的一番話，不如中國隊！

0-0！平局不可怕，可怕的是厄瓜多爾主帥的一番話，不如中國隊！

田先生籃球

2026-06-21 14:16:21

劉強東：將來根本不需要快遞員希望送70萬藍領兄弟去培訓

劉強東：將來根本不需要快遞員希望送70萬藍領兄弟去培訓

快科技

2026-06-21 16:33:05

日本隊惹巨大爭議，看臺出現旭日旗！韓國媒體炸鍋，國內媒體沉默

日本隊惹巨大爭議，看臺出現旭日旗！韓國媒體炸鍋，國內媒體沉默

全景體育V

2026-06-21 20:08:21

男籃首節壓制澳大利亞！全民皆兵，崔永熙回暖，王俊杰全面輸出！

男籃首節壓制澳大利亞！全民皆兵，崔永熙回暖，王俊杰全面輸出！

籃球資訊達人

2026-06-21 19:56:08

美國為何禁止種植竹子？終于明白，原來竹子比我們想象的更可怕

美國為何禁止種植竹子？終于明白，原來竹子比我們想象的更可怕

椰青美食分享

2026-06-20 05:50:32

為何延遲退休最近突然“沒聲了”？不是暫停，背后4大難題制約

為何延遲退休最近突然“沒聲了”？不是暫停，背后4大難題制約

芳姐侃社會

2026-06-20 18:26:43

機器之心Pro

專業的人工智能媒體

13319文章數 142674關注度

往期回顧全部

科技要聞

馬斯克拿下7800億元天價薪酬 2028年可兌現

頭條要聞

巴防長強硬警告：一旦巴方水資源受到威脅將與印開戰

頭條要聞

巴防長強硬警告：一旦巴方水資源受到威脅將與印開戰

體育要聞

德國的超級替補，10年前還在工廠上班

娛樂要聞

原來她就是張頌文老婆

財經要聞

蔚來的“暗戰”時刻

汽車要聞

驚出冷汗！重慶實測奧迪A5L，華為智駕這波操作絕了…

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

本地

藝術

數碼

公開課

手機要聞

古爾曼：蘋果產品很快就會漲價，不會拖到秋季

本地新聞

龍騰資江韻動邵陽

藝術要聞

絲綢滑落肩頭的瞬間、光影穿過窗欞的溫度：他用畫筆定格時間本身

數碼要聞

蘋果官網上架MOFT Snap Field磁吸卡包支架，498元

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<source id="toihl"></source>

^{<rt id="toihl"><tt id="toihl"></tt></rt>}

^{<rt id="toihl"></rt>}

<td id="toihl"></td>