无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

<center id="hlrgg"><meter id="hlrgg"><center id="hlrgg"></center></meter></center>

<small id="hlrgg"></small>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

大模型世界的縫合怪，兩個9B拼成18B，吊打Qwen3.6-35B

2026-04-20 18:12:33　來源: Ai學習的老章

北京舉報

0

分享至

今天聊一個讓我拍案叫絕的社區實驗——有人把兩個 9B 模型的層直接堆在一起，拼成了一個 18B 模型，然后用 1000 步 LoRA"縫合"了一下……結果居然吊打了 Qwen 3.6-35B MoE，而且只要一半的顯存。

關于 Jackrong 的模型系列，老讀者應該不陌生了，我之前多次介紹過：

什么是 Frankenmerge？

先解釋一下這個野路子

Frankenmerge是社區發明的一種模型合并方式，靈感來自弗蘭肯斯坦——把不同模型的"身體部位"拼在一起，看能不能造出一個更強的"怪物"

具體做法非常直接暴力：把模型 A 的全部 32 層和模型 B 的全部 32 層首尾相連，疊成一個 64 層的新模型，嵌入層和輸出頭用其中一個模型的就行

直接把兩個模型拼在一起，第 32 層到第 33 層的接縫處會產生嚴重的分布不匹配——就像把兩段不同口徑的水管硬焊在一起，水流經過接口時會亂成一團

但這次的實驗者 Kyle Hessling 有一招妙手：他精心挑選了兩個同源但不同方向的模型來拼接，然后用 1000 步 QLoRA 做了一次"縫合手術"

兩個源模型：同源不同路

兩個被拼在一起的模型都出自 Jackrong 之手，都基于 Qwen3.5-9B，但走了完全不同的蒸餾方向：

前半部分（Layer 0-31）：Qwopus3.5-9B-v3.5

這是 Jackrong 的看家之作，用 Claude Opus 的推理數據做蒸餾，走的是"先行動、再糾錯"的 act-then-refine 路線：

比 v3 多了一倍的 SFT 數據
強項在 agentic 工具調用、代碼生成、token 高效推理
27B 版本在 MMLU-Pro 上達到 90.36%
44 項 SWE 測試通過 43 項（97.7%）

后半部分（Layer 32-63）：Qwen3.5-9B-GLM5.1-Distill-v1

這個模型走的是 GLM-5.1 蒸餾路線，風格完全不同：

訓練數據來自 GLM-5.1 教師模型，約 100 萬條推理數據（清洗后）
強項在結構化任務分解、問題拆解、推理組織
推理范式是"理解任務→分解問題→逐步推理→構建答案"

兩個模型的推理風格形成了互補：

維度

Qwopus v3.5（Opus 風格）

GLM5.1 Distill（GLM 風格）

推理方式

先行動再糾正

先分解再推理

長處

工具調用、代碼生成

任務理解、答案組織

風格

靈活、高效

結構化、穩定

作者的假設是：更深的網絡 + 多樣化的推理訓練 = 更強大、更魯棒的模型。

縫合手術：1000 步 QLoRA

直接拼出來的模型有個嚴重問題：代碼輸出是亂的

HTML 標簽不閉合、CSS 花括號不配對、JS 括號丟失——因為第 32 層和第 33 層之間的特征分布斷裂，結構化輸出經過這個"傷口"時就會變形。

解決方案非常優雅：用 1000 步 QLoRA 做了一次"縫合修復"（Heal Fine-Tune）

訓練配置：

配置項

方法

QLoRA（4-bit NF4）

LoRA rank

64

目標模塊

所有 attention + MLP 投影

訓練數據

Jackrong 的推理數據（70%）+ 競賽編程（15%）+ 多輪對話（15%）

訓練步數

1000 步

Batch size

8

學習率

2e-5，cosine 調度

訓練時間

~14 小時（RTX 5090）

Loss 下降

1.02 → 0.62（下降 39%）

Loss 下降 39%，說明第 32 層的接縫確實是一個真實的誤差源，訓練能有效修復它。

修復效果立竿見影：

編程測試從 11/15 恢復到 12/15
HTML/CSS 輸出變得干凈整潔
總分從 39/44 提升到 40/44

評測結果：9.2GB 打贏 22GB

這是最讓我震驚的部分

一個 9.2GB 的 Q4_K_M 量化模型，在 44 項測試中拿到了40/44（90.9%），而全新發布的 Qwen 3.6-35B-A3B MoE（Q4_K_M，22GB）只拿到了38/44（86.4%）

測試類別

Qwopus 9B（源模型）

Qwopus-GLM-18B（縫合版）

Qwen 3.6-35B MoE

基礎生成

6/6

6/6

5/6

推理

4/4

4/4

4/4

工具調用

6/6

6/6

6/6

Agent 任務

4/4

4/4

4/4

結構化輸出

2/2

2/2

2/2

上下文處理

2/3

2/3

2/3

多語言

2/2

2/2

2/2

編程

13/15

12/15

12/15

性能

2/2

2/2

1/2

總計41/44（93.2%）40/44（90.9%）38/44（86.4%）

推理速度

126.0 tok/s

66.0 tok/s

174.2 tok/s

GGUF 大小

5.3 GB

9.2 GB

22 GB

幾個值得注意的點：

工具調用 6/6 滿分——單次調用、可選參數、工具選擇、復雜參數、響應處理全過
Agent 推理 4/4 滿分——計劃生成、多步工具工作流、錯誤恢復、自我糾正全過
中文輸出密度最高——129-138 個 CJK 字符，超過了所有測試模型
推理速度 66 tok/s，比源模型慢了一半（畢竟層數翻倍了），但仍然實用
12GB 顯存就能跑——RTX 3060/4070 這種消費級顯卡直接上

前端代碼壓力測試：98.4% 通過率

作者還做了一組非常硬核的前端代碼生成測試——6 個越來越復雜的 HTML/CSS/JS 任務：

測試任務

檢查項

通過

輸出大小

天氣儀表盤

響應式、CSS 變量、暗色模式、5日預報

9/9

14.5K

電商產品頁

圖片畫廊、顏色選擇器、標簽頁、粘性底欄

12/12

16.7K

SaaS 落地頁

漸變動畫、打字效果、滾動動畫、輪播、定價卡

13/13

24.1K

數據分析儀表盤

SVG 柱圖、環形圖、可排序表格、折疊側欄

13/13

22.3K

多步注冊表單

3步向導、實時校驗、密碼強度、狀態下拉框

12/12

23.3K

貪吃蛇游戲

Canvas 循環、方向鍵、碰撞檢測、本地存儲

11/12

11.2K

總計62/63（98.4%）

62/63 項檢查通過，唯一的失敗是貪吃蛇游戲在最后一個閉合標簽寫成了html>。

所有 6 個文件做到了：

CSS 花括號完美配對（零失衡）
JS 括號完美配對（零失衡）
零亂碼或幻覺文本
功能可運行——暗色模式、滾動動畫、SVG 圖表、表單驗證、Canvas 游戲循環全部工作

這對一個"兩個 9B 拼起來再縫 1000 步"的模型來說，屬實驚人

模型架構

屬性

總層數

64（32 + 32）

總參數

~18B

Hidden Size

4096

注意力頭

16（4 個 KV 頭，GQA）

中間層維度

上下文長度

262,144 tokens

注意力類型

混合（線性 + 全注意力，每 4 層一個全注意力）

GGUF Q4_K_M

9.2 GB

層的組成：

Layer  0-31:  Qwopus3.5-9B-v3.5         (Claude Opus 推理蒸餾)
Layer 32-63:  Qwen3.5-9B-GLM5.1-Distill-v1  (GLM-5.1 推理蒸餾)


 嵌入層、LM Head、MTP、視覺編碼器：來自 Qwopus3.5-9B-v3.5

怎么用

推薦用 llama.cpp：

llama-server \
    -m Qwopus-GLM-18B-Healed-Q4_K_M.gguf \
    --chat-template-file your-qwen35-template.jinja \
    --ctx-size 65536 \
    --flash-attn on \
    --n-gpu-layers 99

下載地址：https://huggingface.co/Jackrong/Qwopus-GLM-18B-Merged-GGUF

9.2GB 的 Q4_K_M 文件，12GB 顯存的消費級顯卡就能跑

我的看法

說說我的真實感受。

讓我興奮的地方：

想法太朋克了。把兩個模型的層直接堆在一起——這種做法在學術界基本不會有人認真去做，但社區開發者就是敢想敢試。更關鍵的是，它真的 work 了。
兩個源模型的互補性選得很好。Opus 風格擅長靈活執行和代碼生成，GLM 風格擅長結構化分解和答案組織。把這兩種推理范式堆在一起，等于給模型裝了兩套不同的"思維引擎"。這不是隨便拼兩個模型就能達到的效果。
1000 步修復的性價比極高。RTX 5090 上跑 14 小時，loss 降了 39%，編程能力恢復了 1 個測試點，HTML 輸出從亂碼變成了生產級質量。這說明層邊界的不匹配是一個可定位、可修復的問題，不需要從頭訓練。
9.2GB 打贏 22GB。這對顯存有限的開發者來說是個巨大的好消息。RTX 3060 就能跑一個比 Qwen 3.6-35B MoE 更強的模型。

我的顧慮：

評測套件不夠標準化。44 項測試是自建的，覆蓋面雖然廣但沒有用社區公認的 benchmark（比如 MMLU、HumanEval、LiveCodeBench）。作者自己也說了"未經過完整或全面的評估"。
編程任務還有 3 個沒過。函數命名問題、JS 括號丟失、pytest 代碼塊格式錯誤——這些都是合并留下的"傷疤"。雖然 1000 步修復了大部分問題，但結構化輸出的穩定性還需要更多驗證。
推理速度減半。從 126 tok/s 降到 66 tok/s，層數翻倍帶來的計算開銷是實打實的。對延遲敏感的場景需要考慮這個代價。
可復現性存疑。這個實驗的成功高度依賴兩個源模型的"互補性"和那 1000 步的修復訓練。換兩個別的模型來拼，大概率不會有這么好的效果。

更深層的啟發：

這個項目最有價值的發現可能不是模型本身，而是它背后的兩個洞察：

第一，推理能力可以通過層疊加來組合。兩個 9B 模型各自學到了不同風格的推理模式，簡單堆疊后這些模式居然能協同工作。這暗示了推理能力可能比我們想象的更"模塊化"。

第二，層邊界的不匹配是可修復的。只需要 1000 步的輕量訓練就能讓兩個獨立訓練的模型"握手"。這為未來的模型組合和按需拼裝打開了想象空間。

.5

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

33歲丈夫腦死亡400余天，妻子卻執意將他“留”在身邊：他手腳還會動，舍不得放棄

瀟湘晨報 2026-06-17 15:27:18
197 跟貼 197
柬埔寨對華免簽落地首日即有老廣團出發

新快報新聞 2026-06-16 08:19:02
16990 跟貼 16990

法國學者嚴厲警告：相對來講歐洲衰落速度是清朝三倍

澎湃新聞 2026-06-17 14:44:47
5209 跟貼 5209

媒體：俄羅斯掉了架戰略轟炸機同一天美國也掉了一架

新民周刊 2026-06-17 09:42:07
307 跟貼 307
教育部同意：新設立32所本科高校

上觀新聞 2026-06-17 18:57:42
3811 跟貼 3811

奔馳廣州4S店大興寶鴻悄然撤場近千名車主預付權益懸空

新快報新聞 2026-06-17 08:35:07
687 跟貼 687

90多歲老奶奶在夜市賣粽子煮雞蛋

瀟湘晨報 2026-06-17 10:41:40
124 跟貼 124
上海市民驚呆：知名品牌進口牛奶怎么是淡黃色的水，還有股酸臭味？類似情況不止一次發生，網友：萬一小朋友直接用吸管吸

新民晚報 2026-06-17 09:14:37
1222 跟貼 1222

6萬億元投資“源源而來”，未來5年升級這張網→

極目新聞 2026-06-17 00:57:33
119 跟貼 119
寧德時代曾毓群“炮轟”動力電池行業亂象：部分競爭對手只會挖人偷技術，低價競爭源于心態浮躁、行為短視

每日經濟新聞 2026-06-17 21:01:02
16 跟貼 16
山姆中國首席采購官張青因個人原因將于6月底離任

澎湃新聞 2026-06-17 14:26:26
1174 跟貼 1174
萬萬沒想到，車子買來開了5年才知道還要續費？網友：吃相太難看！

大風新聞 2026-06-17 08:34:05
969 跟貼 969
勞力士被指為百年大展55元雇群演：客不好請，表不易賣

界面新聞 2026-06-17 11:40:53
181 跟貼 181
中國女排戰勝德國女排，收獲世界女排聯賽安卡拉站開門紅

澎湃新聞 2026-06-17 19:58:27
108 跟貼 108
美聯儲如期維持利率不變

財聯社 2026-06-18 02:26:26
2 跟貼 2
孫興慜遭韓國記者嘲諷，賽后拒絕所有媒體采訪；韓國足協：深感震驚和失望，尊重、保護球員應當放在首位

大象新聞 2026-06-17 12:10:21
77 跟貼 77
梅西已在中國申請注冊多枚姓名商標

封面新聞 2026-06-17 11:48:56
2477 跟貼 2477
“佛得角感謝中國”，沖上熱搜

第一財經資訊 2026-06-17 08:52:33
1144 跟貼 1144
游客吐槽無錫國保園林寄暢園像“吸煙室”，古建古樹間煙霧彌漫，景區回應：已全面禁煙

上游新聞 2026-06-13 18:13:12
1546 跟貼 1546
余承東官宣享界G9定檔50萬級，鴻蒙智行首款硬派SUV實力幾何？

瀟湘晨報 2026-06-17 09:58:46
109 跟貼 109
祝賀！徐嘉余50仰破亞洲紀錄奪冠

極目新聞 2026-06-17 19:29:25
111 跟貼 111
夫妻領證后一起回家，女方改口叫“媽”，婆婆的反應十分有趣

星視頻 2026-06-17 09:00:36
94 跟貼 94
3億重點工程底座可徒手掰開？官方通報

南方都市報 2026-06-17 09:40:33
157 跟貼 157
開著“智駕”吵架撞護欄，罰款記3分：輔助駕駛≠自動駕駛

報錯免疫體 2026-06-18 02:57:53
0 跟貼 0
監委幫 13 億炒股犯喊冤？專家證人竟是自家人，臺司法圈再曝丑聞

史行途 2026-06-18 02:42:25
0 跟貼 0

口交、肛交等進入式性服務是賣淫行為嗎？最高院定調了！

口交、肛交等進入式性服務是賣淫行為嗎？最高院定調了！

黯泉

2026-06-02 11:54:54

中國男籃停止歸化，懷特塞德事件七月份出說明，新疆續約沙拉木

中國男籃停止歸化，懷特塞德事件七月份出說明，新疆續約沙拉木

中國籃壇快訊

2026-06-17 19:08:34

上映僅五天票房破億！這部硬核港風動作片憑口碑逆襲院線

上映僅五天票房破億！這部硬核港風動作片憑口碑逆襲院線

喜歡歷史的阿繁

2026-06-16 18:13:49

性張力拉滿，這部尺度新劇拍的太欲了

性張力拉滿，這部尺度新劇拍的太欲了

來看美劇

2026-06-15 19:03:49

警惕！大量印度人瞄準中國移民定居，前車之鑒在前，真的不能大意

警惕！大量印度人瞄準中國移民定居，前車之鑒在前，真的不能大意

魔都姐姐雜談

2026-06-16 20:17:43

男人最高級的床上魅力：不只是持久，更是這兩大“節奏技巧”

男人最高級的床上魅力：不只是持久，更是這兩大“節奏技巧”

精彩分享快樂

2026-06-04 12:00:16

周杰倫《女兒殿下》MV上線復古舞步混搭萌娃“瘋”玩親子日常

周杰倫《女兒殿下》MV上線復古舞步混搭萌娃“瘋”玩親子日常

縱相新聞

2026-06-17 17:34:45

山姆首席采購官張青辭職，將于6月底正式離任

山姆首席采購官張青辭職，將于6月底正式離任

紅星資本局

2026-06-17 17:02:14

這和不穿有啥區別？徐璐真空上陣，身材火辣，搶了所有女星風頭！

這和不穿有啥區別？徐璐真空上陣，身材火辣，搶了所有女星風頭！

川渝視覺

2026-05-27 22:29:45

二手油車兩個月掉了過去兩年的價！車商哭訴：同款車型僅兩月就貶值了4萬

二手油車兩個月掉了過去兩年的價！車商哭訴：同款車型僅兩月就貶值了4萬

中國能源網

2026-06-15 11:14:10

十全十美的美女，有誰見過嗎

老吳教育課堂

2026-06-12 20:23:49

如今看誰還敢動臺灣？中國曾當著全世界的面，掀了美日韓的桌子！

如今看誰還敢動臺灣？中國曾當著全世界的面，掀了美日韓的桌子！

范瞼舍長

2026-02-13 01:01:40

新加坡卸下偽裝，公然站隊美日，瘋狂對華放箭，這是逼中國出手？

新加坡卸下偽裝，公然站隊美日，瘋狂對華放箭，這是逼中國出手？

隱龍天下

2026-06-16 22:37:36

SpaceX跌幅擴大至4%

界面新聞

2026-06-17 22:07:10

中央5臺直播世界杯時間表：6月18日CCTV5直播，葡萄牙英格蘭出戰

中央5臺直播世界杯時間表：6月18日CCTV5直播，葡萄牙英格蘭出戰

薇說體育

2026-06-17 14:10:57

針對媒體反映山東高速信息集團有限公司承建的某新基建項目問題，山東省發改委、住建廳、交通廳、國資委，組成聯合調查組

針對媒體反映山東高速信息集團有限公司承建的某新基建項目問題，山東省發改委、住建廳、交通廳、國資委，組成聯合調查組

大風新聞

2026-06-17 21:33:42

8年要被交易8次！史上最慘FMVP了！

8年要被交易8次！史上最慘FMVP了！

貴圈真亂

2026-06-17 13:02:10

一度漲超400%！又見中概股暴漲

一度漲超400%！又見中概股暴漲

證券時報

2026-06-17 23:10:08

為什么要往死里掃黃打非？網友的分享一針見血！

為什么要往死里掃黃打非？網友的分享一針見血！

燈錦年

2026-06-17 20:30:31

葡媒：C羅世界杯獲得前所未有的主教練信任度，不可或缺性超梅西

葡媒：C羅世界杯獲得前所未有的主教練信任度，不可或缺性超梅西

楊華評論

2026-06-17 08:09:52

Ai學習的老章

Ai學習的老章

3435文章數 11165關注度

往期回顧全部

科技要聞

馬斯克好友長文:他最可怕的，是這套方法論

頭條要聞

C羅啞火！葡萄牙1-1爆冷送民主剛果隊史世界杯首分

頭條要聞

C羅啞火！葡萄牙1-1爆冷送民主剛果隊史世界杯首分

體育要聞

梅西帽子戲法：紀錄厚重，球王輕盈

娛樂要聞

陳紅一反常態保持沉默

財經要聞

拉加德警告:AI可能引爆下一場金融危機

汽車要聞

23.99萬起比亞迪大唐帶2+2+3大七座掀桌子這才是中國大家庭夢中情車！

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

時尚

藝術

旅游

健康

終于又有好游戲玩啦！這10款獨立游戲新作創意拉滿，強推入庫！

1分鐘1萬塊：我在飯圈，交易人性

藝術要聞

235米！曼谷地標“金字塔”動工，BIG操刀

旅游要聞

1800余場端午活動打造城市游樂園

營養師：粽子怎么吃美味又健康？

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<th id="1gfpe"></th>

<p id="1gfpe"></p>