无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

解碼加速15倍!EdgeRazor助推大模型在PC/移動端“狂飆”

0
分享至



近年來,大語言模型參數的持續膨脹,帶來了極高的顯存占用和算力需求,在 PC、手機和 IoT 等資源受限的端側設備上部署前沿大模型十分困難。因此大語言模型輕量化的研究勢在必行,量化(Quantization)成為主流的輕量化方案。然而,量化端側部署目前受制于 “不可能三角”:后訓練量化(PTQ)在極低比特下精度崩塌;量化感知訓練(QAT)算力成本極高;而現有的量化感知蒸餾(QAD)又缺乏靈活性。

由南京大學機器學習與數據挖掘研究所(LAMDA)和微軟 AI 聯合推出的開源工具庫 EdgeRazor,直擊端側部署的核心痛點,一舉打破了極低比特大語言模型 “能力塌陷” 的魔咒;其核心采用混合精度量化感知蒸餾(MPQAD),不僅保障了更低成本的訓練,更支持了靈活的訓練數據配比,成功構建出一個開源、即插即用的輕量化框架。論文通訊作者為南京大學 LAMDA 團隊張紹群助理教授。



  • 論文標題:EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation
  • 論文地址:https://arxiv.org/abs/2605.04062
  • GitHub 鏈接:https://github.com/zhangsq-nju/EdgeRazor
  • Hugging Face 鏈接:https://huggingface.co/collections/zhangsq-nju/edgerazor-nbit
  • Playground 鏈接:https://huggingface.co/spaces/zhangsq-nju/EdgeRazor-PlayGround

端側破局:兼得 SOTA 與 15 倍加速



圖 1:EdgeRazor 和基線算法在基礎型、指令微調型和多模態大模型上的性能表現

全面評測,性能領跑:EdgeRazor 在基礎型(MobileLLM-350M)、指令微調型(Qwen3-0.6B/1.7B)和多模態(Qwen2.5-Omni-7B)大模型上開展了系統的性能評測。評測范圍包括常識推理、指令遵循、數學推理、代碼生成以及視頻理解類型的 16 個下游任務。如圖 1 所示,面對當前主流 PTQ、QAT 及 QAD 方法,EdgeRazor 在各類模型架構和比特位寬下均保持性能的領先,確立了全新的 SOTA 性能基準。



圖 2:Qwen3-1.7B-EdgeRazor 在 PC 端和手機端部署效果演示

端側部署,絲滑落地:為了展示真實受限資源下的工程落地,EdgeRazor 提供了適配于端側部署的 DEMO。如圖 2 所示,在 PC 端和手機端的 CPU 部署場景下,EdgeRazor 釋放出極高的推理潛能。相較于 16-bit 基座模型,其解碼速度分別實現了 16× 和 12× 的飛躍,整體端到端響應速度也獲得了 10× 和 11× 的大幅提升,真正賦予了本地輕量化模型絲滑、“秒回” 的體驗。



圖 3:EdgeRazor 和基線算法在 Qwen3-0.6B 模型上 2-bit 量化尺度的性能表現

打破魔咒,拒絕塌陷:在極低比特位寬下,量化模型的復雜推理能力往往最先遭遇災難性衰退,但 EdgeRazor 打破了這一魔咒。如圖 3 所示,在 GSM8K(數學推理)和 HumanEval(代碼生成)復雜任務上,現有主流 2-bit 方法普遍出現性能的斷崖式下跌,甚至面臨徹底失效的困境。相比之下,EdgeRazor 即使在 1.88-bit 這種極低比特預算下,依然展現出較好的穩健性,其任務表現顯著優于同類 2-bit 方法。



圖 4:EdgeRazor 和 ParetoQ 在 MobileLLM-350M 模型上的性能表現和訓練開銷

十倍輕訓,降本增效:高質量的低比特模型往往依賴龐大的訓練開銷,而 EdgeRazor 徹底打破了這一現狀。如圖 4 所示,在 MobileLLM-350M 上,EdgeRazor 不僅在全比特位寬下超越了性能最強的 QAT 基線 ParetoQ,更在訓練效率上實現了大幅優化。其訓練所需的 tokens 數量縮減了 75%–90%(最低僅需 3.1B,而基線高達 30B)。



圖 5:EdgeRazor 和基線算法在 Qwen3-0.6B 模型下的量化比例和壓縮比

全員量化,刷新極限:傳統的量化方法往往因規避精度崩潰而對嵌入層和語言模型頭 “手下留情”。如圖 5 所示,這導致模型整體的真實量化參數覆蓋率僅 73.89%,然而 EdgeRazor 突破了這一妥協,實現了 99.99% 的極高量化參數覆蓋率,并且在 1.58-bit 極低比特下達到了突破性的 7.03× 壓縮比,遠超傳統方法 2.94× 的瓶頸。



圖 6:EdgeRazor 在 llama.cpp 推理框架上測試 Qwen3-0.6B 的效率表現

EdgeRazor 選取 Qwen3-0.6B 為基座模型,依托開源推理框架 llama.cpp,在純 CPU 算力環境下(Apple M4 Pro)進行推理效率評測。

  • 百兆體積,輕量部署:如圖 6 所示,相較于 16-bit 基座模型,1.58-bit EdgeRazor 量化模型將磁盤占用壓縮至 1/5.8(僅約 190MB),峰值運行內存降至 1/2.9。百兆級別的輕量資源占用,掃清了大模型向智能手機、IoT 等內存受限設備遷移的物理障礙。
  • 十五倍速,解碼狂飆:如圖 6 所示,1.58-bit EdgeRazor 量化模型的預填充吞吐量不僅達到了基座模型的 2.11×,在對用戶體驗起決定性作用的自回歸解碼環境,速度更是實現了 15.16× 的爆炸級提升。這標志著端側大模型邁入 “秒回” 級別的全新階段。

即插即用:一鍵訓練輕量化大模型



圖 7:EdgeRazor 用于輕量化模型訓練的流程圖

EdgeRazor 不僅在性能與效率上追求極致,在工程易用性上也同樣力求開發者友好。如圖 7 所示,EdgeRazor 被設計為一個高度模塊化的開源工具庫。開發者無需精通底層的復雜量化感知蒸餾邏輯,通過統一的配置文件(配置量化比例、目標比特數和蒸餾損失等內容),將龐大的 16-bit 模型訓練為 1.58-bit 輕量化模型。其核心使用優勢包括:

  • 代碼解耦,即插即用:零侵入式設計。只需寥寥數行代碼配置,EdgeRazor 就能無縫并入開發者現有的全精度大模型訓練流水線,完全不需要重構底層的訓練代碼。
  • 極簡配置,一鍵啟動:EdgeRazor 通過三個輸入(16-bit 模型、自由配比的數據和配置文件),即可輸出各種低比特模型(例如,1.58-bit 模型)。
  • 混合數據,配比自由:相比于傳統的 QAD 方法只支持蒸餾 16-bit 模型的數據進行訓練,EdgeRazor 還支持人類標注數據和高質量模型合成數據,訓練數據配比自由。
  • 繁雜底層,自動接管:框架內部接管了繁雜的底層操作。從加載各種格式的配置,利用量化選擇器為特定層注入量化實現(QAT 模塊),到同步計算各種蒸餾損失(KD 模塊),全流程自動化閉環。
  • 算力降維,單機可訓:告別傳統 QAT 方法對龐大算力的依賴(例如,ParetoQ 使用了 16 張顯卡,消耗了 30B tokens)。EdgeRazor 在常規單機多卡環境下即可完成訓練(相同模型只使用了 8 張顯卡,消耗了 3.1B tokens)。

核心架構:三大模塊攻克極低比特



圖 8:EdgeRazor 框架的核心模塊

開發者友好的易用性背后,是核心算法的支撐。如圖 8 所示,EdgeRazor 采用混合精度量化感知蒸餾范式來壓縮各類型的大模型,其核心創新主要由以下三個模塊構成:

  • 混合精度的結構量化(Structural Quantization with Mixed Precision, SQMP):打破傳統量化統一位寬的設定。SQMP 支持將 4-bit 和 1.58-bit 在輸入通道維度進行細粒度的靈活混合(例如實現 1.88-bit 或 2.79-bit 的平均位寬)。這不僅能精準契合實際硬件的資源預算,交錯的 4-bit 高精度行還能作為 “緩沖區”,有效吸收激活異常值帶來的量化誤差。
  • 層自適應的特征蒸餾(Layer-Adaptive Feature Distillation, LAFD):告別盲目的人工調參。LAFD 通過計算教師模型相鄰層的余弦相似度(表征結構變換程度),自適應地找出對特征轉換最關鍵的 Top-k 層進行重點特征蒸餾。從而將 “好鋼用在刀刃上”,不僅避免了盲目依賴人工經驗去啟發地選擇蒸餾層,還有效阻止了量化誤差在層間的放大。
  • 熵感知的 KL 散度(Entropy-Aware KL Divergence, EAKLD):擺脫了對教師模型生成數據的強依賴。EAKLD 純粹依靠教師模型輸出分布的熵來動態調節前向 KL 散度與反向 KL 散度的比例。這使得 EdgeRazor 能夠完美兼容人工標注數據和高質量模型合成數據,實現了訓練數據的配比自由。

總結

回歸到輕量化的初衷,EdgeRazor 想解決的并不是單純的 “跑個分”,而是一個更底層且務實的問題:如何通過一套統一的算法框架,讓各種架構、各種參數規模的大模型低成本地轉化為在資源受限環境(例如,手機和 PC 等端側設備)下可部署的低比特輕量化版本。其實現的開源工具庫打通了 “低成本量化”、“輕量化訓練” 與 “極低成本部署” 的 AI 全生態鏈路,為個人 AI 助理的普惠化與私密化提供有力的解決方案。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
手握百萬存款的普通家庭,如今在社會啥層次?多數人都沒認清現實

手握百萬存款的普通家庭,如今在社會啥層次?多數人都沒認清現實

復轉這些年
2026-05-24 17:17:36
原子彈炸后百年內寸草不生,今廣島卻住滿了人,看看專家怎么說?

原子彈炸后百年內寸草不生,今廣島卻住滿了人,看看專家怎么說?

浩渺青史
2026-05-25 15:54:26
寄生蟲太多,開水都燙不死的4種食物,很多人卻吃得停不下嘴

寄生蟲太多,開水都燙不死的4種食物,很多人卻吃得停不下嘴

熊貓醫學社
2026-05-21 11:35:03
一位杰青的自白:我造假、故我在;你認真、你走人!

一位杰青的自白:我造假、故我在;你認真、你走人!

番外行
2026-05-20 08:06:21
蜂蜜被點名!醫生提醒:糖尿病患者常喝蜂蜜水很快迎來4個改變!

蜂蜜被點名!醫生提醒:糖尿病患者常喝蜂蜜水很快迎來4個改變!

芹姐說生活
2026-05-20 23:42:03
等了22年!阿森納高舉英超獎杯慶祝 44歲塔帥抹淚+被眾將拋起致敬

等了22年!阿森納高舉英超獎杯慶祝 44歲塔帥抹淚+被眾將拋起致敬

我愛英超
2026-05-25 07:26:56
劉少奇從山東回來,對毛主席說:羅榮桓的資歷在分局僅排倒數第二

劉少奇從山東回來,對毛主席說:羅榮桓的資歷在分局僅排倒數第二

顧史
2026-05-25 13:56:49
宜信財富全面停兌,投資者如何應對?

宜信財富全面停兌,投資者如何應對?

WEALTH財富管理
2026-05-25 07:34:49
一邊反華一邊靠中救命,等待被收購的德企,欲要靠中國實現德國夢

一邊反華一邊靠中救命,等待被收購的德企,欲要靠中國實現德國夢

溫讀史
2026-05-05 17:02:26
一定要多讀書,書讀的多了才會明白:“底層無貴人、底層無社交”

一定要多讀書,書讀的多了才會明白:“底層無貴人、底層無社交”

心理觀察局
2026-05-24 06:57:19
中國科學院院士周成虎,被當眾帶走調查!

中國科學院院士周成虎,被當眾帶走調查!

高分子科學前沿
2026-05-23 15:07:18
我一直糾結劉濤的長相很久了,昨天拿去讓老人家幫忙看看面相。

我一直糾結劉濤的長相很久了,昨天拿去讓老人家幫忙看看面相。

小光侃娛樂
2026-05-13 11:59:03
韓國人真的吃不起肉嗎?我在首爾待了一陣,說幾句大實話

韓國人真的吃不起肉嗎?我在首爾待了一陣,說幾句大實話

復轉這些年
2026-05-25 18:29:00
你敢吃這樣的鵝肝嗎?用大量肝催肥飼料,使鵝肝長至正常十倍大小

你敢吃這樣的鵝肝嗎?用大量肝催肥飼料,使鵝肝長至正常十倍大小

爆角追蹤
2026-05-25 20:32:19
21條學校人命換榛樹落地!俄軍90枚導彈齊射,普京報復到來

21條學校人命換榛樹落地!俄軍90枚導彈齊射,普京報復到來

秋楓凋零
2026-05-25 20:39:24
黎家盈75歲父母來北京探望她,丈夫放棄香港事業,家人付出有多大

黎家盈75歲父母來北京探望她,丈夫放棄香港事業,家人付出有多大

大魚簡科
2026-05-25 19:44:51
馬克龍號召歐洲,學美國的方式來對付中國,布林肯承認一個事實

馬克龍號召歐洲,學美國的方式來對付中國,布林肯承認一個事實

混沌錄
2026-05-25 20:37:52
湖人4大動態!歐文東契奇重聚+清理布朗尼?41歲詹姆斯去留成關鍵

湖人4大動態!歐文東契奇重聚+清理布朗尼?41歲詹姆斯去留成關鍵

鍋子籃球
2026-05-25 15:33:34
Claude「永久大腦」,真的來了!

Claude「永久大腦」,真的來了!

新智元
2026-05-25 09:31:00
這3種魚中老年人要常吃,不是鱸魚、不是鯽魚,刺少、低脂高蛋白

這3種魚中老年人要常吃,不是鱸魚、不是鯽魚,刺少、低脂高蛋白

江江食研社
2026-05-24 14:30:07
2026-05-25 21:07:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13080文章數 142652關注度
往期回顧 全部

科技要聞

華為:沒有先進光刻機也能造出高端芯片

頭條要聞

牛彈琴:伊朗現在哭笑不得 美官員讓伊別理特朗普推文

頭條要聞

牛彈琴:伊朗現在哭笑不得 美官員讓伊別理特朗普推文

體育要聞

如果不好好守門,他可能早就繼承家業了

娛樂要聞

李晨鄭愷跑男停宣:12年元老被邊緣化

財經要聞

起底煤礦“暗面”:假整改、假數據

汽車要聞

啟境GT7定檔5月29日預售 提供三電機版本

態度原創

數碼
旅游
親子
藝術
公開課

數碼要聞

TRYX將推處理器一體式水冷散熱器新品HOLO,支持全息視效

旅游要聞

3小時直飛直達!這個盛夏奔赴延吉沉浸式感受天然氧吧

親子要聞

主動處理問題的女孩最有魅力了

藝術要聞

他把葡萄畫成了美少女

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版