網易首頁 > 網易號 > 正文 申請入駐

騰訊混元推出0.3B極小端側模型,實際存儲小于部分手機

0
分享至


公司情報專家《財經涂鴉》獲悉,2月10日,騰訊混元宣布推出面向消費級硬件場景的“極小”模型HY-1.8B-2Bit。該模型基于1.8B參數的小尺寸模型,通過2Bit量化技術,等效參數量約為0.3B,實際存儲占用僅約600MB,比常用的一些手機應用還小,實現了端側部署的新突破

這是業界首個實現2bit產業級量化的端側模型實踐。

該模型基于混元團隊首創的產業級2Bit端側量化方案,通過對HY-1.8B-Instruct模型進行2比特量化感知訓練(QAT)產出,模型大小減少至原始精度模型的1/6,同時在真實端側設備上生成速度提升2-3倍,可大幅提升使用體驗。能力上,模型還保留了原版的思維鏈,可以為不同復雜度的任務提供相應深度的推理過程。

隨著大語言模型普及,如何將模型在比如手機、耳機或者智能家居設備應用,成為業界難題,尤其不少應用對模型的離線部署、私密性等都有更高的需求,這就需要更多能夠在端側運行的又小又強的模型。

端側部署的展開,本質上是一條在“小而精,快而準”的艱難探索之路,我們既需要模型足夠聰明,能應對千變萬化的真實需求,又必須將它約束在極其有限的硬件資源內部署并快速推理,這就好像在給模型進行“減脂增肌,減重提質”。

比特(Bit)是計算機存儲的最小單位,1比特能表示2種狀態(0或1),2比特能表示4種狀態,依此類推,一般模型的精度有2比特、4比特、8比特、32比特等表示方法,數值越大模型的精度更高,所占的內存就越大。

雖然2比特量化的精度損失較大,但通過QAT和先進的量化策略,已經能讓2比特模型接近全精度模型的性能。在模型能力方面,對比4比特PTQ模型版本數學、代碼、科學等指標上表現相當,實現了“小而強”的設計目標。

技術上,量化作為大模型部署上線不可或缺的一環,肩負了降低部署成本與保精度的使命,大部分情況下對于int4、int8、fp8的壓縮精度要求,采用PTQ量化策略即可實現幾乎無損,但隨著原始模型大小的縮小、壓縮bit數的進一步降低,PTQ帶來的量化損失是巨大的。因此,對于原始模型大小只有1.8B,量化bit數只有2bit的HY-1.8B-2Bit,混元團隊采用了量化感知訓練策略,這顯著提升了量化后模型的性能。

騰訊混元還通過數據優化、彈性拉伸量化以及訓練策略創新三個方法來最大限度的提升HY-1.8B-2Bit的全科能力。

部署方面,混元提供了HY-1.8B-2Bit的gguf-int2格式的模型權重與bf16偽量化權重,對比原始精度模型,HY-1.8B-2Bit 能夠靈活用于端側設備上,該模型也已在 Arm 等計算平臺上完成適配,可部署于啟用 Arm SME2 技術的移動設備上,并實現高效運行。

在MacBook M4芯片上,HY-1.8B-2Bit 固定了線程數為2測試了不同窗口大小下的首字時延和生成速度,模型選定fp16、Q4、HY-1.8B-2Bit三種gguf格式作為對比,首字時延在1024輸入內能夠保持3—8倍的加速,生成速度上常用窗口下對比原始模型精度,HY-1.8B-2Bit能夠實現至少2倍穩定加速。

在天璣9500上同樣進行了測試,對比HY-1.8B-Q4格式首字時延能夠加速1.5—2倍,生成速度加速約1.5倍。

當前,HY-1.8B-2Bit的能力仍受限于監督微調(SFT)的訓練流程,以及基礎模型本身的性能與抗壓能力。

針對這一問題,混元團隊未來將重點轉向強化學習與模型蒸餾等技術路徑,以期進一步縮小低比特量化模型與全精度模型之間的能力差距,從而為邊緣設備上的大語言模型部署開拓更廣闊的應用前景。

作者:蘇打

編輯:tuya

出品:財經涂鴉(ID:caijingtuya)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
19歲男子KTV上班,三名女孩來喝酒,男子下體過度使用成永久創傷

19歲男子KTV上班,三名女孩來喝酒,男子下體過度使用成永久創傷

丫頭舫
2025-09-22 20:39:00
以色列突然發動襲擊

以色列突然發動襲擊

第一財經資訊
2026-04-24 22:13:53
炸鍋!美部長當眾承認:中國一顆H200芯片沒買

炸鍋!美部長當眾承認:中國一顆H200芯片沒買

林子說事
2026-04-23 17:52:16
廣東歷史首次遭福建雙殺引熱議!球迷狂刷官媒評論區“臉都不要”

廣東歷史首次遭福建雙殺引熱議!球迷狂刷官媒評論區“臉都不要”

狼叔評論
2026-04-25 01:28:05
ESPN預測火箭湖人G3勝率:火箭66.4%,湖人33.6%

ESPN預測火箭湖人G3勝率:火箭66.4%,湖人33.6%

懂球帝
2026-04-25 01:09:04
很難匹配沙特報價,TA:MLS正放開空間讓圣地亞哥接觸薩拉赫

很難匹配沙特報價,TA:MLS正放開空間讓圣地亞哥接觸薩拉赫

懂球帝
2026-04-25 05:45:07
套現238億元!江蘇富豪完成寧德時代1.27%股份減持

套現238億元!江蘇富豪完成寧德時代1.27%股份減持

界面新聞
2026-04-24 10:48:55
前妻告訴他,“結婚擺酒前一天跟別人在一起”,經鑒定撫養14年兒子非親生 男子起訴索賠

前妻告訴他,“結婚擺酒前一天跟別人在一起”,經鑒定撫養14年兒子非親生 男子起訴索賠

紅星新聞
2026-04-24 20:17:52
300人對壘3萬俾路支武裝,我國重裝合成營有多強大?

300人對壘3萬俾路支武裝,我國重裝合成營有多強大?

南冥那只貓
2025-04-11 23:52:33
注意!5月1日起全面嚴查,這8種行為直接入刑,普通人千萬別大意

注意!5月1日起全面嚴查,這8種行為直接入刑,普通人千萬別大意

芳姐侃社會
2026-04-23 17:24:10
美國動武后 外國領導人首次到訪委內瑞拉

美國動武后 外國領導人首次到訪委內瑞拉

新華社
2026-04-25 03:51:01
汪小菲和馬筱梅竟然忘記小玥兒的12歲生日,真是令人震驚!

汪小菲和馬筱梅竟然忘記小玥兒的12歲生日,真是令人震驚!

螃蟹記錄站
2026-04-24 23:14:08
英國王室核心確立!哈里和梅根正式出局,威廉王子計劃精簡王室

英國王室核心確立!哈里和梅根正式出局,威廉王子計劃精簡王室

人物檔案局
2026-04-22 19:27:19
港獨、罵中國人,如今卻還想來內地撈金,這3位香港明星令人作嘔

港獨、罵中國人,如今卻還想來內地撈金,這3位香港明星令人作嘔

地理三體說
2026-04-21 22:28:02
徐莉佳:上海走出的奧運冠軍,被罵刪號,嫁教練定居英國

徐莉佳:上海走出的奧運冠軍,被罵刪號,嫁教練定居英國

悅君兮君不知
2026-04-24 04:41:37
在當下歷史的關鍵拐點,選擇中立,就是縱容邪惡

在當下歷史的關鍵拐點,選擇中立,就是縱容邪惡

壹家言
2026-04-24 21:46:00
51歲徐靜蕾美國超市被偶遇,胖到不敢認,旁邊黃立行頭發花白?

51歲徐靜蕾美國超市被偶遇,胖到不敢認,旁邊黃立行頭發花白?

草莓解說體育
2026-04-24 15:39:16
方媛這身材,50歲的郭富城怎么頂的住,從每月20萬到黑卡隨便刷!

方媛這身材,50歲的郭富城怎么頂的住,從每月20萬到黑卡隨便刷!

一盅情懷
2026-03-12 18:10:03
妻子出軌,丈夫將15公分蠟燭塞進妻子的陰道內

妻子出軌,丈夫將15公分蠟燭塞進妻子的陰道內

胖胖侃咖
2025-04-13 08:00:08
有一種后悔叫買了“高層的2樓”,不好住賣不掉,徹底成為不動產

有一種后悔叫買了“高層的2樓”,不好住賣不掉,徹底成為不動產

裝修秀
2026-04-23 11:15:03
2026-04-25 06:12:49
財經涂鴉 incentive-icons
財經涂鴉
公司情報專家
4835文章數 8852關注度
往期回顧 全部

科技要聞

DeepSeek V4牽手華為,價格依然"屠夫級"

頭條要聞

航班提前起飛10分鐘 大學生把海航告了

頭條要聞

航班提前起飛10分鐘 大學生把海航告了

體育要聞

上海男籃23連勝+主場全勝 姚明之后最強一季

娛樂要聞

停工16個月!趙露思證實接拍新劇

財經要聞

LG財閥內斗:百億美元商業帝國爭奪戰

汽車要聞

零跑Lafa5 Ultra北京車展上市:11.88-12.48萬

態度原創

藝術
游戲
手機
數碼
公開課

藝術要聞

價值1.7億的牡丹!

《光與影:33號遠征隊》發售一周年 銷量破800萬

手機要聞

續航大戰!紅米、vivo、榮耀手機,電池都往一萬毫安時以上堆

數碼要聞

蘋果繼續拓展賽道!換帥后將進軍新品類?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版