无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

砍掉獨立編碼器:Gemma 4 12B推翻多模態"拼接設計"

0
分享至

一個 12B模型,憑什么讓26B MoE緊張?

2026年6月4日,Google發布Gemma 4 12B。官方定位很克制:介于E4B與26B MoE之間的中端型號,能跑16GB筆記本,Apache 2.0開源。

DeepMind科學家Michael Tschannen的推文泄露了另一層意圖。"過去幾年我的研究重點是統一跨模態的模型和訓練范式。今天發布的Gemma 4 12B,直接處理原始文本、圖像和音頻輸入。"

關鍵詞是"直接"。"支持""融合"都不準,只有一個詞能概括:直接。

絕大多數科技自媒體只盯著16G筆記本、開源免費兩個噱頭,完全無視這次發布真正顛覆多模態行業的底層架構革新。這也是12B能威脅26B MoE的核心密碼。

多數報道把"無編碼器"解讀為減法:用35M輕量嵌入替代數百兆的ViT,顯存從15GB壓到9GB,剛好塞進消費級筆記本。這個解讀沒錯,但漏掉了更底層的東西。

若僅以降低顯存為目標,Google完全能通過量化蒸餾改造現有26B MoE,沒必要從零重構整套多模態架構。Gemma 4 12B是重新設計的,它要做的不是把模型做小,而是讓原始音畫無損直通LLM。

傳統多模態的巴別塔困境:編碼器翻譯必然損耗信息



過去三年,主流多模態模型,LLaVA、GPT-4V、甚至Gemma 4 26B,本質上都是拼接怪。內部結構大同小異:

ViT編碼器(通常12-24層)把圖像切成patch,提取特征向量;Conformer或Whisper編碼器把聲波轉成梅爾頻譜,提取聲學特征。然后兩者分別經過對齊層,投影到LLM的文本向量空間。最后,語言模型才開始處理這些被轉換過的信息。

這個架構能工作,但有一個結構性缺陷:信息在到達LLM之前,已經過至少一次壓縮和轉換。ViT輸出的是高維特征向量,原始像素已經不存在;Conformer輸出的是聲學特征表示,原始聲波已經不存在。LLM拿到的是經過壓縮提煉的高層特征,丟失大量原始畫面的空間細節和音頻的時序紋理。

三種模態的優化目標也相互割裂。ViT學圖像分類,Conformer學語音識別,LLM學文本預測。拼接時需要用額外訓練彌合差異,"學了看圖忘了說話"的災難性遺忘反復出現。

編碼器本身沒做錯什么。錯的是"必須分層轉譯"的架構規則。壓縮轉換一旦發生,信息損耗就不可逆。

Gemma 4 12B沒打算修這條管道,直接把管道拆了。

視覺拋棄了傳統ViT編碼器,改用35M輕量嵌入模塊。單次矩陣乘法 + 2D坐標嵌入 + 歸一化,圖像塊直接映射到與文本Token相同的向量空間,然后進入Transformer主干的注意力計算。提取特征變成了直接投影。

音頻更徹底。徹底移除音頻編碼器,原始音頻信號直接投影到文本Token的向量空間。不做頻譜轉換,不做聲學特征提取,原始聲波直接進模型。

傳統架構是"分別處理再拼接",Gemma 4 12B是"混合Token序列統一處理"。圖像Token、音頻Token、文本Token按順序排列,進入統一的Transformer主干后,由同一套注意力機制處理,共享主干網絡的權重和推理邏輯。

投影層本身因模態特性而異。視覺需2D坐標嵌入,音頻需時序切片。但進入主干后,三種模態的表征空間和計算邏輯完全統一。

這就是Tschannen說的"統一"。功能層面的"支持多模態"太淺了。架構層面的"所有模態共享同一套表征空間"才是。

實測逼近 26B MoE:架構效率正在改寫游戲規則

atomic.chat的實測數據很能說明問題:RTX 4090上,12B生成8.9k Token的物理模擬代碼,顯存僅9GB,性能逼近26B MoE的15GB配置。二者參數差距高達140億,12B用不到一半的顯存,跑出了旗艦模型超半數的速度,代碼生成質量、物理邏輯推理能力幾乎無差距。



過往大廠內卷思路永遠是堆MoE、堆參數量抬升性能,而Gemma 4 12B證明:優化架構同樣能追平旗艦效果,直接動搖"靠堆參數取勝"的行業慣性研發思路。這才是26B級大模型路線倍感緊張的根源。

顯存大幅縮減,無編碼器設計是重要因素之一。沒有獨立編碼器的額外內存開銷,也沒有編碼器與主干之間的特征對齊損耗。但性能逼近26B是多重優化共同作用的結果,訓練數據配比、架構效率提升都有貢獻,不能單一歸因。

真正的信號在于:Gemma 4 12B證明了"無編碼器統一架構"在中等規模模型上的量產可行性。

這個驗證完成以后,事情開始往幾個方向傳導。

LoRA等輕量微調方法可以直接作用于Transformer主干,理論上能同步優化全模態回路。不再需要分別維護編碼器和主干,不再需要為對齊問題頭疼。具體微調效果還得等獨立驗證,Google自己也沒發布官方消融實驗。

硬件門檻的變化更直觀。多模態推理從"雙路工作站"降到了"單張消費級顯卡",9GB顯存跑原生多模態,這個門檻直接決定了它能不能進入普通開發者的工作流。

生態層面也有想象空間。統一嵌入空間在架構理論上預留了擴展接口,新增模態理論上只需定制專屬投影層即可接入主干。但"可接入"和"可用"是兩回事,配套的訓練數據、任務設計和專項調優缺一不可。"零成本新增模態"是幻覺,"架構層面的可能性"才是準確的描述。

邊界與分水嶺:架構領先不等于全能,但方向已經確立

必須誠實交代:Gemma 4 12B面對超過三步的復雜串聯任務、多工具聯動場景,仍會出現規劃幻覺、路徑偏移的問題。這不算否定它的理由,只說明它正處于從"能對話"到"能做事"的過渡期。

早期智能手機的觸屏也不夠靈敏,但方向已經確立。無編碼器統一架構的驗證已經完成,剩下的工程優化只是時間問題。

Gemma 4 12B的發布很容易被淹沒在"又發了一個模型"的信息噪音中。但把視線從參數表移開,看向架構圖,會看到一個清晰的信號:

多模態AI的研發邏輯,正在從"為每種模態設計專用轉換器再拼接",轉向"所有模態共享同一套注意力機制"。

12B參數不是重點。它證明了,多模態的"大一統"不需要靠堆模塊實現,統一表示空間就夠了。

未來兩年,當業界回顧2026年的多模態進展時,Gemma 4 26B的基準分數會被遺忘,Gemma 4 12B的架構選擇會被反復引用。它是第一個在中等規模、可商用、可本地部署的模型上,驗證了"無編碼器統一架構"的量產可行性。

26B 打贏了當下的性能戰,12B 改寫了未來多模態的底層規則。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
世界杯又翻車!Lisa熱舞低俗,美國務卿表情嚴肅,中國主教練現身

世界杯又翻車!Lisa熱舞低俗,美國務卿表情嚴肅,中國主教練現身

翰飛觀事
2026-06-13 16:34:36
1場平局就想念他!巴西首戰暴致命短板,內馬爾成爭冠最后希望?

1場平局就想念他!巴西首戰暴致命短板,內馬爾成爭冠最后希望?

體育閑話說
2026-06-14 10:40:25
無論年齡多大,女人都在乎這些溫柔,男人千萬別忽略!

無論年齡多大,女人都在乎這些溫柔,男人千萬別忽略!

荔子言
2026-06-14 10:32:27
臺灣地區最后12個“邦交”全是硬茬

臺灣地區最后12個“邦交”全是硬茬

人工島分布
2026-06-07 08:18:25
黃仁勛:那些大談“AI 終結人類”的特權階層,只是不想讓你分到時代的紅利

黃仁勛:那些大談“AI 終結人類”的特權階層,只是不想讓你分到時代的紅利

AI科技大本營
2026-06-11 14:00:17
“都絕戶了,還拼命掙錢干嘛?”看見父親50歲就躺平,我崩潰了

“都絕戶了,還拼命掙錢干嘛?”看見父親50歲就躺平,我崩潰了

素十三兒
2026-04-13 07:12:36
哪些書像是來自另一個維度的智慧?網友:讀完才知道我是井底之蛙

哪些書像是來自另一個維度的智慧?網友:讀完才知道我是井底之蛙

夜深愛雜談
2026-06-10 22:43:03
資治通鑒:記住,誰朋友多你就離他遠點,誰喜歡到處跟人打招呼,你就離他遠點,這話聽著刻薄,可你越往后活,越會明白它有多準

資治通鑒:記住,誰朋友多你就離他遠點,誰喜歡到處跟人打招呼,你就離他遠點,這話聽著刻薄,可你越往后活,越會明白它有多準

心理觀察局
2026-06-13 07:41:04
伊朗文官集團又一次壓制革命衛隊,佩澤希齊揚成為實權總統?

伊朗文官集團又一次壓制革命衛隊,佩澤希齊揚成為實權總統?

陌上桃花開的
2026-06-13 05:18:49
大秦帝國是否能打敗亞歷山大遠征軍?外國學者斷定:不是一個等級

大秦帝國是否能打敗亞歷山大遠征軍?外國學者斷定:不是一個等級

歷史龍元閣
2026-06-13 10:55:14
為什么說買房子別靠近“這5處”?開發商說出實情,恍然大悟!

為什么說買房子別靠近“這5處”?開發商說出實情,恍然大悟!

家居設計師蘇哥
2026-06-13 12:50:45
伊朗國家電視臺深夜突播“核爆蘑菇云”,全國陷入恐慌!官方回應

伊朗國家電視臺深夜突播“核爆蘑菇云”,全國陷入恐慌!官方回應

生活魔術專家
2026-06-13 20:46:30
老了才發現,很多子女瞧不起自己的父親!原來是這3方面出了問題

老了才發現,很多子女瞧不起自己的父親!原來是這3方面出了問題

風起見你
2026-06-09 00:18:19
摩根士丹利:PCB超級周期,哪些中國公司被嚴重低估

摩根士丹利:PCB超級周期,哪些中國公司被嚴重低估

新浪財經
2026-06-14 06:09:20
賽后采訪孟新藝,問他指著外國球員說了什么,他的回答讓全場沸騰

賽后采訪孟新藝,問他指著外國球員說了什么,他的回答讓全場沸騰

童叔不飆車
2026-06-13 00:43:03
巴西 1-1 遭摩洛哥逼平!賽后一數據太扎心,這真的是五星球隊?

巴西 1-1 遭摩洛哥逼平!賽后一數據太扎心,這真的是五星球隊?

酷侃體壇
2026-06-14 10:21:01
剛果隊出征世界杯豹紋西裝吸睛

剛果隊出征世界杯豹紋西裝吸睛

體壇周報
2026-06-13 23:47:12
1996年,武警在轉彎時出現的一個疏忽,釀成新中國最嚴重越獄事件

1996年,武警在轉彎時出現的一個疏忽,釀成新中國最嚴重越獄事件

明月清風閣
2026-06-13 07:25:10
扎心了!老外以為國足太強被禁賽!真相是24年沒進世界杯!

扎心了!老外以為國足太強被禁賽!真相是24年沒進世界杯!

聽心堂
2026-06-13 12:53:39
杜月笙輝煌時有3000萬銀元,相當于如今多少錢?算完才知他多厲害

杜月笙輝煌時有3000萬銀元,相當于如今多少錢?算完才知他多厲害

歷史人文2
2026-06-14 11:30:03
2026-06-14 12:11:00
AI唱反調 incentive-icons
AI唱反調
在這里,聽見不一樣的 AI 聲音。
24文章數 0關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

陜西橋梁垮塌致25輛車墜河62人死亡失蹤 官方公布細節

頭條要聞

陜西橋梁垮塌致25輛車墜河62人死亡失蹤 官方公布細節

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

具俊曄曝大S離世前虛弱照,難怪小s退讓

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

游戲
藝術
房產
數碼
公開課

立省30%!《明末:淵虛之羽》開啟Steam限時折扣

藝術要聞

廣州再建一座“小蠻腰”?190米,頂著個球,2027年見!

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

數碼要聞

多名球星展示新款Beats頭戴式耳機

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版