![]()
今天,我們正式發布Gemma 4 12B,這是我們最新推出的模型,旨在將具備智能體能力的多模態智能直接帶到筆記本電腦上。Gemma 4 12B填補了輕量級E4B模型與更強大的26B混合專家(MoE)模型之間的空白,在顯著降低內存占用的同時,保留了強大的處理能力。值得一提的是,這也是我們首款原生支持音頻輸入的中等規模模型。
得益于廣大開發者社區的支持,Gemma 4系列模型的累計下載量已突破1.5億次。開發者們基于這一系列模型構建了從輔助行動的可穿戴機械臂到企業級AI安全系統等各類創新應用。我們非常期待看到大家利用這一最新成員創造出更多精彩成果。
以下是Gemma 4 12B的核心亮點:
全新統一架構:無需多模態編碼器,視覺與音頻輸入直接流入大語言模型主干網絡進行處理。
卓越推理能力:在標準基準測試中,性能接近26B模型,支持強大的多步推理與智能體工作流。
筆記本可運行:僅需16GB顯存或統一內存,即可在本地流暢運行。
開放可訪問:基于Apache 2.0許可證發布,并獲得開發者生態系統的廣泛支持。
支持草稿推理加速:Gemma 4 12B內置多Token預測(MTP)草稿器,有效降低推理延遲。
上述特性的結合,使Gemma 4 12B得以在日常硬件上實現先進的多模態能力,同時不犧牲速度與推理性能。
高效且統一的新型架構
Gemma 4 12B的突出之處在于其對視覺和音頻輸入的高效整合方式。傳統多模態模型通常依賴獨立的編碼器,先將圖像和音頻轉換為中間表示,再傳遞給語言模型,這種分離式編碼器結構會增加延遲并提高內存占用。為此,我們在訓練Gemma 4 12B時采用了無編碼器架構,實現了音頻與視覺輸入的直接接入。
具體而言,Gemma 4 12B對多模態輸入的原生處理方式如下:
視覺處理:我們以一個輕量級嵌入模塊替代了原有的視覺編碼器,該模塊僅包含一次矩陣乘法、位置嵌入和歸一化操作,使大語言模型主干網絡能夠直接承擔視覺處理任務。
音頻處理:音頻處理的簡化程度更進一步,我們完全移除了音頻編碼器,直接將原始音頻信號映射投影到與文本Token相同的維度空間。
立即上手使用
即刻體驗:通過LM Studio、Ollama、Google AI Edge Gallery應用、Google AI Edge Eloquent應用或LiteRT-LM命令行工具,只需幾步操作即可開始體驗。
下載模型權重:可直接從Hugging Face和Kaggle下載預訓練及指令微調版本的模型檢查點。
集成與學習:查閱開發者文檔及快速入門筆記本,快速完成集成。
靈活使用開發工具:支持通過Hugging Face Transformers、llama.cpp、MLX、SGLang和vLLM搭建本地推理流水線,也可使用Unsloth進行高效微調。
通過Gemma Skills解鎖智能體開發:為了支持開發者使用最新Gemma技術構建智能體應用,我們正式發布官方技能庫(Skills Repository)。該庫提供了專為智能體與Gemma模型協同工作而設計的一系列技能。
靈活部署:可通過Google Cloud搭建生產級服務端點,并通過Gemini企業智能體平臺模型花園、Cloud Run及GKE等方式靈活部署。
Q&A
Q1:Gemma 4 12B的無編碼器架構有什么優勢?
A:傳統多模態模型通常需要獨立的編碼器來處理圖像和音頻,這會增加推理延遲和內存占用。Gemma 4 12B采用無編碼器統一架構,視覺輸入通過輕量級嵌入模塊直接進入大語言模型主干,音頻則直接映射到與文本Token相同的維度空間,從而降低了延遲和內存需求,同時保留了強大的多模態處理能力。
Q2:Gemma 4 12B對硬件配置有什么要求,普通筆記本能跑嗎?
A:Gemma 4 12B對硬件要求相對友好,僅需16GB顯存或統一內存即可在本地運行,適合主流消費級筆記本電腦。相比之下,它的內存占用不到26B MoE模型的一半,因此非常適合希望在本地體驗高性能多模態大語言模型的開發者和普通用戶。
Q3:Gemma 4 12B支持哪些開發工具和部署平臺?
A:Gemma 4 12B支持多種主流開發工具,包括Hugging Face Transformers、llama.cpp、MLX、SGLang和vLLM,也可使用Unsloth進行微調。模型權重可從Hugging Face和Kaggle下載。此外,還支持通過Google Cloud、Cloud Run及GKE等平臺進行生產級部署,并可通過LM Studio、Ollama等工具快速本地體驗。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.