无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

lmdeploy v0.12.3:視頻輸入、Qwen3.5、TurboMind 壓縮張量、Ray 安全 API 等重大升級全面解析

0
分享至




LMDeploy 在 2026 年 4 月 8 日發(fā)布了 v0.12.3 版本。這一版本覆蓋了Features、Improvements、Bug fixes、Other四大部分,累計19 位貢獻(xiàn)者、46 個 commits、472 個 files changed,屬于一次覆蓋面非常廣、實用性非常強(qiáng)的版本更新。

如果你正在關(guān)注 LMDeploy 的推理能力、多模態(tài)支持、Qwen3.5 適配、TurboMind 能力、Ray 相關(guān)改造、部署穩(wěn)定性優(yōu)化,那么這個版本幾乎可以說是一次“系統(tǒng)級增強(qiáng)”。

一、v0.12.3 版本概覽

本次版本更新的關(guān)鍵詞非常明確:

  • ?多模態(tài)能力增強(qiáng)

  • ?Qwen3.5 全面適配與優(yōu)化

  • ?TurboMind 推理能力增強(qiáng)

  • ?Ray 與服務(wù)端安全性改進(jìn)

  • ?RoPE / mRoPE 相關(guān)統(tǒng)一與修復(fù)

  • ?緩存、端點、生成、圖像視頻處理等關(guān)鍵鏈路修復(fù)

  • ?CI、Docker、Python 代碼現(xiàn)代化改造

從更新列表看,這次版本不只是修復(fù) bug,更像是一次圍繞模型推理、服務(wù)穩(wěn)定性和工程化能力的集中升級。

二、核心功能更新:v0.12.3 帶來了什么 1)支持視頻輸入

這是本版本最受關(guān)注的特性之一:支持視頻輸入

這意味著 LMDeploy 的多模態(tài)輸入能力進(jìn)一步擴(kuò)展,不再局限于文本或靜態(tài)圖像,開始向視頻類輸入場景延伸。對于本地推理、視頻理解、多模態(tài)交互等場景來說,這是非常關(guān)鍵的能力升級。

從更新內(nèi)容來看,視頻輸入并不是一個邊角功能,而是被列為正式 Features,說明其在版本中具有明顯的功能地位。

2)TurboMind 完整支持 compressed-tensors gs32

本版本中,TurboMind 新增了對compressed-tensors gs32的完整支持。

這類更新通常意味著推理引擎在處理壓縮權(quán)重、量化模型或相關(guān)張量格式時,兼容性與穩(wěn)定性得到進(jìn)一步增強(qiáng)。對于依賴 TurboMind 的用戶來說,這是一項非常重要的底層能力提升,直接關(guān)系到模型加載、運(yùn)行與推理表現(xiàn)。

3)Draft model update params

本版本加入了Draft model update params

從功能名稱來看,這是對草稿模型參數(shù)更新流程的增強(qiáng),屬于推理鏈路中的關(guān)鍵能力優(yōu)化。雖然更新信息本身沒有展開細(xì)節(jié),但從其被列為 Features 可以看出,這項能力已經(jīng)進(jìn)入正式支持范圍。

三、重點改進(jìn):Qwen3.5 相關(guān)更新最密集

v0.12.3 中,Qwen3.5 相關(guān)內(nèi)容非常多,幾乎貫穿了多個模塊,是本次更新最核心的主題之一。

1)支持 Qwen3.5 在 Volta 上運(yùn)行

版本更新中明確提到:support qwen3.5 on volta

這意味著 Qwen3.5 在 Volta 相關(guān)環(huán)境中的支持能力得到增強(qiáng),進(jìn)一步擴(kuò)大了其可部署范圍。

2)優(yōu)化 Qwen3.5

本版本還包含了專門的Optimize Qwen3.5

這說明 Qwen3.5 不只是“能跑”,而是繼續(xù)在性能、兼容性或推理表現(xiàn)上進(jìn)行針對性優(yōu)化。

3)Qwen3.5 PyTorch 多模態(tài)推理修復(fù)

更新中提到:fix qwen3.5 pytorch multimodal inference

這是針對 Qwen3.5 在 PyTorch 多模態(tài)推理路徑上的修復(fù),說明在多模態(tài)場景中,Qwen3.5 的推理鏈路已經(jīng)被納入重點保障范圍。

4)Qwen3.5 FP8 支持修復(fù)

版本還修復(fù)了:fix qwen3.5 fp8 support

FP8 支持是推理精度、性能與模型部署中常見的重要方向之一。該修復(fù)表明 Qwen3.5 在 FP8 路徑上得到了進(jìn)一步完善。

5)Qwen3.5 MTP 支持

本次更新還包含:Support qwen35 with mtp

這說明 Qwen3.5 與 MTP 相關(guān)的支持能力也被納入版本升級內(nèi)容中,進(jìn)一步增強(qiáng)了其適配范圍。

6)Qwen3Coder 工具調(diào)用參數(shù)拆分

版本中還加入了:Split/tool call args json for qwen3coder tool calls (Qwen3.5)

這項更新與 Qwen3.5 的 tool call 能力有關(guān),說明工具調(diào)用參數(shù)的 JSON 拆分處理方式得到了調(diào)整和支持,屬于面向工具調(diào)用鏈路的修復(fù)和增強(qiáng)。

四、多模態(tài)與視覺相關(guān)升級 1)視頻輸入支持

前面已經(jīng)提到,本版本新增了視頻輸入支持,這是非常明確的多模態(tài)擴(kuò)展。

2)圖像 / 視頻 resize 函數(shù)修復(fù)

本版本還修復(fù)了:fix image / video resize function

這說明圖像和視頻在尺寸處理過程中存在的問題被修正了。對于多模態(tài)輸入來說,resize 是非常基礎(chǔ)但關(guān)鍵的一環(huán),關(guān)系到輸入是否能正確進(jìn)入模型鏈路。

3)Qwen3-VL-MOE 增加 R3

更新中提到:add R3 for qwen3-vl-moe models

這屬于對視覺語言混合模型的適配增強(qiáng),說明 Qwen3-VL-MOE 在本版本中也得到進(jìn)一步支持。

五、推理引擎與底層能力增強(qiáng) 1)Builtin mrope

本版本加入了Builtin mrope

這意味著 mRoPE 相關(guān)能力開始成為 LMDeploy 的內(nèi)建組成部分之一。對于模型推理中的位置編碼處理,這類變化通常非常關(guān)鍵。

2)RoPE 初始化對齊

更新中提到:Align rope init in lmdeploy

這說明 LMDeploy 內(nèi)部 RoPE 初始化邏輯得到了對齊處理,屬于底層一致性增強(qiáng)。

3)統(tǒng)一 rope device

本版本還包括:unify rope device

這意味著 RoPE 所使用的設(shè)備處理邏輯被統(tǒng)一,減少不同路徑下的設(shè)備差異問題。

4)動態(tài) NTK 設(shè)備修復(fù)

更新中還提到:fix dynamic ntk device

動態(tài) NTK 相關(guān)流程中設(shè)備處理問題被修復(fù),有助于提升運(yùn)行穩(wěn)定性。

5)準(zhǔn)備緩存前先準(zhǔn)備 chunk indices

版本中有一項改進(jìn):prepare chunk indices before cache initialize

這說明緩存初始化流程中的前置準(zhǔn)備工作被調(diào)整了順序,屬于推理鏈路中的時序優(yōu)化。

6)支持 recurrent-gdr 和 causal-conv1d-update 的 cache_seqlen

更新中提到:support cache_seqlen on recurrent-gdr and causal-conv1d-update

這類內(nèi)容指向緩存長度相關(guān)能力增強(qiáng),屬于底層推理狀態(tài)管理的優(yōu)化。

7)release state cache

版本還加入了:release state cache

這說明狀態(tài)緩存釋放邏輯得到補(bǔ)充,有利于資源管理與運(yùn)行穩(wěn)定性。

六、Ray 與服務(wù)端相關(guān)改進(jìn) 1)安全 Ray API

版本中提到:safe ray api

這說明 Ray API 的使用變得更加安全,屬于服務(wù)編排和并行處理鏈路中的重要改進(jìn)。

2)刪除 ray remote function return value

本版本還包含:delete ray remote function return value

這表明 Ray remote function 的返回值處理邏輯被調(diào)整,屬于運(yùn)行行為和接口行為上的變化。

3)當(dāng) proxy_url 為空時,api_server 端口順序分配

更新中提到:Assign sequential api_server ports when proxy_url is unset

這項改進(jìn)與服務(wù)端口分配邏輯相關(guān),當(dāng) proxy_url 未設(shè)置時,api_server 會按順序分配端口,提升部署可控性。

4)修復(fù) generate endpoint

版本還修復(fù)了:fix generate endpoint

這意味著生成接口鏈路存在的問題得到了處理,直接影響推理服務(wù)可用性。

5)修復(fù)多輪聊天

更新中提到:fix multiround chat

說明多輪對話場景中的問題已被修復(fù),這對在線對話服務(wù)很關(guān)鍵。

6)修復(fù) metrics

版本還修復(fù)了:fix metrics

這通常意味著監(jiān)控指標(biāo)輸出、統(tǒng)計或采集鏈路得到修正。

7)修復(fù)安全問題

更新列表中還明確提到:fix security issues

這說明本版本包含安全性修復(fù),屬于必須重視的升級項。

七、TurboMind 與模型推理相關(guān)修復(fù) 1)ApplyTokenBitmaskInplace 維度不匹配修復(fù)

版本中提到:fix(turbomind): fix dimension mismatch in ApplyTokenBitmaskInplace

這是 TurboMind 相關(guān)的關(guān)鍵修復(fù),說明在應(yīng)用 token bitmask 的過程中出現(xiàn)了維度不匹配問題,本次已修復(fù)。

2)pagedattention pointer range 修復(fù)

更新中提到:fix pagedattention pointer range

PagedAttention 是推理中常見技術(shù)點之一,這類修復(fù)通常與底層指針范圍、內(nèi)存訪問或計算邊界有關(guān),屬于非常關(guān)鍵的穩(wěn)定性修正。

3)Torch AWQ 修復(fù)

版本中還提到:Fix torch awq

這意味著 Torch AWQ 相關(guān)路徑的問題已被修復(fù),對依賴該路徑的推理流程來說是重要補(bǔ)強(qiáng)。

八、模型兼容性與特殊模型支持 1)Intern-S1-Pro 兼容 Transformers 5.0+

版本中提到:Make Intern-S1-Pro compatible with Transformers 5.0+

這說明 Intern-S1-Pro 的兼容性得到提升,能夠適配 Transformers 5.0 及以上版本。

2)Intern-S1-Pro 代碼簡化

更新中還包含:simplify interns1 pro codes

這表示相關(guān)代碼路徑做了簡化處理,有利于維護(hù)和后續(xù)迭代。

3)glm4.7-flash 修復(fù)

版本中還提到:fix glm4.7-flash

說明該模型相關(guān)的問題已被修正。

九、工程化與 CI / Docker / Python 代碼現(xiàn)代化

除了推理與模型本身,v0.12.3 還對工程體系做了不少整理。

1)添加舊版測試工作流和測試配置

版本中有:[ci] add legacy test workflow and test config

這說明 CI 流程中補(bǔ)充了舊版測試工作流與測試配置,便于兼容歷史路徑的驗證。

2)修復(fù) CI 錯誤

更新中提到:Fix CI errors including linting error and unit test error

說明本次修復(fù)了 CI 中的 linting 錯誤和單測錯誤。

3)使用 pyupgrade 和 ruff 現(xiàn)代化 Python 代碼

版本中提到:Use pyupgrade and ruff to modernize LMDeploy Python Code

這是對 Python 代碼風(fēng)格和質(zhì)量的現(xiàn)代化處理,涉及自動化代碼規(guī)范與升級。

4)減少 CI 內(nèi)存占用

更新中提到:reduce ci memory

說明 CI 運(yùn)行過程中的內(nèi)存壓力被降低。

5)Docker 工作流中添加 safe.directory

版本中提到:fix: add safe.directory for git in docker workflows

這屬于 Docker 構(gòu)建或工作流中的 Git 安全配置修復(fù)。

6)添加 nightly docker build workflow

更新中提到:[ci] add nightly docker build workflow

這表示新增了 nightly docker 構(gòu)建流程。

7)拆分 Docker wheel 準(zhǔn)備步驟并使用 Python 3.12 作為默認(rèn)版本

版本中還提到:split docker wheel preparation into staged build steps and use python 3.12 as the default version

這說明 Docker wheel 的準(zhǔn)備流程被拆成分階段構(gòu)建步驟,并將 Python 3.12 設(shè)為默認(rèn)版本。

8)添加 CLAUDE.md 和 Claude Code skills

更新中還包含:chore: add CLAUDE.md and Claude Code skills

這屬于倉庫文檔與代碼輔助能力方面的補(bǔ)充。

十、其他重要改動與補(bǔ)充 1)外部 pg bundles 下 worker 排序修復(fù),并支持 persistent buffer for update_params

版本中有一項較長的更新:[Fix][Feat] Fix worker sorting with external pg bundles & Support persistent buffer for update_params

這說明在外部 pg bundles 場景下的 worker 排序問題得到了修復(fù),同時 update_params 還支持 persistent buffer。

2)禁用 fla intracard_backend

更新中提到:disable fla intracard_backend

這屬于某個后端能力的禁用調(diào)整。

3)支持 qwen3.5 on volta 與 qwen35 with mtp 同時出現(xiàn)

這兩項內(nèi)容說明 Qwen3.5 的支持矩陣在本版本中被持續(xù)擴(kuò)展,體現(xiàn)出版本更新對該模型系列的集中投入。

4)添加 R3、統(tǒng)一 rope、builtin mrope、cache_seqlen、state cache 等一系列底層改動

這些更新雖然分散,但整體上表明 v0.12.3 在“位置編碼、緩存管理、推理穩(wěn)定性、設(shè)備一致性”方面做了大量基礎(chǔ)建設(shè)。

十一、v0.12.3 的版本定位總結(jié)

如果把這次更新概括成一句話,那就是:

v0.12.3 是一次圍繞多模態(tài)、Qwen3.5、TurboMind、Ray 安全性、底層推理鏈路與工程化能力的全面增強(qiáng)版本。

它的特點非常明顯:

  • ?新能力上:支持視頻輸入,增強(qiáng)多模態(tài)場景

  • ?模型上:Qwen3.5 相關(guān)支持與優(yōu)化最密集

  • ?引擎上:TurboMind、RoPE、cache、pagedattention 等底層鏈路均有補(bǔ)強(qiáng)

  • ?服務(wù)上:generate endpoint、多輪聊天、metrics、端口分配、安全 API 均有修復(fù)

  • ?工程上:CI、Docker、Python 代碼規(guī)范持續(xù)現(xiàn)代化

這不是一個單點修復(fù)版本,而是一個覆蓋推理、部署、兼容、性能與穩(wěn)定性的綜合升級版本。

十二、結(jié)語

代碼地址:github.com/InternLM/lmdeploy

對于正在使用 LMDeploy 的開發(fā)者來說,v0.12.3 值得重點關(guān)注,原因并不只是“版本號變了”,而是它集中解決了多個核心方向的問題:

  • ? 想用視頻輸入的,可以關(guān)注本次多模態(tài)擴(kuò)展;

  • ? 重點跑 Qwen3.5 的,可以關(guān)注其多項適配、優(yōu)化與修復(fù);

  • ? 依賴 TurboMind 的,可以關(guān)注 compressed-tensors gs32、ApplyTokenBitmaskInplace、pagedattention 等底層修復(fù);

  • ? 關(guān)注服務(wù)部署和在線推理的,可以關(guān)注 Ray 安全 API、端口分配、generate endpoint、多輪聊天與 metrics 修復(fù);

  • ? 關(guān)注工程體系的,可以關(guān)注 CI、Docker、Python 現(xiàn)代化改造。

總的來說,LMDeploy v0.12.3 是一次“面向可用性、兼容性、穩(wěn)定性和擴(kuò)展性”的扎實升級。

我們相信人工智能為普通人提供了一種“增強(qiáng)工具”,并致力于分享全方位的AI知識。在這里,您可以找到最新的AI科普文章、工具評測、提升效率的秘籍以及行業(yè)洞察。 歡迎關(guān)注“福大大架構(gòu)師每日一題”,發(fā)消息可獲得面試資料,讓AI助力您的未來發(fā)展。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
3個細(xì)節(jié)對比,劉濤這次真的有點難受,小媽祖直接被跪拜

3個細(xì)節(jié)對比,劉濤這次真的有點難受,小媽祖直接被跪拜

手工制作阿殲
2026-05-12 19:19:53
硬氣!中方徹底松手,拒接8500億美債!救美就是救中方的時代結(jié)束

硬氣!中方徹底松手,拒接8500億美債!救美就是救中方的時代結(jié)束

云舟史策
2026-05-12 07:14:59
用血淚教訓(xùn)告訴大家:鄰里關(guān)系再好,有些“善良”也不能給得太多

用血淚教訓(xùn)告訴大家:鄰里關(guān)系再好,有些“善良”也不能給得太多

小馬達(dá)情感故事
2026-05-11 18:40:04
安徽一副縣長,主動投案!另有多人被通報

安徽一副縣長,主動投案!另有多人被通報

鳳凰網(wǎng)安徽
2026-05-12 17:17:35
水在4℃時密度最大?這個反常識物理Bug,差點決定地球生命的命運(yùn)

水在4℃時密度最大?這個反常識物理Bug,差點決定地球生命的命運(yùn)

半解智士
2026-05-05 12:56:18
拔蘿卜帶泥!逃往美國的恒大“二把手”,鄰居卻是另一名潛逃富豪

拔蘿卜帶泥!逃往美國的恒大“二把手”,鄰居卻是另一名潛逃富豪

二大爺觀世界
2026-03-14 18:43:53
果然低估印度!川普訪華前夕,印度突然放雜音,妄圖拿捏中國命脈

果然低估印度!川普訪華前夕,印度突然放雜音,妄圖拿捏中國命脈

蘭妮搞笑分享
2026-05-12 18:33:35
體育總局人力中心發(fā)文,親宣陳若琳新身份,戀情傳聞早真相大白

體育總局人力中心發(fā)文,親宣陳若琳新身份,戀情傳聞早真相大白

觀察鑒娛
2026-05-10 10:38:12
特斯拉:再次突破

特斯拉:再次突破

新浪財經(jīng)
2026-05-11 10:29:59
變天了!特朗普登上專機(jī)前,鄭麗文劃下紅線:不許支持“臺獨(dú)”

變天了!特朗普登上專機(jī)前,鄭麗文劃下紅線:不許支持“臺獨(dú)”

線裝史冊
2026-05-12 18:31:31
48歲歐陽夏丹現(xiàn)狀:離開央視,被教授邀請現(xiàn)身挪威,至今未婚未育

48歲歐陽夏丹現(xiàn)狀:離開央視,被教授邀請現(xiàn)身挪威,至今未婚未育

白面書誏
2026-05-07 17:50:08
1650年,39歲多爾袞突然墜馬身亡,彌留時急召哥哥,順治:太遲了

1650年,39歲多爾袞突然墜馬身亡,彌留時急召哥哥,順治:太遲了

掠影后有感
2026-05-12 10:30:55
阿扎爾:巴薩配得上加冕西甲冠軍,我希望穆帥回到皇馬

阿扎爾:巴薩配得上加冕西甲冠軍,我希望穆帥回到皇馬

懂球帝
2026-05-12 20:36:22
莎拉安全過關(guān)!菲律賓參議院議長突然被換,就是13號彈劾預(yù)演

莎拉安全過關(guān)!菲律賓參議院議長突然被換,就是13號彈劾預(yù)演

蘭妮搞笑分享
2026-05-12 13:42:22
發(fā)現(xiàn)一個殘酷現(xiàn)實,中印沖突正全方位升級,中國越避讓 印度越對

發(fā)現(xiàn)一個殘酷現(xiàn)實,中印沖突正全方位升級,中國越避讓 印度越對

瀲滟晴方DAY
2026-05-12 20:05:08
CBA再開重磅罰單,奇葩操作太離譜,必須嚴(yán)懲

CBA再開重磅罰單,奇葩操作太離譜,必須嚴(yán)懲

宗介說體育
2026-05-12 09:58:47
你們有后悔過前幾年大手大腳浪費(fèi)掉的錢嗎?網(wǎng)友:現(xiàn)在都買不起了

你們有后悔過前幾年大手大腳浪費(fèi)掉的錢嗎?網(wǎng)友:現(xiàn)在都買不起了

另子維愛讀史
2026-05-11 21:30:13
星際迷航最慘星艦:剛出廠就故障纏身

星際迷航最慘星艦:剛出廠就故障纏身

娛圈觀察員
2026-05-11 20:03:25
貔貅認(rèn)主不看財富,這四個生肖千萬別碰,戴了反而會破財

貔貅認(rèn)主不看財富,這四個生肖千萬別碰,戴了反而會破財

紙鳶奇譚
2026-04-13 16:06:54
張藝謀新劇《主角》爆火,張嘉益劉浩存表現(xiàn)平平,37歲女配卻出圈

張藝謀新劇《主角》爆火,張嘉益劉浩存表現(xiàn)平平,37歲女配卻出圈

冷紫葉
2026-05-11 18:12:37
2026-05-12 22:31:00
moonfdd incentive-icons
moonfdd
福大大架構(gòu)師每日一題
1221文章數(shù) 67關(guān)注度
往期回顧 全部

科技要聞

宇樹發(fā)布載人變形機(jī)甲,定價390萬元起

頭條要聞

新電動車到手不足一月頻繁自動鎖死 老人被摔傷五六次

頭條要聞

新電動車到手不足一月頻繁自動鎖死 老人被摔傷五六次

體育要聞

總是掉鏈子的“倒霉蛋”,闖進(jìn)了歐戰(zhàn)決賽

娛樂要聞

白鹿風(fēng)波升級!掉粉20萬評論區(qū)淪陷

財經(jīng)要聞

黃仁勛真是被白宮徹底封殺了

汽車要聞

吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達(dá)

態(tài)度原創(chuàng)

數(shù)碼
本地
房產(chǎn)
時尚
公開課

數(shù)碼要聞

綠聯(lián)推出“AP16”16英寸便攜屏:2.5K 165Hz +揚(yáng)聲器,1799元

本地新聞

用蘇繡的方式,打開江西婺源

房產(chǎn)要聞

穗八條引爆樓市!萬博寶藏紅盤,五一勁銷出圈

穿極簡風(fēng)的夏天,是真高級!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版