千問除夕夜：一手請客，一手換骨架

2026-02-16 20:22:35　來源: 亂翻書

上海舉報

分享至

兩周前千問宣布30億請客，當(dāng)時還有人覺得這又是一個大廠撒錢拉新的老故事，熱鬧完就散了。
昨天吳嘉披露的數(shù)據(jù)證明很多人低估了這件事的烈度：首日1500萬單，是預(yù)估的15倍。6天41億次"千問幫我"，1.2億筆訂單，近半來自縣城，DAU也翻了幾倍。因?yàn)橛脩魠⑴c遠(yuǎn)超預(yù)期，阿里的投入也遠(yuǎn)超30億。
就在除夕當(dāng)天，阿里開源大模型千問Qwen3.5-Plus，實(shí)現(xiàn)底層模型架構(gòu)革新。

一、
過去幾年大模型的主旋律是堆參數(shù)、堆數(shù)據(jù)、堆算力。Transformer自2017年以來，所有人都在同一個框架里做優(yōu)化：更好的訓(xùn)練數(shù)據(jù)、更聰明的RLHF、更長的上下文窗口，核心架構(gòu)幾乎沒變過。Mamba、RWKV等挑戰(zhàn)者發(fā)了幾百篇論文，但行業(yè)共識很殘酷：要替代Transformer得在多個規(guī)模上（從十億到千億級）連續(xù)證明自己，絕大多數(shù)創(chuàng)新卡在了第一關(guān)。
實(shí)驗(yàn)室里跑得漂亮，一放大就崩。所以過去兩年，真正進(jìn)入生產(chǎn)環(huán)境的架構(gòu)創(chuàng)新屈指可數(shù)。

二、
Qwen3.5這次更新做了四件硬事：
第一，改了注意力機(jī)制。以前每層都做全量計算，文本越長越卡。現(xiàn)在75%的層用線性注意力，25%保留標(biāo)準(zhǔn)注意力。該精讀的精讀，該略讀的略讀；
第二，MoE做到極致。397B參數(shù)，每次只用17B，不到5%的算力調(diào)動全部知識；
第三，提升推理速度。原生多Token預(yù)測，32K上下文吞吐量提升8.6倍，256K直接拉滿19倍；
第四，更大規(guī)模的預(yù)訓(xùn)練跑穩(wěn)了。小模型跑通不算數(shù)，大規(guī)模訓(xùn)練不崩才是真本事。
結(jié)果是API價格降到了每百萬Token 0.8元，同等性能的Gemini 3 Pro是它的18倍。

三、
原生多模態(tài)。
行業(yè)里號稱多模態(tài)的模型一大把，但大部分是拼裝貨：先訓(xùn)好語言模型，再外掛一個視覺模塊，中間靠適配層勉強(qiáng)對齊。就像給一個盲人戴上翻譯眼鏡，他能知道面前有什么，但看到的和想到的之間總隔著一層翻譯。更麻煩的是，很多模型視覺能力越強(qiáng)，語言能力反而降智。
Qwen3.5的做法是從第一天就讓模型同時學(xué)看和學(xué)說。文本和圖像在同一個參數(shù)空間里融合，沒有中間商。更難得的是，加入視覺數(shù)據(jù)后訓(xùn)練速度幾乎沒受影響，和純文本訓(xùn)練持平。結(jié)果是以不到40%的參數(shù)量在多項視覺評測中拿到最佳，大模型真正張開了眼睛。

四、
回看阿里這個春節(jié)檔：一手是千問App用遠(yuǎn)超30億的請客讓幾千萬人學(xué)會"有事找AI"，另一手是Qwen3.5用架構(gòu)革新把效率天花板抬高一個量級——當(dāng)幾千萬人同時涌進(jìn)來喊"千問幫我"，你需要一個既跑得快又足夠便宜的模型在后面接著。
Attention或許還是需要的，但All You Need的時代，正在結(jié)束。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.