兩周前千問宣布30億請客,當(dāng)時還有人覺得這又是一個大廠撒錢拉新的老故事,熱鬧完就散了。
昨天吳嘉披露的數(shù)據(jù)證明很多人低估了這件事的烈度:首日1500萬單,是預(yù)估的15倍。6天41億次"千問幫我",1.2億筆訂單,近半來自縣城,DAU也翻了幾倍。因?yàn)橛脩魠⑴c遠(yuǎn)超預(yù)期,阿里的投入也遠(yuǎn)超30億。
就在除夕當(dāng)天,阿里開源大模型千問Qwen3.5-Plus,實(shí)現(xiàn)底層模型架構(gòu)革新。
一、
過去幾年大模型的主旋律是堆參數(shù)、堆數(shù)據(jù)、堆算力。Transformer自2017年以來,所有人都在同一個框架里做優(yōu)化:更好的訓(xùn)練數(shù)據(jù)、更聰明的RLHF、更長的上下文窗口,核心架構(gòu)幾乎沒變過。Mamba、RWKV等挑戰(zhàn)者發(fā)了幾百篇論文,但行業(yè)共識很殘酷:要替代Transformer得在多個規(guī)模上(從十億到千億級)連續(xù)證明自己,絕大多數(shù)創(chuàng)新卡在了第一關(guān)。
實(shí)驗(yàn)室里跑得漂亮,一放大就崩。所以過去兩年,真正進(jìn)入生產(chǎn)環(huán)境的架構(gòu)創(chuàng)新屈指可數(shù)。
二、
Qwen3.5這次更新做了四件硬事:
第一,改了注意力機(jī)制。以前每層都做全量計算,文本越長越卡。現(xiàn)在75%的層用線性注意力,25%保留標(biāo)準(zhǔn)注意力。該精讀的精讀,該略讀的略讀;
第二,MoE做到極致。397B參數(shù),每次只用17B,不到5%的算力調(diào)動全部知識;
第三,提升推理速度。原生多Token預(yù)測,32K上下文吞吐量提升8.6倍,256K直接拉滿19倍;
第四,更大規(guī)模的預(yù)訓(xùn)練跑穩(wěn)了。小模型跑通不算數(shù),大規(guī)模訓(xùn)練不崩才是真本事。
結(jié)果是API價格降到了每百萬Token 0.8元,同等性能的Gemini 3 Pro是它的18倍。
三、
原生多模態(tài)。
行業(yè)里號稱多模態(tài)的模型一大把,但大部分是拼裝貨:先訓(xùn)好語言模型,再外掛一個視覺模塊,中間靠適配層勉強(qiáng)對齊。就像給一個盲人戴上翻譯眼鏡,他能知道面前有什么,但看到的和想到的之間總隔著一層翻譯。更麻煩的是,很多模型視覺能力越強(qiáng),語言能力反而降智。
Qwen3.5的做法是從第一天就讓模型同時學(xué)看和學(xué)說。文本和圖像在同一個參數(shù)空間里融合,沒有中間商。更難得的是,加入視覺數(shù)據(jù)后訓(xùn)練速度幾乎沒受影響,和純文本訓(xùn)練持平。結(jié)果是以不到40%的參數(shù)量在多項視覺評測中拿到最佳,大模型真正張開了眼睛。
四、
回看阿里這個春節(jié)檔:一手是千問App用遠(yuǎn)超30億的請客讓幾千萬人學(xué)會"有事找AI",另一手是Qwen3.5用架構(gòu)革新把效率天花板抬高一個量級——當(dāng)幾千萬人同時涌進(jìn)來喊"千問幫我",你需要一個既跑得快又足夠便宜的模型在后面接著。
Attention或許還是需要的,但All You Need的時代,正在結(jié)束。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.