文 | kiki
如果對比去年同期,你會發現今年12月是大模型行業的一個熱鬧峰值。
從11月中旬開始,OpenAI、微軟、谷歌、字節跳動、百度和智譜等科技公司都召開了與大模型相關的發布會,推出了一系列新模型、新應用和新產品,其中OpenAI的12天連續直播更是開啟了科技公司發布會的新流行。
熱鬧之下,比起去年技術層和競爭層的種種不確定性,當下模型廠商們的心態和預期好很多。一方面,在技術側,一場推理AI競賽已經開打;另一方面,應用層包括AI Agent、搜索等方向也已經明確。
我們整理了12月大模型行業里的五個趨勢,記錄這個瘋狂月份里的興奮和失落。
1、OpenAI 扣動扳機,開啟推理AI競賽
隨著OpenAI相繼發布o1和o3模型,一場推理競賽正在模型廠商間展開。
據OpenAI發布的o3系列時給出的評測數據,在數學、編碼、博士級科學問題等復雜問題上的表現,o3均展現出了強大的實力,例如在陶哲軒等60余位全球數學家共同推出的最強數學基準的EpochAI Frontier Math中,o3 創下新紀錄,準確率高達25.2%,而其他模型都沒有超過2.0%。
而在OpenAI沒放出o3前,國內外科技公司的目標無疑是追趕o1,谷歌此前發布全新測試模型Gemini 2.0 Flash Thinking。
今年11月,月之暗面Kimi的新一代數學推理模型k0-math、DeepSeek的推理模型DeepSeek-R1-Lite預覽版、阿里云通義的QwQ-32B-Preview也相繼發布,在一些數學和編碼評估表現中,它們的分數比o1還要高。
但一個問題是,目前尚不清楚o3是否會為普通用戶帶來很大幫助,從模型能力來看更適合推編碼、數學和科學領域的研究人員,除此以外,推理模型也很昂貴。在Keras之父Fran?ois Chollet發起的ARC-AGI基準測試顯示,盡管o3在高計算模式下得分率為 87.5%,但研究人員在該模式下每個任務花費達到數美元,任務成本很高。
但成本也只是一個相對的概念。近期,清華NLP實驗室劉知遠教授團隊提出了大模型的密度定律(densing law),該定律表明,大約每過3.3個月(100天),就能用參數量減半的模型達到當前最先進模型的性能水平,這意味未來推理成本還會快速降低。
但至少從技術端來看,至少OpenAI再度驗證了Scaling Law沒有消失,只不過是從預訓練端轉向了推理端,通過強化學習和更多的思考時間,提升模型的復雜推理能力,這條路是可行的。
對國內外基礎模型廠商而言,它們需要追趕的新目標又出現了。
2、降價還在繼續,甚至卷到了「視頻模型」
繼5月、9月后的兩輪大模型「價格戰」后,OpenAI和火山引擎(字節跳動旗下云廠商)又掀開了第三輪「價格戰」。
在OpenAI第九天的發布會上,針對GPT-4o音頻模型,4o音頻價格降低了 60%,降至輸入40美元/百萬tokens、輸出80美元/百萬tokens,文本價格為輸入2.5美元/百萬tokens、輸出10美元/百萬tokens。
為了討好開發者,OpenAI還把價格戰打到了更有性價比的小模型GPT-4o mini上,音頻費用是4o的四分之一。“我們聽到了開發者關于成本的反饋,我們正在降低成本”。OpenAI開發者平臺負責人Olivier Godement在直播中這樣說。
另一邊的火山引擎則是把「價格戰」帶到了視頻模型上,其發布的豆包視覺理解模型輸入價格為0.003元/每千tokens,比行業平均價格降低85%,火山引擎稱將視覺理解模型帶入了「厘時代」。
「厘時代」的說法并不陌生,今年5月火山引擎就宣布豆包主力模型將推理輸入價格降至「厘時代」,打響大模型推理算力價格戰,此后阿里云、百度智能云和騰訊云均迅速跟進,大模型推理算力價格下降了90%以上。
降價并不是國內模型廠商的獨有特色,OpenAI也曾多次降價。但區別于國外廠商,國內大模型玩家的特點是:降價幅度更狠,且多為云廠商主導。
降價的原因主要有三:首先,以價換量,以價格帶動推理算力消耗量增長,這也是為什么降價主要集中在云廠商的原因。
火山引擎方面,5月豆包通用模型的日均tokens使用量為1200億,截至12月中旬,日均tokens使用量已超過4萬億,較七個月前首次發布時增長了33倍。百度5月日均Token消耗量是2500億,截至11月初,百度文心大模型的日均處理Tokens文本數超過1.7萬億,不到半年增長了6.8倍。
其次,隨著底層大模型成本、價格的降低,吸引開發者,加速AI進入外部企業,搶占應用生態。
零一萬物創始人李開復在近期的一場采訪中對比去年和今年的模型價格,這樣說:“一年半的時間內,價格差了500倍,同時模型能力還有很大程度的提升。今天如果你還覺得貴,明年99%的概率就不貴了,再過一年可能不但不貴,而且能夠支撐你做想要的應用。”
最后,技術本身的優化也帶來降本的空間。譚待提到,降價是算法、軟件、工程和硬件結合的結果,例如模型結構的優化,在工程手段上,針對不同客戶場景集中規模化處理模型調用任務以及采用多種工程化手段,還有通過以異構資源池化的解決方案,提升芯片利用率等。
譚待談到驅動兩次降價的兩個內部決策因素,提到兩個核心因素,一方面會了解開發者、企業在使用過程中對成本痛點,價格降到多少,他們就能用起來,另一方面,火山引擎也在通過技術優化能把成本打到多低:“這兩個值的中間段就是火山引擎可以定下的價格”。
據華泰證券此前預測,降價或還會蔓延,且已呈現出向主力模型降價的趨勢。但降價是面子,模型能力才是里子,模型廠商需要回答的核心問題有兩個:一是以價換量是否會影響利潤表現(國內云廠商這些年均強調利潤),二是模型效果是否能真正讓客戶買單,因為一切競爭的原點都還會回歸模型的推理能力上。
3、大模型應用爆發了,但「能用」到「好用」間還有鴻溝
計算成本的下降和基礎模型選項的增加,讓大模型應用層進入了一個飛速發展的時期,風險投資公司Lerer Hippeau管理合伙人Ben Lerer甚至這樣說:
“如果你是一家初創公司,你可以選擇當下流行的方案,不僅僅是做ChatGPT包裝器、Claude包裝器、Gemini包裝器,或者隨便什么,你可以將所有這些包裝器組合起來,以優化功能、結果和這些結果的成本。”
「套殼與否」已經不再成為市場關注的重點,國外應用層玩家的「通用大模型套垂直小模型」的「雞尾酒打法」也已復制到中國。
以國內AI玩具廠商躍然創新為例,創始人李勇就提到,在通用大模型上和MiniMax、豆包、智譜均有合作,“各家效果都挺好,兒童場景也夠用”,現階段使用MiniMax比較多是因為“給了躍然創新早期用戶很多免費tokens”。
比起外界對「何時出現殺手級應用」的追問,各家廠商有自己的判斷,此前字節管理層判斷AI對話類產品可能只是AI產品的「中間態」,而百度創始人李彥宏則對外反復談到,Agent是他最看好的AI應用發展方向。
整個12月,大模型玩家們圍繞應用層的探索形成了「2+X」的確定性方向,其中「2」指的是AI Agent(智能代理)和AI搜索,而「X」則是包括AI玩具、AI耳機、AI眼鏡等諸多AI軟/硬件產品。
在AI搜索上,姍姍來遲的OpenAI終于在12天直播中宣布在ChatGPT新增了搜索功能,而據外媒報道,谷歌在推出AI Overviews后,近期也在考慮在Chrome瀏覽器中增加「AI模式」選項。而在不久前,AI搜索領域的巨頭Perplexity AI也完成了新一輪5億美元的融資,估值已升至90億美元。
搜索這塊「舊蛋糕」一直是大模型應用的必爭之地,如今戰火更盛的原因一是大模型推理技術能力的提升,二是對商業化的迫切需求讓玩家們加大了對搜索這一「離錢更近」場景的爭奪。
而與AI搜索關系「曖昧」的AI Agent也在12月成為最火的應用落地方向。
Anthropic推出的Computer Use功能和智譜近期發布的AutoGLM都展示了端側Agent的交互性、自動化和主動性等特點,國內外科技大廠也幾乎都有自己的 Agent平臺。
在科技企業的各種演示中,AI Agent似乎已經能融入用戶的工作和生活,不僅在手機端能執行預定酒店、點外賣等指令,還可以成為用戶的工作助理,智譜AI CEO張鵬將AI Agent比作大模型通用操作系統LLM-OS的雛形,它的潛力在于大模型公司可以以此搭建自己的生態圈,在手機、PC等端側找到落地的入口。
“(AI Agent)實現大模型的互聯互通,理論是沒有邊界的”。張鵬表示。
但也請對科技公司的理想保持冷靜。現階段,他們尚未解決的問題還有很多。比如商業模式,在C端,智能體目前尚沒有形成新的商業模式,依舊靠高流量帶來的付費轉化,百度、字節等大廠的智能體還需要靠自己已有的流量陣地完成分發。
而在B端,紅杉在近期一份報道中指出,隨著代理(Agent)應用很快變得更加復雜,對于任何給定的領域,收集現實世界的數據、編碼領域和應用特定的認知架構也將成為更多玩家擺在眼前的挑戰。
當然,在「X」上也涌現出更多的嘗試。除了我們已熟悉的AI手機、AI PC外,紅極一時的AI Pin不見了,新的風口屬于AI玩具和AI耳機。
字節的顯眼包,已經開賣的AI毛絨玩具,究竟是風口,還是剛需,銷量和復購數字會給出答案。
一句話總結,在強調「應用優先」的共識里,從能用到好用,還有許多鴻溝。
4、資金大分裂繼續,窮人富人已經出現
熱鬧的年終發布月里,久違的大模型融資熱又來了。
上個月底,在OpenAI和Anthropic完成新一筆融資后,據我們不完全統計,12月初,又一批國內外的明星AI企業們拿到了「過冬錢」。
國內大模型企業中,面壁智能、智譜AI、階躍星辰完成新一輪融資,至此也將國內基座大模型的估值抬升至200億元門檻,隨著單筆融資的提升,我們發現接住國內大模型公司已經變成了老股東、國資和科技大廠。
國外企業中,模型層、應用層和幾基座層均有新融資出現,Perplexity AI、X.AI、Databricks、Cursor等公司都拿到了新一筆錢。
拿到錢該如何分配,是這些公司下一步的重點,加碼技術研發和基礎設施建設還是主線。X.AI在本次融資公告中就提到,主要用途預計是采購另外10萬塊英偉達 GPU,以進一步擴充其算力規模。
融資的牌桌上,有富人,就有窮人。風險機構Northzone合伙人Molly Alter預測:“「最誘人」的交易將繼續以極高的估值進行,但對于其他公司而言,則需要展示非常具體的指標才能獲得高估值。「富人」和「窮人」將出現巨大的分化。”
分化的結果將是,我們會看見,尋求退場或倒閉的初創公司會增加,大型科技公司和頭部企業的整合速度也會加快。
如Perplexity AI在本月收購了一家名為Carbon的小型初創公司,Cursor背后的開發商Anysphere也將另一款AI編碼助手Supermaven收入囊中。
「The information」此前曾提出,衡量那些短期內不太可能被收購的公司主要有以下幾點因素:收入和利潤、增長、員工人數、籌集的總資金以及公司是否從可能成為收購者的戰略投資者那里籌集了大量資金。
5、回流與出走,所有人都面臨“人”的問題
人、錢、事,是所有公司的三要素,而在大模型行業,人又是最關鍵的因素。
圍繞大模型組織的整合、人才的回流和出走,成了年末的焦點話題。
此前我們在《大模型狂飆兩年后,“六小龍”開始做減法》曾報道過,大模型「六小龍」中已經不斷有人員離開,他們離職的方向包括但不限于——回流大廠、再創業。
而再創業的方向基本也和AI相關,零一萬物前聯潘欣在近期以閃極AI合伙人身份投身AI眼鏡浪潮,月之暗面前產品負責人王冠的新創業項目ONE2X也在11月完成天使輪融資。
而「人」也是過去一年里OpenAI頭疼的問題。不久前,「GPT之父」Alec RadfordAlec Radford也宣布從OpenAI離開,宣布將開啟自己獨立研究生涯。搜索負責人Shivakumar Venkataraman也在加入公司七個月后離職,他領導了OpenAI企業客戶的搜索和人工智能的開發。
類似的整合也出現在大廠內部,它們需要以更靈活的姿態應對競爭。此前據《智能涌現》報道,阿里旗下的AI應用「通義」也從阿里云分拆,并入阿里智能信息事業群。
可以肯定的是,隨著競爭激烈,組織和人才整合和分化不會停止。
時間撥回去年12月,在經歷了內斗動蕩后,重回管理層的Sam Altman或許不會想到,此刻的OpenAI已經歷了一輪人才的大換血。
一年前,人們討論的話題是創業公司和大廠間的競爭,技術上聚焦長文本窗口,流行大模型是一把手工程,一年過去,這些話題還在討論,但有些問題已經隨技術更迭成為共識。
即便人們對AI依舊懷疑,但它確實已走入人們的生活,這個趨勢將無法阻擋,正如Sam Altman在12天直播發布會后所說的那樣:
“You can just do things。”
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.