无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

野蠻生長后,AI大模型還需要重復“造輪子”?

0
分享至

“我們塑造了工具,此后工具也塑造了我們。”

AI大模型帶來的智能革命,媲美工業革命和電力革命,深刻改變人類社會的生產生活方式,是開啟智能時代的那一臺“蒸汽機”。

從文生文到文生圖,再到文生視頻,以ChatGPT、Sora等為代表的大模型引領了全球人工智能技術與產業的新一輪浪潮,海內外大模型相關研究與產品競相涌現、加速迭代,進入“百舸爭流”的新時代。

不過,人工智能領域似乎進入了一個微妙的節點,眾多科技巨頭和創業公司紛紛推出自己的AI大模型產品,卻難掩同質化的窘境。回顧2023年,自3月份ChatGPT-4上線后,國內科技企業紛紛跑步入場。百度“文心一言”、阿里巴巴“通義千問”、華為“盤古”、360“智腦”、昆侖萬維“天工”、京東“靈犀”、科大訊飛“星火”、騰訊“混元”、商湯“日日新” 等大模型先后登場。截至今年5月,國內已經推出超過300個大模型。其中,10億參數規模以上的大模型已超100個。

無論是何種類型的大模型,在“百模大戰”的背景下,其功能、用途、場景都難免重復。但在業內人士看來,大模型的發展還遠未觸及天花板,不僅“百模大戰”不是終點,“萬模群舞”或許就在不遠的將來。

AI大模型過剩了嗎?

近兩年來,大模型技術呈現爆發式的增長,而且在各個研究領域和實踐任務上都取得了矚目成果,諸多科技巨頭公司也紛紛投身于大模型的浪潮之中。

在最早應用大模型的自然語言處理(NLP)領域,OpenAI推出了擁有1750億個參數的ChatGPT,這一行動激發了一系列的應用熱潮:微軟將ChatGPT接入了其搜索引擎Bing;谷歌推出了自家的語言大模型PaLM和對話模型Bard,并且已經開始了PaLM2的研發;我國百度、字節跳動、華為等公司也積極推出了自己的語言大模型。

在NLP大模型取得了巨大成功的鼓舞下,其他領域也涌現出了大模型的身影。在語音識別領域,OpenAI和谷歌分別推出了擁有15億參數的Whisper模型和20億參數的USM模型,而微軟則推出了能夠在幾秒鐘內準確模仿任何人說話聲音和語調的語音生成模型VALL-E;在視覺領域,基于大模型工作的GPT-4和OpenCLIP進行了語音和視覺的跨模態訓練,使得這些模型能夠用自然語言的方式去理解圖片。

此外,谷歌和臉書公司也各自采用了監督學習和非監督學習的方式,分別訓練了220億參數和65億參數的Vision Transformer視覺大模型,這些模型在性能上大大超越了參數數量更少的模型;在強化學習領域,谷歌和DeepMind公司開發的PaLM-E和Gato,也開始探索和實驗強化學習大模型的可能性。

從去年開始,中國涌現出大量的行業大模型。這種現象背后隱含的一個事實是:打造行業大模型的技術門檻相對較低。隨著開源技術的普及,技術上的壁壘逐漸被打破。許多優質的預訓練技術、框架和工具已經被廣大研發者和機構所采納和使用。相對于開發一個全新的大模型,微調現有的通用大模型更為簡單快捷,只需要大量、高質量的行業數據即可。

打造一個強大的通用大模型卻是一項長期且復雜的任務,這需要巨大的計算資源、多樣化的數據和深厚的技術積累。因此,相比之下,行業大模型的產生,就顯得更為便捷了。

但這種便捷性帶來的是雙刃劍效應。大量涌現的所謂行業大模型,并不具備真正的競爭壁壘。技術上,它們大多基于相似的開源技術和通用大模型進行微調,很少有真正的技術創新。數據上,盡管行業數據是關鍵,但許多企業并沒有真正挖掘、整合和利用這些數據的能力,使得其微調的效果并不理想。

事實上,底層通用大模型的每次迭代,都將“淹沒”一大批所謂的行業大模型。大模型技術的快速迭代就是一個典型的例子,每次通用大模型的升級都使其前一代的技術變得陳舊。

以OpenAI的GPT系列為例,從GPT到GPT-4,每當OpenAI發布一個新版本,它都會因為更多的參數、更先進的算法和更高的性能,使前一版本相形見絀。而這種進化不僅僅局限于通用模型,實際上,它更多地影響到了基于前一代模型微調出的行業大模型。

試想,一個企業可能已經投入大量資源在GPT-3上,開發出一套專門為醫療領域設計的AI系統。但當GPT-4問世時,這家企業突然發現,他們的專業系統在新的通用模型面前相對落后,甚至可能不如直接使用GPT-4的效果。這就是因為,每次通用大模型的迭代都意味著一個巨大的技術飛躍,其對特定任務的處理能力會顯著增強。

值得深思的是,中國在AI領域已取得了許多值得驕傲的成果。然而,與國外相比,中國在AI大模型的算法創新和理論研究上仍存在差距。尤其是美國在AI大模型的基礎算法和架構創新方面領先,例如Transformer模型和BERT等創新技術,對全球AI發展產生了深遠影響。

這對于中國的技術界來說是一個挑戰,也是一個機會。挑戰在于如何在短時間內彌補這一差距,機會則在于一旦做到,國內的行業大模型將能夠站在一個更高的起點。

要卷應用,不要卷模型

也有一種觀點認為,不要重復造輪子,AI十倍的機會在別處。百度董事長兼CEO李彥宏此前曾表示:“重新做一個ChatGPT沒有多大意義。基于語言大模型開發應用機會很大,但沒有必要再重新發明一遍輪子。”

今年7月,李彥宏在2024世界人工智能大會呼吁:“不要卷模型,要卷應用!”。他認為,AI技術已經從辨別式轉向了生成式,但技術本身并不是目的,真正的價值在于如何將這些技術應用于實際場景,解決實際問題。

通用大模型發展至今,面臨算力需求大、訓練和推理成本高、數據質量不佳等挑戰。一個成功的且可對外商業化輸出的通用大模型,要求廠商擁有全棧大模型訓練與研發能力、業務場景落地經驗、AI安全治理舉措、以及生態開放性等核心優勢。

另外,訓練基礎模型的成本也是非常之高,做一個千億級的大模型,需要單機群萬卡以上的算力。從國內外來看,真正做通用模型的公司并沒有那么多。相反,訓練垂直領域模型所需要的代價和資源遠遠小于從零開始做通用模型。

因而,從商業邏輯的角度來看,大部分公司不具備做通用大模型的能力,巨頭更適合做通用大模型,擁有豐富場景數據積累的公司更適合做垂域模型或者AI原生應用。

AI原生應用開發的具體思路主要包含三個方面。

首先是MoE(Mixture-of-Experts,專家混合),其前身是“集成學習”,作為一種由專家模型和門控模型組成稀疏門控制的深度學習技術,MoE由多個子模型(即專家)組成,每個子模型都是一個局部模型,專門處理輸入空間的一個子集。在“分而治之”的核心思想指導下,MoE使用門控網絡來決定每個數據應該被哪個模型去訓練,從而減輕不同類型樣本之間的干擾。

通俗來講,MoE就像復仇者聯盟,每個子模型(專家)都是一個超級英雄,門控網絡則是尼克·弗瑞,負責協調各個超級英雄,決定在什么情況下召喚哪位英雄。之后選擇最合適的專家進行處理,并將各位專家的輸出匯總起來,給出最終的答案。

需要強調的是,MoE不是通常意義上的學術概念,更準確地說,是大小模型的混用,不依賴一個模型來解決所有問題。什么時候調用小模型、什么時候調用大模型、什么時候不調用模型,需要針對應用的不同場景做匹配。

其次是小模型。相比大模型,小模型推理成本低,響應速度快,在一些特定場景中,經過SFT精調(在一個已經訓練好的模型基礎上,通過進一步訓練模型的一部分參數,以適應新的任務或數據集)后的小模型,使用效果可以媲美大模型。小模型的獨特價值在于通過大模型,壓縮蒸餾出來一個基礎模型,然后再用數據去訓練,這比從頭開始訓小模型,效果要好很多,比基于開源模型訓練出來的模型效果更好、速度更快、成本更低。

第三是智能體。智能體以云為基礎,以AI為核心,構建一個立體感知、全域協同、精準判斷、持續進化、開放的智能系統。智能體能力提升會不斷催生出大量新應用。智能體機制,包括理解、規劃、反思和進化,它讓機器像人一樣思考和行動,可以自主完成復雜任務,在環境中持續學習、實現自我迭代和進化。

智能體還有一個特點,在一些復雜系統中,可以讓不同智能體互動,形成群體智能,通過相互協作,更高質量地完成任務,這就好比一個無人機群,可以完成一架無人機難以完成的工作。當前火熱的車路云一體化也可以借助群體智能,賦予城市交通協同感知、協同計算、融合決策等能力,從而助力整個城市的交通效率實現全局最優。

AI Infra將是下一個應用熱點?

每個科技巨頭都希望在自己的生態中形成閉環,一定程度上也是因為整個國內開源的生態不夠強大。

目前,大模型產業鏈大致可以分為數據準備、模型構建、模型產品三個層次。在國外,AI大模型的產業鏈比較成熟,形成了數量眾多的AI Infra(架構)公司,但這一塊市場在國內還相對空白。

而在國內,巨頭們都有一套自己的訓練架構。

比如,華為的模型采用的是三層架構,其底層屬于通識性大模型,具備超強的魯棒性的泛化性,在這之上是行業大模型和針對具體場景和工作流程的部署模型。這種構架的好處是,當訓練好的大模型部署到垂類行業時,可以不必再重復訓練,成本僅是上一層的5%~7%。

阿里則是為AI打造了一個統一底座,無論是CV、NLP、還是文生圖大模型都可以放進去這個統一底座中訓練,阿里訓練M6大模型需要的能耗僅是GPT-3的1%。

百度和騰訊也有相應的布局,百度擁有覆蓋超50億實體的中文知識圖譜,騰訊的熱啟動課程學習可以將萬億大模型的訓練成本降低到冷啟動的八分之一。

整體來看,各個大廠之間的側重點雖然有所不同,但主要特點就是降本增效,而能夠實現這一點,很大程度上就是受益于“一手包辦”的閉環訓練體系。

反觀國外,成熟的AI產業鏈形成了數量眾多的AI Infra公司。如果用云計算三層構架做類比,AI Infra與PaaS層級相似,是鏈接算力和應用的中間層基礎設施,包括硬件、軟件、工具鏈和優化方法等,為大模型應用開發提供一站式模型算力部署和開發工具平臺。算力、算法、數據可以看作IaaS層,各種開源和閉源模型則是SaaS在大模型時代的新演變,即MaaS。

如果把開發AI應用看成建房子,那么AI Infra就是提供水泥鋼筋的施工隊。AI Infra施工隊的價值點在于它是一個集成平臺,將下層的算力芯片層與上層的AI應用層打通,讓開發者實現一鍵調用,并且實現降低算力成本、提升開發效率并且保持模型優秀性能的效果。

讓應用更簡單,讓AI落地更便捷,是AI Infra的使命。可以說,AI應用的市場有多大,AI Infra的機會就有多大。

AI Infra公司有的專門做數據標注、做數據質量、或者模型架構等。這些企業的專業性,能夠讓他們在某一個單一環節的效率、成本、質量上都要比大廠親自下場做得更好。

比如,數據質量公司Anomalo就是Google Cloud和Notion的供應商,它可以通過ML自動評估和通用化數據質量檢測能力,來實現數據深度觀察和數據質量檢測。

這些公司就像汽車行業的Tier 1,通過專業的分工,能夠讓大模型企業不必重復造輪子,而只需要通過整合供應商資源,就能快速地搭建起自己模型構架,從而降低成本。

但國內在這一方面并不成熟,原因在于:一方面國內大模型的主要玩家都是大廠,他們都有一套自己的訓練體系,外部供應商幾乎沒有機會進入;另一方面,國內也缺乏足夠龐大的創業生態和中小企業,AI供應商也很難在大廠之外找到生存的空間。

以谷歌為例,谷歌愿意將自己訓練的數據結果分享給它的數據質量供應商,幫助供應商提高數據處理能力,供應商能力提升之后,又會反過來給谷歌提供更多高質量數據,從而形成一種良性循環。

國內AI Infra生態的不足,直接導致的就是大模型創業門檻的拔高。如果將在中國做大模型比喻成吃上一頓熱乎飯,那必須從挖地、種菜開始。目前,在AI 2.0的熱潮中,一個重要的特點就是“兩極化”:最熱門的要么是大模型層、要么就是應用層。而類似AI Infra的中間層,反而是很大的真空地帶,也可能是下一個機遇所在。

伴隨AI應用的快速發展,未來誰能夠為多樣化的應用場景提供高效便捷的大模型一站式部署方案,誰就有可能在這場競爭中勝出。而這其中,底層技術、中層平臺、上層應用缺一不可,只有讓各方面能力得到更全面、均衡地發展,才能在AI之路上走得更遠、更穩健。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
菲律賓聲稱其主力護衛艦在黃巖島附近海域與中國海空力量發生對峙,國防部:中方在黃巖島開展包括科考在內的任何活動,都是主權國家的權力

菲律賓聲稱其主力護衛艦在黃巖島附近海域與中國海空力量發生對峙,國防部:中方在黃巖島開展包括科考在內的任何活動,都是主權國家的權力

每日經濟新聞
2026-06-25 17:26:11
交易得到拉梅洛·鮑爾后,森林狼預計的首發發生了翻天覆地變化

交易得到拉梅洛·鮑爾后,森林狼預計的首發發生了翻天覆地變化

好火子
2026-06-26 00:59:41
33艘船通過,中巴爆發新爭端,我大使斬釘截鐵,撕毀契約后果自負

33艘船通過,中巴爆發新爭端,我大使斬釘截鐵,撕毀契約后果自負

面包夾知識
2026-06-25 23:11:00
中國一定要警惕!越南正因為鮮為人知的原因面臨分裂風險

中國一定要警惕!越南正因為鮮為人知的原因面臨分裂風險

怪味歷史連連看
2026-06-25 16:45:10
美國科技巨頭推出全球首款亞1納米芯片,集成近1000億個晶體管僅指甲蓋大小!公司股價盤前大漲

美國科技巨頭推出全球首款亞1納米芯片,集成近1000億個晶體管僅指甲蓋大小!公司股價盤前大漲

每日經濟新聞
2026-06-25 20:59:06
71歲盧卡申科長期離境!交往22歲嫩模,讓他開始相信愛情?

71歲盧卡申科長期離境!交往22歲嫩模,讓他開始相信愛情?

大江看潮
2026-06-25 08:32:25
981天后再為巴西出戰!34歲內馬爾賽后激動落淚,與家人深情擁抱

981天后再為巴西出戰!34歲內馬爾賽后激動落淚,與家人深情擁抱

我愛英超
2026-06-25 08:54:03
SI預測世界杯:厄瓜多爾1-1德國,突尼斯0-4荷蘭,日本3-1瑞典

SI預測世界杯:厄瓜多爾1-1德國,突尼斯0-4荷蘭,日本3-1瑞典

劉哥談體育
2026-06-25 18:55:05
蘋果跌幅擴大至5%

蘋果跌幅擴大至5%

每日經濟新聞
2026-06-25 21:53:09
委內瑞拉地震前后對比,兩場間隔39秒大地震,破壞真的非常可怕

委內瑞拉地震前后對比,兩場間隔39秒大地震,破壞真的非常可怕

三叔的裝備空間
2026-06-25 23:28:21
妻子出軌后,我帶娃遠走小縣城過日子,10年后見她在翻垃圾桶

妻子出軌后,我帶娃遠走小縣城過日子,10年后見她在翻垃圾桶

千秋文化
2026-05-30 20:13:35
鬧大了!《父母愛情》跌落神壇,遭大批網友審判,稱劇情三觀不正

鬧大了!《父母愛情》跌落神壇,遭大批網友審判,稱劇情三觀不正

八卦南風
2026-06-25 17:12:02
恭喜!中國女排棄將,1米87接應留洋續約,已帶隊獲得冠軍

恭喜!中國女排棄將,1米87接應留洋續約,已帶隊獲得冠軍

跑者排球視角
2026-06-25 21:43:53
新科狀元迪班薩亮相奇才:官宣穿4號球衣 曾豪言要特雷楊讓出3號

新科狀元迪班薩亮相奇才:官宣穿4號球衣 曾豪言要特雷楊讓出3號

醉臥浮生
2026-06-26 00:09:07
720萬考生僅1人滿分,高考數學150分,高校為何搶著要?

720萬考生僅1人滿分,高考數學150分,高校為何搶著要?

馬蹄燙嘴說美食
2026-06-25 13:28:20
癌癥是基因注定的,躲也躲不掉?父母得了5種癌,或遺傳給下一代

癌癥是基因注定的,躲也躲不掉?父母得了5種癌,或遺傳給下一代

39健康網
2026-06-25 08:30:42
7換1豪賭!火箭得布里奇斯+9首輪簽,這是要幫杜蘭特沖冠?

7換1豪賭!火箭得布里奇斯+9首輪簽,這是要幫杜蘭特沖冠?

銜春信
2026-06-25 15:52:13
財稅大清查:頭部央企國企都逃不過!

財稅大清查:頭部央企國企都逃不過!

櫻桃大房子
2026-06-25 23:14:21
零跑"神車"官宣:6月25日,正式上市

零跑"神車"官宣:6月25日,正式上市

科技堡壘
2026-06-25 10:20:07
深夜,直線跳水!科技巨頭,突傳利空!

深夜,直線跳水!科技巨頭,突傳利空!

證券時報
2026-06-25 23:15:09
2026-06-26 05:08:49
極智GeeTech incentive-icons
極智GeeTech
釋放科技想象,探索數字未來。
82文章數 18關注度
往期回顧 全部

科技要聞

存儲成本壓力山大!蘋果罕見全球提價

頭條要聞

女孩在網紅景點拍照時墜湖身亡 前一天剛參加中考

頭條要聞

女孩在網紅景點拍照時墜湖身亡 前一天剛參加中考

體育要聞

世界杯最動人一吻:我若離世 你就改嫁吧

娛樂要聞

這國產劇太裝了,居然還熱播第一?

財經要聞

又有紙尿褲送檢后被檢測出甲酰胺!

汽車要聞

老板們的新座駕!65萬元起,尊界V800/V680開啟預訂

態度原創

家居
本地
親子
數碼
軍事航空

家居要聞

綠意盎然 自然之境

本地新聞

2026世界杯全勤太難?這份保姆級攻略請收好

親子要聞

從“皇室御用”到“配方落后”,丹麥奶粉Arla在中國“失速”?

數碼要聞

徠卡SL3-P全畫幅相機發布:售45000元 1.76億像素超高分辨率

軍事要聞

特朗普:現在到了關注朝鮮問題的時候了

無障礙瀏覽 進入關懷版