公眾號記得加星標??,第一時間看推送不會錯過。
領(lǐng)先的人工智能模型能力持續(xù)加速提升,包括OpenAI和Anthropic在內(nèi)的幾家大型人工智能公司正朝著今年晚些時候的IPO邁進。然而,人們對人工智能的抵觸情緒依然暗流涌動,在某些情況下甚至已經(jīng)爆發(fā),尤其是在美國,一些地方政府開始對新建數(shù)據(jù)中心實施限制甚至徹底禁止。
要掌握如此多的信息并非易事,但斯坦福大學(xué)以人為本人工智能中心發(fā)布的2026年版人工智能指數(shù)報告卻做到了。這份超過400頁的報告包含了數(shù)十個數(shù)據(jù)點和圖表,從基準評分、投資和公眾認知等多個角度探討了人工智能這一主題。與往年一樣(參見我們2021年、2022年、2023年、2024年和2025年的報道),我們閱讀了這份報告,并總結(jié)出了概括2026年人工智能發(fā)展趨勢的關(guān)鍵要素。
美國公司在人工智能模型領(lǐng)域處于領(lǐng)先地位
![]()
過去十年,美國在人工智能模型發(fā)布方面一直處于領(lǐng)先地位,2025年依然如此。據(jù)研究機構(gòu)Epoch AI的數(shù)據(jù)顯示,總部位于美國的機構(gòu)在2025年發(fā)布了50個“值得關(guān)注”的模型。然而,中國的模型產(chǎn)量正在迅速縮小差距。
幾乎所有知名模型都源自工業(yè)界(而非學(xué)術(shù)界或政府機構(gòu))。EpochAI 追蹤到,2025 年將有 87 個知名模型來自工業(yè)界,而其他所有來源僅有 7 個。這是一個重要的長期趨勢。目前,工業(yè)界發(fā)布的模型占知名模型總數(shù)的 90% 以上,而 2015 年這一比例略低于 50%,2003 年則為零。
中國在機器人領(lǐng)域處于領(lǐng)先地位
![]()
盡管美國公司發(fā)布了數(shù)量最多的知名人工智能模型,但中國在機器人部署方面也擁有同樣明顯的領(lǐng)先優(yōu)勢。根據(jù)國際機器人聯(lián)合會的數(shù)據(jù),到2024年,中國將安裝29.5萬臺工業(yè)機器人。日本將安裝約4.45萬臺,美國將安裝3.42萬臺。
自2022年以來,全球人工智能計算能力每年增長3.3倍
![]()
最新的斯坦福人工智能指數(shù)報告列舉了許多引人注目的人工智能發(fā)展數(shù)據(jù),但沒有一項數(shù)據(jù)能比得上 EpochAI 對人工智能總計算能力的衡量。
該圖以英偉達 H100e 的計算能力為標尺,顯示自 2022 年以來,全球 AI 計算能力每年增長超過三倍。自 2021 年(有記錄的第一年)以來,AI 計算總量增長了 30 倍。
英偉達是此次架構(gòu)升級的最大受益者,其GPU目前占據(jù)全球AI計算能力的60%以上。亞馬遜和谷歌——它們各自為AI工作負載設(shè)計硬件——分列第二和第三。
訓(xùn)練人工智能模型會產(chǎn)生巨大的碳排放
![]()
斯坦福大學(xué)人工智能指數(shù)在前幾年就曾指出人工智能訓(xùn)練產(chǎn)生的碳排放問題,而且這個問題仍在朝著令人擔憂的方向發(fā)展。
該報告估計,訓(xùn)練最新的大型語言模型(例如 xAI 的 Grok 4)會產(chǎn)生超過 72,000 噸的碳當量排放。這比往年的估計值大幅增加。OpenAI 的GPT-4估計產(chǎn)生 5,184 噸碳排放,Meta 的Llama 3.1 405B 估計產(chǎn)生 8,930 噸碳排放。
AI Index指導(dǎo)委員會聯(lián)合主任雷·佩羅表示,這些數(shù)據(jù)只是估算值。“這些估算值應(yīng)謹慎解讀。就Grok而言,它們很大程度上依賴于從公開報道(例如《福布斯》文章)、xAI聲明和其他無法核實的來源推斷出的數(shù)據(jù),這引入了一定程度的不確定性。”佩羅說道。另一方面,佩羅指出,“Epoch AI獨立估算Grok 4的排放量要高得多,約為14萬噸二氧化碳。”
人工智能推理產(chǎn)生的排放量也在持續(xù)增加,但不同模型的排放量差異很大。報告估計,推理效率最低的模型的碳排放量是推理效率最高模型的十倍以上。據(jù)估計, DeepSeek的 V3 模型在響應(yīng)“中等長度”的提示時會消耗約 23 瓦的功率,而 Claude 4 Opus 的功率估計約為 5 瓦。
LLM正在迅速超越新的基準
![]()
過去十年,人工智能模型的性能以驚人的速度提升,而且正如上圖所示,這種進步似乎還在加速。特別是多模態(tài)線性模型,其性能幾乎在被發(fā)明出來的同時就達到了各項基準測試的標準。
智能體人工智能取得了最為顯著的進步。圖表右側(cè)的兩條陡峭曲線分別代表OSWorld 基準測試(用于衡量計算機的自主使用能力)和SWE-Bench Verified 軟件工程基準測試(用于衡量自主編碼能力)。
模型在“人類最后的考試”(Humanity's Last Exam)上的表現(xiàn)也在迅速提升。這項基準測試包含由各領(lǐng)域?qū)<邑暙I的題目,旨在代表他們各自領(lǐng)域中最棘手的問題。2025 年斯坦福人工智能指數(shù)報告顯示,排名第一的模型 OpenAI 的 o1 僅正確回答了 8.8% 的問題。此后,準確率已提升至 38.3%——但即便如此,這個數(shù)字也略顯過時,因為截至 2026 年 4 月,得分最高的模型(例如 Anthropic 的 Claude Opus 4.6 和 Google 的 Gemini 3.1 Pro)的準確率均已超過 50%。
不過,佩羅提醒說,基準測試結(jié)果未必總能反映在實際應(yīng)用中。“我們通常缺乏衡量系統(tǒng)(或代理)在特定環(huán)境下運行效果的指標,”佩羅說,“知道某個法律推理基準測試的準確率達到75%,并不能告訴我們它在實際法律實踐中有多大的適用性。”
人工智能在醫(yī)學(xué)領(lǐng)域的研究取得進展
![]()
人工智能基準測試的進步似乎也體現(xiàn)在醫(yī)學(xué)領(lǐng)域,人工智能在醫(yī)學(xué)領(lǐng)域的應(yīng)用正以驚人的速度增長。醫(yī)學(xué)研究領(lǐng)域的應(yīng)用尤其迅速。正如上圖所示,過去兩年中,關(guān)于人工智能在藥物研發(fā)領(lǐng)域應(yīng)用的論文數(shù)量增加了一倍多。而關(guān)于多模態(tài)生物醫(yī)學(xué)人工智能(用于分析醫(yī)學(xué)圖像和文本)的論文數(shù)量,則是兩年前的2.7倍。
LLM在讀取模擬時鐘方面仍然存在問題
![]()
盡管人工智能模型在某些領(lǐng)域取得了快速進步,但在一些常見任務(wù)上,例如讀取時鐘和理解日歷,它們的表現(xiàn)仍然非常糟糕。ClockBench是一款用于衡量多模態(tài)邏輯學(xué)習(xí)模型 (LLM) 讀取模擬時鐘能力的工具,它發(fā)現(xiàn)即使是這項任務(wù)中表現(xiàn)最佳的模型——OpenAI 的 GPT-5.4——也只有 50% 的概率能正確讀取時鐘。
大多數(shù)模型的得分都遠低于此。Anthropic 的 Claude Opus 4.6 讀取時間的準確率僅為 8.9%。這令人驚訝,因為該模型在其他基準測試中通常表現(xiàn)出色。(如前所述,Claude Opus 4.6 在“人類最后的考試”中取得了頂尖成績。)
當然,在現(xiàn)實生活中,語言學(xué)習(xí)模型很少會被要求執(zhí)行這項任務(wù),但佩羅表示,這代表了一個更普遍的問題。“有研究表明,當系統(tǒng)被問及語言與其他模態(tài)(例如圖像或音頻,如語調(diào))的組合時,語言成分承擔了令人驚訝的很大一部分工作,甚至完全忽略了非語言信息。”
人工智能投資將在2025年達到新高峰
![]()
人工智能模型性能的提升與對人工智能公司的投資齊頭并進。據(jù)人工智能分析公司Quid的數(shù)據(jù)顯示,2025 年人工智能投資額創(chuàng)下新紀錄,超過 5810 億美元。
這比 2024 年的 2530 億美元支出翻了一番還多,并迅速超過了 2021 年創(chuàng)下的 3600 億美元的紀錄。與 2021 年以并購為主導(dǎo)的投資不同,2025 年創(chuàng)紀錄的投資結(jié)果是由對人工智能公司的私人投資所主導(dǎo)的。
大部分資金都流向了美國,去年美國在人工智能領(lǐng)域的投資超過 3440 億美元。
軟件工程師們正全力投入人工智能領(lǐng)域
![]()
然而,人工智能的普及不僅僅取決于私人資金。在GitHub上,人工智能也展現(xiàn)出蓬勃的草根熱情,到2025年,與人工智能相關(guān)的項目數(shù)量已飆升至558萬個。這比2020年增長了近五倍,比2024年增長了23.7%。
這個數(shù)字似乎也并未反映出人工智能項目數(shù)量的激增。獲得至少 10 顆星的項目數(shù)量增長速度與人工智能項目整體獲得的星數(shù)增長速度相近。這表明這些項目確實得到了用戶的積極參與。考慮到某些項目的受歡迎程度,這或許并不令人意外。例如,開源智能體人工智能軟件 OpenClaw就獲得了 35.2 萬顆星。
批評人士可能會擔心,這種熱情部分是由人工智能機器人或智能體項目推動的。佩羅承認了這一點,并表示“GitHub 的使用強度可能與人工智能的使用強度高度相關(guān)”。然而,至少根據(jù)一個名為Agents in the Wild 的活動追蹤網(wǎng)站(斯坦福大學(xué)的報告中并未提及該網(wǎng)站)的數(shù)據(jù),GitHub 的大部分活動似乎仍然是由人類完成的。
計算機科學(xué)領(lǐng)域也同樣充滿熱情。過去十年間,人工智能相關(guān)的計算機科學(xué)出版物數(shù)量翻了一番多,從10.2萬篇增至25.8萬篇。其中超過68%的出版物仍然來自學(xué)術(shù)界,而政府和產(chǎn)業(yè)界的貢獻分別約為11.5%和12.5%(截至2024年)。機器學(xué)習(xí)、計算機視覺和生成式人工智能領(lǐng)域的出版物數(shù)量增長最為顯著。
人工智能對就業(yè)的總體影響仍不明朗
![]()
生成式人工智能的興起與就業(yè)擔憂密不可分,而全球最大人工智能公司首席執(zhí)行官們令人擔憂的預(yù)測無疑加劇了這種現(xiàn)象。然而,迄今為止的數(shù)據(jù)仍然喜憂參半。
上圖展示了軟件開發(fā)人員和客戶支持人員這兩個被認為極易被人工智能取代的職業(yè)中,不同年齡段人群的“標準化就業(yè)人數(shù)” 。與往年一樣,數(shù)據(jù)顯示這些職業(yè)的入門級職位有所減少,而中級和高級職位則保持穩(wěn)定或有所增加。然而,這些變化很難與更廣泛的經(jīng)濟趨勢區(qū)分開來。報告指出,許多行業(yè)的失業(yè)率都在上升,而且與預(yù)期相反,受人工智能影響最小的勞動者的失業(yè)率上升幅度超過了受人工智能影響最大的勞動者的失業(yè)率上升幅度。
公眾對人工智能的整體看法略有改善
![]()
這份報告最令人驚訝的發(fā)現(xiàn)無疑是過去幾年人們對人工智能的樂觀態(tài)度出現(xiàn)了雖小但顯著的增長。益普索(Ipsos)的一項調(diào)查顯示,59%的受訪者認為“人工智能的益處大于弊端”,高于2024年的55%。68%的受訪者表示他們對人工智能有“良好的理解”,略高于2024年的67%。
針對類似問題的調(diào)查結(jié)果顯示,人們對人工智能的總體接受度高于負面評價,盡管一些負面情緒也有所增加。例如,52%的受訪者表示,使用人工智能的產(chǎn)品和服務(wù)讓他們感到“不安”。
各國對人工智能的態(tài)度差異顯著。東南亞國家,包括中國、馬來西亞、泰國、印度尼西亞和新加坡,對人工智能的態(tài)度趨于積極。然而,同比增幅最大的國家是德國(12%)、法國(10%)和荷蘭(10%)。哥倫比亞的降幅最大(-6%),與往年趨勢相反。
各個國家/地區(qū)對人工智能監(jiān)管的信任度差異顯著
![]()
雖然越來越多的人似乎認為人工智能將產(chǎn)生積極影響,但這種轉(zhuǎn)變在一些國家卻伴隨著深深的不信任,尤其是在政府監(jiān)管方面。
值得注意的是,盡管美國在人工智能投資方面領(lǐng)先,但在信任度方面卻排名墊底。益普索的調(diào)查顯示,只有31%的受訪者相信政府能夠有效監(jiān)管人工智能。許多歐洲國家以及日本的信任度也較低。亞洲和南美洲國家對政府監(jiān)管人工智能的能力表現(xiàn)出最高的信任度。
美國和哥倫比亞的調(diào)查結(jié)果引人深思。美國民眾對人工智能監(jiān)管普遍缺乏信任,但大多數(shù)受訪者認為人工智能的益處將大于弊端。而哥倫比亞則相反,民眾對人工智能監(jiān)管表現(xiàn)出較高的信任度,但對人工智能的整體看法卻在惡化。
這感覺像是 2025 年人工智能發(fā)展趨勢的一個縮影。人工智能模型的結(jié)果質(zhì)量以及公眾對人工智能將如何影響社會的看法,都將繼續(xù)存在差異,而且這種差異往往很大,具體取決于手頭的任務(wù)或問題。
(來源:編譯自IEEE)
*免責聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個人觀點,半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達一種不同的觀點,不代表半導(dǎo)體行業(yè)觀察對該觀點贊同或支持,如果有任何異議,歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。
今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4376內(nèi)容,歡迎關(guān)注。
加星標??第一時間看推送
![]()
![]()
求推薦
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.