網易首頁 > 網易號 > 正文 申請入駐

成本低20倍速度高10倍,“芯片即模型”打破GPU神話?(附論文原文)

0
分享至

兩天前,AI芯片創業公司 Taalas 發布了一篇頗具宣言意味的文章:《The Path to Ubiquitous AI》(《通往無處不在的 AI 之路》,原文附后)


核心觀點只有一句話:AI 要真正普及,必須解決兩個問題,延遲和成本。

該文指出,如今的AI基礎設施正在走向一種“數據中心+電廠”的畸形路徑。

房間大小的服務器、數百千瓦功耗、液冷系統、HBM堆疊、復雜封裝、成公里長的電纜。

這被認為不是AI的終局。

因為真正普及的技術,必須變得更簡單、更快、更便宜。

為此,Taalas提出一個極端方向,為每一個模型,生產專用芯片。

也就是說,不搞通用 GPU,而是“模型即芯片”。

為此, Taalas 開發了一個平臺,可以將任何 AI 模型轉化為定制硅芯片!皬氖盏揭粋全新的模型開始,只需兩個月,就能將其硬件化”。

據介紹,Taalas的核心開發理念有三點,即極致專用化、計算與存儲融合,及激進簡潔。

他們發布的首款產品,是硬編碼的 Llama 3.1 8B,性能表現十分搶眼。

據介紹,該產品由 24 人團隊完成,僅花費 3000 萬美元。


比如,17,000 tokens/秒、接近現有方案 10 倍速度、成本降低約 20 倍、功耗降低約 10 倍……

Taalas由此還提出“即時 AI”的概念。

一些資深開發者在 X 上的發帖,“17000 tokens/s…,等待模型思考的時代結束了”。


Basecamp 創始人 DHH 試用后稱,“感覺像作弊一樣快”。

半導體行業投資人 Pierre Lamond 稱,團隊做芯片的經驗業內頂級,認為他們的方向能 1000倍成本改善,從而推動AI成為基礎設施級能力。

Cambrian-AI首席分析師 Karl Freund 在 Forbes 專欄里稱,早期用戶把它的性能形容為“insane(瘋狂)”。


他指出,如果被大規模數據中心采用,可能會改變行業格局。


Freund 的擔憂是,每個模型一顆芯片,那么模型升級是否意味著換硬件?數據中心是否愿意承擔這種不靈活?

因此他認為,模型即芯片方向很有吸引力,但能否成為主流還說不好。

行業媒體 Financial Express分析指出,這種架構更適合穩定、高規模、單模型場景,在多模型頻繁迭代環境中可能受限。

而目前大模型的狀態,更顯然是后者。

但如果未來進入一個“少數基礎模型長期統治”的階段,那GPU是否仍是最優解?

盡管有所爭議,但Taalas在 AI 基礎設方向與架構的探索值得反思。

比如,這是否意味著AI算力可能發生第三次的路線分裂?

第一次分裂,是 CPU → GPU。
深度學習爆發后,通用CPU迅速被淘汰。并行計算取代串行計算,成為基礎設施底座。

NVIDIA 憑借GPU完成市值躍遷,成為AI時代最大贏家。

第二次分裂,是自建GPU → AI 云。

模型越來越大,企業越來越難自己部署,算力被抽象為API。

GPU不再只是硬件,而成為云服務的一部分。

亞馬遜Web Services、微軟 Azure、谷歌 Cloud 、阿里云、字節火山云等,成為 AI 基礎設施代名詞。

第三次分裂,會不會是 Taalas 提出的,模型即芯片?

不再依賴HBM、復雜封裝,也不依賴液冷,不是“更強GPU”,而是“推理專用ASIC的極端版本”。

或者,更本質的,Taalas 路線真正可能改變的,是AI的邊際成本曲線?

以下為Taalas博文原文

《通往無處不在的 AI 之路》

作者:Ljubisa Bajic

許多人相信,AI 確實已經進入真正可用的階段。在一些狹窄領域,它的表現已經超過人類。如果使用得當,它將成為前所未有的人類創造力與生產力放大器。

但它的大規模普及仍然受到兩個關鍵障礙的限制:高延遲和天文級成本。

與語言模型的交互速度遠遠跟不上人類思考的節奏。編程助手可能要思考幾分鐘,這會打斷程序員的心流狀態,限制人與 AI 的高效協作。而自動化的智能體應用需要的是毫秒級響應,而不是按人類節奏慢慢輸出。

在成本方面,部署現代模型需要巨大的工程投入和資本支出:占據整間房間的超級計算機,耗電數百千瓦,依賴液冷、先進封裝、堆疊內存、復雜 I/O,以及成公里的線纜。這最終擴展為城市規模的數據中心園區和配套網絡,帶來極高的運營成本。

雖然當下的趨勢似乎指向一個由數據中心和電廠構成的“反烏托邦未來”,但歷史往往走向另一條路。過去的技術革命,往往始于笨重而夸張的原型,隨后被更實用的突破所取代。

例如 ENIAC——一個充滿真空管和電纜、占據整間房間的龐然大物。它讓人類第一次見識到計算的魔力,但速度慢、成本高、無法擴展。晶體管的出現帶來了快速演進:從工作站、個人電腦到智能手機,最終實現了無處不在的計算,世界并沒有被 ENIAC 式機器所淹沒。

通用計算之所以進入主流,是因為它變得易于制造、速度更快、成本更低。

AI 也必須走同樣的道路。

關于 Taalas

成立于兩年半前,Taalas 開發了一個平臺,可以將任何 AI 模型轉化為定制硅芯片。從收到一個全新的模型開始,只需兩個月,就能將其硬件化。

由此生成的“硬核模型”(Hardcore Models),在速度、成本和功耗方面,相比軟件實現提升一個數量級。

Taalas 的工作基于三大核心原則:


1. 極致專用化

在計算發展史上,深度首款產品由 24 人團隊完成專用化始終是關鍵任務實現極致效率的最佳路徑。

AI 推理是人類面臨過的最重要計算負載之一,也是最適合專用化的領域。

其計算需求推動一個方向:為每一個模型生產最優的專用芯片。


2. 存儲與計算融合

現代推理硬件受到一個人為分割的限制:內存與計算分離,而且運行速度完全不同。

這種分離源于一個長期矛盾:

DRAM 密度更高、成本更低,但訪問片外 DRAM 的速度比片上內存慢數千倍;而計算芯片又無法采用 DRAM 工藝制造。

這種分割帶來了現代推理硬件的大量復雜性:先進封裝、HBM 堆疊、巨大的 I/O 帶寬、不斷上升的功耗,以及液冷系統。

Taalas 打破了這一邊界。通過在單芯片上統一存儲與計算,并達到 DRAM 級密度,其架構實現了前所未有的性能水平。


3. 激進簡化

通過消除存儲與計算的分離,并為每個模型定制芯片,Taalas 從第一性原理重新設計了整個硬件棧。

結果是一個不依賴復雜或前沿工藝的系統:無需 HBM、先進封裝、3D 堆疊、液冷或高速 I/O。

工程上的簡潔,帶來了系統總成本數量級的下降。

首批產品


基于上述理念,Taalas 打造了全球最快、成本和功耗最低的推理平臺。

目前發布的首款產品,是一個硬編碼的 Llama 3.1 8B 模型,既提供聊天演示,也提供推理 API 服務。

這款硅基 Llama 實現:

  • 每用戶 17K tokens/秒

  • 接近當前最先進方案的 10 倍速度

  • 構建成本降低 20 倍

  • 功耗降低 10 倍


之所以選擇 Llama 3.1 8B,是因為它體積適中且開源,便于快速硬化部署。

雖然模型為速度進行了大量硬編碼,但仍支持可配置上下文窗口,并通過 LoRA 進行微調。

第一代芯片采用自定義 3-bit 基礎數據類型,并結合 3-bit 與 6-bit 量化,因此在質量上相較 GPU 基準略有下降。

第二代硅平臺將采用標準 4-bit 浮點格式,在保持高性能的同時改善質量問題。

即將推出的模型

第二個模型將是一個中型推理型 LLM,仍基于第一代 HC1 平臺,預計今年春季進入實驗室并很快上線服務。

隨后,將基于第二代 HC2 平臺制造一個前沿級模型。HC2 具有更高密度和更快執行速度,計劃于冬季部署。

即時 AI,觸手可及

首個模型并非最前沿,但團隊仍以 Beta 形式發布,希望開發者體驗:當 LLM 推理達到亞毫秒級速度、接近零成本時,會帶來什么可能性。

他們相信,這將使許多此前不可行的應用成為現實,并鼓勵開發者探索新的應用場景。

關于團隊與方法

Taalas 的核心團隊規模很小,成員多為合作超過二十年的長期伙伴。團隊增長緩慢,重視專業能力、使命一致性和工程紀律。

  • 實質重于聲勢

  • 工藝重于規模

  • 嚴謹重于冗余


在許多深科技創業公司依靠龐大團隊、巨額融資和市場聲量“圍城式推進”的環境中,Taalas 選擇的是一次精準打擊。

首款產品由 24 人團隊完成,僅使用 3000 萬美元(總融資超過 2 億美元)。這證明:明確目標與專注執行,可以勝過蠻力投入。

未來,團隊將持續開放迭代,盡早發布系統,讓開發者參與驗證與完善。

結語

創新始于對既有假設的質疑,以及對被忽視路徑的探索,這正是 Taalas 選擇的方向。

他們的技術在性能、能效和成本上實現了躍遷式提升,并代表一種不同于主流的架構理念——重新定義 AI 系統的構建與部署方式。

真正的顛覆性技術,最初往往并不熟悉。團隊將致力于推動行業理解并采用這一新范式。

從硬編碼的 Llama 開始,并快速擴展到更強模型,Taalas 正在消除 AI 普及的兩大核心障礙:高延遲與高成本。

他們已經把即時、超低成本的智能交到開發者手中,現在,期待看到人們將用它創造什么。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
出現漢坦病毒病例郵輪所屬公司回應紅星新聞:“洪迪厄斯”號正前往特內里費島,目前船上未出現癥狀

出現漢坦病毒病例郵輪所屬公司回應紅星新聞:“洪迪厄斯”號正前往特內里費島,目前船上未出現癥狀

紅星新聞
2026-05-09 00:12:28
川北夫婦120萬買下山間別墅,院中地面石板破裂,撬開深挖后傻眼

川北夫婦120萬買下山間別墅,院中地面石板破裂,撬開深挖后傻眼

溫情郵局
2025-08-01 14:07:11
44歲阿隆索親承后悔執教皇馬!聽聞內訌如釋重負:慶幸我不用處理

44歲阿隆索親承后悔執教皇馬!聽聞內訌如釋重負:慶幸我不用處理

我愛英超
2026-05-09 07:38:09
日本媒體驚呼:中國電動兩輪車橫掃越南,讓本田措手不及

日本媒體驚呼:中國電動兩輪車橫掃越南,讓本田措手不及

阿芒娛樂說
2026-05-02 01:54:13
所有實驗室都怕字節,所有人都在夸DeepSeek!美國研究員中國AI行

所有實驗室都怕字節,所有人都在夸DeepSeek!美國研究員中國AI行

量子位
2026-05-08 12:25:08
德云社弟子大洗牌!3人自斷后路,岳云鵬邊緣,燒餅一哥地位穩了

德云社弟子大洗牌!3人自斷后路,岳云鵬邊緣,燒餅一哥地位穩了

白面書誏
2026-05-08 15:52:08
公交集團正式員工已經躺平不了了,想要混到退休不太可能

公交集團正式員工已經躺平不了了,想要混到退休不太可能

娛樂圈見解說
2026-05-09 00:23:44
湖人VS雷霆G3傷情報告出爐,彪哥狀態升級,老詹完成神級里程碑

湖人VS雷霆G3傷情報告出爐,彪哥狀態升級,老詹完成神級里程碑

世界體育圈
2026-05-09 15:16:29
賴清德跪拜日本殖民者八田與一,妄稱要對日本“飲水思源”,網紅“館長”:不肖子孫罪逆天

賴清德跪拜日本殖民者八田與一,妄稱要對日本“飲水思源”,網紅“館長”:不肖子孫罪逆天

海峽網
2026-05-09 10:57:38
這段野史,比正史還真

這段野史,比正史還真

我是歷史其實挺有趣
2026-05-09 17:22:35
豬一輩子關在豬圈里,為啥沒有抑郁癥表現?真相遠比你想的殘酷

豬一輩子關在豬圈里,為啥沒有抑郁癥表現?真相遠比你想的殘酷

丁丁鯉史紀
2026-04-29 11:02:32
譚云鶴披露:一次會議上林彪罕見情緒失態,公開發話要處理黃永勝

譚云鶴披露:一次會議上林彪罕見情緒失態,公開發話要處理黃永勝

鑒史錄
2026-05-08 15:33:29
7死2傷!泉州沙廈高速公路較大道路運輸事故,半掛車追尾多輛小汽車,引發車輛起火;整改和防范措施落實情況評估報告公布

7死2傷!泉州沙廈高速公路較大道路運輸事故,半掛車追尾多輛小汽車,引發車輛起火;整改和防范措施落實情況評估報告公布

極目新聞
2026-05-09 09:06:49
皇馬內鬼找到了?西媒:維尼修斯總是向主帥告密 隊友不滿

皇馬內鬼找到了?西媒:維尼修斯總是向主帥告密 隊友不滿

葉青足球世界
2026-05-08 16:01:38
老板娘問我她身材好不好?我該怎么回答?

老板娘問我她身材好不好?我該怎么回答?

太急張三瘋
2026-05-09 12:15:09
“近一半的孩子不正常”,男老師吐槽鄉鎮學,F狀,令人脊背發涼

“近一半的孩子不正!,男老師吐槽鄉鎮學,F狀,令人脊背發涼

妍妍教育日記
2026-05-09 13:54:42
39分15板5帽!文班罵華子了!裁判竟追主帥罵,真特么活久見!

39分15板5帽!文班罵華子了!裁判竟追主帥罵,真特么活久見!

貴圈真亂
2026-05-09 13:36:46
青樓出身,無法生育被休,改嫁上將連生11子,人人敬重的廣東之母

青樓出身,無法生育被休,改嫁上將連生11子,人人敬重的廣東之母

浩渺青史
2026-04-28 15:40:40
特朗普心腹來華,逼購波音,王毅攤牌:別繞圈子,先解決核心問題

特朗普心腹來華,逼購波音,王毅攤牌:別繞圈子,先解決核心問題

蘭妮搞笑分享
2026-05-08 19:59:09
三年虧光183億!周鴻祎的造車夢,為何成了一地雞毛?

三年虧光183億!周鴻祎的造車夢,為何成了一地雞毛?

芳華青年
2026-05-08 10:53:34
2026-05-09 19:11:00
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應用精選與評測
503文章數 74關注度
往期回顧 全部

科技要聞

美國政府強力下場 蘋果英特爾達成代工協議

頭條要聞

國防部證實:中方建造的"麒麟"級潛艇首艇交付巴基斯坦

頭條要聞

國防部證實:中方建造的"麒麟"級潛艇首艇交付巴基斯坦

體育要聞

成立128年后,這支升班馬首奪頂級聯賽冠軍

娛樂要聞

50歲趙薇臉頰凹陷滄桑得認不出!

財經要聞

存儲芯片上演造富潮

汽車要聞

軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

態度原創

時尚
手機
親子
旅游
數碼

今年春夏最火的3個穿搭思路,普通人可以直接照搬嗎?

手機要聞

紅魔11S Pro官宣搭載第五代驍龍8至尊領先版

親子要聞

2026好看又好用的媽咪育兒包有哪些?(5月最新)

旅游要聞

別跑空!洛陽這些博物館恢復周一例行閉館

數碼要聞

當貝2S Ultra:AI智養+干濕分離+全色域燈,養魚一步到位

無障礙瀏覽 進入關懷版