網易首頁 > 網易號 > 正文 申請入駐

國內首家百億估值純推理GPU獨角獸誕生!專訪曦望聯席CEO王湛

0
分享至

金磊 發自 凹非寺
量子位 | 公眾號 QbitAI

杭州速度,這個詞組的含金量還在上升。

因為一家純推理GPU公司,在分拆獨立僅1年多時間里,竟已經完成了七輪融資,累計40億元!

而隨著前幾天最新一輪融資的曝光,還以10億元拿下今年這個賽道里最大單筆融資,一舉成為國內首家估值超百億的純推理GPU獨角獸。

它,就是曦望



推理正在成為 AI 算力競速的新風口。今年英偉達GTC,直接拿收購來的Groq推出LPU,而國內,國產版Groq也在狂飆突進。

加之在幾乎所有國產GPU都在卷訓推一體、拼峰值算力的大環境下,曦望憑什么靠All in推理的路線,受到資本市場如此的青睞?

帶著這個問題,量子位與曦望聯席CEO王湛進行了一場深度對話。

這位百度創始團隊出身、親歷了中國互聯網從泡沫到繁榮全過程的行業老兵,不僅一語道破了資本追捧背后的核心邏輯,更從行業趨勢、技術路線、團隊組織與未來判斷四個維度,向我們勾勒出了一幅清晰的AI推理時代新藍圖。

算力需求的結構反轉了

時間撥回一兩年前,當百模大戰打得火熱時,市場最關心的指標是大模型的參數量、訓練集群的規模。但在2026年的當下,風向已經徹底變了。

訪談伊始,王湛就拋出了這樣的定調:

誰掌握最低的推理成本,誰就是贏家。

Agent的本質是讓AI不再局限于一問一答的聊天機器人,是要它成為能夠自主分析、學習并執行復雜任務的智能實體。

而驅動這一切運轉的底層燃料,就是推理算力,或者更直白地說——Token

這就帶來了一個巨大的行業拐點:算力需求的結構性反轉。

市場上最熱的就是推理算力需求,呈現出了指數級的增長。訓練算力的需求依然保持平穩,但在我們目前看到的數據中,整個2026年,AI推理計算的需求量將達到訓練算力需求的4-5倍。

這是推理算力第一次全面超越訓練算力,而且超越得如此迅猛。

為什么會產生這種反轉?答案藏在Agent的運行機制里。

過去,人跟AI交互是單次對話;但在Agent時代,為了完成一個任務,智能體會進行高頻的、多次的多輪調用和循環思考。

就像前幾天國外一個小哥,只是跟龍蝦說了一句“Hi”,就燒掉了80美元的Token。


△圖片由AI生成

對此,王湛強調:

這種方式使得整個Token的消耗,達到了過去人機交互方式的幾十倍甚至上百倍。在這個背景下,單位Token的成本就變得非常引人注目了。

換句話說,過去企業關心大模型“能不能用”,現在企業最關心的是“好不好用”以及“用不用得起”。

這也解釋了為什么從英偉達在GTC上強調“每瓦Token吞吐量”,到國內云廠商接連因為成本壓力調整算力價格,成本已經倒逼成為了技術演進的核心推手。

在王湛看來,降低成本不僅是商業訴求,更是技術普及的前提:

你只有將單位Token的成本出現大幅度降低,才能真正激活海量Agent的使用。不然這玩意兒再好用,用起來成本極高,大家也用不起。

而這,正是曦望在一開始就毅然決然選擇All in 推理的根本原因——推理,才是真正的AI工業化。

百萬Token一分錢,怎么做到?

如果說All in 推理是方向,那么如何在技術層面把成本真正打下來,就是對團隊工程化能力和供應鏈洞察力的極致大考。

面對那些既要訓練又要推理的客戶疑問,曦望的態度非常明確:

通用GPU如果用來做大集群訓練是很好的,但大規模推理場景其性價比往往不足。此外,智能體廣泛普及的趨勢下,推理算力還要能扛住高頻調用的極低延遲、能支撐長上下文的極致穩定、能持續下降的單位Token成本。除了少數不計商業回報的特殊場景,從正常商業化角度來看,推理GPU是更有性價比優勢的。

被市場發展印證了戰略前瞻性后,曦望亮出了他們的底牌:新一代推理GPU芯片——啟望S3



這不僅僅是一次性能升級,更是一次對AI推理成本曲線的系統級重構:放棄訓練能力,專為大模型推理做原生深度定制。通過裁剪訓練態所需的模塊,將節省出的晶體管與功耗預算集中投向推理,讓單位面積有效算力效率提升5倍以上。曦望為S3定下的目標極具野心:要把百萬Token的成本壓至一分錢。

為了適應Agent時代KV Cache暴增、控制流復雜、多模型協同等痛點,S3在架構上進行了大刀闊斧的革新。

首先是計算層的深度定制。

通用GPU常常面臨算力用不滿的尷尬,而S3專為推理而生的AI Core架構,將GEMM和Flash Attention等核心算子的利用率硬生生拔高到了約99%與98%。同時,S3原生支持從FP16到FP4的全鏈路低精度運算,在模型效果接近無損的情況下,吞吐量翻了數倍。

其次是系統層的大膽創新,兩個國內第一,也是專門為長上下文和智能體準備的:

S3是國內第一個用LPDDR6的推理GPU,也兼容LPDDR5X,顯存最大可以做到接近600GB,是國內顯存容量最大的GPU;而且也是目前已發布的國產GPU里,第一個用上PCIe Gen6的,系統通信帶寬翻了一倍。

這兩個技術加起來,解決了長上下文記憶的瓶頸:S3能同時存更多用戶的對話記憶,處理更長的上下文,而且速度也快、成本大幅降低。

王湛對此解釋道:我們的目標非常明確:把單位Token的成本降90%,做出普惠的推理算力。

當然,能把LPDDR6和PCIe Gen6 這兩個業界最前沿的技術能順利調通、用起來,用出極高的性能,絕非易事,這極度依賴全棧自研和超群的工程能力。

王湛自豪地表示,曦望的硬件AI Core和軟件全棧都是100%自研。

GPU要真正發揮效能,必須是均衡的。你不能某一個地方極強,但中間卡著瓶頸。正是因為我們具備全棧自研能力,才能基于LPDDR6和PICe Gen6去做深度的調配與優化,把它的效能真正壓榨出來。

但在堅持底層自主可控的同時,曦望并沒有封閉自己,而是實現了對CUDA生態99%+的兼容。

在外界看來,自主可控與兼容CUDA似乎存在天然的矛盾。但在王湛眼中,這完全是路線選擇的問題。

我們選擇了通用計算架構(GPU),而不是專用架構(ASIC)。通用架構保證了對各種客戶需求、不同Agent的極強適配性。在這個基礎上,我們通過自己寫底層代碼來兼容CUDA生態。這既保證了客戶零遷移成本的便利,又守住了我們底層的自主可控。這兩者并不矛盾。

曦望目前保持了每一代芯片都實現一次性流片成功并點亮。

這背后,其實是一支極其龐大且低調的驗證團隊在默默支撐。據透露,曦望團隊自主開發了全套的仿真驗證工具,在芯片真正送去流片前,就已經在仿真平臺上跑過了海量算子,哪里有瓶頸、怎么修,早已胸有成竹。

六邊形戰士和三位一體

任何一次現象級融資的背后,最核心的標的永遠是

在與王湛的對話中,能強烈感受到他每天來上班時那種腎上腺素飆升的興奮感。這種興奮,源于他身處一個極度同頻且強大的鐵血戰隊之中。

曦望的頂層架構被業界戲稱為“三位一體”

  • 董事長徐冰(商湯聯合創始人):負責把控戰略方向與融資,有極強的AI發展趨勢洞察力;
  • 聯席CEO王勇(前AMD、昆侖芯核心架構師):專注芯片研發,擁有20多年硬核半導體經驗,是實打實的技術靈魂;
  • 聯席CEO王湛(前百度資深副總裁):操盤商業化、運營與市場,將互聯網大廠的敏銳嗅覺與產品打法注入這塊硬科技的土壤。



然而,做AI基礎設施,光靠三個人是不夠的。正如王湛所說:

AI芯片的競爭,是一個全能賽,就像體操里的全能項目,吊環、雙杠什么都得行。沒有任何一個人能各方面都很強,我們必須靠好的組織管理,把優秀的人聚合在一起,打造我們的六邊形戰士網絡。

目前的曦望,團隊規模已達400余人,研發人員占比超80%,核心技術骨干來自英偉達、AMD、華為海思、阿里、商湯等大廠,平均行業經驗超過15年。

為了留住這些頂尖的六邊形戰士,曦望在組織機制上做出了中國創企中極為罕見的讓步。王湛向量子位透露了一個極具魄力的細節:

我們在所有中國GPU公司里,給了團隊和員工最大的ESOP(員工持股計劃)池。
徐冰在拉我入伙時就說過,他要拿出最大的ESOP池來招募最優秀的人才。只要我們把這件事情做成,人才的價值就會巨大。

這種類似于早期華為、阿里的分享機制,爆發出極強的組織戰斗力。

Agent是泡沫還是工業革命?

拿下百億估值、超10億融資,置身于這場AI資本熱潮中,曾經親歷過2000年互聯網泡沫破裂的王湛,顯得既清醒又堅定。

現在的一二級市場對硬科技的估值確實非常樂觀。不僅是芯片公司,你看那些大模型公司的估值和收入比,確實夸張。面對劃時代的技術突破機會,資本愿意去賭、去搏,這是資本的特性。

但這一次,AI和當年的互聯網泡沫有著本質的不同。

王湛回憶,2000年互聯網叫得震天響時,全中國的網民才幾百萬。即使發展了十年,PC網民也不過一億多。這需要一個漫長的時間去滲透。

但AI呢?ChatGPT出來后,迅速成為人類歷史上最快破億用戶的應用。而且它不是大家嘗個鮮就走的淄博燒烤,這幾年來,用戶量在急速增加,且越用越離不開。

王湛認為,AI底層的基礎價值正在以遠超人類過往任何一次產業革命的速度迅速上升。

如果工業革命花了百年,信息革命花了二三十年,那么AI智能革命可能把社會的巨變壓縮到短短幾年。在這個時代,它或許上個月還是很大的泡沫,下個月就變成小泡沫了,底層的價值正在飛速填補這些估值。

對于今年下半年甚至更長遠的算力市場規模,王湛的判斷只有四個字:供不應求。

限制算力規模增長的根本不是市場需求,而是生產工具。光模塊造不過來,內存被搶光漲了十倍,服務器都在搶。Seedance 2.0生成視頻如果能從排隊4小時縮短到1分鐘,使用量會增加多少倍?只要瓶頸被打開,體驗變好,需求就會成十倍百倍地暴漲。

在商業化落地上,曦望將目光瞄準了要求最苛刻的互聯網大廠

大廠對產品的要求極其苛刻,但我要求我們的團隊,必須去找最難服務、標準最高的客戶。只有在最大壓力下被打磨出來的產品,才能真正立住根基。

依托S3海量的交付能力和團隊生態布局,這塊最難啃的骨頭,正是曦望接下來的主攻方向。

在訪談的最后,作為中國科技發展的見證者和親歷者,王湛表示:

在這個時代,AI本質上是在分發智能,它給了人類一個機會去抹平信息鴻溝。只要你想清楚了你要干嘛,AI就能給你前所未有的助力。而我們曦望要做的,就是把這個極其厲害的東西,成本徹底降下來。
先知己,再知AI,方能百戰不殆。

這不僅是王湛給在這個狂飆突進的AI時代中感到迷茫的年輕人的建議,或許,這也是曦望這家年輕的獨角獸企業,能夠在算力紅海中精準破局、一路狂奔的真實寫照。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
A股:今天放量調整,傳遞了兩個信號,周五歷史即將重演?

A股:今天放量調整,傳遞了兩個信號,周五歷史即將重演?

明心
2026-04-23 16:36:27
特斯拉電動Van渲染圖曝光,令人期待

特斯拉電動Van渲染圖曝光,令人期待

味健的汽車
2026-04-23 20:30:03
別人對你說“咱倆加個微信”,千萬別說 “您掃我還是我掃您?” 高情商的人這樣做

別人對你說“咱倆加個微信”,千萬別說 “您掃我還是我掃您?” 高情商的人這樣做

德魯克博雅管理
2026-04-23 17:02:27
72年陳毅去世,朱德不顧勸阻在遺體旁敬軍禮,為其含淚寫下悼亡詩

72年陳毅去世,朱德不顧勸阻在遺體旁敬軍禮,為其含淚寫下悼亡詩

莫地方
2026-04-24 00:55:03
科學家驚恐發現:47年前的決定,可能讓外星人4萬年后找上門

科學家驚恐發現:47年前的決定,可能讓外星人4萬年后找上門

嫹筆牂牂
2026-04-23 11:51:39
烏第14旅斷糧士兵餓的皮包骨,烏軍反攻利曼一波抵消俄軍數月戰果

烏第14旅斷糧士兵餓的皮包骨,烏軍反攻利曼一波抵消俄軍數月戰果

鐵血戰史1927
2026-04-23 23:49:49
57.2萬億索賠重啟!日本瘋狂挑釁,中國亮劍:賣光日本都不夠賠!

57.2萬億索賠重啟!日本瘋狂挑釁,中國亮劍:賣光日本都不夠賠!

小陸搞笑日常
2026-04-23 16:12:32
布馮20年不提齊達內頭槌:沉默是最高級的尊重

布馮20年不提齊達內頭槌:沉默是最高級的尊重

體壇觀察猿
2026-04-22 22:30:40
無才無德、裝瘋賣傻、一肚子草包,是誰捧紅了這些跳梁小丑?

無才無德、裝瘋賣傻、一肚子草包,是誰捧紅了這些跳梁小丑?

蹲坑看世界
2026-04-22 23:00:21
碘伏再次成為關注對象!醫生發現:使用碘伏,千萬多留意這幾點

碘伏再次成為關注對象!醫生發現:使用碘伏,千萬多留意這幾點

39健康網
2026-03-25 16:00:38
上海德云社換明星陣容也不火,上座率不高,觀眾評價更不好

上海德云社換明星陣容也不火,上座率不高,觀眾評價更不好

我就是個碼字的
2026-04-23 07:30:03
44歲杜星霖吐槽75歲張紀中:老人味,當初嫁他時,不知道他老嗎?

44歲杜星霖吐槽75歲張紀中:老人味,當初嫁他時,不知道他老嗎?

小貓娛樂叭叭
2026-04-23 17:10:03
拜合拉木:在九牛時會自己買票看蓉城,希望今年多進球拿冠軍

拜合拉木:在九牛時會自己買票看蓉城,希望今年多進球拿冠軍

懂球帝
2026-04-23 23:24:51
國米4人憑實力留隊?或是橡樹模式下,齊沃與管理層的相互妥協!

國米4人憑實力留隊?或是橡樹模式下,齊沃與管理層的相互妥協!

肥強侃球
2026-04-23 23:14:08
經濟圍困取代軍事打擊:特朗普逼伊朗自爆,這招更毒

經濟圍困取代軍事打擊:特朗普逼伊朗自爆,這招更毒

高博新視野
2026-04-23 07:30:12
“磨膝大戶”被公布,是跑步的20倍,醫生:不想軟骨磨光,早扔掉

“磨膝大戶”被公布,是跑步的20倍,醫生:不想軟骨磨光,早扔掉

垚垚分享健康
2026-04-19 14:35:09
兩大運營商合并,將超越中國移動!

兩大運營商合并,將超越中國移動!

環球通信
2026-04-22 14:20:14
邁阿密國際2分鐘2球!德保羅世界波,蘇神爆射破門,梅西大笑

邁阿密國際2分鐘2球!德保羅世界波,蘇神爆射破門,梅西大笑

奧拜爾
2026-04-23 11:37:27
身上突然冒出來的小紅點是什么?2種可能是癌癥先兆,別不當回事

身上突然冒出來的小紅點是什么?2種可能是癌癥先兆,別不當回事

垚垚分享健康
2026-04-22 17:10:07
東風 - 31 泄密大案:總工程師被美色策反,國之重器險遭滅頂之災

東風 - 31 泄密大案:總工程師被美色策反,國之重器險遭滅頂之災

干史人
2026-04-18 13:44:12
2026-04-24 01:36:49
量子位 incentive-icons
量子位
追蹤人工智能動態
12524文章數 176457關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

媒體:海軍宣傳片出現的"新兵何劍" 傳遞了巨大信息量

頭條要聞

媒體:海軍宣傳片出現的"新兵何劍" 傳遞了巨大信息量

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

令人驚艷的奇瑞車 風云A9可不只是樣子貨

態度原創

游戲
房產
教育
時尚
本地

任天堂NS2銷量4倍碾壓PS5!差距懸殊 索尼難挽頹勢

房產要聞

三亞安居房,突然官宣!

教育要聞

家長讓老師給發電子版試卷,卻被老師指責派頭大,到底誰的問題?

李昀銳:林深見木

本地新聞

SAGA GIRLS 2026女團選秀

無障礙瀏覽 進入關懷版