无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Groq CEO談“芯片架構(gòu)”:GPU是“重型大貨車(chē)”,LPU是“最后一公里快遞”

0
分享至

Groq創(chuàng)始人兼CEO Jonathan Ross將英偉達(dá)GPU比作"18輪重型大貨車(chē)",將自家的LPU(語(yǔ)言處理單元)定位為"最后一公里配送貨車(chē)",認(rèn)為兩者結(jié)合才能在大語(yǔ)言模型推理環(huán)節(jié)實(shí)現(xiàn)最優(yōu)的成本與速度平衡。

Jonathan Ross在近日的一次訪(fǎng)談中詳細(xì)闡述了這一架構(gòu)分工:預(yù)填充階段(讀取輸入文本)高度并行、對(duì)單Token延遲不敏感,適合完全交由GPU處理;解碼階段則根據(jù)用戶(hù)對(duì)速度與成本的敏感程度彈性配置,從純GPU、GPU加LPU混合,到純LPU不等。他表示,LPU憑借全片上SRAM架構(gòu)與靜態(tài)調(diào)度機(jī)制,在低延遲、小批量的解碼場(chǎng)景中具有顯著優(yōu)勢(shì),對(duì)當(dāng)前主流的混合專(zhuān)家(MoE)模型尤為友好。

在智能體(Agentic AI)應(yīng)用快速崛起的背景下,多個(gè)AI模型相互調(diào)用的任務(wù)分解模式正推動(dòng)算力需求呈指數(shù)級(jí)而非線(xiàn)性擴(kuò)張。Jonathan Ross援引杰文斯悖論指出,算力單位成本下降不會(huì)壓縮市場(chǎng)規(guī)模,反而會(huì)持續(xù)刺激總需求增長(zhǎng)——GPU與LPU的市場(chǎng)空間本質(zhì)上是共同擴(kuò)張,而非零和競(jìng)爭(zhēng)。

這也為外界理解Groq與英偉達(dá)200億美元合作協(xié)議的戰(zhàn)略邏輯提供了解釋?zhuān)涸谕评砉ぷ髫?fù)載中,兩家公司的產(chǎn)品承擔(dān)不同角色,協(xié)同部署優(yōu)于單獨(dú)使用任何一方。


LPU與GPU:帕累托曲線(xiàn)上的互補(bǔ)定位

Jonathan Ross指出,GPU與LPU的每Token成本曲線(xiàn)形狀截然不同,兩者并非直接競(jìng)爭(zhēng)關(guān)系,而是覆蓋不同的性能區(qū)間。

"如果只追求最低的每Token成本,用GPU、用非常大的批量大小就行,速度會(huì)慢一些,"他說(shuō)。"LPU的優(yōu)勢(shì)在于,能夠跨多顆芯片擴(kuò)展,完全依賴(lài)高速SRAM而非外部?jī)?nèi)存,在不顯著抬高成本的前提下大幅提升Token生成速度。"

他表示,在帕累托曲線(xiàn)的高速端,LPU的經(jīng)濟(jì)性?xún)?yōu)于GPU;將兩者組合,可以在任意目標(biāo)速度下實(shí)現(xiàn)最優(yōu)的每Token成本與最大算力容量。

LPU對(duì)混合專(zhuān)家(MoE)模型尤為友好。Jonathan Ross解釋?zhuān)珿PU從DRAM讀取數(shù)據(jù)時(shí)需要數(shù)百量級(jí)的批量大小才能保證經(jīng)濟(jì)性,而LPU僅需批量大小約10即可運(yùn)行,這意味著更低的等待延遲和更高的執(zhí)行效率。"LPU幾乎是為專(zhuān)家模型量身定制的。"

靜態(tài)調(diào)度與MoE:確定性架構(gòu)的推理紅利

Groq的另一項(xiàng)核心差異在于靜態(tài)調(diào)度——操作順序在編譯時(shí)預(yù)先確定,而非運(yùn)行時(shí)動(dòng)態(tài)分配。

Jonathan Ross用日歷安排打比方:短會(huì)必須精確預(yù)約,長(zhǎng)會(huì)則可以靈活應(yīng)對(duì)。"在推理場(chǎng)景中,你做的是超低延遲、小批量的計(jì)算,必須提前把所有操作排好,讓每段計(jì)算迅速完成、及時(shí)釋放硬件。訓(xùn)練時(shí)這不那么重要,推理時(shí)這絕對(duì)關(guān)鍵。"

他同時(shí)澄清,靜態(tài)調(diào)度并不意味著無(wú)法適配動(dòng)態(tài)路由。在MoE架構(gòu)中,LPU的時(shí)間段是固定的,但"和誰(shuí)開(kāi)會(huì)"——即激活哪個(gè)專(zhuān)家的權(quán)重——是可以在運(yùn)行時(shí)變化的,通過(guò)"散射和聚集"能力實(shí)現(xiàn)靈活路由。

與英偉達(dá)協(xié)同:預(yù)填充歸GPU,解碼看場(chǎng)景

在與英偉達(dá)達(dá)成200億美元戰(zhàn)略合作后,Jonathan Ross描述了兩者在推理鏈路中的具體分工。

"預(yù)填充階段——也就是讀取輸入文本的階段——建議完全跑在GPU上,因?yàn)檫@個(gè)階段高度可并行化,GPU非常擅長(zhǎng),"他說(shuō)。解碼階段則根據(jù)用戶(hù)需求分級(jí)配置:成本敏感型用戶(hù)完全用GPU解碼;付費(fèi)專(zhuān)業(yè)用戶(hù)采用GPU加LPU組合;極端性能場(chǎng)景可考慮純LPU解碼。

他預(yù)計(jì),未來(lái)市場(chǎng)將看到更多LPU與GPU的混合部署形態(tài),而非Groq芯片單獨(dú)銷(xiāo)售。"把兩者結(jié)合,就像把18輪卡車(chē)和配送貨車(chē)組合使用,你能構(gòu)建一個(gè)更好的網(wǎng)絡(luò)。"

杰文斯悖論:算力越便宜,需求越大

對(duì)于A(yíng)I算力市場(chǎng)的長(zhǎng)期走勢(shì),Jonathan Ross援引19世紀(jì)經(jīng)濟(jì)學(xué)概念"杰文斯悖論"作出判斷:算力單位成本的下降,不會(huì)壓縮總需求,反而會(huì)催生更大的需求。

"杰文斯悖論的來(lái)源是一本關(guān)于煤炭的論著:每當(dāng)蒸汽機(jī)效率提升,煤炭總消耗量反而增加,"他說(shuō)。"當(dāng)一項(xiàng)活動(dòng)的成本降低,之前不盈利的活動(dòng)變得可行,人們?cè)敢庾龈鄬?shí)驗(yàn)。隨著AI變得越來(lái)越便宜,對(duì)AI的需求只會(huì)不斷增加。"

他還指出,智能體(Agent)架構(gòu)將進(jìn)一步放大這一效應(yīng)。AI將任務(wù)拆解為并行子任務(wù)、讓多個(gè)智能體同時(shí)推進(jìn),以及AI調(diào)用AI的多層嵌套模式,將導(dǎo)致算力使用量呈指數(shù)級(jí)擴(kuò)張。"AI使用AI再使用AI,這導(dǎo)致了使用量的指數(shù)級(jí)爆炸。"

Jonathan Ross的結(jié)論是,"成功災(zāi)難"是不可避免的——Groq和英偉達(dá)為市場(chǎng)提供的算力越多,市場(chǎng)想要的算力就越多。


以下為訪(fǎng)談文字實(shí)錄:

主持人:Jonathan,我們其實(shí)都是谷歌的校友。我在谷歌時(shí),團(tuán)隊(duì)里有個(gè)流傳的玩笑——如果當(dāng)天用于在TPU上訓(xùn)練模型的配額用完了,不如直接放假算了。我知道你是TPU的開(kāi)創(chuàng)者,后來(lái)離開(kāi)谷歌創(chuàng)立了自己的芯片公司。你在谷歌看到了什么,讓你想要打造一些不一樣的東西?
Jonathan:算力不夠用。當(dāng)時(shí)發(fā)生的事情是,語(yǔ)音識(shí)別團(tuán)隊(duì)訓(xùn)練了一個(gè)模型,這個(gè)模型在轉(zhuǎn)錄任務(wù)上超過(guò)了人類(lèi)水平,那是他們第一次做到這一點(diǎn)。問(wèn)題是,他們沒(méi)辦法把它投入生產(chǎn)。他們實(shí)際上把部署范圍限定在了Nexus手機(jī)上——你應(yīng)該記得,那是老款安卓手機(jī)。
主持人:對(duì),我用過(guò)。
Jonathan:他們把范圍限定在Nexus,與其說(shuō)是作為一個(gè)功能,不如說(shuō)是因?yàn)樗懔μ伲荒苤蜰exus用戶(hù)群的規(guī)模。正好在紐約,我和語(yǔ)音識(shí)別團(tuán)隊(duì)共進(jìn)午餐,他們提到了這個(gè)問(wèn)題。我就以20%項(xiàng)目的形式開(kāi)始,把他們的模型移植到FPGA上,設(shè)計(jì)了一個(gè)通用架構(gòu),結(jié)果發(fā)現(xiàn)推理端的需求相當(dāng)迫切,最后演變成了一塊芯片。隨后Jeff Dean做了一個(gè)分析,說(shuō)"考慮到我們?cè)谶@上面要投入的資金和算力規(guī)模,不如直接做ASIC算了。"我當(dāng)時(shí)的反應(yīng)是:能有多難?結(jié)果發(fā)現(xiàn)非常難——但那時(shí)我們還不知道,就這么跳進(jìn)去了。
主持人:我聽(tīng)你以前提過(guò)"成功災(zāi)難"這個(gè)詞,我覺(jué)得這個(gè)詞非常傳神,在谷歌我也有過(guò)好幾次這樣的體驗(yàn)。
LPU vs. GPU:帕累托曲線(xiàn)與每Token成本主持人:英偉達(dá)GPU在訓(xùn)練方面表現(xiàn)出色,但在推理階段存在內(nèi)存瓶頸。Groq在內(nèi)存架構(gòu)上做了哪些改變來(lái)解決這個(gè)問(wèn)題?
Jonathan:首先要想清楚權(quán)衡取舍——沒(méi)有免費(fèi)的午餐。你追求的是最低的每Token成本,因?yàn)槌杀緵Q定了你的算力容量。大家都在爭(zhēng)這個(gè)——如果我花同樣的錢(qián)只能得到一半的容量,那我真正關(guān)心的是每一美元能換多少Token。
當(dāng)然,你同時(shí)也需要速度。權(quán)衡在于:如果你只追求最低的每Token成本,你就用GPU,用非常大的批量大小,速度會(huì)慢一些。我們用LPU做的事情,是能夠跨多顆芯片擴(kuò)展,不依賴(lài)任何外部?jī)?nèi)存,把模型分散在這些芯片上,從而使用速度快得多的SRAM,讓Token生成更快,而成本并沒(méi)有更高。
如果你了解帕累托曲線(xiàn),GPU和LPU的曲線(xiàn)形狀相當(dāng)不同。在曲線(xiàn)的某些區(qū)間,GPU的經(jīng)濟(jì)性更好;在另一些區(qū)間,特別是速度更快的那端,LPU的經(jīng)濟(jì)性更好。把兩者結(jié)合起來(lái),就填補(bǔ)了中間地帶。GPU、GPU加LPU的組合、以及純LPU,三者加在一起,在任何你想要的速度下,都能實(shí)現(xiàn)最優(yōu)的每Token成本和最大的算力容量。
靜態(tài)調(diào)度與混合專(zhuān)家模型主持人:Groq的另一個(gè)差異化之處是靜態(tài)調(diào)度——操作順序在編譯時(shí)就已預(yù)先確定。這對(duì)大語(yǔ)言模型推理來(lái)說(shuō)有什么優(yōu)勢(shì)?
Jonathan:我用日歷安排來(lái)打比方。如果我要進(jìn)行一堆15分鐘的短會(huì),我必須提前排好日程,因?yàn)閷?duì)方必須準(zhǔn)時(shí)出現(xiàn)。但如果是一個(gè)5小時(shí)的長(zhǎng)會(huì),就不需要那么精確了——你來(lái)了就聊,遲到30分鐘也不過(guò)是5小時(shí)里的一小部分。
在推理場(chǎng)景中,你在做的是超低延遲、小批量的計(jì)算,所以你需要把所有操作都預(yù)先排好,讓每一段計(jì)算能迅速完成,及時(shí)釋放硬件供下一步使用,不至于讓后續(xù)的所有工作都在那里等。訓(xùn)練時(shí)這不那么重要,推理時(shí)這絕對(duì)關(guān)鍵。
主持人:當(dāng)今最前沿的大語(yǔ)言模型大多采用混合專(zhuān)家架構(gòu),推理時(shí)每個(gè)查詢(xún)可能激活不同的專(zhuān)家子集。這在一塊采用靜態(tài)調(diào)度的芯片上是怎么運(yùn)作的?
Jonathan:關(guān)鍵在于什么東西被靜態(tài)調(diào)度了。在LPU上,我把這個(gè)15分鐘的時(shí)間段排好了,但和誰(shuí)開(kāi)會(huì)是可以變的。LPU有做"散射和聚集"的能力,意味著根據(jù)需要激活哪個(gè)專(zhuān)家,我們會(huì)去取不同的專(zhuān)家權(quán)重。運(yùn)行時(shí)間仍然一樣,只是換了一個(gè)不同的專(zhuān)家。如果專(zhuān)家的大小不同,我們甚至可以路由到另一顆芯片,當(dāng)然流水線(xiàn)里會(huì)有短暫的氣泡,但確定性給了你更強(qiáng)的預(yù)測(cè)時(shí)序的能力,而不會(huì)限制你能運(yùn)行什么。
而且LPU架構(gòu)對(duì)混合專(zhuān)家模型特別有利,因?yàn)榕看笮≡叫≡胶谩旌蠈?zhuān)家在批量大小上天然處于不利地位:從DRAM讀取數(shù)據(jù)時(shí),你需要很大的批量(可能數(shù)百個(gè))才能讓經(jīng)濟(jì)賬算過(guò)來(lái);而在LPU上,批量大小只需要10左右就能跑通,這意味著你不需要等那么多查詢(xún)積累起來(lái)才能執(zhí)行,從而降低了延遲,提升了效率。LPU幾乎是為專(zhuān)家模型量身定制的。
自回歸與擴(kuò)散模型主持人:說(shuō)到架構(gòu),當(dāng)Transformer被下一代架構(gòu)取代時(shí),LPU需要完全重新設(shè)計(jì),還是它與當(dāng)前大語(yǔ)言模型的形態(tài)是正交的?
Jonathan:這是個(gè)經(jīng)典問(wèn)題。LPU設(shè)計(jì)的時(shí)候,《Attention Is All You Need》那篇論文還沒(méi)有發(fā)表。注意力機(jī)制和當(dāng)時(shí)已有的一些架構(gòu)(比如卷積)有很多相似之處,雖然兩者相當(dāng)不同,但歸根結(jié)底都是線(xiàn)性代數(shù)。如果你為線(xiàn)性代數(shù)構(gòu)建了一塊最優(yōu)的芯片,你就為大多數(shù)這類(lèi)架構(gòu)構(gòu)建了一塊最優(yōu)的芯片。
你可以選擇針對(duì)特定的矩陣乘法大小做優(yōu)化,不同架構(gòu)可能有差異。我見(jiàn)過(guò)一些人嘗試極度專(zhuān)用化,但最終贏(yíng)得最多的幾乎每次都是靈活性。打個(gè)比方:如果我告訴你,我能讓運(yùn)行速度快10倍,但代價(jià)是你永遠(yuǎn)不能再改變模型,你會(huì)接受嗎?答案大概是不會(huì)——因?yàn)樗惴ū旧砜赡芫蜁?huì)有10倍的改進(jìn)。最近就有一個(gè)改變注意力機(jī)制工作方式的進(jìn)展,把規(guī)模縮小了10倍。算法改進(jìn)的速度非常快,靈活性往往比優(yōu)化本身更重要。
LPU架構(gòu)在設(shè)計(jì)上特別注重易于編程,使得新架構(gòu)出現(xiàn)時(shí)能被快速采用,最新的算法可以很快上線(xiàn)運(yùn)行。
主持人:LPU中的L代表"語(yǔ)言"——這是否意味著視覺(jué)和音頻模型無(wú)法從同樣的加速中受益?
Jonathan:Groq云目前最大的用戶(hù)群之一是語(yǔ)音轉(zhuǎn)文字的用戶(hù),我們也做過(guò)一段時(shí)間的文字轉(zhuǎn)語(yǔ)音,原因是這類(lèi)任務(wù)對(duì)實(shí)時(shí)性極其敏感。很多語(yǔ)音模型里面還嵌有卷積層之類(lèi)的東西,這正是通用架構(gòu)的價(jià)值所在——否則這些語(yǔ)音任務(wù)根本沒(méi)辦法在上面跑。
更有意思的是,速度更快實(shí)際上還能提升質(zhì)量,這有點(diǎn)反直覺(jué)。音頻處理可以把音頻切成非常小的片段來(lái)處理,但如果每次只聽(tīng)一小段,你就缺乏完整的上下文,預(yù)測(cè)詞語(yǔ)就更難了。用較慢的芯片做音頻處理時(shí),為了滿(mǎn)足實(shí)時(shí)性要求,只能切成更小的片段,而這會(huì)提高錯(cuò)誤率——就像讓兩個(gè)人同時(shí)轉(zhuǎn)錄一段演講,但每人每次只能聽(tīng)5秒,錯(cuò)誤率會(huì)大幅上升。LPU能以數(shù)百倍于實(shí)時(shí)速度的速度完成語(yǔ)音轉(zhuǎn)錄,所以可以處理大得多的片段,從而降低這些模型的錯(cuò)誤率。
主持人:我們談到的這些應(yīng)用場(chǎng)景,語(yǔ)言推理和音頻,大多是自回歸的;而現(xiàn)在的視覺(jué)模型很多是基于擴(kuò)散的,一些大語(yǔ)言模型也在用擴(kuò)散架構(gòu)。擴(kuò)散大語(yǔ)言模型在GPU上比自回歸大語(yǔ)言模型快很多,這個(gè)排名在Groq芯片上還成立嗎?
Jonathan:擴(kuò)散模型受益于總算力量的大小。先給大家解釋一下什么是自回歸——自回歸簡(jiǎn)單來(lái)說(shuō)就是:先推斷出第一個(gè)詞,再推斷下一個(gè)詞,就像下棋,我先想好這一步再走下一步,而不是一次性預(yù)判所有步驟。在語(yǔ)言中,要知道第100個(gè)詞是什么,通常要先知道第99個(gè)詞是什么。
當(dāng)然你可以做一些分解:某些詞比其他詞更重要,先預(yù)測(cè)重要的詞,再在周?chē)钊肫渌~。
我看到很多人在嘗試用擴(kuò)散模型生成語(yǔ)言,但效果不太好。原因在于,在你還沒(méi)決定這里要說(shuō)什么之前,很難確定那里要說(shuō)什么。這和之前提到的音頻切片問(wèn)題一樣——想象100個(gè)人同時(shí)寫(xiě)一篇演講稿,每人都看不到其他人寫(xiě)的內(nèi)容。擴(kuò)散之所以叫"擴(kuò)散",是因?yàn)樾畔⒃跁r(shí)間和空間中擴(kuò)散,距離越遠(yuǎn),影響越弱。
從質(zhì)量角度來(lái)看:如果你用自回歸與擴(kuò)散分別生成音樂(lè),自回歸版本會(huì)更有靈魂,更有深度,你會(huì)更喜歡,但可能有一兩聲雜音;純擴(kuò)散版本則是你聽(tīng)過(guò)的最純凈的電梯音樂(lè),完全沒(méi)有靈魂。但如果把兩者結(jié)合起來(lái),重要的音樂(lè)節(jié)點(diǎn)用自回歸加上下文來(lái)處理,其余的用擴(kuò)散來(lái)填充,效果就會(huì)大不相同。
就像我們把LPU和GPU組合起來(lái)用于大語(yǔ)言模型的解碼一樣,我認(rèn)為擴(kuò)散大語(yǔ)言模型最終成功的版本,很可能也是把自回歸和擴(kuò)散結(jié)合起來(lái)的。
Groq與英偉達(dá)Vera Rubin的協(xié)同主持人:英偉達(dá)在今年3月的GTC大會(huì)上發(fā)布了專(zhuān)為推理(尤其是智能體場(chǎng)景)設(shè)計(jì)的Vera Rubin超級(jí)計(jì)算機(jī)。GPU和Groq在推理時(shí)是如何協(xié)同工作的?
Jonathan:我來(lái)打個(gè)比方。假設(shè)你要為整個(gè)美國(guó)建立一套物流網(wǎng)絡(luò),從零開(kāi)始,你可以選擇18輪卡車(chē)或者配送貨車(chē)。配送貨車(chē)可以進(jìn)任何車(chē)道,但裝載量小,單位成本更貴。最優(yōu)解是兩者都要。
在這個(gè)比喻中,GPU是18輪卡車(chē)——能一次處理大量Token,但裝載和運(yùn)輸需要一些時(shí)間;LPU更像配送貨車(chē)——效率不如前者,但在"最后一公里"比那個(gè)龐然大物更高效。就像之前談到的混合專(zhuān)家模型,LPU在其中某些部分上有優(yōu)勢(shì)。把兩者結(jié)合起來(lái),就像把18輪卡車(chē)和配送貨車(chē)組合使用,你能構(gòu)建一個(gè)更好的網(wǎng)絡(luò)。
大語(yǔ)言模型的推理分兩個(gè)獨(dú)立部分:權(quán)重層和注意力層。我們的方案是把投影層放在LPU上,把注意力層放在GPU上,兩者各取所長(zhǎng)。
主持人:英偉達(dá)合作協(xié)議之后,我們應(yīng)該預(yù)期Groq芯片繼續(xù)獨(dú)立銷(xiāo)售,還是會(huì)看到更多LPU加GPU的混合形態(tài)?
Jonathan:我認(rèn)為你會(huì)看到更多混合形態(tài)。預(yù)填充階段——也就是讀取文本的階段——我們?nèi)匀唤ㄗh完全跑在GPU上,因?yàn)镚PU非常擅長(zhǎng)這個(gè),而且這個(gè)階段對(duì)每Token的延遲不那么敏感,是高度可并行化的,丟給GPU這輛18輪卡車(chē)就行。
解碼階段則要看情況:對(duì)于成本敏感的應(yīng)用,比如免費(fèi)用戶(hù),可能會(huì)完全用GPU做解碼;如果是付費(fèi)的專(zhuān)業(yè)用戶(hù),他們對(duì)速度有更高要求,大概率會(huì)用GPU加LPU的組合;對(duì)于極端追求性能的任務(wù),甚至可能純用LPU做解碼。總體而言,任何數(shù)據(jù)中心的配置都是:預(yù)填充完全在GPU上,解碼部分在LPU上、部分在GPU上。
智能體推理與規(guī)模經(jīng)濟(jì)主持人:Vera Rubin超級(jí)計(jì)算機(jī)主要針對(duì)智能體推理場(chǎng)景。過(guò)去一年,智能體應(yīng)用迅速崛起,這如何改變了規(guī)模化推理的單位經(jīng)濟(jì)和成本?
Jonathan:首先,我認(rèn)為大多數(shù)人并不真正理解"智能體"是什么,只是把這個(gè)詞當(dāng)成流行語(yǔ)在用。讓我來(lái)真正解釋一下,因?yàn)檫@非常重要。
智能體有點(diǎn)像AI領(lǐng)域的英偉達(dá)——它的核心是能夠把任務(wù)拆解成并行的子任務(wù)。CPU是串行的,GPU是并行的。如果你一個(gè)人完成一項(xiàng)任務(wù),你只能一次做一件事,還會(huì)被各種等待卡住,效率不高。但如果你能把任務(wù)拆開(kāi),就能讓多人同時(shí)推進(jìn)。AI也面臨類(lèi)似的瓶頸——我們前面談到,在生成第99個(gè)Token之前無(wú)法生成第100個(gè)Token,但如果你能把問(wèn)題拆解成沒(méi)有這種依賴(lài)關(guān)系的子任務(wù),就可以讓多個(gè)智能體、多個(gè)上下文窗口同時(shí)工作。對(duì)于大多數(shù)問(wèn)題,這是可行的。
還有另一個(gè)層面:AI使用AI。就像你在為采訪(fǎng)做準(zhǔn)備時(shí)會(huì)用AI來(lái)幫你準(zhǔn)備問(wèn)題,AI也會(huì)向另一個(gè)AI提問(wèn),讓它在后臺(tái)處理,等結(jié)果回來(lái)再整合進(jìn)自己的答案。任務(wù)分解給AI、AI再分發(fā)給其他AI,AI使用AI再使用AI,這導(dǎo)致了使用量的指數(shù)級(jí)爆炸。而且答案質(zhì)量往往隨著并行子任務(wù)數(shù)量的增加而提升,因?yàn)榫拖駡F(tuán)隊(duì)規(guī)模更大、能做更多交叉驗(yàn)證一樣,最終的答案更有依據(jù)。
AI能否替代CUDA內(nèi)核工程師?主持人:CUDA內(nèi)核手工編寫(xiě)難度極大。你認(rèn)為AI是否已經(jīng)能夠自己寫(xiě)出來(lái)?
Jonathan:我認(rèn)為也許已經(jīng)足夠好了,但這個(gè)問(wèn)題不是非黑即白的。"足夠好"意味著什么?你不是"寫(xiě)內(nèi)核"或"不寫(xiě)內(nèi)核"這種二選一的問(wèn)題——關(guān)鍵在于這個(gè)內(nèi)核有多好?效率如何?性能如何?與其他內(nèi)核的融合是否容易?通用性如何?可復(fù)用性如何?隨著AI能力不斷提升,內(nèi)核質(zhì)量會(huì)持續(xù)提升,而你在一個(gè)特定內(nèi)核上花的時(shí)間越多,這個(gè)內(nèi)核就會(huì)越好。
有趣的是,Groq架構(gòu)——LPU——實(shí)際上是無(wú)內(nèi)核架構(gòu)。當(dāng)初設(shè)計(jì)的時(shí)候,我們還沒(méi)有大語(yǔ)言模型可以幫我們寫(xiě)軟件,只能全靠自己,而且團(tuán)隊(duì)規(guī)模小,所以我們構(gòu)建了一塊編譯復(fù)雜度很低的芯片。就像AI隨著時(shí)間推移會(huì)生成越來(lái)越好的內(nèi)核一樣,如果它要編譯的硬件越容易理解,它生成的內(nèi)核就會(huì)更好。我們已經(jīng)在用AI來(lái)編程LPU,效果很好,因?yàn)檫@個(gè)問(wèn)題對(duì)大語(yǔ)言模型來(lái)說(shuō)很容易"腦補(bǔ)"。
主持人:AI降低了寫(xiě)軟件的門(mén)檻,從你說(shuō)的來(lái)看,硬件方面也開(kāi)始出現(xiàn)同樣的趨勢(shì)。我們會(huì)看到更多人因?yàn)殚T(mén)檻降低而去做硬件嗎?
Jonathan:絕對(duì)會(huì)。你會(huì)看到更多人嘗試設(shè)計(jì)硬件。但我認(rèn)為有一個(gè)問(wèn)題——硬件是物理的東西,需要做實(shí)驗(yàn)。軟件開(kāi)發(fā)的結(jié)果是即時(shí)反饋,可以快速迭代;硬件有供應(yīng)鏈,有大額賭注。你會(huì)看到很多人去做芯片,因?yàn)樵O(shè)計(jì)一顆芯片會(huì)變得很容易,但把它推向量產(chǎn)非常難。這會(huì)變成"小海龜問(wèn)題"——世界上的供應(yīng)資源是有限的,客戶(hù)在下注時(shí),會(huì)選擇他們知道靠得住的。
大語(yǔ)言模型讓寫(xiě)軟件、寫(xiě)RTL(芯片的編程語(yǔ)言)變得更容易,做的人會(huì)更多,但真正能走到量產(chǎn)的,反而可能更少,因?yàn)樘y取舍了——客戶(hù)只想押注在能依賴(lài)的公司身上。
主持人:這和軟件領(lǐng)域其實(shí)很像——在臥室里做出原型很容易,但真正推向市場(chǎng)并保證可靠性就難多了。
Jonathan:有一個(gè)關(guān)鍵區(qū)別。軟件發(fā)現(xiàn)了Bug,你可以打補(bǔ)丁。芯片出了錯(cuò),首先需要4到6個(gè)月重新流片。芯片是物理的東西,制造時(shí)要經(jīng)歷60到70層的化學(xué)沉積,每層可能需要一天甚至更長(zhǎng)時(shí)間,從你完成"流片"(即提交芯片掩膜版)到拿到可以測(cè)試的實(shí)物,有固定的物理時(shí)間。這個(gè)掩膜版本身就要幾千萬(wàn)美元,做錯(cuò)了就損失幾千萬(wàn)。但這和告訴客戶(hù)"抱歉,還需要再等六個(gè)月才能拿到產(chǎn)品,我要做修改"相比,后者的代價(jià)更大。更何況,供應(yīng)鏈的運(yùn)作方式要求你必須先買(mǎi)晶圓,提前做出承諾——如果到時(shí)候沒(méi)有可交付的芯片,代價(jià)極為慘重。
所以我不認(rèn)為你會(huì)看到那種"大家都來(lái)亂扔芯片"的情況,而是會(huì)看到很多規(guī)模較小的玩家做芯片,但勝出的只會(huì)是少數(shù),因?yàn)橘€注太高,客戶(hù)只會(huì)選擇可以依賴(lài)的對(duì)象,尤其是隨著成本不斷攀升。
主持人:AI是否在一些外行人想不到的方面讓硬件設(shè)計(jì)變得更容易?
Jonathan:有個(gè)很有意思的現(xiàn)象。我們注意到,過(guò)去硬件工程師從來(lái)不自己寫(xiě)軟件,遇到需要寫(xiě)軟件的時(shí)候,都會(huì)去找軟件工程師幫忙。但現(xiàn)在他們開(kāi)始說(shuō):"我直接實(shí)現(xiàn)一個(gè)小的軟件測(cè)試,看看這個(gè)設(shè)計(jì)是否合理。"然后他們立刻得到反饋,發(fā)現(xiàn)"哦,這里用起來(lái)比我想的要難"。
硬件和軟件開(kāi)發(fā)本來(lái)涇渭分明,兩個(gè)領(lǐng)域有很多相似之處,但語(yǔ)言不同,思維方式也有微妙差別——做芯片時(shí)要考慮導(dǎo)線(xiàn)、門(mén)電路等物理約束,這讓硬件工程師對(duì)寫(xiě)軟件有一種畏懼,軟件工程師對(duì)硬件也是一樣。但現(xiàn)在,一個(gè)硬件工程師只需要讓大語(yǔ)言模型寫(xiě)一段軟件跑在自己的硬件上,發(fā)現(xiàn)跑不順,就能意識(shí)到哪里需要改進(jìn)。AI讓這種跨學(xué)科的自助服務(wù)成為了現(xiàn)實(shí),以前這些分離的學(xué)科之間有清晰的界限,現(xiàn)在界限開(kāi)始模糊了,大家能夠伸手到相鄰的學(xué)科里做一些事情。
主持人:這和我們看到的軟件工程師和設(shè)計(jì)師之間的變化一樣——軟件工程師不需要等設(shè)計(jì)稿就能實(shí)現(xiàn)東西,很多設(shè)計(jì)師也在用代碼工具直接把想法做出來(lái)。
Jonathan:是的,而且如果軟件工程師和硬件工程師之間有爭(zhēng)論,現(xiàn)在可以直接實(shí)現(xiàn)出來(lái)證明對(duì)方。
杰文斯悖論:算力越便宜,需求越大主持人:我們從谷歌的"成功災(zāi)難"聊起,那你希望Groq和英偉達(dá)未來(lái)發(fā)生哪些"成功災(zāi)難"?
Jonathan:這里要說(shuō)到杰文斯悖論——算力的需求是無(wú)限的。只要文明還有未解決的問(wèn)題,我們就需要更多算力。現(xiàn)在癌癥還沒(méi)被治愈,人還會(huì)變老,而且算力還不夠,這就是三個(gè)現(xiàn)成的問(wèn)題。只要這些問(wèn)題存在,我們就必須繼續(xù)向前推進(jìn)。
這意味著我們需要更智能的AI,需要更多算力讓更多AI并行運(yùn)行、并行解決更多問(wèn)題。隨著我們不斷進(jìn)步,單位智能的成本會(huì)下降,然后就進(jìn)入了杰文斯悖論——成本越低,人們?cè)皆敢饣ā?br/>杰文斯悖論的來(lái)源是19世紀(jì)的一本關(guān)于煤炭的論著:作者發(fā)現(xiàn),每當(dāng)蒸汽機(jī)效率提升,煤炭總消耗量反而增加。原因是,當(dāng)一項(xiàng)活動(dòng)的成本降低,之前不盈利的活動(dòng)變得盈利可行,人們?cè)敢庾龈噙@件事,愿意做更多實(shí)驗(yàn)、嘗試更多東西。隨著AI變得越來(lái)越便宜,對(duì)AI的需求會(huì)不斷增加,直到人們?cè)贏(yíng)I上的支出越來(lái)越多,他們需要的算力也越來(lái)越多。
還有一個(gè)類(lèi)比:如果你從地下抽出兩倍的石油,并不意味著兩倍的人能得到交通便利,因?yàn)檫€需要有車(chē)。但一旦你訓(xùn)練好一個(gè)模型,多提供兩倍的算力,就能讓兩倍的人使用它,解決兩倍的問(wèn)題。每建起一座AI工廠(chǎng),你立刻就能做更多的事,這會(huì)促使人們想做更多事,進(jìn)而不斷壓低成本,杰文斯悖論也就一直在發(fā)揮作用。所以"成功災(zāi)難"是不可避免的——我們?yōu)槭澜缣峁┑乃懔υ蕉啵藗兿胍乃懔驮蕉唷?br/>AI時(shí)代應(yīng)該培養(yǎng)什么能力?主持人:最后,你有什么想對(duì)這群技術(shù)敏銳、充滿(mǎn)好奇心的聽(tīng)眾說(shuō)的?
Jonathan:很多人來(lái)問(wèn)我,孩子應(yīng)該學(xué)什么?我的答案很簡(jiǎn)單。我們今天的教育方式基于信息時(shí)代的思維——教孩子回答問(wèn)題,給出答案。但有了AI之后,這件事翻轉(zhuǎn)了——變成了如何提出正確的問(wèn)題。如果你能提出正確的問(wèn)題,AI就能替你去找答案。
所以我給所有聽(tīng)眾最大的建議是:開(kāi)始學(xué)習(xí)如何問(wèn)出更好的問(wèn)題。教會(huì)你的孩子如何問(wèn)出更好的問(wèn)題。教育體系需要重構(gòu),以"提問(wèn)"為導(dǎo)向。
如果孩子們把你的問(wèn)題輸入AI就能很容易地解決,那你并沒(méi)有在教他們?nèi)绾卧谖磥?lái)取得成功。但如果你給他們一個(gè)需要自己想出問(wèn)題的挑戰(zhàn),你才是在真正為他們的未來(lái)做準(zhǔn)備。
主持人:這說(shuō)得很有道理。我曾經(jīng)從研究和創(chuàng)業(yè)的生活中休息了一段時(shí)間,因?yàn)槲野l(fā)現(xiàn)直接和AI對(duì)話(huà)、問(wèn)問(wèn)題、學(xué)新東西,讓我感到極大的樂(lè)趣。我制作這個(gè)視頻的方式,就是借助AI邊學(xué)硬件邊做——我可以問(wèn)那些永遠(yuǎn)不會(huì)出現(xiàn)在論文里的"為什么不這樣做"的問(wèn)題。非常感謝你今天的到來(lái),真是一次非常愉快的對(duì)話(huà)。
Jonathan:謝謝邀請(qǐng)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
蘇格拉底:人這一生,最大的貴人是覺(jué)醒后的自己

蘇格拉底:人這一生,最大的貴人是覺(jué)醒后的自己

書(shū)窗小記
2026-05-19 21:17:39
2萬(wàn)億巨頭來(lái)了!SpaceX首秀收漲19%,超3500億美元瘋搶史上最大IPO

2萬(wàn)億巨頭來(lái)了!SpaceX首秀收漲19%,超3500億美元瘋搶史上最大IPO

華爾街見(jiàn)聞官方
2026-06-13 08:09:36
鮮為人知的1994年中菲南鑰島之戰(zhàn),對(duì)如今中國(guó)南海布局影響深遠(yuǎn)

鮮為人知的1994年中菲南鑰島之戰(zhàn),對(duì)如今中國(guó)南海布局影響深遠(yuǎn)

非虛構(gòu)人間
2026-06-13 15:22:14
蘋(píng)果又?叒引領(lǐng)潮流了? 國(guó)產(chǎn)廠(chǎng)商被曝集體跟風(fēng)方形前攝設(shè)計(jì)

蘋(píng)果又?叒引領(lǐng)潮流了? 國(guó)產(chǎn)廠(chǎng)商被曝集體跟風(fēng)方形前攝設(shè)計(jì)

熱點(diǎn)科技
2026-06-12 19:23:01
馬科斯怎么都料不到!在仁愛(ài)礁坐灘27年的破船,卻意外助力中國(guó)了

馬科斯怎么都料不到!在仁愛(ài)礁坐灘27年的破船,卻意外助力中國(guó)了

共工之錨
2026-06-10 00:41:05
雷軍犯天條了,竟然遭到整個(gè)中國(guó)家電行業(yè)集體圍剿。

雷軍犯天條了,竟然遭到整個(gè)中國(guó)家電行業(yè)集體圍剿。

流蘇晚晴
2026-06-12 13:02:17
大批伊朗集束彈突襲以色列,令美軍明白一個(gè)道理:伊朗已惹不起

大批伊朗集束彈突襲以色列,令美軍明白一個(gè)道理:伊朗已惹不起

共工之錨
2026-06-09 13:56:49
6月這6種魚(yú),全是純野生的,人工養(yǎng)不出來(lái),肉嫩刺少,懂行的在搶

6月這6種魚(yú),全是純野生的,人工養(yǎng)不出來(lái),肉嫩刺少,懂行的在搶

阿龍美食記
2026-06-09 15:26:48
國(guó)家消防救援局第一政委來(lái)局調(diào)研,著制式服裝,佩總監(jiān)銜

國(guó)家消防救援局第一政委來(lái)局調(diào)研,著制式服裝,佩總監(jiān)銜

靠山屯閑話(huà)
2026-06-13 17:55:49
中國(guó)媒體把這屆世界杯,為何叫“美加墨”?外網(wǎng)暢想中國(guó)辦世界杯

中國(guó)媒體把這屆世界杯,為何叫“美加墨”?外網(wǎng)暢想中國(guó)辦世界杯

體育大學(xué)僧
2026-06-12 11:19:28
“命運(yùn)讓我轟轟烈烈波蕩起伏”,入學(xué)前查出肺癌晚期,湖南女孩畢業(yè)典禮發(fā)言感動(dòng)全網(wǎng)

“命運(yùn)讓我轟轟烈烈波蕩起伏”,入學(xué)前查出肺癌晚期,湖南女孩畢業(yè)典禮發(fā)言感動(dòng)全網(wǎng)

瀟湘晨報(bào)
2026-06-13 07:56:15
張鎮(zhèn)麟:上海和遼寧球迷都拼了命保護(hù)我,想建立屬于上海的王朝

張鎮(zhèn)麟:上海和遼寧球迷都拼了命保護(hù)我,想建立屬于上海的王朝

懂球帝
2026-06-13 20:04:34
多座大橋被炸斷,“新俄羅斯”公路被關(guān)閉:俄軍50輛卡車(chē)遭一鍋端

多座大橋被炸斷,“新俄羅斯”公路被關(guān)閉:俄軍50輛卡車(chē)遭一鍋端

鷹眼Defence
2026-06-12 16:20:12
英媒驚嘆:若中國(guó)將中子彈列入常規(guī)武器體系,代理沖突或?qū)⒔K結(jié)

英媒驚嘆:若中國(guó)將中子彈列入常規(guī)武器體系,代理沖突或?qū)⒔K結(jié)

風(fēng)流女漢
2026-06-13 05:58:13
華為扔出核彈級(jí)王炸!十年磨一劍,鴻蒙7.0徹底掀翻安卓桌子

華為扔出核彈級(jí)王炸!十年磨一劍,鴻蒙7.0徹底掀翻安卓桌子

侃故事的阿慶
2026-06-13 09:04:37
29歲Lisa炸場(chǎng)世界杯!無(wú)濾鏡顏值可愛(ài),創(chuàng)泰國(guó)藝人歷史

29歲Lisa炸場(chǎng)世界杯!無(wú)濾鏡顏值可愛(ài),創(chuàng)泰國(guó)藝人歷史

小齊艱難度日
2026-06-13 16:57:27
何猷君兒女正臉照出現(xiàn),兒子很像奚夢(mèng)瑤身高相貌,女兒神似四太

何猷君兒女正臉照出現(xiàn),兒子很像奚夢(mèng)瑤身高相貌,女兒神似四太

迪迪的娛樂(lè)故事
2026-06-12 20:57:22
《火遮眼》遭遇慘敗,票房不到60萬(wàn),謝苗被香港觀(guān)眾拋棄了

《火遮眼》遭遇慘敗,票房不到60萬(wàn),謝苗被香港觀(guān)眾拋棄了

影視高原說(shuō)
2026-06-13 17:28:46
影石終于攻向大疆最后一塊自留地

影石終于攻向大疆最后一塊自留地

虎嗅APP
2026-06-11 07:40:11
“只要大陸敢打,我就敢送”,他公開(kāi)宣稱(chēng)

“只要大陸敢打,我就敢送”,他公開(kāi)宣稱(chēng)

安安說(shuō)
2026-05-24 15:20:17
2026-06-14 00:23:00
華爾街見(jiàn)聞官方 incentive-icons
華爾街見(jiàn)聞官方
中國(guó)領(lǐng)先的金融商業(yè)信息提供商
147631文章數(shù) 2653897關(guān)注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬(wàn)億美元,馬斯克再封神

頭條要聞

寶媽考編排名第一卻被低分者遞補(bǔ) 維權(quán)后崗位直接取消

頭條要聞

寶媽考編排名第一卻被低分者遞補(bǔ) 維權(quán)后崗位直接取消

體育要聞

美國(guó)4比1巴拉圭:這統(tǒng)治力真是美國(guó)隊(duì)?!

娛樂(lè)要聞

鄧超曬孫儷親手織的帽子,笑瘋?cè)W(wǎng)!

財(cái)經(jīng)要聞

梁文鋒向左,楊植麟向右

汽車(chē)要聞

深藍(lán)S07華為乾崑激光版增程車(chē)型上市 限時(shí)15.49萬(wàn)元起

態(tài)度原創(chuàng)

本地
數(shù)碼
旅游
手機(jī)
公開(kāi)課

本地新聞

AK劉彰邂逅河北南大港濕地

數(shù)碼要聞

LGA 1700回歸:英特爾被曝將推Raptor Lake Next處理器

旅游要聞

夏天就該這樣過(guò)!大別山的夏天,從霍山大峽谷漂流的第一聲尖叫開(kāi)始。

手機(jī)要聞

曝REDMI K100系列測(cè)試萬(wàn)級(jí)大電池,多檔位產(chǎn)品升級(jí)

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版