網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Groq CEO談“芯片架構(gòu)”：GPU是“重型大貨車(chē)”，LPU是“最后一公里快遞”

2026-06-12 17:03:40　來(lái)源: 華爾街見(jiàn)聞官方

上海舉報(bào)

分享至

Groq創(chuàng)始人兼CEO Jonathan Ross將英偉達(dá)GPU比作"18輪重型大貨車(chē)"，將自家的LPU（語(yǔ)言處理單元）定位為"最后一公里配送貨車(chē)"，認(rèn)為兩者結(jié)合才能在大語(yǔ)言模型推理環(huán)節(jié)實(shí)現(xiàn)最優(yōu)的成本與速度平衡。

Jonathan Ross在近日的一次訪(fǎng)談中詳細(xì)闡述了這一架構(gòu)分工：預(yù)填充階段（讀取輸入文本）高度并行、對(duì)單Token延遲不敏感，適合完全交由GPU處理；解碼階段則根據(jù)用戶(hù)對(duì)速度與成本的敏感程度彈性配置，從純GPU、GPU加LPU混合，到純LPU不等。他表示，LPU憑借全片上SRAM架構(gòu)與靜態(tài)調(diào)度機(jī)制，在低延遲、小批量的解碼場(chǎng)景中具有顯著優(yōu)勢(shì)，對(duì)當(dāng)前主流的混合專(zhuān)家（MoE）模型尤為友好。

在智能體（Agentic AI）應(yīng)用快速崛起的背景下，多個(gè)AI模型相互調(diào)用的任務(wù)分解模式正推動(dòng)算力需求呈指數(shù)級(jí)而非線(xiàn)性擴(kuò)張。Jonathan Ross援引杰文斯悖論指出，算力單位成本下降不會(huì)壓縮市場(chǎng)規(guī)模，反而會(huì)持續(xù)刺激總需求增長(zhǎng)——GPU與LPU的市場(chǎng)空間本質(zhì)上是共同擴(kuò)張，而非零和競(jìng)爭(zhēng)。

這也為外界理解Groq與英偉達(dá)200億美元合作協(xié)議的戰(zhàn)略邏輯提供了解釋?zhuān)涸谕评砉ぷ髫?fù)載中，兩家公司的產(chǎn)品承擔(dān)不同角色，協(xié)同部署優(yōu)于單獨(dú)使用任何一方。

LPU與GPU：帕累托曲線(xiàn)上的互補(bǔ)定位

Jonathan Ross指出，GPU與LPU的每Token成本曲線(xiàn)形狀截然不同，兩者并非直接競(jìng)爭(zhēng)關(guān)系，而是覆蓋不同的性能區(qū)間。

"如果只追求最低的每Token成本，用GPU、用非常大的批量大小就行，速度會(huì)慢一些，"他說(shuō)。"LPU的優(yōu)勢(shì)在于，能夠跨多顆芯片擴(kuò)展，完全依賴(lài)高速SRAM而非外部?jī)?nèi)存，在不顯著抬高成本的前提下大幅提升Token生成速度。"

他表示，在帕累托曲線(xiàn)的高速端，LPU的經(jīng)濟(jì)性?xún)?yōu)于GPU；將兩者組合，可以在任意目標(biāo)速度下實(shí)現(xiàn)最優(yōu)的每Token成本與最大算力容量。

LPU對(duì)混合專(zhuān)家（MoE）模型尤為友好。Jonathan Ross解釋?zhuān)珿PU從DRAM讀取數(shù)據(jù)時(shí)需要數(shù)百量級(jí)的批量大小才能保證經(jīng)濟(jì)性，而LPU僅需批量大小約10即可運(yùn)行，這意味著更低的等待延遲和更高的執(zhí)行效率。"LPU幾乎是為專(zhuān)家模型量身定制的。"

靜態(tài)調(diào)度與MoE：確定性架構(gòu)的推理紅利

Groq的另一項(xiàng)核心差異在于靜態(tài)調(diào)度——操作順序在編譯時(shí)預(yù)先確定，而非運(yùn)行時(shí)動(dòng)態(tài)分配。

Jonathan Ross用日歷安排打比方：短會(huì)必須精確預(yù)約，長(zhǎng)會(huì)則可以靈活應(yīng)對(duì)。"在推理場(chǎng)景中，你做的是超低延遲、小批量的計(jì)算，必須提前把所有操作排好，讓每段計(jì)算迅速完成、及時(shí)釋放硬件。訓(xùn)練時(shí)這不那么重要，推理時(shí)這絕對(duì)關(guān)鍵。"

他同時(shí)澄清，靜態(tài)調(diào)度并不意味著無(wú)法適配動(dòng)態(tài)路由。在MoE架構(gòu)中，LPU的時(shí)間段是固定的，但"和誰(shuí)開(kāi)會(huì)"——即激活哪個(gè)專(zhuān)家的權(quán)重——是可以在運(yùn)行時(shí)變化的，通過(guò)"散射和聚集"能力實(shí)現(xiàn)靈活路由。

與英偉達(dá)協(xié)同：預(yù)填充歸GPU，解碼看場(chǎng)景

在與英偉達(dá)達(dá)成200億美元戰(zhàn)略合作后，Jonathan Ross描述了兩者在推理鏈路中的具體分工。

"預(yù)填充階段——也就是讀取輸入文本的階段——建議完全跑在GPU上，因?yàn)檫@個(gè)階段高度可并行化，GPU非常擅長(zhǎng)，"他說(shuō)。解碼階段則根據(jù)用戶(hù)需求分級(jí)配置：成本敏感型用戶(hù)完全用GPU解碼；付費(fèi)專(zhuān)業(yè)用戶(hù)采用GPU加LPU組合；極端性能場(chǎng)景可考慮純LPU解碼。

他預(yù)計(jì)，未來(lái)市場(chǎng)將看到更多LPU與GPU的混合部署形態(tài)，而非Groq芯片單獨(dú)銷(xiāo)售。"把兩者結(jié)合，就像把18輪卡車(chē)和配送貨車(chē)組合使用，你能構(gòu)建一個(gè)更好的網(wǎng)絡(luò)。"

杰文斯悖論：算力越便宜，需求越大

對(duì)于A(yíng)I算力市場(chǎng)的長(zhǎng)期走勢(shì)，Jonathan Ross援引19世紀(jì)經(jīng)濟(jì)學(xué)概念"杰文斯悖論"作出判斷：算力單位成本的下降，不會(huì)壓縮總需求，反而會(huì)催生更大的需求。

"杰文斯悖論的來(lái)源是一本關(guān)于煤炭的論著：每當(dāng)蒸汽機(jī)效率提升，煤炭總消耗量反而增加，"他說(shuō)。"當(dāng)一項(xiàng)活動(dòng)的成本降低，之前不盈利的活動(dòng)變得可行，人們?cè)敢庾龈鄬?shí)驗(yàn)。隨著AI變得越來(lái)越便宜，對(duì)AI的需求只會(huì)不斷增加。"

他還指出，智能體（Agent）架構(gòu)將進(jìn)一步放大這一效應(yīng)。AI將任務(wù)拆解為并行子任務(wù)、讓多個(gè)智能體同時(shí)推進(jìn)，以及AI調(diào)用AI的多層嵌套模式，將導(dǎo)致算力使用量呈指數(shù)級(jí)擴(kuò)張。"AI使用AI再使用AI，這導(dǎo)致了使用量的指數(shù)級(jí)爆炸。"

Jonathan Ross的結(jié)論是，"成功災(zāi)難"是不可避免的——Groq和英偉達(dá)為市場(chǎng)提供的算力越多，市場(chǎng)想要的算力就越多。

以下為訪(fǎng)談文字實(shí)錄：

主持人：Jonathan，我們其實(shí)都是谷歌的校友。我在谷歌時(shí)，團(tuán)隊(duì)里有個(gè)流傳的玩笑——如果當(dāng)天用于在TPU上訓(xùn)練模型的配額用完了，不如直接放假算了。我知道你是TPU的開(kāi)創(chuàng)者，后來(lái)離開(kāi)谷歌創(chuàng)立了自己的芯片公司。你在谷歌看到了什么，讓你想要打造一些不一樣的東西？
Jonathan：算力不夠用。當(dāng)時(shí)發(fā)生的事情是，語(yǔ)音識(shí)別團(tuán)隊(duì)訓(xùn)練了一個(gè)模型，這個(gè)模型在轉(zhuǎn)錄任務(wù)上超過(guò)了人類(lèi)水平，那是他們第一次做到這一點(diǎn)。問(wèn)題是，他們沒(méi)辦法把它投入生產(chǎn)。他們實(shí)際上把部署范圍限定在了Nexus手機(jī)上——你應(yīng)該記得，那是老款安卓手機(jī)。
主持人：對(duì)，我用過(guò)。
Jonathan：他們把范圍限定在Nexus，與其說(shuō)是作為一個(gè)功能，不如說(shuō)是因?yàn)樗懔μ伲荒苤蜰exus用戶(hù)群的規(guī)模。正好在紐約，我和語(yǔ)音識(shí)別團(tuán)隊(duì)共進(jìn)午餐，他們提到了這個(gè)問(wèn)題。我就以20%項(xiàng)目的形式開(kāi)始，把他們的模型移植到FPGA上，設(shè)計(jì)了一個(gè)通用架構(gòu)，結(jié)果發(fā)現(xiàn)推理端的需求相當(dāng)迫切，最后演變成了一塊芯片。隨后Jeff Dean做了一個(gè)分析，說(shuō)"考慮到我們?cè)谶@上面要投入的資金和算力規(guī)模，不如直接做ASIC算了。"我當(dāng)時(shí)的反應(yīng)是：能有多難？結(jié)果發(fā)現(xiàn)非常難——但那時(shí)我們還不知道，就這么跳進(jìn)去了。
主持人：我聽(tīng)你以前提過(guò)"成功災(zāi)難"這個(gè)詞，我覺(jué)得這個(gè)詞非常傳神，在谷歌我也有過(guò)好幾次這樣的體驗(yàn)。
LPU vs. GPU：帕累托曲線(xiàn)與每Token成本主持人：英偉達(dá)GPU在訓(xùn)練方面表現(xiàn)出色，但在推理階段存在內(nèi)存瓶頸。Groq在內(nèi)存架構(gòu)上做了哪些改變來(lái)解決這個(gè)問(wèn)題？
Jonathan：首先要想清楚權(quán)衡取舍——沒(méi)有免費(fèi)的午餐。你追求的是最低的每Token成本，因?yàn)槌杀緵Q定了你的算力容量。大家都在爭(zhēng)這個(gè)——如果我花同樣的錢(qián)只能得到一半的容量，那我真正關(guān)心的是每一美元能換多少Token。
當(dāng)然，你同時(shí)也需要速度。權(quán)衡在于：如果你只追求最低的每Token成本，你就用GPU，用非常大的批量大小，速度會(huì)慢一些。我們用LPU做的事情，是能夠跨多顆芯片擴(kuò)展，不依賴(lài)任何外部?jī)?nèi)存，把模型分散在這些芯片上，從而使用速度快得多的SRAM，讓Token生成更快，而成本并沒(méi)有更高。
如果你了解帕累托曲線(xiàn)，GPU和LPU的曲線(xiàn)形狀相當(dāng)不同。在曲線(xiàn)的某些區(qū)間，GPU的經(jīng)濟(jì)性更好；在另一些區(qū)間，特別是速度更快的那端，LPU的經(jīng)濟(jì)性更好。把兩者結(jié)合起來(lái)，就填補(bǔ)了中間地帶。GPU、GPU加LPU的組合、以及純LPU，三者加在一起，在任何你想要的速度下，都能實(shí)現(xiàn)最優(yōu)的每Token成本和最大的算力容量。
靜態(tài)調(diào)度與混合專(zhuān)家模型主持人：Groq的另一個(gè)差異化之處是靜態(tài)調(diào)度——操作順序在編譯時(shí)就已預(yù)先確定。這對(duì)大語(yǔ)言模型推理來(lái)說(shuō)有什么優(yōu)勢(shì)？
Jonathan：我用日歷安排來(lái)打比方。如果我要進(jìn)行一堆15分鐘的短會(huì)，我必須提前排好日程，因?yàn)閷?duì)方必須準(zhǔn)時(shí)出現(xiàn)。但如果是一個(gè)5小時(shí)的長(zhǎng)會(huì)，就不需要那么精確了——你來(lái)了就聊，遲到30分鐘也不過(guò)是5小時(shí)里的一小部分。
在推理場(chǎng)景中，你在做的是超低延遲、小批量的計(jì)算，所以你需要把所有操作都預(yù)先排好，讓每一段計(jì)算能迅速完成，及時(shí)釋放硬件供下一步使用，不至于讓后續(xù)的所有工作都在那里等。訓(xùn)練時(shí)這不那么重要，推理時(shí)這絕對(duì)關(guān)鍵。
主持人：當(dāng)今最前沿的大語(yǔ)言模型大多采用混合專(zhuān)家架構(gòu)，推理時(shí)每個(gè)查詢(xún)可能激活不同的專(zhuān)家子集。這在一塊采用靜態(tài)調(diào)度的芯片上是怎么運(yùn)作的？
Jonathan：關(guān)鍵在于什么東西被靜態(tài)調(diào)度了。在LPU上，我把這個(gè)15分鐘的時(shí)間段排好了，但和誰(shuí)開(kāi)會(huì)是可以變的。LPU有做"散射和聚集"的能力，意味著根據(jù)需要激活哪個(gè)專(zhuān)家，我們會(huì)去取不同的專(zhuān)家權(quán)重。運(yùn)行時(shí)間仍然一樣，只是換了一個(gè)不同的專(zhuān)家。如果專(zhuān)家的大小不同，我們甚至可以路由到另一顆芯片，當(dāng)然流水線(xiàn)里會(huì)有短暫的氣泡，但確定性給了你更強(qiáng)的預(yù)測(cè)時(shí)序的能力，而不會(huì)限制你能運(yùn)行什么。
而且LPU架構(gòu)對(duì)混合專(zhuān)家模型特別有利，因?yàn)榕看笮≡叫≡胶谩旌蠈?zhuān)家在批量大小上天然處于不利地位：從DRAM讀取數(shù)據(jù)時(shí)，你需要很大的批量（可能數(shù)百個(gè)）才能讓經(jīng)濟(jì)賬算過(guò)來(lái)；而在LPU上，批量大小只需要10左右就能跑通，這意味著你不需要等那么多查詢(xún)積累起來(lái)才能執(zhí)行，從而降低了延遲，提升了效率。LPU幾乎是為專(zhuān)家模型量身定制的。
自回歸與擴(kuò)散模型主持人：說(shuō)到架構(gòu)，當(dāng)Transformer被下一代架構(gòu)取代時(shí)，LPU需要完全重新設(shè)計(jì)，還是它與當(dāng)前大語(yǔ)言模型的形態(tài)是正交的？
Jonathan：這是個(gè)經(jīng)典問(wèn)題。LPU設(shè)計(jì)的時(shí)候，《Attention Is All You Need》那篇論文還沒(méi)有發(fā)表。注意力機(jī)制和當(dāng)時(shí)已有的一些架構(gòu)（比如卷積）有很多相似之處，雖然兩者相當(dāng)不同，但歸根結(jié)底都是線(xiàn)性代數(shù)。如果你為線(xiàn)性代數(shù)構(gòu)建了一塊最優(yōu)的芯片，你就為大多數(shù)這類(lèi)架構(gòu)構(gòu)建了一塊最優(yōu)的芯片。
你可以選擇針對(duì)特定的矩陣乘法大小做優(yōu)化，不同架構(gòu)可能有差異。我見(jiàn)過(guò)一些人嘗試極度專(zhuān)用化，但最終贏(yíng)得最多的幾乎每次都是靈活性。打個(gè)比方：如果我告訴你，我能讓運(yùn)行速度快10倍，但代價(jià)是你永遠(yuǎn)不能再改變模型，你會(huì)接受嗎？答案大概是不會(huì)——因?yàn)樗惴ū旧砜赡芫蜁?huì)有10倍的改進(jìn)。最近就有一個(gè)改變注意力機(jī)制工作方式的進(jìn)展，把規(guī)模縮小了10倍。算法改進(jìn)的速度非常快，靈活性往往比優(yōu)化本身更重要。
LPU架構(gòu)在設(shè)計(jì)上特別注重易于編程，使得新架構(gòu)出現(xiàn)時(shí)能被快速采用，最新的算法可以很快上線(xiàn)運(yùn)行。
主持人：LPU中的L代表"語(yǔ)言"——這是否意味著視覺(jué)和音頻模型無(wú)法從同樣的加速中受益？
Jonathan：Groq云目前最大的用戶(hù)群之一是語(yǔ)音轉(zhuǎn)文字的用戶(hù)，我們也做過(guò)一段時(shí)間的文字轉(zhuǎn)語(yǔ)音，原因是這類(lèi)任務(wù)對(duì)實(shí)時(shí)性極其敏感。很多語(yǔ)音模型里面還嵌有卷積層之類(lèi)的東西，這正是通用架構(gòu)的價(jià)值所在——否則這些語(yǔ)音任務(wù)根本沒(méi)辦法在上面跑。
更有意思的是，速度更快實(shí)際上還能提升質(zhì)量，這有點(diǎn)反直覺(jué)。音頻處理可以把音頻切成非常小的片段來(lái)處理，但如果每次只聽(tīng)一小段，你就缺乏完整的上下文，預(yù)測(cè)詞語(yǔ)就更難了。用較慢的芯片做音頻處理時(shí)，為了滿(mǎn)足實(shí)時(shí)性要求，只能切成更小的片段，而這會(huì)提高錯(cuò)誤率——就像讓兩個(gè)人同時(shí)轉(zhuǎn)錄一段演講，但每人每次只能聽(tīng)5秒，錯(cuò)誤率會(huì)大幅上升。LPU能以數(shù)百倍于實(shí)時(shí)速度的速度完成語(yǔ)音轉(zhuǎn)錄，所以可以處理大得多的片段，從而降低這些模型的錯(cuò)誤率。
主持人：我們談到的這些應(yīng)用場(chǎng)景，語(yǔ)言推理和音頻，大多是自回歸的；而現(xiàn)在的視覺(jué)模型很多是基于擴(kuò)散的，一些大語(yǔ)言模型也在用擴(kuò)散架構(gòu)。擴(kuò)散大語(yǔ)言模型在GPU上比自回歸大語(yǔ)言模型快很多，這個(gè)排名在Groq芯片上還成立嗎？
Jonathan：擴(kuò)散模型受益于總算力量的大小。先給大家解釋一下什么是自回歸——自回歸簡(jiǎn)單來(lái)說(shuō)就是：先推斷出第一個(gè)詞，再推斷下一個(gè)詞，就像下棋，我先想好這一步再走下一步，而不是一次性預(yù)判所有步驟。在語(yǔ)言中，要知道第100個(gè)詞是什么，通常要先知道第99個(gè)詞是什么。
當(dāng)然你可以做一些分解：某些詞比其他詞更重要，先預(yù)測(cè)重要的詞，再在周?chē)钊肫渌~。
我看到很多人在嘗試用擴(kuò)散模型生成語(yǔ)言，但效果不太好。原因在于，在你還沒(méi)決定這里要說(shuō)什么之前，很難確定那里要說(shuō)什么。這和之前提到的音頻切片問(wèn)題一樣——想象100個(gè)人同時(shí)寫(xiě)一篇演講稿，每人都看不到其他人寫(xiě)的內(nèi)容。擴(kuò)散之所以叫"擴(kuò)散"，是因?yàn)樾畔⒃跁r(shí)間和空間中擴(kuò)散，距離越遠(yuǎn)，影響越弱。
從質(zhì)量角度來(lái)看：如果你用自回歸與擴(kuò)散分別生成音樂(lè)，自回歸版本會(huì)更有靈魂，更有深度，你會(huì)更喜歡，但可能有一兩聲雜音；純擴(kuò)散版本則是你聽(tīng)過(guò)的最純凈的電梯音樂(lè)，完全沒(méi)有靈魂。但如果把兩者結(jié)合起來(lái)，重要的音樂(lè)節(jié)點(diǎn)用自回歸加上下文來(lái)處理，其余的用擴(kuò)散來(lái)填充，效果就會(huì)大不相同。
就像我們把LPU和GPU組合起來(lái)用于大語(yǔ)言模型的解碼一樣，我認(rèn)為擴(kuò)散大語(yǔ)言模型最終成功的版本，很可能也是把自回歸和擴(kuò)散結(jié)合起來(lái)的。
Groq與英偉達(dá)Vera Rubin的協(xié)同主持人：英偉達(dá)在今年3月的GTC大會(huì)上發(fā)布了專(zhuān)為推理（尤其是智能體場(chǎng)景）設(shè)計(jì)的Vera Rubin超級(jí)計(jì)算機(jī)。GPU和Groq在推理時(shí)是如何協(xié)同工作的？
Jonathan：我來(lái)打個(gè)比方。假設(shè)你要為整個(gè)美國(guó)建立一套物流網(wǎng)絡(luò)，從零開(kāi)始，你可以選擇18輪卡車(chē)或者配送貨車(chē)。配送貨車(chē)可以進(jìn)任何車(chē)道，但裝載量小，單位成本更貴。最優(yōu)解是兩者都要。
在這個(gè)比喻中，GPU是18輪卡車(chē)——能一次處理大量Token，但裝載和運(yùn)輸需要一些時(shí)間；LPU更像配送貨車(chē)——效率不如前者，但在"最后一公里"比那個(gè)龐然大物更高效。就像之前談到的混合專(zhuān)家模型，LPU在其中某些部分上有優(yōu)勢(shì)。把兩者結(jié)合起來(lái)，就像把18輪卡車(chē)和配送貨車(chē)組合使用，你能構(gòu)建一個(gè)更好的網(wǎng)絡(luò)。
大語(yǔ)言模型的推理分兩個(gè)獨(dú)立部分：權(quán)重層和注意力層。我們的方案是把投影層放在LPU上，把注意力層放在GPU上，兩者各取所長(zhǎng)。
主持人：英偉達(dá)合作協(xié)議之后，我們應(yīng)該預(yù)期Groq芯片繼續(xù)獨(dú)立銷(xiāo)售，還是會(huì)看到更多LPU加GPU的混合形態(tài)？
Jonathan：我認(rèn)為你會(huì)看到更多混合形態(tài)。預(yù)填充階段——也就是讀取文本的階段——我們?nèi)匀唤ㄗh完全跑在GPU上，因?yàn)镚PU非常擅長(zhǎng)這個(gè)，而且這個(gè)階段對(duì)每Token的延遲不那么敏感，是高度可并行化的，丟給GPU這輛18輪卡車(chē)就行。
解碼階段則要看情況：對(duì)于成本敏感的應(yīng)用，比如免費(fèi)用戶(hù)，可能會(huì)完全用GPU做解碼；如果是付費(fèi)的專(zhuān)業(yè)用戶(hù)，他們對(duì)速度有更高要求，大概率會(huì)用GPU加LPU的組合；對(duì)于極端追求性能的任務(wù)，甚至可能純用LPU做解碼。總體而言，任何數(shù)據(jù)中心的配置都是：預(yù)填充完全在GPU上，解碼部分在LPU上、部分在GPU上。
智能體推理與規(guī)模經(jīng)濟(jì)主持人：Vera Rubin超級(jí)計(jì)算機(jī)主要針對(duì)智能體推理場(chǎng)景。過(guò)去一年，智能體應(yīng)用迅速崛起，這如何改變了規(guī)模化推理的單位經(jīng)濟(jì)和成本？
Jonathan：首先，我認(rèn)為大多數(shù)人并不真正理解"智能體"是什么，只是把這個(gè)詞當(dāng)成流行語(yǔ)在用。讓我來(lái)真正解釋一下，因?yàn)檫@非常重要。
智能體有點(diǎn)像AI領(lǐng)域的英偉達(dá)——它的核心是能夠把任務(wù)拆解成并行的子任務(wù)。CPU是串行的，GPU是并行的。如果你一個(gè)人完成一項(xiàng)任務(wù)，你只能一次做一件事，還會(huì)被各種等待卡住，效率不高。但如果你能把任務(wù)拆開(kāi)，就能讓多人同時(shí)推進(jìn)。AI也面臨類(lèi)似的瓶頸——我們前面談到，在生成第99個(gè)Token之前無(wú)法生成第100個(gè)Token，但如果你能把問(wèn)題拆解成沒(méi)有這種依賴(lài)關(guān)系的子任務(wù)，就可以讓多個(gè)智能體、多個(gè)上下文窗口同時(shí)工作。對(duì)于大多數(shù)問(wèn)題，這是可行的。
還有另一個(gè)層面：AI使用AI。就像你在為采訪(fǎng)做準(zhǔn)備時(shí)會(huì)用AI來(lái)幫你準(zhǔn)備問(wèn)題，AI也會(huì)向另一個(gè)AI提問(wèn)，讓它在后臺(tái)處理，等結(jié)果回來(lái)再整合進(jìn)自己的答案。任務(wù)分解給AI、AI再分發(fā)給其他AI，AI使用AI再使用AI，這導(dǎo)致了使用量的指數(shù)級(jí)爆炸。而且答案質(zhì)量往往隨著并行子任務(wù)數(shù)量的增加而提升，因?yàn)榫拖駡F(tuán)隊(duì)規(guī)模更大、能做更多交叉驗(yàn)證一樣，最終的答案更有依據(jù)。
AI能否替代CUDA內(nèi)核工程師？主持人：CUDA內(nèi)核手工編寫(xiě)難度極大。你認(rèn)為AI是否已經(jīng)能夠自己寫(xiě)出來(lái)？
Jonathan：我認(rèn)為也許已經(jīng)足夠好了，但這個(gè)問(wèn)題不是非黑即白的。"足夠好"意味著什么？你不是"寫(xiě)內(nèi)核"或"不寫(xiě)內(nèi)核"這種二選一的問(wèn)題——關(guān)鍵在于這個(gè)內(nèi)核有多好？效率如何？性能如何？與其他內(nèi)核的融合是否容易？通用性如何？可復(fù)用性如何？隨著AI能力不斷提升，內(nèi)核質(zhì)量會(huì)持續(xù)提升，而你在一個(gè)特定內(nèi)核上花的時(shí)間越多，這個(gè)內(nèi)核就會(huì)越好。
有趣的是，Groq架構(gòu)——LPU——實(shí)際上是無(wú)內(nèi)核架構(gòu)。當(dāng)初設(shè)計(jì)的時(shí)候，我們還沒(méi)有大語(yǔ)言模型可以幫我們寫(xiě)軟件，只能全靠自己，而且團(tuán)隊(duì)規(guī)模小，所以我們構(gòu)建了一塊編譯復(fù)雜度很低的芯片。就像AI隨著時(shí)間推移會(huì)生成越來(lái)越好的內(nèi)核一樣，如果它要編譯的硬件越容易理解，它生成的內(nèi)核就會(huì)更好。我們已經(jīng)在用AI來(lái)編程LPU，效果很好，因?yàn)檫@個(gè)問(wèn)題對(duì)大語(yǔ)言模型來(lái)說(shuō)很容易"腦補(bǔ)"。
主持人：AI降低了寫(xiě)軟件的門(mén)檻，從你說(shuō)的來(lái)看，硬件方面也開(kāi)始出現(xiàn)同樣的趨勢(shì)。我們會(huì)看到更多人因?yàn)殚T(mén)檻降低而去做硬件嗎？
Jonathan：絕對(duì)會(huì)。你會(huì)看到更多人嘗試設(shè)計(jì)硬件。但我認(rèn)為有一個(gè)問(wèn)題——硬件是物理的東西，需要做實(shí)驗(yàn)。軟件開(kāi)發(fā)的結(jié)果是即時(shí)反饋，可以快速迭代；硬件有供應(yīng)鏈，有大額賭注。你會(huì)看到很多人去做芯片，因?yàn)樵O(shè)計(jì)一顆芯片會(huì)變得很容易，但把它推向量產(chǎn)非常難。這會(huì)變成"小海龜問(wèn)題"——世界上的供應(yīng)資源是有限的，客戶(hù)在下注時(shí)，會(huì)選擇他們知道靠得住的。
大語(yǔ)言模型讓寫(xiě)軟件、寫(xiě)RTL（芯片的編程語(yǔ)言）變得更容易，做的人會(huì)更多，但真正能走到量產(chǎn)的，反而可能更少，因?yàn)樘y取舍了——客戶(hù)只想押注在能依賴(lài)的公司身上。
主持人：這和軟件領(lǐng)域其實(shí)很像——在臥室里做出原型很容易，但真正推向市場(chǎng)并保證可靠性就難多了。
Jonathan：有一個(gè)關(guān)鍵區(qū)別。軟件發(fā)現(xiàn)了Bug，你可以打補(bǔ)丁。芯片出了錯(cuò)，首先需要4到6個(gè)月重新流片。芯片是物理的東西，制造時(shí)要經(jīng)歷60到70層的化學(xué)沉積，每層可能需要一天甚至更長(zhǎng)時(shí)間，從你完成"流片"（即提交芯片掩膜版）到拿到可以測(cè)試的實(shí)物，有固定的物理時(shí)間。這個(gè)掩膜版本身就要幾千萬(wàn)美元，做錯(cuò)了就損失幾千萬(wàn)。但這和告訴客戶(hù)"抱歉，還需要再等六個(gè)月才能拿到產(chǎn)品，我要做修改"相比，后者的代價(jià)更大。更何況，供應(yīng)鏈的運(yùn)作方式要求你必須先買(mǎi)晶圓，提前做出承諾——如果到時(shí)候沒(méi)有可交付的芯片，代價(jià)極為慘重。
所以我不認(rèn)為你會(huì)看到那種"大家都來(lái)亂扔芯片"的情況，而是會(huì)看到很多規(guī)模較小的玩家做芯片，但勝出的只會(huì)是少數(shù)，因?yàn)橘€注太高，客戶(hù)只會(huì)選擇可以依賴(lài)的對(duì)象，尤其是隨著成本不斷攀升。
主持人：AI是否在一些外行人想不到的方面讓硬件設(shè)計(jì)變得更容易？
Jonathan：有個(gè)很有意思的現(xiàn)象。我們注意到，過(guò)去硬件工程師從來(lái)不自己寫(xiě)軟件，遇到需要寫(xiě)軟件的時(shí)候，都會(huì)去找軟件工程師幫忙。但現(xiàn)在他們開(kāi)始說(shuō)："我直接實(shí)現(xiàn)一個(gè)小的軟件測(cè)試，看看這個(gè)設(shè)計(jì)是否合理。"然后他們立刻得到反饋，發(fā)現(xiàn)"哦，這里用起來(lái)比我想的要難"。
硬件和軟件開(kāi)發(fā)本來(lái)涇渭分明，兩個(gè)領(lǐng)域有很多相似之處，但語(yǔ)言不同，思維方式也有微妙差別——做芯片時(shí)要考慮導(dǎo)線(xiàn)、門(mén)電路等物理約束，這讓硬件工程師對(duì)寫(xiě)軟件有一種畏懼，軟件工程師對(duì)硬件也是一樣。但現(xiàn)在，一個(gè)硬件工程師只需要讓大語(yǔ)言模型寫(xiě)一段軟件跑在自己的硬件上，發(fā)現(xiàn)跑不順，就能意識(shí)到哪里需要改進(jìn)。AI讓這種跨學(xué)科的自助服務(wù)成為了現(xiàn)實(shí)，以前這些分離的學(xué)科之間有清晰的界限，現(xiàn)在界限開(kāi)始模糊了，大家能夠伸手到相鄰的學(xué)科里做一些事情。
主持人：這和我們看到的軟件工程師和設(shè)計(jì)師之間的變化一樣——軟件工程師不需要等設(shè)計(jì)稿就能實(shí)現(xiàn)東西，很多設(shè)計(jì)師也在用代碼工具直接把想法做出來(lái)。
Jonathan：是的，而且如果軟件工程師和硬件工程師之間有爭(zhēng)論，現(xiàn)在可以直接實(shí)現(xiàn)出來(lái)證明對(duì)方。
杰文斯悖論：算力越便宜，需求越大主持人：我們從谷歌的"成功災(zāi)難"聊起，那你希望Groq和英偉達(dá)未來(lái)發(fā)生哪些"成功災(zāi)難"？
Jonathan：這里要說(shuō)到杰文斯悖論——算力的需求是無(wú)限的。只要文明還有未解決的問(wèn)題，我們就需要更多算力。現(xiàn)在癌癥還沒(méi)被治愈，人還會(huì)變老，而且算力還不夠，這就是三個(gè)現(xiàn)成的問(wèn)題。只要這些問(wèn)題存在，我們就必須繼續(xù)向前推進(jìn)。
這意味著我們需要更智能的AI，需要更多算力讓更多AI并行運(yùn)行、并行解決更多問(wèn)題。隨著我們不斷進(jìn)步，單位智能的成本會(huì)下降，然后就進(jìn)入了杰文斯悖論——成本越低，人們?cè)皆敢饣ā?br/>杰文斯悖論的來(lái)源是19世紀(jì)的一本關(guān)于煤炭的論著：作者發(fā)現(xiàn)，每當(dāng)蒸汽機(jī)效率提升，煤炭總消耗量反而增加。原因是，當(dāng)一項(xiàng)活動(dòng)的成本降低，之前不盈利的活動(dòng)變得盈利可行，人們?cè)敢庾龈噙@件事，愿意做更多實(shí)驗(yàn)、嘗試更多東西。隨著AI變得越來(lái)越便宜，對(duì)AI的需求會(huì)不斷增加，直到人們?cè)贏(yíng)I上的支出越來(lái)越多，他們需要的算力也越來(lái)越多。
還有一個(gè)類(lèi)比：如果你從地下抽出兩倍的石油，并不意味著兩倍的人能得到交通便利，因?yàn)檫€需要有車(chē)。但一旦你訓(xùn)練好一個(gè)模型，多提供兩倍的算力，就能讓兩倍的人使用它，解決兩倍的問(wèn)題。每建起一座AI工廠(chǎng)，你立刻就能做更多的事，這會(huì)促使人們想做更多事，進(jìn)而不斷壓低成本，杰文斯悖論也就一直在發(fā)揮作用。所以"成功災(zāi)難"是不可避免的——我們?yōu)槭澜缣峁┑乃懔υ蕉啵藗兿胍乃懔驮蕉唷?br/>AI時(shí)代應(yīng)該培養(yǎng)什么能力？主持人：最后，你有什么想對(duì)這群技術(shù)敏銳、充滿(mǎn)好奇心的聽(tīng)眾說(shuō)的？
Jonathan：很多人來(lái)問(wèn)我，孩子應(yīng)該學(xué)什么？我的答案很簡(jiǎn)單。我們今天的教育方式基于信息時(shí)代的思維——教孩子回答問(wèn)題，給出答案。但有了AI之后，這件事翻轉(zhuǎn)了——變成了如何提出正確的問(wèn)題。如果你能提出正確的問(wèn)題，AI就能替你去找答案。
所以我給所有聽(tīng)眾最大的建議是：開(kāi)始學(xué)習(xí)如何問(wèn)出更好的問(wèn)題。教會(huì)你的孩子如何問(wèn)出更好的問(wèn)題。教育體系需要重構(gòu)，以"提問(wèn)"為導(dǎo)向。
如果孩子們把你的問(wèn)題輸入AI就能很容易地解決，那你并沒(méi)有在教他們?nèi)绾卧谖磥?lái)取得成功。但如果你給他們一個(gè)需要自己想出問(wèn)題的挑戰(zhàn)，你才是在真正為他們的未來(lái)做準(zhǔn)備。
主持人：這說(shuō)得很有道理。我曾經(jīng)從研究和創(chuàng)業(yè)的生活中休息了一段時(shí)間，因?yàn)槲野l(fā)現(xiàn)直接和AI對(duì)話(huà)、問(wèn)問(wèn)題、學(xué)新東西，讓我感到極大的樂(lè)趣。我制作這個(gè)視頻的方式，就是借助AI邊學(xué)硬件邊做——我可以問(wèn)那些永遠(yuǎn)不會(huì)出現(xiàn)在論文里的"為什么不這樣做"的問(wèn)題。非常感謝你今天的到來(lái)，真是一次非常愉快的對(duì)話(huà)。
Jonathan：謝謝邀請(qǐng)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.