網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

第一個(gè)用物理做計(jì)算原語(yǔ)的大規(guī)模生成模型Un-0來(lái)了

2026-06-26 17:53:46　來(lái)源: 機(jī)器之心Pro

天津舉報(bào)

分享至

機(jī)器之心編輯部

在過(guò)去的十多年里，以 GPU 為核心的數(shù)字計(jì)算統(tǒng)治了 AI 領(lǐng)域，更大的集群、更高的帶寬、更強(qiáng)的 GPU、更密集的數(shù)據(jù)中心，似乎是通向下一代 AI 的主流路徑。

可隨著模型參數(shù)量邁向萬(wàn)億級(jí)，行業(yè)開(kāi)始頻繁提及「能耗」一詞，甚至一個(gè)更為底層的問(wèn)題也隨之而來(lái)：如果 AI 繼續(xù)按現(xiàn)有方式擴(kuò)張，電從哪里來(lái)？

無(wú)疑，AI 「電費(fèi)賬單」與能源消耗，已逐步從運(yùn)營(yíng)成本演變?yōu)橹萍s整個(gè)行業(yè)發(fā)展的「結(jié)構(gòu)性瓶頸」。

面對(duì)這一迫在眉睫的能源危機(jī)，前 Databricks AI 負(fù)責(zé)人、硅谷傳奇創(chuàng)業(yè)者 Naveen Rao 帶著他的全新硬科技初創(chuàng)公司 Unconventional AI走到了聚光燈下。

今日，Unconventional AI 官宣發(fā)布它的第一個(gè)模型 Un-0，一個(gè)由「模擬耦合振子系統(tǒng)」驅(qū)動(dòng)的圖像生成模型，可以看作是一種新興物理計(jì)算底座的樣例。在 ImageNet 64×64 上，Un-0 達(dá)到 FID 6.74，質(zhì)量已經(jīng)接近一些主流傳統(tǒng)圖像生成方法剛發(fā)布時(shí)的水平。

Naveen Rao 稱(chēng)其是「第一個(gè)以物理作為計(jì)算原語(yǔ)構(gòu)建的大規(guī)模生成模型」。

「這標(biāo)志著基于物理的模型迎來(lái)了一個(gè)『Hello World』時(shí)刻。我們利用物理系統(tǒng)天然隨時(shí)間變化的行為，讓它替我們完成計(jì)算。最終結(jié)果是一種全新的計(jì)算機(jī)構(gòu)建方式，并且有望在能效上實(shí)現(xiàn)大幅提升。」

甚至，在接受媒體采訪時(shí)，Naveen Rao 給出了一個(gè)更為大膽的「小目標(biāo)」：未來(lái)，或?qū)?AI 推理能耗降低到現(xiàn)有系統(tǒng)的千分之一。

Un-0 生成過(guò)程隨時(shí)間演化的軌跡樣本。每條線的顏色都對(duì)應(yīng)一個(gè)顏色相近的方框，方框中標(biāo)注了類(lèi)別，并展示了該類(lèi)別圖像隨時(shí)間逐步生成的過(guò)程。

官方發(fā)布了一篇博客來(lái)介紹 Un-0，接下來(lái)具體了解一下。

Un-0 的出發(fā)點(diǎn)：用物理系統(tǒng)重做 AI 計(jì)算

Unconventional AI 表示，他們的目標(biāo)是構(gòu)建一種新型計(jì)算機(jī)，讓它利用物理規(guī)律完成計(jì)算，希望未來(lái)現(xiàn)代 AI 可以在遠(yuǎn)低于今天機(jī)器能耗的情況下運(yùn)行，目標(biāo)大約是降低 1000 倍能耗。

因此，他們提出了一個(gè)問(wèn)題：能不能訓(xùn)練一個(gè)物理動(dòng)力系統(tǒng)，讓它在規(guī)模化任務(wù)上生成圖像？

如今，最強(qiáng)的 AI 模型基本都是傳統(tǒng)深度網(wǎng)絡(luò)，尤其是以 Transformer 為骨干的模型。但在主流路線之外，長(zhǎng)期以來(lái)也有很多研究試圖借助物理系統(tǒng)的動(dòng)態(tài)行為來(lái)提高能效，比如模擬電路中的噪聲、時(shí)間變化、電壓和電流等。這類(lèi)方法不是用傳統(tǒng)數(shù)字?jǐn)?shù)值進(jìn)行計(jì)算，而是利用物理系統(tǒng)自己的演化過(guò)程。

比如神經(jīng)形態(tài)計(jì)算、Hopfield 網(wǎng)絡(luò)以及 Reservoir Computing 等，以及近年發(fā)展出的 Hamiltonian Networks、Liquid Networks、Neural Wave Machines、Thermodynamic Computing，以及 Kuramoto Oscillators 等。

Un-0 就是在這些非傳統(tǒng)計(jì)算路徑上的一次新嘗試。但核心難點(diǎn)在于：要想利用這些替代計(jì)算方式，AI 任務(wù)必須被有效映射到物理系統(tǒng)的動(dòng)態(tài)過(guò)程里。 Un-0 想驗(yàn)證的就是，現(xiàn)代 AI 工作負(fù)載是否可以被放到物理底座上運(yùn)行，并最終比今天的硬件更高效。

Un-0 的工作原理

官方表示，可以想象兩個(gè)節(jié)拍器并排滴答作響，如下圖所示。

每個(gè)節(jié)拍器在任意時(shí)刻都有一個(gè)「相位」，也就是擺臂當(dāng)前處在擺動(dòng)周期里的位置。如果兩個(gè)節(jié)拍器放在同一張桌子上，它們會(huì)通過(guò)桌面彼此影響。根據(jù)相互作用強(qiáng)弱，也就是耦合強(qiáng)度，它們可能逐漸同步，也可能進(jìn)入相反相位的同步狀態(tài)。

這就是振子的基本概念：每個(gè)振子都有自己的相位，并且傾向于按照自身頻率旋轉(zhuǎn)，但同時(shí)會(huì)受到鄰近振子的影響。

而如果把兩個(gè)振子擴(kuò)展到幾千個(gè)振子，整個(gè)系統(tǒng)就會(huì)變得更有意思。大量振子之間存在不同強(qiáng)度的耦合關(guān)系，它們會(huì)通過(guò)相互作用自組織成某種模式，如下圖所示。

Un-0 的計(jì)算引擎就是這樣一個(gè)大規(guī)模振子群，振子之間的耦合強(qiáng)度是模型最主要的可學(xué)習(xí)參數(shù)。

這些耦合振子通常被建模為「Kuramoto 振子」。

具體來(lái)說(shuō)，每個(gè)振子的運(yùn)動(dòng)都遵循一條簡(jiǎn)單規(guī)則，并且這條規(guī)則會(huì)隨著時(shí)間連續(xù)生效：它一方面按照自身的自然頻率旋轉(zhuǎn)，另一方面又會(huì)受到其他所有振子的牽引而發(fā)生偏移。

下面這個(gè)常微分方程（ODE）描述的，就是這些振子隨時(shí)間演化的過(guò)程：

而之所以選擇振子，Unconventional AI 給出了兩個(gè)理由：

第一個(gè)理由來(lái)自大腦：大腦中廣泛存在節(jié)律活動(dòng)和同步現(xiàn)象，長(zhǎng)期以來(lái)，人們認(rèn)為這些現(xiàn)象可能參與了計(jì)算過(guò)程，比如把分散的特征綁定成一個(gè)連貫的感知結(jié)果、控制腦區(qū)之間的信息交流、組織神經(jīng)脈沖的時(shí)間結(jié)構(gòu)等。耦合振子是描述這類(lèi)行為最簡(jiǎn)單的數(shù)學(xué)模型之一，因此自然適合作為神經(jīng)啟發(fā)式計(jì)算模型的基礎(chǔ)單元。
第二個(gè)理由更為工程化：振子可以被實(shí)現(xiàn)為一種物理電路原語(yǔ)。Unconventional AI 認(rèn)為，可以在 CMOS 或其他物理底座上直接實(shí)現(xiàn)耦合振子系統(tǒng)，讓系統(tǒng)的物理行為本身計(jì)算動(dòng)力學(xué)演化。

Un-0 背后的賭注就是：如果物理規(guī)律可以直接計(jì)算 AI 工作負(fù)載，那么未來(lái)的執(zhí)行底座就可能和今天的 GPU 非常不同。

Un-0 的模型架構(gòu)

Un-0 生成一張圖像，大致分為五步：

隨機(jī)初始化：將所有振蕩器的相位設(shè)置為隨機(jī)角度（類(lèi)似于擴(kuò)散模型中的隨機(jī)噪聲）；
輸入類(lèi)別引導(dǎo)：用一組較小的「條件振蕩器」輸入類(lèi)別標(biāo)簽（如「火山」「雛菊」），引導(dǎo)主體振蕩器集群向特定方向演化；
讓物理自然運(yùn)行：釋放系統(tǒng)，讓振蕩器在物理動(dòng)力學(xué)的作用下相互拉扯、演化，并最終穩(wěn)定下來(lái)；
捕捉快照：在特定時(shí)間 T 記錄所有振蕩器的相位，形成一個(gè)隱空間（Latent）數(shù)字網(wǎng)格；
渲染像素：通過(guò)一個(gè)只占模型不到 13% 參數(shù)量的傳統(tǒng)解碼器，將相位網(wǎng)格轉(zhuǎn)化為最終的圖像像素。

耦合振子在訓(xùn)練得到的耦合關(guān)系作用下隨時(shí)間演化。其中，條件振子到主振子池之間存在一個(gè)單向的低秩類(lèi)別條件矩陣，用于注入類(lèi)別信息。在時(shí)間點(diǎn) T，系統(tǒng)通過(guò)一個(gè)解碼器讀取振子狀態(tài)，并生成圖像。通過(guò)多次采樣不同的初始條件，就可以生成對(duì)應(yīng)的圖像分布。

Unconventional AI 解釋?zhuān)赃x擇這種架構(gòu)，是為了讓動(dòng)力系統(tǒng)本身有最大自由度來(lái)完成計(jì)算。

在訓(xùn)練的前向傳播里，模型只需要設(shè)置耦合矩陣、振子頻率和初始相位，然后讓動(dòng)力系統(tǒng)演化，最后讀取圖像潛變量。

這和擴(kuò)散模型、Flow Matching 等動(dòng)態(tài)生成方法有所不同，擴(kuò)散和 Flow Matching 通常會(huì)在訓(xùn)練過(guò)程中顯式指導(dǎo)動(dòng)力系統(tǒng)如何演化，而 Un-0 的方法更像是只看最終生成樣本，再通過(guò)損失函數(shù)反過(guò)來(lái)優(yōu)化整個(gè)動(dòng)力系統(tǒng)。

代價(jià)是，它需要一種更復(fù)雜的損失函數(shù)，因?yàn)橛?xùn)練信號(hào)主要來(lái)自生成樣本本身。

如何訓(xùn)練 Un-0？

Unconventional AI 在 CIFAR-10 和 ImageNet 64×64 上分別訓(xùn)練了三種規(guī)模的模型，結(jié)果如下：

在 CIFAR-10 上的訓(xùn)練結(jié)果

在 ImageNet 64×64 的訓(xùn)練結(jié)果

從結(jié)果看，隨著振子數(shù)量增加，模型 FID 評(píng)分持續(xù)改善。最大 ImageNet 64×64 模型使用 16384 個(gè)振子，總參數(shù)約 3.22 億，F(xiàn)ID 達(dá)到 6.74。

在訓(xùn)練方法上，使用了一種新提出的「漂移損失」（Drifting Loss）函數(shù)，配合 DINOv2 特征提取器和 AdamW 優(yōu)化器進(jìn)行端到端訓(xùn)練。

評(píng)測(cè)方面，CIFAR-10 使用 5 萬(wàn)張生成樣本，并用標(biāo)準(zhǔn)包和評(píng)測(cè)流程與 CIFAR-10 參考統(tǒng)計(jì)進(jìn)行比較；ImageNet 64×64 同樣使用 5 萬(wàn)張生成樣本，并通過(guò) ADM evaluation suite 計(jì)算 FID。

算力方面，所有 CIFAR-10 模型在 1 張 B200 GPU 上訓(xùn)練，而所有 ImageNet 64×64 模型則在 8 張 B200 GPU 上訓(xùn)練。最大 CIFAR-10 模型訓(xùn)練消耗 20 個(gè) B200 小時(shí)，最大 ImageNet 64×64 模型訓(xùn)練消耗 640 個(gè) B200 小時(shí)。

官方表示，訓(xùn)練瓶頸主要來(lái)自「漂移損失」函數(shù)的計(jì)算，因?yàn)樗枰褂脗鹘y(tǒng)圖像特征提取器，并在多個(gè)特征視圖上計(jì)算。

Un-0 在圖像生成領(lǐng)域處在什么位置？

為了更好展現(xiàn) Un-0 的性能表現(xiàn)，Unconventional AI 把 Un-0 放在「生成質(zhì)量 vs 參數(shù)數(shù)量」的曲線上，與傳統(tǒng)模型和非傳統(tǒng)模型進(jìn)行比較。

CIFAR-10 數(shù)據(jù)集中的參數(shù)數(shù)量與 FID 值的對(duì)應(yīng)關(guān)系

在 64×64 尺寸的圖像中，參數(shù)數(shù)量與 FID 值的對(duì)應(yīng)關(guān)系

結(jié)論是：Un-0 的質(zhì)量已經(jīng)可以和一些早期傳統(tǒng)生成器相當(dāng)，甚至在某些對(duì)比中更好，比如 NCSN、DCGAN-TTUR、WGAN-GP、BigGAN、iDDPM、Consistency Models、TRACT 等。但它仍然落后于后來(lái)的高性能傳統(tǒng)模型，比如 EDM 和 GDD。

換句話說(shuō)，Un-0 不是當(dāng)前最強(qiáng)的圖像生成模型，它更像是一個(gè)新路線的起點(diǎn)：其表現(xiàn)已經(jīng)接近多個(gè)經(jīng)典生成模型剛被提出時(shí)的水平，但要追上傳統(tǒng)路線的最新前沿，還需要算法、架構(gòu)和物理原語(yǔ)層面的持續(xù)優(yōu)化。

從整體上來(lái)看，Un-0 證明了利用物理動(dòng)力學(xué)系統(tǒng)進(jìn)行現(xiàn)代 AI 大規(guī)模圖像生成的可行性。雖然目前在軟件模擬下的性能還未達(dá)到常規(guī) AI 的頂峰，但它為未來(lái)實(shí)現(xiàn)千倍能效比的「非傳統(tǒng) AI 硬件」開(kāi)辟了一條充滿希望的道路……

而 Naveen Rao 也強(qiáng)調(diào)，Un-0 的出現(xiàn)，說(shuō)明「計(jì)算并不是人類(lèi)獨(dú)有的發(fā)明。」它存在于自然與物理世界的各個(gè)角落。所有物理實(shí)體的物理過(guò)程都包含時(shí)間維度，但今天的計(jì)算系統(tǒng)卻沒(méi)有真正利用這一點(diǎn)。

「我們正在開(kāi)發(fā)的，正是這個(gè)時(shí)間維度。」

而這和能效的關(guān)系在于，在現(xiàn)有馮?諾依曼架構(gòu)機(jī)器中，大部分能量都消耗在內(nèi)存與計(jì)算單元之間的信息搬運(yùn)上，動(dòng)力系統(tǒng)則把計(jì)算和記憶合并到同一個(gè)實(shí)體之中。更重要的是，動(dòng)力系統(tǒng)可以容忍噪聲，這進(jìn)一步打開(kāi)了節(jié)省通信能耗的新機(jī)會(huì)。

Un-0 代表著計(jì)算范式向動(dòng)力系統(tǒng)轉(zhuǎn)變邁出的重要第一步。「通過(guò)這次模型發(fā)布，我們正在把智能與動(dòng)力學(xué)連接起來(lái)。」對(duì)于 AI 計(jì)算而言，動(dòng)力學(xué)是一種天然的表達(dá)框架，神經(jīng)網(wǎng)絡(luò)本質(zhì)上也可以看作動(dòng)力系統(tǒng)，因此二者之間的映射會(huì)更加直接。

「大腦里并沒(méi)有線性代數(shù)這種抽象，所以某種意義上，我們是在繞過(guò)中間環(huán)節(jié)。」

而在貼文下面，很多網(wǎng)友也表示了期待。

「實(shí)際上，這種性能效率的提升非常巨大。如果這種技術(shù)能夠得到廣泛應(yīng)用，那么很多在本地運(yùn)行的應(yīng)用程序都可能變得可行起來(lái)。」

「如果這種技術(shù)能夠上市的話，那真是一項(xiàng)極其先進(jìn)的腦科技啊。」

那么你呢，如何看待這一研究，歡迎在評(píng)論區(qū)交流！

https://x.com/NaveenGRao/status/2070184079199494583

https://unconv.ai/blog/introducing-un-0-generating-images-with-coupled-oscillators/

https://techcrunch.com/2026/06/25/databricks-former-ai-chief-thinks-he-can-cut-ais-power-bill-by-1000x/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.