網易首頁 > 網易號 > 正文申請入駐

一家「非主流」AI公司的豪賭：所有模態，一鍋燉了 | 對話智象未來姚霆

2026-05-25 12:10:24　來源: AppSo

廣東舉報

分享至

多模態訓練狠狠燒錢，世界模型公司也都在瘋狂融資。

股指起飛，敘事鋪天蓋地，人人都說自己在做世界模型——但智象未來，是這批公司當中少見的「異類」。

這家公司的聯合創始人兼CTO姚霆博士告訴 APPSO，他們在一個業界今天還不認可的方向上，下了一筆很大的賭注。

「如果成了，我們的天花板會極高。」

本月，智象發布了全新的原生全模態大模型，名為 HiDream-O1-Image。它包含一個 8B 參數量的開源版本，采用稠密架構，以及一個高達 200B 稀疏混合專家架構的閉源版本。

然而這個模型的特色，在于它是整個業界極其罕見的真·全模態大模型。傳統模型給每種模態配一套獨立的編解碼，各管一種模態。HiDream-O1 的架構是完全反過來的，把文本、圖片、視頻、空間、時序所有信號一鍋燉，直接喂進同一個模型管路。

這是一條非主流的道路。不過好在并沒有耽誤它賺錢。2025 年他們全年收入超 1 億元，而 2026 年第一季度收入仍保持倍數級增長；4 月，公司剛完成兩輪億級人民幣的新融資，深創投、東方富海等頭部機構的入局。一家在技術上「不合群」的公司，卻拿到了真金白銀的投票。

今天，打在這家公司身上還有一個今天更「討巧」的標簽：世界模型公司。

姚霆并不喜歡這個標簽：「我覺得我們其實不叫世界模型公司。我們目前更貼合的是一家做全模態的公司。」

專訪過半，他解釋稱，不希望智象的真正特色被世界模型的「水分」或者「泡沫」給沖淡了。他認為，當今世界模型公司的瘋狂融資、夸張估值，只有一半是真正的潛在價值，另一半是敘事的泡沫。

HiDream-O1 的真正特異之處，遠在「全模態」「世界模型」簡單的標簽之外。它所揭示的，其實是智象在多個維度巨頭環伺的競爭格局下，選擇了更難走的底層架構創新道路。

一鍋燉才是真正的全模態

傳統多模態模型，像是一棵樹，每一條枝杈分頭長大，有各自的命運。

文本有自己的 tokenizer，圖像和視頻也各有自己的 encoder/decoder 架構。所謂的多模態，其實是每個模態先在自己的領地里獨自處理，然后再強行推到模型里，去做后期的對齊與融合。

姚霆總結這套傳統的邏輯：追求各個維度的最優解，可以說是局部最優。

智象不想要局部最優，它想要所有的一切的都是最好的。

HiDream-O1 走的是完全相反的方向。這個模型架構沒有單一模態專屬的 encoder 和 decoder，文本進去就是文本，圖像進去就是像素塊，視頻進去是體素，音頻、動作、空間關系同理。所有的模態輸入進去，都直接形成原始信號，并且直接和同一套 UiT——像素級統一的 Unified Transformer 對話。

這套架構剔除了 VAE 和獨立文本編碼器，所有信息映射進一個共享 Token 空間。這么干，在姚霆看來，才是「原生」的、真正的全模態。

可以理解為，在智象的 UiT 架構里，所有模態從第一天開始就青梅竹馬、天然相融，而不是各自成長，在最好的年紀才與彼此相遇。

先不說這個架構是否真的好，至少聽起來有一種怪咖式的浪漫。

不過，UiT 架構在工程上的代價，卻是具體而粗暴的：參數量大，收斂慢，訓練壓力極高。姚霆向 APPSO 透露，UiT 架構無法直接套用當前很多現成、主流的后訓練方法，團隊花了極大的精力和算力成本去做摸索。

這也是智象在推出本代全模態模型的時候，選擇了開源與閉源齊頭并進的技術與商業安排。8B 開源版本和 200B 閉源版本共用同一套架構：前者用 dense 結構，在當前參數量基礎上最大化效用，并且開源以降低社區門檻；后者則用 MoE 方式，讓推理時激活參數壓低到十分之一甚至二十分之一。

8B 版本上線之后，社區很快給出了優異的評價。

在 Artificial Analysis 的文生圖競技場上，HiDream-O1-Image 的 8B 開源版本排名第一，混排后排名第八，是該榜單排名前 20 中公開參數量最小的模型版本，其它諸多均為預估參數量至少在 20-100B 規模的閉源模型。開源兩天后，HiDream-O1-Image 8B 也沖到了 Hugging Face 的熱榜第三。

不過，200B 的閉源大家伙，才是智象的真正押注所在。姚霆給 APPSO 算了一筆訓練的賬：這個 200B 模型現在還未「吃飽」，也即遠未達到參數量與模型架構的性能天花板。

APPSO 了解到，智象現在每天新增數十萬條以上的視頻數據，持續喂進訓練管線，模型仍在源源不斷的吃掉數據、轉化為自己的能力。「如果我們的訓練方法的進一步創新，并且引入更多高質量數據，這個模型依然能繼續提升泛化能力，效能將進一步逼近天花板。」姚霆表示。

走在 UiT 這條路上只是開始。智象將所有模態從原始信號一鍋燉在一起訓練，也只是智象的第一重賭注。

信號即認知

UiT 解決的是「多種模態怎么一鍋燉」。更重要的問題在于，圖像和視頻生成，到底怎么訓練才是正道？

此前 APPSO 曾報道，從視頻/圖像生成的角度攻克世界模型議題的公司們，。但萬變不離其宗：

行業中大多數視頻與圖像模型，走的是「隱空間」(latent space) 的中介路徑：先用 VAE 之類的 encoder 將圖像壓縮成一個抽象表達，然后讓模型在抽象空間里學習表征。

這是工程友好的選擇：參數小、訓練快、收斂更穩。但編解碼的動作本身會減弱表征，成為了這一主流思路的隱形代價。

智象決定直接在原始像素上做生成，再一次成為了非主流。

值得一提的是，智象不是一開始就站在像素這邊。2025 年 5 月，它開源過一個 170 億參數的 HiDream-I1，那是一個把 latent space 架構的效能壓榨到極致的模型，也登上過 Artificial Analysis 榜首，后來還衍生出圖像編輯的 E1、交互創作的 A1。

姚霆告訴 APPSO，「每一次編解碼，或多或少都會有信息損失，無法避免。」比如，電商海報上的小字排版、遠景里的人物瞳孔、精細的骨架紋理，這些是隱空間路線最容易糊掉的地方。

新的做法同樣有其具體而粗暴的代價：訓練壓力再一次指數級上升，收斂比 latent space 的路線要慢的多。但在技術選型的時候，其實并不難選：你是想做一道容易但只能勉強及格的題，還是交出一份困難但 90 分的答卷？

「我們寧可承擔失敗的風險，也要朝著 90 分，甚至 100 分的天花板去努力。」姚霆的回答沒有任何猶豫。

不是所有人都在做難題。Google 就走了一條相反的道路：根據 APPSO 的了解，Google 最新發布的全模態模型 Gemini Omni，其實是文本大模型+多模態外掛的架構，每個額外的模態，都先編碼成文本表達，再進入模型管路。

這更多是因為，文本模型本身就是 Google 的稟賦所在。

補充閱讀：

在大語言模型的時代，語言成為了公認的認知中介。但是智象似乎篤定，在多模態、全模態模型的時代，「信號本身就是認知」，文本這個中介，可以被去掉。

于是，他們放棄了短期可見的輕松收益，在純像素生成+原生全模態統一的這條路上繼續前行，因為他們相信原生統一全模態模型，天花板將會比大語言模型加視覺外掛，要高得多。

天花板在哪里？

行業里現在有個普遍焦慮：真實數據要不夠用了。

在大語言模型上，全網的高質量文本早已被「竭澤而漁」，模型本身返回的內容，包括結果以及思維鏈，被越來越多的應用于最新的大模型訓練語料。但問題是這些語料本身就是被模型處理后吐出的東西——長此以往，難免出現類似于「過擬合」的現象，讓模型的輸出質量不升反降。

圖像生成也是同理，當今圖片與視頻生成模型和工具進一步普及，成本顯著下降，人人都可以輕而易舉地生成。極端悲觀的估計，是總有一天圖片和視頻生成模型的訓練數據本身就是用模型生成出來的。

在兩年前 Sora 引爆視頻生成之后，業界一直在討論「合成數據」能否成為下一代模型的訓練基礎。讓模型吃自己的輸出長大，似乎成了當下最流行，也不可避免的解法。

姚霆并不擔心這一點：「至少在可見的未來，這個領域沒有數據枯竭的問題。」

目前，智象的訓練數據流水線已經開足馬力。當前數據來源有兩類：公開互聯網數據，以及版權方授權內容。

在智象，公開互聯網數據主要作用于預訓練階段的大規模通用學習，而后者的高質量數據，則更多用于后訓練階段的精調，以及與下游產品場景聯動。

無論何種數據都會經過嚴格處理與文本打標，形成訓練對之后才會送入模型。

對于合成數據，姚霆的態度并不悲觀。他認為只要用法得當，由本模型所生成的數據，反而是更有價值的數據。

邏輯在于，模型可以在同一輸入上生成多個結果，然后挑出最優的結果來反哺訓練——這其實是一個對齊激勵函數的過程。正是通過這一路徑，模型才更容易學習到「品位」「審美」，懂得什么樣的視頻是好視頻。

如果把沒經過篩選的合成數據一股腦灌進預訓練，等于讓模型反復學習自己早已學會的東西，意義就真的不大了。

所有的選擇背后，核心是前面提到的那一點：就只說 HiDream-O1-Image 的 200B 模型，還遠遠沒有「吃飽」。繼續喂更多高質量的數據，它依然會成長。

剩下的問題，讓鈔票和時間去解決。

能跟巨頭一較高下？

智象不只是一家模型公司，它同時還在做面向企業以及專業創作者的產品。

這套打法在公司內部叫做「1+1+3」：一個 HiDream 模型底座，一個對外輸出能力的平臺，三個變現場景分別是面向專業影視團隊的「幀贊」，面向電商（特別是跨境商家）批量視頻生產的 HiBurst，以及面向專業社媒創作工作者的 vivago。

僅僅在其中一款產品上，每日的 token 消耗就高達 400 億，日生成超過 100 萬張圖片和 10 萬多條視頻。vivago 已經聚攏了超過 4000 萬專業創作者，轉化出百萬級付費訂閱；面向影視工業的「幀贊」直接對接了長江電影集團、慈文傳媒等傳統專業影視制作機構。

姚霆表示，「我們的設計是希望模型跟產品形成最強的耦合，產品成為我們模型的驗證場景，能力的放大器。」

智象的專業影視視頻生成業務，目前能穩定 one-shot 直出 1-3 分鐘的視頻，成功率（用戶接受）超過 70%。在今天的大抽卡時代，這個數字還是十分令人羨慕的。但數字本身只是表象。

「這里面很多貢獻，來自于我們對影視作品流程的理解，而不是模型能力本身跟別人有多大的本質區別。」姚霆解釋，真正的區別在于智象團隊對專業影視制作流程做了深入研究，將經驗沉淀成一整套適配場景的策略體系。

這是工程，是 harness 的勝利。都說模型即產品，模型強大到一定程度可以吞噬一切——但至少在今天，專業知識轉化到產品工程的 know-how，才是真正的護城河。

在專訪中，姚霆提到公司高管曾反復自問的一個問題：憑什么你能做（超）過 Google、字節？難道他們的人沒你強？資源和錢沒你多？

「我們進入一個市場，做一件事之前一定會想清楚，憑什么我們能做過他們。如果找不到任何理由，這件事我們就不會做。」

在架構層面，智象的領先窗口大概是 3-6 個月，前提是有其他玩家被說服愿意嘗試甚至轉向 UiT 架構——而一旦這個可能性真的發生，智象的領先會被大廠和小龍公司們的資源優勢抹平。

所以其實，智象真正能撐住的，是那些大廠沒有足夠資源可以投入，就算做了也做不徹底的垂直領域，更準確來說，是這些垂直領域內的工作沉淀。

又一重賭注的形狀逐漸清晰起來：將模型和產品深度綁定在場景當中，代價是放棄「大而全的通用模型」的想象空間。

這倒不是什么特別令人遺憾的事，畢竟按照姚霆自己的話來說，「通用模型這條路上，現在沒有創業公司的位置了。」

智象的野心不止視頻。它和諾亦騰合作，用生成的物理視頻補具身機器人最缺的訓練數據；又和百圖生科合作，想把全模態生成能力延伸到細胞級的微觀世界。

如果說視頻生成是這套架構的第一個落點，這兩步暗示了它真正想去的地方：用一套架構，建模整個物理世界，從宏觀到微觀。

認知決定每家公司選什么路，也決定愿不愿意為這個選擇承擔風險。認知，才是這場賭局的莊家。

模型路線沒有外部裁判。所有人都會覺得自己的感覺是對的，直到時間給出答案。

今天，智象選擇了 UiT 架構，選擇了原生全模態的路線。把所有模態「一鍋燉」，煉得出真正接近天花板的全模態模型嗎?

也只能交給時間了。

以下是 APPSO 等媒體與姚霆的采訪實錄（節選）：

Q：這幾個月世界模型賽道的估值飆得很快，你怎么看？

A：因為「世界模型」這個概念比較大，包括做視頻的公司、做技術的公司，最起碼在故事這個層面都會往這方面去講。但真正能不能做好，每家公司的稟賦決定了它該怎么做。我們比較認可一個看法：要想做好世界模型，視頻生成的底模數據量足夠大，才有可能 scale up；數據不夠大，很難 scale up。

Q：楊立昆的 JEPA、李飛飛的世界模型路線，跟你們的方向有什么區別？

A：我覺得 Yann LeCun 的方法可能更偏理解，這點我非常贊同。我跟他的方法在某種程度上并不排斥。區別在后面的任務到底是什么。他的核心是 action prediction，我們的核心是生成。所以不是排他關系。理解是非常有必要的，只是任務方向不同。

Q：「全模態」和「世界模型」這兩個標簽，你為什么更喜歡前者？

A：世界模型這個概念特別大，而且每家對它的定義都不太一樣。我們其實當年還查過字典，對吧？到底什么是世界？查完世界字典以后，發現世界好像是有物質，有能量，有各種各樣的組合，然后才能組成一個世界。所以會發現好像很難定義。但是大家說這個說的比較多，所以說我們會覺得，那可能我們先不管什么是世界模型吧，但我覺得，要走全模態可能是一條路徑。

Q：視頻生成模型，未來還會有公司開源嗎？

A：我個人覺得目前的觀察來看，我覺得可能大部分人都不會再去做視頻模型的開源。一旦到了中后期，只要存在商業化可能性，廠家就會停止開源。比如說（某巨頭公司開發的視頻圖像生成模型），當他覺得有商業化的可能性，那他肯定就不開源。除非說在早期，大家可能都是一片混戰的情況下，為了獲得更多的聲量、更多的關注，那可能會做一些開源。

Q：海外研究團隊商業化壓力小，可以深耕基礎研究。中國創業的環境差異在哪？

A：中國創業的話商業化壓力的確會有，每家公司都會有。前段時間有兩個 Yao Shunyu 的播客挺有意思的，其實大家說的都沒什么問題，只是土壤的問題。學術界當然可以做更多 idea 和探索；但在中國做創業，你必須要做商業化，必須要做跟用戶場景更相關的東西。兩邊的觀點我都挺認可。

Q：在大模型這個賽道，會不會出現一家公司「贏者通吃」、把所有應用都做完的局面？

A：其實我自己會覺得這種可能性不太大。原因是因為當模型去做下游任務的應用的時候，它一定是和這個行業的 know-how 綁定的。所以呢我們作為一家初創公司，我一點不會在意說我一定要完全是解決我的模型的特別大的一個通用性。我覺得在這一塊的話，如果說我們貿然去做大量的嘗試，其實我們會失去說在一些垂域的、這個行業的機會。

Q：你覺得國內大模型和海外的整體差距是多少？有人說 6 到 8 個月。

A：我覺得是一年到一年半，不止 6 到 8 個月。Anthropic 的布局非常深，估值已經在萬億左右了，它在數據處理上的一些做法，其實會形成一定壁壘，不是你想追就能馬上追得上的。從智能體這個角度看，他們的思考也更靠前。

Q：騰訊、阿里在大模型方向上和海外公司明顯不一樣，你怎么看？

A：我比較關心的還是 Google 的發展。坦率說，今天不管語言模型還是多模態模型，美國還是會比我們更快，或者他們想的更深。

Q：你反復說「認知決定路線」。「認知」具體指什么？

A：今天大模型可能有些門檻相對比較低，大家可能都能去訓練，但不代表說他有認知。舉個例子，比如本科生也能夠做出非常優秀的模型，但并不代表他對這個模型是有認知的。這個是非常重要的。認知的程度才會決定說你會選擇什么樣的技術路線，以及說你愿不愿意為這個技術路線去付出你的代價。有可能你會不成功的，但是你相信它，你才有可能去做它。

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」（請隨簡歷附上項目/作品或相關鏈接）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.