3D 生成行業很大,但剛剛到GPT-2 的水平,國內團隊要領先海外團隊,大廠與創業公司在同一起跑線。
撰文|藍洞商業 趙衛衛
消費級的生成式AI屢見不鮮,工業級的生成式AI亟待新突破,繼騰訊混元入局3D生成模型之后,字節跳動最近也發布了3D生成大模型Seed3D 1.0。
工業級的3D生成意味著更高的精度和質量,而且適用的行業也主要集中在B端行業。騰訊混元3D生成模型已經進化到了3.0版本,主要用于游戲開發,而字節跳動展示的3D生成大模型使用場景,主要瞄準仿真環境中的具身智能大模型訓練。
衡量一個3D生成模型的能力,目前沒有絕對標準,只有相對質量的對比。
在字節跳動Seed3D 1.0的測試圖中,還原度、透視與結構、幾何質量等多個維度都優于同行對手,而它選取的國內對手中,表現較好的分別是影眸科技的Rodin Gen-1.5、騰訊Hunyuan 3D-2.1和VAST的Tripo 2.5。
影眸科技團隊,后排左一為CEO吳迪,前排左一為CTO張啟煊
尤其是影眸科技,這家專注于3D大模型技術的創業公司由吳迪、張啟煊等人于2020年創立,去年A輪融資時,影眸科技的主要產品Rodin用45天就拿到了100萬美元ARR,字節跳動和美團龍珠領投,在今年的A+輪中,字節跳動繼續追加投資。
值得注意的是,過去一年間,字節在自身AI業務上飛速發展,但戰略投資很少出手AI項目,影眸科技是為數不多的一家。
如今,字節跳動親自下場布局3D生成模型,不難看出對這一賽道的重視,這也意味著3D生成市場會迎來更快發展。
9月,影眸科技上新了Rodin Gen-2.0版本的模型,相比上一代模型,生成的3D模型有了更加銳利和平直的邊緣,這一代模型在交互上增加了分件功能,讓用戶通過指定顆粒度來控制和重新拆分零件,增加了用戶可用性的同時領先于同類產品。
與此同時,網易游戲的《蛋仔派對》、3D打印行業的拓竹等公司和產品,都已經用上了影眸科技的Rodin,他們通過Rodin的3D生成開發產品,這大大提升了3D內容生產的規模和效率。
但3D生成的ChatGPT時刻尚未到來,影眸科技CTO張啟煊認為,當下行業差不多剛剛發展到GPT-2的水平,而未來進化的方向,是要滿足不同行業的具體使用場景,更需要互聯網大廠和創業公司們齊頭并進。
在騰訊、字節紛紛下場布局3D生成模型的當下,影眸科技作為創業公司如何思考未來的發展?「藍洞商業」對話了影眸科技CTO張啟煊,以下為內容精編:
藍洞:你看到大廠相繼入局3D生成的產品之后,第一反應是什么?
張啟煊:這更像是一個信號,表示愿意投入3D生成這件事。
騰訊混元3D大模型真正的飛躍,是今年三四月份,混元3D把模型參數量上到了百億級規模,這種嘗試需要一次性投入巨大的算力成本,對初創公司來說風險很大,但幸運的是混元成功了,后面的公司再去Scaling(規模化)就比較有信心了。
藍洞:大廠在3D生成的場景上各有側重,比如騰訊主要是游戲,字節主要是具身智能和電商,你們呢?
張啟煊:具身智能的幾家頭部公司也都在用我們的產品,包括上海交大的穆堯老師有一個Robo Twin項目,通過結合現實世界的遙操作數據與數字孿生的合成數據,為雙臂機器人的研究提供強有力的支持,他們就選擇我們Rodin去生成具身智能的3D資產,因為生成的模型橫平豎直規整度很高。
具身智能領域的數據來源有兩個,一個是真實數據,另一個是虛擬數據。
如果你要在仿真環境中做虛擬數據的話,肯定需要3D資產在仿真環境中使用,那這個3D資產不可能靠掃描,也不太能夠雇人去建,靠現有的數據集的話又太少了,這時候3D生成就是很好的方向。
消費級的文字、音頻、圖片或是視頻內容生成,都是往社交媒體走的,但3D生成不是這種模態,它不是直接跟大眾接觸,從網易游戲到3D打印行業的拓竹,都是我們的客戶,但不同行業對3D的要求是不一樣的,差異非常巨大。
比如3D打印行業更關注模型的水密性,而游戲行業是一個很長的工業管線,我們在逐步攻破布線、UV和綁定動畫等問題,因為表面的平整度和曲面規范性非常重要。
藍洞:對于一個普通用戶來說,現在接觸你們的3D生成最普遍的形式是什么?
張啟煊:一個是3D打印,另外一個就是網易的游戲《蛋仔派對》。《蛋仔派對》上的「AI模型生成」功能,讓玩家輸出文字或上傳圖片就可以生成高質量模型,然后在樂園工坊中直接使用,這意味著3D?成技術已經進?了?規模商業應?階段。
能夠跟大廠合作,是因為我們團隊在國內的圖形學中是領先的,在國際圖形學頂級會議上斬獲過「最佳論文獎」和「TOP10技術論文速覽」雙料榮譽。
對于很多游戲公司來說,選擇第三方模型是現階段最穩妥的方案,因為各家模型有各自的特點,語言模型上GPT-5更好還是Claude更好?視頻生成上Sora-2跟VEO-3.1哪個更好?大家都很難說絕對領先,我們只能說第一梯隊是誰。
藍洞:現階段國內3D生成的第一梯隊是誰?
張啟煊:我認為是我們Rodin-2跟騰訊混元3D。我們不擔心競爭,最擔心的是大廠沒有加入這個游戲。
目前海外市場,基本占了我們收入的百分之七八十。海外主要在布局這一塊的是Roblox,它是一個在線游戲創建平臺,讓用戶通過免費工具來創作內容,Roblox最早做了3D Control Net,能夠產生高質量的輸出。
一年前發布1.0版本的時候,我們的一個賣點就是可控性很高,用3D的Control Net把設計產品的長寬高比例等固定下來,而不是讓AI胡亂生成, 這對游戲和工業設計是非常重要的剛需。上個月,混元3D也發布了原生3D組件生成模型的可控功能。
藍洞:上個月發布的新版本,相比去年的1.5版本,行業有哪些新變化?外界有哪些新的反饋?
張啟煊:現在跟去年相比,總的來說3D生成整個行業最大的變化就是參數量上去了。
比如去年年底,我們發布Rodin Gen-1.5版本的時候,參數量是超過40億,而現在整個3D生成行業第一梯隊中的模型,標配已經是百億參數了,百億參數也就意味著你背后的數據量,已經到百萬級別了。
所以行業飛速發展,一方面創業公司有了資本和資源去收集大量3D數據,渠道已經打通,也不再擔心3D數據從哪里來,而另外一方面,第一波做3D生成的公司已經賺錢了,所以互聯網大廠也注意到了這個方向,開始跟游戲業務做協同,后面包括初創公司和大廠的競爭會更激烈。
我們影眸的特點是模型側各種功能性上的改進,比如將模型快速拆解為多個獨立部件,這些功能性和底層框架上比較領先。
上個月發布的新版本,我們已經提前把基座模型給到一些用戶體驗,主打的功能就是分件,用戶體驗感覺很不錯。
但意想不到的反饋是,很多人覺得我們貼圖質量變差了,其實我們做過AB test,換回原來的貼圖模型會更差,背后原因是模型質量提升了之后,大家對貼圖的要求更高了,顯得貼圖質量變差了。
我們每個版本的迭代都是朝著用戶需求展開,比如國內一家知名智能硬件科技企業,他們設計師都在用我們的產品,給我們的反饋是需要3D生成邊緣銳利,我們回去就在1.5版本中把這個特性做出來了。如今到2.0版本,我們分件功能也是來自設計行業的需求,讓設計變得更可控,使用面更廣了。
對于3D打印行業來說,現在小紅書上很多案例,都是用我們的產品生成3D設計之后拼裝的案例。現在還需要下載之后在三維軟件中進一步操作,但后面我們會把這一套流程集成在我們網站中,不再需要用戶二次操作。
藍洞:從你們的產品UI設計上,能感覺你們的審美超過很多大廠,這是怎么來的?
張啟煊:我們團隊很多藝術家,幾個創始成員都喜歡拍電影,都會自己用三維動畫軟件Blender做3D渲染,所以很多產品宣傳片讓外界以為是專業團隊做的,其實都是我們自己設計的。在交互上的設計也是,與其說滿足自己的審美偏好,不如說幫用戶做到足夠方便,否則效果不會好。
藍洞:就目前3D生成來說,大廠比創業公司的優勢大很多嗎?
張啟煊:大模型最重要的還是數據。至少目前,大廠跟創業公司在3D生成上是站在同一起跑線的。比如說,我們現在的數據量級已經超出騰訊這樣級別的大廠在做的游戲數據量。
舉個例子,一般中小型游戲有幾百到上千個模型,中大型游戲則是幾千到上萬個。假設頂級游戲公司有100個游戲,每個游戲有1萬個模型,那么它最多有100萬個模型,而我們現在有的數量級已經遠遠超過這個數量了。
大廠可以大力出奇跡,一次兩次可以,但第三次可能就難了。大家能看出GPT-5和GPT-4o的巨大差別嗎?所以要的是在體驗和場景使用上的新突破。
3D是個很大的行業,但3D生成現在其實差不多剛剛到GPT-2的水平,而且國內的團隊要領先海外團隊,我們私下開玩笑說,最聰明的那批人全都沒在做3D生成,海外的聰明人都去做AI視頻生成,都去做AGI了。
藍洞:制約3D生成下一步發展的條件,除了巨大的算力消耗還有什么?如何找到新的突破方向?
張啟煊:之前是有了模型之后去定制產品,比如從GPT-3.5到GPT- 4,而其實一個新的方向是為了一個產品去定制一個模型,比如最新的Sora 2。
它是為了社交媒體玩法,設計了可以植入人物多人合拍的功能,這些功能都是需要在網絡側引入的。再比如Google的AI圖像生成和編輯工具Nano Banana,也是從產品角度出發設計了一個新的網絡結構。
那對應到3D生成領域,我們很早就意識到為了用戶需求要在功能上進行設計,比如之前的3D Control Net和現在的分件,都是因為要滿足不同行業的具體使用場景,而不是加大數據和參數讓絕對質量變高。
3D生成行業剛剛起步,因為3D行業不同行業對3D模型需求差異遠要比圖像跟視頻高很多。比如工業設計都要CAD模型,需要的是曲面模型而不是網格化的,那就要求我們把模型變成曲面參數表達,每完成一個新的里程碑,就會在新的領域里發現新的客戶去使用你的東西,這就是后面大家整個AI生成行業去迭代的方向。
藍洞:最近美國李飛飛團隊也發布了全新實時生成式世界模型RTFM,一張H100就可以運行,他們主導的3D生成方向本質是學會了渲染的AI,而你之前也提到未來看好的方向是用生成式的方式去做渲染,這其中有什么不同?
張啟煊:我們其實不是一個賽道。李飛飛老師功成名就,她要考慮的是人類未來10年或20年后的東西,所以很前衛,他們的產品有點像視頻生成,是顛覆現在圖形渲染管線的事,其實不是為了這一代游戲和這一代的CG去做的,所以周期肯定更長。
而我們作為一家小初創公司,要先解決現階段的生存問題。3D生成是基于Mesh表達, 所謂Mesh表達就是由大量三角形面拼接而成的3D模型表達形式,它跟現在的CG還有游戲的工業是接軌的。
我看好未來生成式的方式去做渲染,我們也確實在布局,但跟我們現在的Rodin產品不太相關。之前大家想要呈現一個精致的視頻畫面,背后有3D模型、光照和材質等等要求,然后通過渲染引擎去得到最后的圖像。而生成式AI改變了這個規則,圖像可以直接降噪生成視頻,但做不到非常精準,我們就希望把視頻生成變成一個渲染器,去完成妥當的渲染。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.