![]()
Claude Fable 5 于 6 月 10 日發布后,知危在推特上圍觀了大量案例,印象最深刻不是那些 UI 設計、物理模擬案例,也不是一天內遷移五千萬行代碼的代碼庫( 畢竟這超出了個人的認知范圍 ),反而是被一個看似簡單的例子吸引了。
![]()
來源:
https://x.com/ProperPrompter/status/2064405487492452856
提示詞:
使用 SVG 模擬像素藝術,創建一個精美且細節豐富的可愛動物場景。每個“像素”的大小應該相同。
雖然讓大模型用 SVG 來畫圖已經有大量的嘗試,但知危是第一次感覺到AI的作畫是那么自然協調,不管是動物的形態,環境的氛圍,還是顏色的組合,它讓你感覺 Claude Fable 5 是在用眼睛看著作畫。
而在看到下圖這個案例之后,加上火速通關《 寶可夢:火紅 》的戰績,讓我對 Claude Fable 5 可能擁有某種 3D 視覺思維或者說 “ 空間智能 ” 能力的想象更加強烈。
![]()
于是,在本期測評中,知危打算著重測試 Claude Fable 5 用代碼構建視覺概念的能力。( 全程使用 Claude Code 測試 )
盡管網友似乎更加熱衷于讓 Claude Fable 5 直接構建《 我的世界 》,但其實里面的構成大部分是平凡的地形元素,要驗證模型的視覺思維的存在,必須讓它去實現一些非平凡的概念和性質,比如帶有 IP 屬性的形象,二次組合創新,對原創設計的即時理解等。
在正式開始前,還是要用一個比較復雜的案例看看 Claude Fable 5 的基礎編程能力。
在一個被用來挑戰過 Gemini 3 Pro 等模型的 3D 引擎案例下,Claude Fable 5 交出了目前為止最好的答卷,除了需求完整實現、沒有 bug 以外,它是唯一一個不會漏掉左側模版庫的 AI。
![]()
這只是前菜,畢竟對于這個案例,網頁版的 Claude Sonnet 4.6( low effort )也能基本完成了。
接下來,就要考驗 Claude Fable 5 的視覺理解和構建能力了。
我要求 Claude Fable 5 直接就用剛才寫好的 3D 引擎,搭建出一個多啦 A 夢的 3D 模型,結果堪稱完美。
![]()
再來一個喬巴,也是驚喜遠多于槽點。
![]()
繼續,再加一個路飛,放在他們身后,并且強調了是 3 檔形態,Claude Fable 5 很好地理解了這個狀態下路飛的巨大手臂形態。
![]()
最后,我希望在場景上更加豐富一些,就要求 Claude Fable 5 畫出路飛的海賊船“ 黃金梅利號 ”,并讓他們三個站在甲板上。
結果不太理想,那么大一艘海賊船被 Claude Fable 5 畫成了只能在景區湖里使用的小船,當然模型有刻意去還原船頭的羊頭標志和海賊旗,也是很細節了。
![]()
做完上述這些測試后,Claude Code 消耗了 43% 的 5 小時額度,以及價值 7.29 美元的 Token,價格確實不菲,要想玩的盡興點,Pro 級訂閱應該是不太能滿足的。
![]()
“ 黃金梅利號 ” 的 “ 崩塌 ”,可能是由于工作空間太小,導致了Claude Fable 5難以發揮。
接下來,我們打破引擎框架的限制,并開始構建更加復雜的對象,讓 Claude Fable 5 直接用 Three.js 來構建《 我的世界 》風格的艾爾迪亞王國,也就是《 進擊的巨人 》中由三堵圓形城墻為框架建立起來的城堡。
提示詞:
你將使用 Three.js 構建一個第一人稱體素(Minecraft-like)沙盒原型,自由組織項目,可以引入依賴和后處理。
目標:實現一個以《進擊的巨人》“艾爾迪亞王國三層城堡”為核心的可交互體素世界。
核心場景:艾爾迪亞三層城堡。世界核心是一個巨大的“帕拉迪島風格王都城堡”,采用三層城墻結構:瑪麗亞,羅塞,希娜。
核心體驗:玩家出生在最外層的城墻(瑪麗亞)上方,可沿城墻環繞行走,可從城墻落到地面,可從地面爬上城墻。世界是程序生成的體素地形,要有村莊、城堡、河流、草原和樹林。
玩法基本保留 Minecraft 經典手感:第三人稱,WASD+鼠標,左鍵破壞,右鍵放置,帶物品欄。其余細節由你發揮,打開第一眼就要被城墻和夕陽震住。
如果實現成功,應滿足:
- 玩家進入世界后看到三層城墻明顯分層結構;
- 能在不同層之間移動(樓梯/繩索/地面);
- 第一層復雜、第二層規整、第三層宏偉;
- 可以自由破壞/放置方塊;
- 城堡結構在視覺上“可讀”(一眼看出三層權力結構)。
提示詞沒有太多講究,關鍵就是多強調目標、驗收標準,而不是過程。
在執行過程中,Claude Fable 5 會持續多次調用 Chrome CLI headless 截圖來查看和測試當前實現效果,看起來確實很像是在 “ 邊畫邊看邊測試邊思考 ”。
只是使用 Chrome CLI headless 截圖可能觸發 Mac 權限限制等問題,導致進度一直停滯。參考ChatGPT的建議,我將原方案改為 Playwright 方案( Playwright 是一個開源的瀏覽器測試和網頁抓取自動化庫 ),順利完成了項目。
來看看效果如何:
![]()
一眼看過去還是非常驚艷的,一個鏡頭就能直接將夕陽下的三堵巨大城墻的視覺效果呈現給你。城墻上的豎條紋非常符合原作的特點,甚至你還能發現,作為主角的士兵可以確定是調查兵團的,因為披著綠色的披風。
當然,這個結果的復雜度肯定還遠遠比不過人類的 MineCraft 作品,比如下圖,由 DSOGaming 的創始人兼主編 John Papadopoulos 創作。
![]()
要知道,Claude Fable 5 只是完成了艾爾迪亞王國的宏觀框架,平原上的村莊、森林過于凌亂而隨意,最核心的居民區也就是甕城( 上圖呈現的城市結構 )連個影子都沒有,城墻之間間距過窄,沒有任何“史詩級”的氛圍。
當然,反過來看,Claude Fable 5 搭建出來的成品,至少沒有和我搜索到的任何相關作品雷同,所以目前來看,這是它基于自己的理解而不是套訓練數據做出來的概率,相對高一些。
接下來,就要加難度了,主要是把上述槽點都修一修。
首先是調整宏觀尺寸。
提示詞:
請調整尺寸,人身高:城墻高度=1:50,城墻高度:相鄰城墻距離=1:20。在每個城門的部分還有再略為向外突出的半圓形城墻的甕城。
Claude Fable 5 分析需求后,認為間距過大會讓三堵墻無法在視覺上一鏡同屏,且需重寫為流式生成,后面會解釋這是基于視覺渲染效率的考慮。它竟然給我提供了三個完全不同的選項,要么保持當前間距,要么去實現極端大間距,要么做一個折中。
畢竟按原來提示的極端大間距下,同屏是不可能的,很影響視覺氛圍,且從一堵墻到另一堵墻的徒步時間過長,所以最后還是選擇了折中方案。
![]()
折中方案也不錯,三堵墻一眼盡收眼底。
![]()
乍一看會覺得Claude Fable 5用平滑的、無結構的墻面來偷懶,城墻上還有莫名其妙的缺口,但走近了之后才理解它的苦心。
![]()
隨著離城墻越來越近,墻面的真實結構也逐漸顯露出來,原來的缺口也被填補了。
我追問了一句,“ 為什么將城墻半徑擴大需要很大量的工程,具體有哪些工作內容和挑戰?”
Claude Fable 5 解釋道:生成不貴,“ 讓你看見 ” 才貴。
這應該是指如果要把場景內的所有細節一次呈現給你,內存占用過高,會無法流暢運行。所以一般是近景才做細節渲染,遠景只做粗糙些的渲染,此即所謂的流式生成或流式渲染。這其實也是很多游戲特別是開放世界游戲的常用優化手段了。
![]()
重點是,它就連優化和折中的重點也放在視覺層面。
但甕城里是真的什么都沒有,連門都給封住了。
![]()
還好,Claude Fable 5 有按要求提供爬上城墻的樓梯,這可是原作里不存在的東西。
![]()
接下來,需要再完善一些細節,以及分三步,給它一個終極大考。
第一考,在瑪麗亞之墻和羅塞之墻之間的平原上,構建一個超大型巨人,身高和城墻相當。
結果如下:
![]()
雖然這個巨人有點像閃電俠,但按完成度來看沒有什么大毛病,當然這也只是個前菜,提供一些氛圍感。
第二考,目前為止我們主要感受了 Claude Fable 5 還原 IP 特征的能力,從游戲玩家視角思考構圖的能力( 比如流式渲染 ),在細節上組合創新的能力( 比如在城墻上嵌入樓梯 ),那么還差最后一點,就是基于原創設計的即時理解能力。
我給 Claude Fable 5 提供了來自藝術家 Jarlan Perez 的機器人概念設計作品,讓它在羅塞之墻和希娜之墻之間的平原上,把機器人復刻出來,身高也是和城墻相當,并把玩家的出生點從瑪麗亞之墻轉移到羅塞之墻,便于驗收和觀察。
參考圖:
![]()
結果如下:
![]()
![]()
這個結果,可以說比超大型巨人好多了,除了眼睛做的不像,其它部分還原度都很高。
另外也能看出,Claude Fable 5 有刻意將瑪麗亞之墻和羅塞之墻之間的城市做的更加規整一些,雖然希娜之墻內部還是很敷衍。
![]()
最后一考不看局部細節,而是讓 Claude Fable 5 直接挑戰人類。
也就是看它能不能構建一個達到人類高級玩家水平的甕城,不只是給語言提示,還要用參考圖的細節程度暗示模型不能偷懶。參考圖選用了動畫原作的托洛斯特區鳥瞰圖,它剛好位于現在的羅塞之墻出生點的南邊。
參考圖:
![]()
來看看最終結果如何:
![]()
![]()
如果走到對面的甕城城墻上,也能看到城墻外的超大巨人的背部,是合理的。
![]()
如果要跟 John Papadopoulos 的作品相比較,很明顯,人類還是勝出。但就完成度而言,包括尺寸、河流、居民區、中心處高塔等,都成功地呈現了,也算是交出了一份及格卷。
![]()
這三大考直接耗盡了我的 5 小時額度,可見要真做出來 100% 還原的艾爾迪亞王國有多燒 Token 。
到此,加上之前用來構建 3D 引擎、動漫形象,總共用了 2 小時 API 時間,成本一共達到了價值 56.99 美元的 Token 消耗( 訂閱制+Fable 是真香,可惜快沒得用了 ),而我的艾爾迪亞王國,如果要做到在靜態視覺上基本還原的程度,目前的完成度估計還不到十分之一。
![]()
好了,測評結束!
回到文章開頭的問題:Claude Fable 5 究竟有沒有 “ 視覺思維 ” 或是一定程度上的 “ 空間智能 ” ?
經過這輪測試,知危依然無法給出一個確定答案。但至少在這次體驗里,Claude Fable 5 展現出的能力已經超出了傳統意義上 “ 根據提示生成代碼 ” 的范疇。
它會一邊寫代碼一邊觀察,會主動考慮構圖,會權衡視覺呈現與性能消耗,會為了遠景觀感調整世界尺度,會對原創參考圖做出極致的視覺還原。
從多啦A夢、喬巴、路飛、“ 黃金梅利號 ”,到艾爾迪亞王國、原創機器人概念設計,再到最終的托洛斯特區,它表現出的并不是簡單的復讀與拼接,而更像是在不斷建立、修正和驗證自己對目標的視覺理解。
當然,它距離真正的人類創作者還有很長距離。它的細節塑造能力依然有限,審美穩定性也談不上完美,而高昂的 Token 成本更決定了這種創作方式暫時難以普及。
但不可否認的是,當一個大模型開始能夠一邊編程、一邊觀察、一邊迭代自己的視覺成果時,它已經站在了一個新的起點上。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.