網易首頁 > 網易號 > 正文 申請入駐

一個胖商人的冒險,測出了大模型的新天花板

0
分享至

你用AI跑過團嗎?不是那種"請選擇A/B/C"的對話框游戲,而是一個會懟你、會挖坑、還會畫地圖的地下城主。一位自稱"氛圍考古學家"的測試者最近干了這件事——而他發現的差距,可能比你想象的更懸殊。

一場持續三年的"壓力測試"


這位測試者有個堅持了相當長時間的實驗:用同一套 Prompt 反復投喂不同版本的大語言模型,觀察它們扮演桌面游戲主持人的能力進化。

Prompt 的設計本身就充滿惡意。他要求 AI 扮演"略帶諷刺"的敘事者,在冒險背后埋藏陰謀與挑戰,"別讓我過得太舒服"。玩家角色被設定為一個沒有任何特殊能力的胖商人——刻意避開戰士、法師這類容易觸發套路模板的職業。

最狠的幾條約束:每次回復最多三句話,不告訴玩家有什么選項,也不問"你接下來要做什么"。偶爾還要配圖,且風格必須保持一致。

這些規則指向同一個目標:逼 AI 放棄"貼心助手"的本能,真正進入"對抗性敘事者"的角色。

測試者透露,此前的版本表現糟糕——"根本沒花足夠精力讓玩家難受",關卡設計過于直白,從A點到B點毫無阻力。這種批評暗示,早期模型即使被明確提示,也難以維持敘事張力。

5.5版本發生了什么

轉折點出現在 ChatGPT 5.5 配合 Image 2.0 繪圖引擎的組合。測試者的評價是:"愉悅度、風格統一度和緊張感,都提升了整整一個數量級。"

具體強在哪?

首先是節奏控制。三句話的限制被嚴格執行,信息密度高,沒有廢話。其次是氛圍一致性——諷刺語氣貫穿始終,沒有突然變成客服腔。最關鍵的是,AI 開始真正"為難"玩家了,陰謀和障礙的設計有了層次感。

最直觀的證據是一張地圖。測試者在文末展示了 AI 生成的完整故事概覽圖,作為整個冒險的收尾。他沒有復制對話原文(用的是匈牙利語),但特別強調:「諷刺氛圍被完美還原!

圖像生成與敘事的協同也值得關注。"風格一致"這條要求,在過往測試中往往是災難現場——同一場冒險里,角色畫風可能從寫實突變到Q版。5.5版本配合 Image 2.0 似乎解決了這個頑疾。

為什么這種測試方法本身很重要

測試者自己點出了價值所在:這類實驗"與真正的桌面角色扮演游戲的關聯,遠勝于那些掛著RPG標簽的程序"。

這句話值得拆解。市面上大多數"AI跑團"產品,本質還是分支敘事樹——開發者預設節點,AI負責填充文本。但這位測試者追求的,是開放式對抗:玩家寫動作,AI寫后果,沒有隱藏選項列表,沒有設計好的勝利路徑。

這種自由度的代價是極難評估。沒有準確率、沒有BLEU分數能衡量"這個地下城主夠不夠損"。測試者說的「很難用干巴巴的數字衡量的能力」,恰恰指向大模型評測的一個盲區:我們擅長測知識儲備、代碼通過率,卻缺乏對"敘事智能"的量化手段。

他的解法很原始也很有效:固定 Prompt,長期追蹤,用人感做錨。

胖商人這個設定還有一層深意。當 AI 面對"沒有戰斗技能、沒有魔法、沒有英雄光環"的主角時,被迫跳出標準奇幻敘事模板。它得設計適合商人的挑戰——可能是騙局、債務、供應鏈斷裂,而非地精和龍。這種"去套路化"壓力,比讓 AI 寫個勇者斗惡龍更能暴露真實水平。

從游戲測試到產品啟示

這個實驗對做產品的人有幾條可遷移的觀察。

第一,約束條件即功能。三句話限制、不列選項、不提問——這些看似反用戶體驗的規則,恰恰塑造了獨特的游戲節奏。AI 產品的交互設計,有時候需要做減法而非加法。

第二,多模態的臨界點可能比我們想的更近。Image 2.0 在這里不是錦上添花,而是敘事完整性的基礎設施。當 AI 能穩定輸出同一視覺風格的配圖時,"文字+圖像"的混合敘事才真正成立。

第三,對抗性場景是能力探針。讓 AI 當助手容易,讓 AI 當對手難。后者需要模型理解目標沖突、保持角色一致性、在限制中創造張力——這些能力遷移到商業場景,就是談判模擬、辯論訓練、危機演練等高端應用。

測試者的署名是"The Vibe Archeologist"(氛圍考古學家)。這個自嘲式的頭銜,或許暗示了一種新的評測范式:不是挖掘模型的知識深度,而是勘探它能營造的體驗質地。

他在文末祝讀者「玩得開心」——而這場持續數年的胖商人冒險,確實讓人看到了一種可能:當 AI 不再急于取悅用戶,反而能創造更真實的沉浸。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中國不能輕易答應!烏總理急訪華游說:圖們江教訓慘痛

中國不能輕易答應!烏總理急訪華游說:圖們江教訓慘痛

嫹筆牂牂
2026-05-06 11:32:25
家長自我感動式簽名走紅,老師滿是反感:全班都這樣搞,還了得

家長自我感動式簽名走紅,老師滿是反感:全班都這樣搞,還了得

蝴蝶花雨話教育
2026-05-06 01:10:03
美軍想不通:屏蔽中東GPS,竟被重慶兩百塊高爾夫測距儀破解

美軍想不通:屏蔽中東GPS,竟被重慶兩百塊高爾夫測距儀破解

百科密碼
2026-04-01 16:36:30
離完婚我注銷被婆婆拿走的工資卡,前夫立即來電怒吼:你把卡解開

離完婚我注銷被婆婆拿走的工資卡,前夫立即來電怒吼:你把卡解開

云端小院
2026-05-06 07:00:39
打不過完全打不過!湖人隊慘敗0-1雷霆 詹姆斯27分盡力 1人16中3

打不過完全打不過!湖人隊慘敗0-1雷霆 詹姆斯27分盡力 1人16中3

阿晞體育
2026-05-06 17:23:26
油價調整通知

油價調整通知

城市速遞
2026-05-03 21:20:04
人蠢不蠢一看就知:兩個典型特征,中一條就不能深交

人蠢不蠢一看就知:兩個典型特征,中一條就不能深交

心理觀察局
2026-05-06 08:30:11
魯比奧確認對伊朗“史詩怒火”軍事行動已結束

魯比奧確認對伊朗“史詩怒火”軍事行動已結束

財聯社
2026-05-06 04:08:05
天呢!網傳上海已經在衰落,真的假的?

天呢!網傳上海已經在衰落,真的假的?

慧翔百科
2026-05-06 08:58:47
大反轉!我國學者顛覆性發現:補充Omega-3或損害大腦突觸功能,加速認知衰退

大反轉!我國學者顛覆性發現:補充Omega-3或損害大腦突觸功能,加速認知衰退

醫諾維
2026-05-06 17:13:29
大數據分析,在中國,找個身高1米7年入20萬的老公,到底有多難?

大數據分析,在中國,找個身高1米7年入20萬的老公,到底有多難?

深度報
2026-04-18 23:37:27
打起來了,以不宣而戰后,本土遭報復,內塔剛出面,就被這國施壓

打起來了,以不宣而戰后,本土遭報復,內塔剛出面,就被這國施壓

小小科普員
2026-05-04 15:23:16
下飯神劇!《低智商犯罪》全員喜劇人!劇情搞笑又解壓,太上頭了

下飯神。 兜椭巧谭缸铩啡珕T喜劇人!劇情搞笑又解壓,太上頭了

糊咖娛樂
2026-05-06 17:17:52
朝鮮援俄傷亡數據曝光,1.4萬精銳傷亡過半,紀念墻畫面慘烈

朝鮮援俄傷亡數據曝光,1.4萬精銳傷亡過半,紀念墻畫面慘烈

番外行
2026-05-04 14:47:50
打虎!合肥市委書記費高云,任上被查

打虎!合肥市委書記費高云,任上被查

農視網
2026-05-06 16:18:47
“高凈值家庭”標準出爐,全中國共有512.8萬戶,你家達標了嗎?

“高凈值家庭”標準出爐,全中國共有512.8萬戶,你家達標了嗎?

毒sir財經
2026-04-26 21:11:44
藍綠對決白熱化!民進黨負面選戰再升級,蔣萬安李四川接連被圍攻

藍綠對決白熱化!民進黨負面選戰再升級,蔣萬安李四川接連被圍攻

海峽導報社
2026-05-06 15:44:17
中國花2000萬買個航母空殼?烏專家曾言:光4個發動機就超2000萬

中國花2000萬買個航母空殼?烏專家曾言:光4個發動機就超2000萬

素衣讀史
2026-04-29 21:55:54
15萬級!豐田2026款新車:5月上市

15萬級!豐田2026款新車:5月上市

手機評測室
2026-05-06 11:51:37
中組部人社部規定:公職人員違紀后待遇一文講清

中組部人社部規定:公職人員違紀后待遇一文講清

笑熬漿糊111
2026-04-23 00:05:18
2026-05-06 18:15:00
灰度測試中
灰度測試中
生活正在重構,目前還在灰度測試階段,暫不全量發布。
2148文章數 22關注度
往期回顧 全部

游戲要聞

《寶可夢》全部新游匯總:多達六個項目推進中!

頭條要聞

中國發布阻斷禁令后魯比奧聲稱將二次制裁 外交部回應

頭條要聞

中國發布阻斷禁令后魯比奧聲稱將二次制裁 外交部回應

體育要聞

活塞1比0騎士:坎寧安不再是一個人了

娛樂要聞

神仙友誼!楊紫連續10年為張一山慶生

財經要聞

最新GDP!全國30強城市,又變了

科技要聞

“馬斯克不懂AI”:OpenAI當庭戳老底

汽車要聞

領克10/領克10+ 無論能源形式 領克都要快樂

態度原創

房產
手機
旅游
健康
藝術

房產要聞

遙遙領先!這個澄邁頂流紅盤,憑什么持續霸榜

手機要聞

13999元值不值得沖?華為Pura X Max典藏版深度評測:黃金大屏、旗艦影像全面進階 闊折疊才是更好用的折疊屏

旅游要聞

貴州仁懷:“溫泉”新業態激起一池“文旅”活水

干細胞治燒燙傷面臨這些“瓶頸”

藝術要聞

震撼!康斯坦丁攝影作品里的性感曲線讓人驚艷!

無障礙瀏覽 進入關懷版