![]()
前段時間我接了一個做古裝短劇配圖的工作室訂單,對方上來就扔了一段話——"我們用AI給小說生圖,前5張女主是黑發高髻,第8張變成了卷發,第12張裙子顏色直接換了,客戶要求退款,我們不知道怎么辦。"
我打開他們的提示詞記錄看了一眼,問題一目了然,指令根本沒有給AI建立"記憶錨點",每一幀都是AI自由發揮的結果。
1、先建檔,再生圖——人物視覺檔案機制
很多人做文生圖的邏輯是:把小說段落扔給AI,讓它直接出圖描述。這個邏輯本身就錯了。
AI沒有跨輪次記憶,每一次生圖對它來說都是全新任務,上一幀女主穿什么、梳什么發型,它根本不記得。所以我在指令里設計了一個強制前置步驟:在開始生成任何提示詞之前,必須先通讀全文,逐一提取主要人物的固定視覺標簽,格式鎖定為年齡、發型頭飾、服裝顏色材質款式、外貌特征四個維度,列成檔案,后續所有生圖動作都基于這份檔案執行,絕對不允許偏移。
這一步解決的是人物"前后不一致"的根本問題。
2、死命令級的人物描述強制嵌入
建檔只是第一步,更關鍵的是讓AI在每一幀都"記得用"。
我在指令里加了一條死命令:只要畫面中出現主要人物,無論這個人物在上一句剛出現過,都必須在人物名字后的緊鄰位置,用全角括號完整重復一遍視覺描述,包括性別、年齡、服飾和妝容,一個都不能省。
很多人覺得這很啰嗦,但這恰恰是文生圖指令和普通寫作指令最大的區別。文生圖的每一行提示詞,本質上是一個獨立的繪圖指令,AI不會自動繼承上下文,必須在每一行都把關鍵信息喂給它。這條死命令,就是解決"AI自作主張換造型"的核心機制。
3、一體化段落結構,拒絕碎片化描述
這個工作室原來的做法是把"提示詞"和"場景描述"分兩欄寫,一欄寫角色動作,一欄寫畫面參數。乍一看很整齊,實際上是把本該連貫的畫面信息切碎了。
我把指令結構改成一體化段落式:人物(帶完整括號描述)+具體動作神態+時間光影+背景環境+鏡頭語言,全部寫在一行,不斷行不回車,每一個小說段落對應一條完整提示詞。
這樣做有兩個好處:一是AI獲取的信息是完整的,不會因為"分欄"導致信息錯位;二是生成的提示詞可以直接輸入Midjourney或其他工具,不需要二次整理。
同時,我還單獨設計了空鏡頭處理規則:凡是純景物或特寫道具的畫面,開頭必須標記"無人:2,空鏡頭,"再接描述,防止AI在本該空鏡的畫面里憑空加出人物。
4、風格邊界鎖死,古裝就是古裝
工作室的另一個問題是偶爾出現"現代感"元素,比如背景里隱約有玻璃窗,或者人物配飾有金屬光澤過強的問題。
我在指令末尾加了一條硬性風格約束:場景必須保持中國古代宋朝風格,明確列出禁止出現的元素,包括現代城市、玻璃、霓虹燈、手機、槍械、機械、科幻光效。邊界越清晰,AI的發揮空間越受控,出圖的穩定性越高。
交付后,工作室反饋,同一個人物連續出圖30幀,造型保持穩定,客戶驗收通過。
文生圖不只是"寫描述",底層是一套人物管理×信息傳遞×風格約束的系統工程,指令不到位,模型再好也白搭。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.