人物生成一致性,是所有AI繪圖工具裡目前最大的難題。

雖然AI繪圖工具種類繁多,且更新與發展的速度已遠遠超出我們的想像,但由於自己的是使用DALL·E為主,且這個引擎生成的人物面容是自己喜歡的,因而難以放手選擇其他工具。

這因此成了訂閱ChatGPT-4的契機。

為了讓圖文故事的人物接近完美一致的理想,當初找了許多文章網頁與資訊後,判斷ChatGPT所附帶的DALL·E工具,也許與Bing Image Creator不一樣,能夠帶來新天地,便決定來試試看。

以下便是實際用過後的想法,以及與Bing Image Creator的比較。

以[好運到來時,想擋都擋不住]文章,用ChatGPT-4重新繪製。

 

1.訂閱後仍存在的限制。

每3小時40條訊息

也許是訂閱人數日漸增長的關係,目前ChatGPT-4有著每3小時40條訊息的限制。

我翻到多個月前的資訊,當時限制是每3小時25條訊息增加到50條訊息。

因為這個關係,我都把ChatGPT-4拿來生成圖片使用,詢問相對沒那麼重要的技術訊息時,就回去開GPT-3.5詢問。

特別是他並沒有提供計時計數功能或公布具體規則,因此不知道是三小時區間內不能超過40條,還是有個重置時間點會重新給你訊息額度。

 

 

2.大量GPT模型。

GPT模型

訂閱後,一開始都會被GPT詢問要如何量身訂做自己的GPT模型需求,如果你選擇公開,基本上就能在這個地方被搜尋到。

上面看到的許多項目,是熱門的、常被使用的GPT模型。

因為自己主要往AI繪圖方向前進,因此關於這部分的其他AI模型,目前還沒有深入研究。

但可以分享的常見問題是,大多數人會以為需要透過這裡找到的DALL·E模組才能生成圖片,但實際上並不是如此。

只要直接在ChatGPT-4對談的地方就可以要求他生成圖片了,而且效果與功能還比去找到的DALL·E模組使用還好。

關於這一點,下面會有個實際範例。

 

3.自訂ChatGPT

自訂ChatGPT

為了追求人物生成一致性,當初便是看上這個功能才決定訂閱的。

在訂閱後,你的選項會多了兩項。

[我的GPTs]是上述的自訂GPT模型,也就是你所有的建置都可以在這裡找到。

至於[自訂ChatGPT],如果你是使用APP版,則是以英文呈現[Custom instructions]。

 

上面的區塊為自訂說明,這個地方能讓你開啟的新聊天,直接理解你的定義與要求。

這有點像是你先在新對話裡提供AI自己的故事背景,然後要求他去以此資訊來提供你回答。

但是透過這個地方設定,比較能夠避免 對話過長導致AI不記得或沒套用你的開場設定,在這邊有設定好需求,新聊天的對話都會持續有效。

上面的描述有些抽象,但沒關係,以下直接用範例呈現。

 

人物生成一致性 ChatGPT 4(DALL·E)與Bing

我們點開[自訂ChatGPT]。如果你是使用APP版,則點開[Custom instructions]。

跳出上面視窗後,我們便開始設定。

我在上面輸入定義,告訴AI以下資訊:

 

[我正以AI繪圖在創作圖文故事,並始終以照片般的圖像呈現。內容是一部四角戀幻想小說。故事以後宮走向展開,讓男主角略顯優柔寡斷,徘徊在四個女孩之間。

[Mashiro]是日系女孩,美麗,一頭黑色長直髮,22歲;[Rou'er]是日系女孩,甜美,長髮,淺金色髮色,18歲,頭右側繫著一條深藍色絲帶;[Xueer]是日系女孩,綁著雙馬尾,銀白色的頭髮,深藍色的瞳孔,黑色的頸環。 21歲;[Ai'er]是一位留著單馬尾、古銅色頭髮的日系女孩。 20歲。]

 

接下來我在如何回覆的欄位也提出要求:

[生成影像時,都是以1024*1024生成、總是會產生四張影像、始終生成為照片般的圖像、始終提供種子號碼和 Gen ID。]

 

接下來我開了新聊天,並且沒有做任何前提資訊告知,直接要求生成兩人的照片。

實測結果如下。

Custom instructions 成功實測結果

 

我沒有在自訂內容裡要求服裝,是因為我的故事需求裡角色經常會替換服裝,所以沒有定義。因此AI便隨意呈現了穿著。

但因為AI已經知道,我定義的兩個人名的外觀,因此即便我只提供人名便要求生成圖片,AI也能很好的理解,且按照我的要求以1024*1024、照片般的圖像、且自行提供了seed number與Gen ID。

 

而下面這個是我直接於DALL·E模組測試的結果。

Custom instructions 失敗範例

DALL·E模組目前似乎無法套用到[自訂ChatGPT]/[Custom instructions]裡面,包含我測試的其他各大熱門GPT模組皆無法吃到設定。

因此提醒大家,若要使用這個功能的話,請於設定好後直接在ChatGPT-4裡面,就能使用了。

 

4.關於人物生成一致性

在先前所找尋到的文章,大多都是透過上述的[自訂ChatGPT]/[Custom instructions]功能,直接做好定義與設定,並稱這樣就能達成人物一致性。

關於這一點,不能說是他們資訊錯誤,應該說是認知落差。

在那些眾多的人物生成一致性文章,甚至是影音介紹裡,因為大多都是以二次元畫風風格呈現。

以AI初入使用者而言,可能會覺得髮型相同、服裝相同,就可以算是人物一致了,且二次元畫風不比真人圖像,樣貌差異沒有那麼精細。

然而這是輸入相同的指令後就能做到的事情。就算不使用上述功能,只要每次都要求相同服裝與髮型,就能達到類似成效了,上述的自訂功能只是讓你每次省略輸入一些外貌描述而已。

但身為AI繪圖重度使用業餘玩家,在生成了上百上千張圖像後,特別是真人圖像,大多都能夠明顯感覺到人物面容的前後不一致。

這導致圖文小說或故事的連續性,在非熟悉AI的讀者看來,就會有畫風不一、人物不同的感覺。

因此關於人物生成一致性的解法,目前仍舊只有透過大量產圖以量取勝,然後由創作者自行從中挑選出理想圖像。至少在DALL·E的引擎裡是如此。

 

你/妳覺得這張圖像與本頁第一張圖像,是同一個妹子嗎?

 

5.ChatGPT-4與Bing Image Creator的DALL·E差異。

相信大多數的DALL·E使用者,都是先用過免費的Bing Image Creator後,才會接觸到ChatGPT-4。

以下幾點是Bing Image Creator的使用者們一定都遇過的問題。

 

1.生成圖片時的Prompt字元限制。

於Bing Image Creator的指令是有字數限制的,目前確認到上限是480個字元。

 

2.翻譯問題。

系統邏輯是[將中文的指令翻譯成英文後,再生成圖片]。關於這一點於我之前的文章( 多人指令(一) 挑戰Prompt描述多人的極限 Bing Image Creator )已有詳述過。

因為翻譯上的問題,有些中文描述是AI不認識的,像是手挽手arm in arm 這一篇,並且他的字元是將你的中文翻譯成英文後,才去計算字元上限,超過時直接砍掉且沒告訴你。

這導致許多不理解這個系統邏輯的新玩家們,在使用過於複雜攏長的Prompt後,發現許多描述都沒有生成,卻沒能找到原因。

 

3.不穩定的多人指令。

同樣可以參考我的前兩篇文章( 多人指令(一) 挑戰Prompt描述多人的極限 Bing Image Creator )、( 多人指令(二)讓Prompt描述多個角色 Bing Image Creator )。

Bing Image Creator對於多人的生成指令上,似乎有著極限,明明已經努力將Prompt濃縮在480個字元內,卻仍舊總是產製失敗,還要更改風格才會提高成功率。

 

 

由於圖文故事總是要有人物互動,因此頻繁需要多人指令,因此這可能就是我之後會持續使用ChatGPT-4不會退訂的最大理由了。

目前我測試兩人以上的描述指令,都可以穩定產圖,不會有服裝互換、髮型對調的問題。

且我讓Word算了一下,我的指令已經來到800個字元,然而ChatGPT-4的生成,只要有順利產出圖像,就不曾有描述不符的狀況。

最多就是跳產圖失敗(在Bing Image Creator裡就是狗蛋圖),但機率不高。

如果是簡易的指令,就確實比較建議使用Bing Image Creator了。除了速度比較快,還能一次生成最多四張圖。

目前的ChatGPT-4不知道是不是受限於伺服器問題,現在只能夠一次生成一張圖,效率明顯有落差。

 

如果你是新接觸AI繪圖不久的玩家,建議可以先使用免費的Bing Image Creator。

如果人物、風格、指令等是你喜愛的,再來考慮訂閱ChatGPT-4,以利使用較精細複雜的指令比較好。

但如果跟我一樣是為了人物生成一致性才訂閱的話,建議可以再緩緩,因為目前ChatGPT-4並無法達成我們的期望。

雖然我相信以AI的發展速度,[人物生成一致性]的理想一定會到來,只是間早晚問題罷了。

 

 

arrow
arrow
    創作者介紹
    創作者 和瑠イトリ 的頭像
    和瑠イトリ

    和瑠イトリ 的 念畫紙工作坊

    和瑠イトリ 發表在 痞客邦 留言(1) 人氣()