使用Bing Image Creator的DALL E 3引擎,已經有一段時間,今天來寫這篇[生成多個以上角色的動作和服裝的指令]的相關心得。
有接觸過AI繪圖的同好們,特別同樣是Bing Image Creator的愛用者,一定能感同身受,這是一項目前而言算是相當複雜且難以達成的事情。
DALL E 3這個引擎擁有龐大的模型和豐富的圖片訓練資料,但在處理多個元素的場景時,往往難以產生準確的圖像。
目前從旁了解了一下,發現主要是因為複雜指令往往需要極為具體的描述,以確保引擎能夠理解每個元素的細節。
然而,在描述的詳細程度上,也容易使指令變得冗長且難以管理。
這使得指令的撰寫變得更加困難,且由於兩個以上角色的互動和服裝的組合龐大,引擎往往難以理解和呈現所有細節。
這導致生成的圖片可能缺少一致性,服裝和動作之間可能存在不協調的情況。這導致實際呈現的場景和作者的預期之間存在落差,且經常會有指定的動作或服裝不正確。
以下就以我的架空故事篇章(第二次挑戰 嘗試改變命運),作為本文範例,同時放上產製文章的素材遺珠。
2.多人指令-三個人物。
1.多人指令:指定兩個人物服裝+第一人稱視角+輪廓模糊化突顯近景+手在前景。
當時在接觸過第一人稱視角,遠處中心前景,並知道了第一人稱視角視角指令的差異與重要性,我就像是新學了魔法的霍格華茲學生一樣,想一股腦兒的把所學到的東西全都用上。
是的你沒看錯,看小標題就知道我的Prompt包含了多少東西。
我當時非常想在故事篇章(初次挑戰)裡面本來想用的手電筒(縮小燈)+第一人稱視角,重現出來。
以下這幾張算是還算符合的素材。像這張是因為後續的畫風考量才從故事篇章拿掉的,不然這是百張中少數有符合指令的圖。
這也是還算符合的一張,只是手不太好看,還有當時一直在挑林月如的服裝,因為我還是希望能夠盡量讓圖文連貫,不要服裝差太大。
雖然最後也是因為畫風、牆壁、視角問題汰換掉了。
林月如多了髮飾,且主角多了手錶。手錶P掉是小事,也是因牆壁與畫風考量就拿掉了。
上面三張是還算符合指令的素材圖片,接下來就是AI的掉漆時間。讓我們拿起爆米花邊吃邊觀賞。
我後來才了解到,AI並不理解[仙劍奇俠傳]、[鎖妖塔]、[遊戲主角名字]等詞彙,因此會導致素材圖片有所落差。若要產製則必須從零描述起才行。
而且Prompt用人名的話會直接被拒絕阻擋,但可以用Cosplay來呈現。例如[Cosplay成李逍遙的男子]。
以Bing Image Creator來說,他的中文指令是先翻譯成英文後,再轉成Prompt。
將你的Prompt直接貼在Google翻譯以中翻英翻出來,那才是AI讀取到的Prompt。
如果你的圖片與指令差很大,只要再將翻出來的英文重新開一篇Google翻譯,以英翻中貼上檢查一次,你就會知道AI到底是聽了你什麼指令,才產製這張圖的了。
前景的手不見了,直接被李逍遙的手替代。疑似因為我直接打鎖妖塔,後面多了佛像圖。
這張簡直像是被李林二人給打趴在地上,主角的手仍舊是被李逍遙的手替代。
勝敗乃兵家常事,大俠請重新來過吧(笑)。
以下是我終於發現Bing Image Creator並不理解什麼是鎖妖塔後,自己去描述鎖妖塔牆壁內模樣後的Prompt。
但從這之後,反而就都沒有再產生符合預期的素材了。
這張是因為覺得AI將男子-李逍遙與男子-主角的手視為同一個男子,因此我改用男子A、男子B來試試看。
結果仍舊不成功,劍像是給兩個男子同時拿著,且這構圖比較像是遭遇拿七星劍的太師叔感覺。
接下來是男子-主角的手直接不見的素材殘渣。
變成前面多一個人了。
變成李逍遙拿著手電筒了。
更糟了,變成李林二人一起拿著手電筒。
因為AI給我的手電筒一直角度不好,我認為是他為了畫出手電筒才會以這些角度來畫。因此我試著改成[拿著短金屬物體]看看。
有出現主角的手了,但是拿錯東西,以及傻眼的李林二人。
手又不見了。這張像是 趕不上李林二人腳程的,體力差的主角視角。
手還是沒出來。
手又被李逍遙的手替代了。
改成黑色短圓柱體。手有出來了,但背景多一個人,人臉也因為人多的關係崩圖了。
手又不見了。趕不上李林二人腳程的,體力差的主角視角,第二彈。
不像手電筒而像手榴彈,李林二人一臉不信任的表情。
2.多人指令:指定三個人物服裝+第一人稱視角+輪廓模糊化突顯近景。
接下來是遭遇太師叔的場景構圖。
是的!你沒有看錯,人數又增加了!
在創作當時因為還沒有感覺到,指定多人Prompt的AI極限程度,因此當時我只是覺得構圖好像一直不成功,有發現指令太長會讀取不完整,但沒發現人數本身也有極限。
這導致了當時其實浪費了不少產圖點數,進而影響用完後的大量等待時間。
下面我有將主角的縮小燈小手手整個捨棄掉不用,但結果還是很多失敗的素材。
這算是一張符合構圖的素材。
現在回頭看,也正因為當時才剛在構圖,因此Prompt沒有指定的很詳細,給了AI自由度之後,反而能夠產製想要的素材圖片出來。
當時對於這張有些不滿足的部分,在於 希望老人持劍但是沒有持,另外就是李林二人服裝與武器有點走樣了。
變成了三人一起自拍合照,我的[遠景老人,近景二人]指令沒有體現出來。
太師叔整個不見了,我猜是AI把他畫過去鎖妖塔的牆壁描述了,因為我用了道士雕刻的詞彙。
服裝變的現代化了,甚至變成科幻片的光劍。
當時看到老人被畫飄在空中,反而造成我的創作構圖腦洞又開了,後面又開始加了一堆幽靈般漂浮、背後有飛劍等等的指令。
因為都沒產製成功,我就都沒有留存了。
以下都是改成[老人身體半透明發光]的Prompt,想看能不能讓老人飄起來,結果還是失敗。
這張構圖很有氣勢,但挑剔的我因為沒有持劍、李逍遙拿著光劍、林月如武器不見,因而淘汰這張素材。
武器構圖問題,師叔沒持劍。
多了一個人,服裝微妙。
三人都看錯鏡頭方向了。
這張只是覺得滿有氣勢的就貼上來。太師叔的臉已經不是真實照片風格了,。
接下來是改成英文指令的嘗試。
有其他創作同好分享,因為AI引擎是以英文為主,那麼直接下英文指令其實會更準確。
我當時因為不斷產圖失敗,因而嘗試了幾個。
我發現轉成英文後的字元反而更長,但的確比較能夠讀取到較多的指令。
但把素材圖片存檔的時候,反而是Windows有檔案字數上限,而且刪除字數了還不會告知。
我是存了好幾張後發現怎麼一直跳[檔名重複]的提示,才發現這個問題,但發現時已為時已晚,我的英文指令早就都不見了。
這是張服裝指令都符合的構圖,但李林二人視線看錯人、太師叔看起來像是牧師、鎖妖塔環境描述沒讀到,看起來像是李林二人要準備PK的感覺。
李逍遙的武器與髮型、太師叔的外貌與武器。
這邊是因為針對太師叔的描述,改以瘦成皮包骨的英文去下指令,結果就都產製了骷髏出來。
這邊是因為一直失敗的關係,我試著向ChatGPT請教尋求指令的結果。
ChatGPT給了我編排美觀的指令,但指令更長了。
我是在這之後才真正有發現到,Bing Image Creator有指令字數上限,且中文指令會先翻成英文。
我是因為發現,鎖妖塔的環境描述指令都沒讀取到了,產了好幾張才發現這個問題。因此圖片也都變成是李林二人互看。
大家若有類似狀況,可以將你的中文指令先貼去Google翻譯,然後再將英文全數貼到Bing Image Creator,你會發現太多的部分會被直接砍掉。
這是我當時還沒發現問題,只有試著變更指令順序的結果。兩人有轉向看太師叔了,但環境後的指令一樣都沒讀取到。
如果有看過故事篇章(第二次挑戰 嘗試改變命運),眼尖的話就會發現,這一篇的素材全都是真人風格,但故事主頁裡全都只是3D圖片風格。
主要是在產製鎮獄明王素材時,我發現到Bing Image Creator對於不同風格的圖片產製會有不同限制。
比如說真人風格圖片,如果直接要求讓角色背後長翅膀,基本上一定會產圖失敗,或者只會產出不是真人風格的圖。
而如果加上一些合理化的敘述,例如[Cosplay成吸血鬼的女孩,背後有蝙蝠翅膀裝飾]、或是網友分享的[女孩經過生物改造,背後長出蝙蝠翅膀],就能正常產圖。
個人猜想,Bing Image Creator似乎會判斷指令邏輯性。
但直接要求指令以[3D奇幻風格圖片]產製,卻就比較沒有限制,直接描述吸血鬼樣貌就能正常產圖。
特別是多人指令,在3D風格圖片的產製似乎相較容易一些。
我正是在發現這點後,才決定將真人風格的圖文篇章全都改成3D風格素材。
而結果也非常神奇,我幾乎沒產生多少素材殘渣,就直接取得我想要的構圖了。
3D風格的太師叔的交鋒場景,其實還是很像真人風格。
這張因太師叔背對鏡頭,所以汰換掉了,不然很想放這張露腿的林月如圖片的。
不知為何還是有產出真人風格圖片。妹子長得很標緻所以留下來了。
林月如的武器很讓人出戲。
以下是鎖妖塔內打怪的構圖。這是發現3D風格圖片才有辦法產製奇幻圖片後,才加進去的做個故事過場的。
其實在真人風格圖片時就有測試了,但當時一直無法產圖就作罷。
在發現問題在於圖片風格這一點後,便產製了幾張。
這張因李林的服裝與髮型太現代,所以淘汰。
掃把妖,林的服裝不好看,淘汰。
原本打算繪製,遭遇天鬼皇的場景。但如同之前的問題,AI並不認得天鬼皇,翻成英文後更是慘不忍睹,因此只能細膩描述。
這張是試著產製的唯一一張,發現上述問題後,就決定改成天鬼皇獨照放在故事主頁裡了,不然指令會過長。
天鬼皇獨照。因為描述了酒罈,硬是要讓他拿酒杯,只好跟著其他多的人物一起P掉。
在實際使用與測試這麼多,耗費大量時間與精力後,我才終於稍微了解到Bing Image Creator目前的狀態。
我不清楚是引擎的極限就在這裡,還是有什麼限制才會導致圖與指令不符,甚至無法產圖。
當初在創作故事篇章(第二次挑戰 嘗試改變命運)時,真的是花了好幾天的時間才完成,是其他篇章的數倍時間。
然而關於多人指令的素材實在太多了,因此會放在下一篇。
留言列表