AI Video

Att skapa AI video är det nya inom generativ AI, eller att säga att det är nytt är nog lite missvisande. Skapande av AI video har funnits i olika former sedan Disney först började använda Pose to pose teknik för sina animerade filmer. Tekniken går ut på att man istället för att rita varje bildruta för sig endast ritar upp nyckelpositioner för karaktären på bilden, sedan fyller ett datorprogram i den logiska utvecklingen mellan två punkter av nyckelpositioner.

Tekniken sparar mycket tid och resurser genom att animeraren inte måste skapa varje bildruta för sig. Sedan pose to pose först utveklades har tekniken också utvecklats något enormt, men den typen av AI video jag skriver om här idag påminner ändå väldigt mycket om pose to pose.

AI Video med stable diffusion

Principen att skapa AI video är ungefär samma som att skapa en animering genom att använda pose to pose, fast med Stable Diffusion så utgår allt ifrån text (det går att skapa från färdiga bilder eller videoklipp med).

Det första man börjar med är att testa olika text-promptar tills man hittar en som är ganska kort och producerar en bild som man är nöjd med. Jag använde en prompt som jag tidigare använt och var nöjd med.

A young blonde (flamenco dancer) dressed in red and black lingerie, dancing in the sunset. High detail RAW color photo, taken outside, realistic, detailed skin texture, sharp focus, 4k

Det är även bra att inte använda negativa promptar här, utan det kommer senare.

Sedan behöver du avgöra vilken storlek du ska skapa bilderna i, och det beror främst på hur kraftfullt grafikkort du har. Jag skapade grundbilderna i 512×512 och skalade sedan upp dem senare i processen. Resultatet blev följande bild.

AI video pose to pose stable diffusion automatic1111

Kvalitén är inte särskilt imponerande, men bilden representerar ungefär det jag söker och därför arbetar jag utifrån den.

Nästa steg är att använda en plugin till Automatic1111, den plugin jag använder heter Animatediff och fungerar genom att den skapar bilder på samma sätt som pose to pose, i princip. Fast istället för att jag ritar nyckelpositioner som programmet ska fylla mellanrummet mellan, så använder jag något som kallas för prompt travel som fyller samma funktion.

Animatediff är egentligen en plugin för att skapa animerade gif bilder, så jag ställer in programmet för att skapa en gif som är 4 sekunder lång och använder 10 fps. Det vill säga att jag skapar en serie av 40 bilder med små variationer som sedan visas som rörelser. Det är här som prompt travel kommer in i bilden.

När jag skapar min serie av 40 bilder så ändrar jag något på min orginal prompt, för att visa programmet hur jag vill att rörelserna ska se ut.

A young blonde (flamenco dancer) dressed in red and black lingerie, dancing in the sunset. High detail RAW color photo, taken outside, realistic, detailed skin texture, sharp focus, 4k
0: Moving hips
10: Step
20: Moving hips
30: Smile

Vad prompten här ovan betyder är att jag vill att de 10 första bilderna ska visa moving hips, bild 11-20 ska visa ett steg, bild 21-30 ska återigen visa moving hips och slutligen ska bild 31-40 visa ett leende. Just prompt travel förstår inte allt för komplicerade instruktioner, och därför bör man hålla det så snkelt som möjligt.

Resultatet jag får här är 40 bilder och 1 gif.

Den animerade gif bilden har en upplösning på 512×512, men det är inte denna jag kommer att använda. Jag vill att slutresultatet ska ha ansiktet från en modell jag tidigare använt mig av.

Visa detta inlägg på Instagram

Ett inlägg delat av Creepybits (@creepybits)

Jag har tidigare beskrivit hur man gör för att ändra ansiktet på en bild med hjälp av AI, och nu ska jag göra just detta med alla 40 bilderna. Samtidigt som jag kör bilderna genom AI för att ändra ansiktet så skalar jag upp dem x1,5 så att jag får 40 bilder med en upplösning på 768×768, samt har det ansikte jag valt.

Om jag nu kör dessa bilderna genom ett program (exempelvis Flowframes) som skapar filmklipp (mp4) så blir detta resultatet.

Skala upp AI video ännu mer

Om man går vidare med nästa steg så ska man vara medveten om att det ansikte man eventuellt satt på bilderna kommer att ersättas i kommande steg, och att man därför kommer behöva göra om den biten senare.

Nästa steg är att köra alla bilderna (de senaste 40 bilderna) genom AI image to image och pluin ControlNet samt Adetailer. Dessa plugins ska hjälpa till att fixa bilderna och dels göra dem mer realistiska och dels ta bort sånt som deformerade händer etc. Jag passar även på att skala upp bilderna ännu mer i det här steget. I detta försöket har jag skalat upp mina 768×768 bilder med x2, vilket ger mig 40 stycken bilder som har storleken 1536×1536.

Den här processen tar ganska lång tid. Att skala upp alla bilderna till 1536×1536 med ControlNet och Adetailer tar med mitt grafikkort (Nvidia RTX Dual 12 GB) ungefär 2,5 timmar.

Har man inte tillräckligt bra grafikkort så bör man inte skala högre än 768×768.

De uppskalade bilderna ser nu ut så här, och man kan se att ansiktet från de tidigare har förändrats.

Videoresultat

Det uppskalade videoresultatet där jag bytt ansiktet