Meta má AI generátor videí. Stačí jedna fotografia

Meta ukázala, ako si predstavuje nástroj na generovanie videa a to len z jedinej fotografie.

Spoločnosť tento nástroj nazvala ako Movie Gen a je určený na vytváranie a upravovanie videa obsahujúce zvuk a obrázky. Má ísť teda o komplexnejší nástroj na tvorbu video obsahu. Zatiaľ nie je známa dostupnosť pre širšiu verejnosť, no Meta hovorí, že ľuďom pomôže zvýšiť ich prirodzenú kreativitu. Podobne ako iné nástroje, mal by sa zamerať na doplnenie znalostí umelcov a animátorov, nie ich nahradiť.

Pri ohliadnutí do histórie zistíme, že nejde o úplnú novinku. Nástroj poskytuje úplne nové možnosti, no už v roku 2022 Meta pracovala na modeli syntézy obrazu s názvom Emu. Teraz má ísť, ale o komplexné tvorenie videa so zvukmi, ale najmä úpravou už existujúceho výtvoru. Tu majú nástroje stále problém, a to aj v konkurenčnom prostredí.

Movie gen generated video image — Príklady použitia Movie Gen

Dokonca aj vtedy, keď hovoríme len o obrázkoch a nie priamo o komplexnom video obsahu. Na mysli máme napríklad to, že nástroje AI na vytváranie obrázkov majú stále ťažkosti vygenerovať napríklad komiks, kde bude jedna postava vo viacerých variantoch v budúcich obrázkoch. Trafiť sa do jej výzoru je dnes ešte pre mnohé nástroje výzvou. Ten istý prompt nevytvorí to isté. Možno ste si to všimli na generovaní obrázkov, napríklad cez Copilot.

Nový model dokáže na základe textového opisu alebo obrazového vstupu vytvoriť videá až v rozlíšení Full HD, dlhé 16 sekúnd so 16 snímkami za sekundu. Dobre, tu je vidieť, že ešte stále to nebude na plnohodnotné vytvorenie akéhokoľvek videa.

Konkurenčné modely

Meta tvrdí, že jej výstupy sú lepšie ako pri modeli Sora od OpenAI, Runway Gen-3 alebo dokonca čínskeho modelu Kling. Microsoft má takisto svoj model s názvom VASA-1, ktorý dokáže vytvoriť foto realistickú podobu rozprávajúcej osoby. Toto zatiaľ Movie Gen nedokáže, teda neumožňuje generovať ani synchronizovať reč s pohybom pier. AI od Meta však dokáže pridať do vide sekvencie zvukové efekty ako aj hudobný podmaz. Takisto na základe textových pokynov.

Na propagačných obrázkoch a video sekvenciách vyzerá nástroj Movie Gen ako absolútny trhák. Do úvahy ale treba zobrať, že takéto výstupy nie sú urobené na prvý pokus. Okrem toho si treba predstaviť aj to, že AI sa na základe niečoho musela učiť. Ak budú vaše požiadavky príliš odlišné od vzoriek, na základe ktorých sa učila, výstupy možno nebudú v takej kvalite, v akej ich očakávate.

Deepfake

Je zrejmé, že v príchodom nových verzií modelovacích nástrojov za pomoci AI sa dostaneme vždy k téme falošných videí. Je to odvrátená stránka, ktorá bude sprevádzať takéto nástroje. Otázkou teda bude, či aj tento nástroj bude mať nejakú voľnú alternatívu ako je LLM Llama. Ten si si dokážete sprevádzkovať aj u seba na počítači a to bez zasahovania z vonku a cenzurovania. Treba vyberať správny model, podľa toho koľko GB pamäte má vaša grafická karta.

Falošné texty sú rizikom, avšak skutočne virálnymi sa stávajú deepfake videá, či už z obsahom ponižovania iných ľudí alebo vytváraní falošných situácií a správania hlavných účastníkov. Okrem toho sú používané na vytváranie falošných historických udalostí.