Obrovský skok v generovaní videa. Neurónová sieť SORA produkuje výsledky, ktoré sú roky pred konkurenciou (ukážky)

OpenAI znovu šokovala svet. Podobne ako v prípade ChatGPT a DALL·E, ktoré všetkých zaskočili svojou pokročilosťou, práve posunula ľudstvo do novej éry generovaného videa.

Napíšte čo chcete vo videu vidieť a umelá inteligencia ho pre vás okamžite vytvorí. Je jedno, či chcete historický výjav, 3D animáciu postavičky, alebo realistické video, ktoré by ste chceli nahrať svojim smartfónom niekde na ulici, alebo vidieť na filmovom plátne. Neurónová sieť v nich nevidí rozdiel.

Aj keď pokusy s generovaním videa s pomocou umelej inteligencie vykonávame prakticky už od našich prvých experimentov so syntetickou produkciou obrazovej informácie, vždy šlo skôr o zbožné prianie, než nejaký reálny použiteľný výsledok.

V prípade generovania statických obrázkov sme videli za posledné dva roky masívny pokrok. Súčasné systémy v podobe DALL·E 3 či Midjourney 6 dosahujú už enormne kvalitný výstup, ktorý je v tých najlepších prípadoch veľmi komplikované alebo nemožné rozpoznať od skutočnej fotografie, alebo diela umelca. Pokiaľ si ale odmyslíme len ich mierne rozpohybovanie posunom perspektívy, kompletné syntetické generovanie videí, ktoré je z dôvodu kontinuity pohybu o niekoľko rádov náročnejšie, bolo v tejto kvalite len snom.

Až dodnes. To čo práve predviedla OpenAI momentálne nemá vo svete absolútne žiadnu konkurenciu. Skok ktorý vykonala, je obrovský.

Nový generatívny model Sora, kombinujúci transformačné hlboké neurónové siete a difúzne generatívne neurónové siete, dokáže generovať videá v obrovskom rozsahu situácií, pohybov, postáv a prakticky v akomkoľvek kontexte.

Podobne ako pri generovaní obrázkov, aj v tomto prípade používateľovi stačí zadať popis toho, čo si praje zhmotniť, pričom čím detailnejší popis je, tým lepšie.

Neuveriteľné video, vygenerované zo zadania: Odlesky na okne vlaku, ktorý práve ide cez predmestie Tokia

Model, kombinujúci vlastnosti jazykového modelu a generatívneho systému obrazovej informácie má výborné porozumenie ľudskej reči a dokáže vierohodne interpretovať zadanie do veľkého detailu. Bez ohľadu na to či popisuje scénu, ktorá v realite môže, alebo nemôže existovať.

Systém pravdaže nie je dokonalý a na väčšine generovaných videí vidieť nejaké porušenie konzistencie v rámci rôznych prvkov, detailov a predovšetkým fyzikálnych zákonitostí. V porovnaní s minulosťou sú však tieto ruchy takmer neprítomné.

Je dôležité si uvedomiť, že z včerajšej éry, v ktorej sme boli prakticky neschopní generovať kvalitné video, sme sa dnes dostali do sveta, v ktorom to je možné výborne, s nejakými väčšími či menšími detskými muchami.

Koniec koncov, stačí sa pozrieť, kde boli systémy generovania videa pred 10 mesiacmi, napríklad na tomto hrôzu naháňajúcom videu, v ktorom Benedict Cumberbatch je uhorku.

Netrvalo to ani rok a všetko je inak.

Súčasné chyby slúžia skôr ako pripomienka toho, že video je naozaj umelo generované a demonštrujú to, aký masívny skok sa práve udial. Desiatky ďalších rôznych ukážok môžete vidieť na demonštračnej stránke modelu.

Zadanie: Mačka prebúdza spaciu majiteľku a požaduje raňajky. Majiteľka sa ju snaží ignorovať, ale mačka skúša novú taktiku, až dokým majiteľku napokon nepresvedčí k vytiahnutiu maškrty (všimnite si chybu v generovaní dvojitej labky mačky a ignorovanie finálnej požiadavky v zadaní)

Zadanie: Kamera sleduje biele historické SUV s čiernym strešným nosičom, ako ide rýchlo po strmej nespevnenej ceste obklopenej borovicami na horskom svahu, z pneumatík sa dvíha prach, slnečné svetlo svieti na SUV, a vrhá na scénu teplú žiaru. Cesta sa mierne stáča do diaľky, v dohľade nie sú žiadne iné vozidlá. Po stranách cesty sú sekvoje a roztrúsené kúsky zelene. Auto je vidieť zozadu, ako s ľahkosťou kopíruje zákrutu. Samotná cesta je obklopená strmými kopcami a horami, nad ktorými je jasná modrá obloha s mračnami.

Spoločnosť OpenAI momentálne sprístupňuje systém Sora v obmedzenom režime, v snahe vyhnúť sa návalu zneužití, pričom ho poskytuje skupine umelcov, dizajnérov a filmových tvorcov pre experimentovanie a získanie spätnej väzby.

Riaditeľ spoločnosti Sam Altman sa ale v posledných hodinách nechal na svojom sociálnom účte na sieti X uniesť a vygeneroval množstvo videí na prianie, respektíve na základe ich textového zadania od svojich sledovateľov.

Je na nich relatívne dobre vidieť „nefiltrovaný“ stav systému, ktorý pôsobí ako dobré porovnanie so starostlivo vybranými demonštračnými videami, ktoré dozaista pochádzajú z priehrštia menej podarených pokusov.

Zadanie: Historické video z Kalifornie v ére zlatej horúčky.

Reálny stav však nie je nijak diametrálne odlišný a jeho samotnú silu a schopnosti je vidieť zo všetkých príkladov. Obrovská pokročilosť modelu ako takého je neoddiskutovateľná. Ešte pred 10 mesiacmi sa zdalo, že výstup v tejto kvalite je roky ďaleko.

Ale nebol.

Podobne ako v prípade ChatGPT či DALL-E, aj v tomto prípade OpenAI nezačala s budúcnosťou nesmelo klopať. Znovu s ňou rovno vyrazila dvere.