Gemini Omni: Teraz môžete vytvárať AI videá ešte jednoduchšie
Gemini Omni je nový model na tvorbu videa.
Ide o multimodálnu verziu modelu Gemini, ktorá umožňuje kombinovať text, obrázky, zvuk aj video v jednom kroku. To znamená, že model dokáže súčasne analyzovať napríklad video so zvukom, čítať textové zadania a reagovať na ne v kontexte celej scény. Doteraz ste museli tieto vstupy kombinovať a robiť jednotlivé úlohy postupne.
Funkcia je už dostupná v mobilnej aplikácii Gemini pre smartfóny aj na webe a tiež ju nájdete aj v Google AI Studio či Vertex AI.

Vďaka tomuto prístupu poskytne Omni lepšiu konzistentnosť výsledkov, pretože model pracuje s jedným spoločným kontextom. Vytvorené video podporuje aj skutočné parametre scény, čo Google ukazuje na viacerých videách. Ak teda objekt narazí do iného, premietne sa to do fyzikálnych javov z reálneho sveta.
Čo sa týka úprav, k dispozícii bude možnosť upraviť uhol záberu s dynamickým pohybom, odstraňovanie objektov alebo ich pridávanie, definovať kedy má zaznieť určitý typ zvuku alebo podkladovej hudby atď.
Tvorba videa je teraz komplexnejšia. Pri videu napríklad AI nesleduje len jednotlivé snímky, ale analyzuje dianie v širšom časovom úseku vrátane zvukovej stopy. Toto pomôže AI modelu lepšie pochopiť scénu a celé dianie v rámci určitého úseku videa.
Google tento model prezentuje ako vhodný na tvorbu filmov. Stále však nevytvoríte komplexný film a budete ho musieť skladať z viacerých častí. Tu až skutočné používanie používateľmi ukáže, ako zvláda konzistentnosť v rámci väčšieho celku. Niekoľko sekundové ukážky vyzerajú fantasticky, prax ale býva mierne odlišná od nachystaných ukážok.
Zdroj: Google
Prečítajte si aj:
Podobné články
Dá sa AI príkaz naplánovať? Dá, ale iba Gemini to vie najlepšie
Google ukončí jeden zo svojich AI nástrojov, premiestni ho inde
Gemma 4 12B: Nový AI model od Googlu pre vývojárov
Google Fotky dostanú nové AI funkcie
Nechcete AI pokrivené hľadanie? Dá sa tomu vyhnúť
Limity Gemini hnevajú používateľov. Google sľubuje nápravu