Je pre vás nádherná maľba, alebo krásna fotografia generovaná hlbokou neurónovou sieťou len chladným trikom bez štipky citu, alebo ju považujete za prejav kreativity systému umelej inteligencie, ktorý sa nám zhmotnil pred očami? Ako sa vlastne tieto systémy vyvíjajú, ako pracujú a aká je ich budúcnosť v nadchádzajúcich rokoch?
„Celistvý lúč svetla vchádza do miestnosti zhora. Lúč osvetľuje maliarske plátno. Na plátne je medvedík čistotný, akoby ho namaľoval Rembrandt.“ Toto je textové zadanie, ktoré môžete napísať hlbokej neurónovej sieti, schopnej generovať obrazovú informáciu. Výsledok, vyprodukovaný cez Google Imagen, môžete vidieť nižšie.
Tento obrázok do tej chvíle neexistoval. Bol stvorený na základe vašej požiadavky a toho, čo si hlboká neurónová sieť podľa daného popisu predstaví. Nie je to pravdaže jej jediný nápad. Nemá problém vám vygenerovať tisíce ďalších, ktoré budú vyzerať celkom inak.
Silu daného mechanizmu si uvedomíte, keď začnete používať určitú mieru abstrakcie. Všimnite si napríklad relatívne hlúpo pôsobiacu fotografiu psa, v domčeku z jedla. Skúste však vážne zauvažovať nad všetkými aspektmi, ktoré sa stali po tom, ako ste neurónovú sieť požiadali o obrázok, ako „roztomilý corgi žije v domčeku zo suši“ (takto presne znelo zadanie).
Skúste si odpovedať na to, ako umelá inteligencia rozhodla, z ktorého smeru sa na odfotenú scénu budeme pozerať. Ako bude osvetlená. Ako vytvorila jednotlivé kúsky suši, ktoré nie sú vzájomne identické. Ako z nich postavila dom. Ako vedela, ako má vyzerať dom postavený zo suši, aj keď ho nikdy predtým nevidela. Ako do neho správne umiestnila psa corgiho. Dovnútra, pod strechu, s uchom a nosom vykukujúcim von. Labkou na spodnej hrane.
Toto všetko sú pritom rozhodnutia, ktoré by vedome alebo podvedome robil pri konštruovaní danej predstavy aj človek, používajúc svoje nadobudnuté znalosti o svete. Neurónová sieť tu rekonštruuje nielen to, ako vyzerá pes. Vie ako vyzerá corgi. Vie ako má vyzerať, keď je roztomilý. Vie ako vyzerá dom, aj keď ide o abstraktnú stavbu vytvorenú z jedla.
Tento článok pôvodne vyšiel v tlačenom vydaní magazínu TOUCHIT, 9-10/2022 a preto sa niektoré údaje môžu líšiť oproti aktuálnemu dátumu publikovania. Na našom webe sa objavuje zdarma dodatočne v rámci propagácie nášho magazínu.
RAPÍDNY POKROK V GENEROVANÍ OBRAZOVEJ INFORMÁCIE POČAS ROKU 2022
Aktuálny enormný progres v generovaní obrazovej informácie je priamo naviazaný na jednoduchší variant tejto problematiky, ktorým je generovanie fotografií ľudských tvárí. Kým ešte pred piatimi rokmi šlo o niečo celkom nepoužiteľné, počas rokov 2020 a 2021 sme rapídne, ba až skokovo pokročili takmer k dokonalosti, keď je prakticky nemožné rozpoznať, že generované tváre nie sú fotografiami skutočných osôb.
Podrobne sme sa tejto problematike venovali v januári minulého roku, v článku „Éra generovanej fotografie a vytvorenej značkovej tváre“, pričom v jeho závere sme ukázali vtedajšie výsledky generovania komplexných fotografií a umeleckých diel. Boli v nepoužiteľnom stave a objekty a situácie generované podľa popisu pripomínali skôr machule. Zároveň sme však uviedli, že éra ich úspešného generovania je s pokrokom vývoja hlbokých neurónových sietí nevyhnutná a doslova za dverami, pričom môže nastať už behom niekoľkých rokov.
Od týchto riadkov napokon ubehlo len približne 1,5 roka a dnes už je nad mieru jasné, že do danej éry sme úspešne vošli.
S prvou prelomovou vedeckou štúdiou, ktorá v tejto oblasti otriasla svetom, sme sa stretli v apríli. Vývojový a výskumný tím OpenAI publikoval výsledky svojho nového systému DALL-E 2 (číslo vedeckej publikácie rXiv:2204.06125), ktorý bol predvedený v plnej paráde a následne aj čiastočne sprístupnený verejnosti.
Systém je pomenovaný podľa maliara Salvadora Dalího a robota WALL-E, z rovnomenného animovaného filmu od štúdia Pixar, pričom ide o výrazne pokročilejší variant systému DALL-E 1 z roku 2021.
Jeho jadrom sú dve funkčné sústavy. Prvou je hlboká neurónová sieť, špecializovaná na rozpoznávanie obrazu. Je natrénovaná na obrovskej databáze obrázkov s jednoduchým textovým popisom toho, čo zobrazujú (napr. pristávajúce lietadlo, pes doberman s loptičkou v ústach). Vďaka tomu vie, čo ako vyzerá a môže spoznávať objekty a činnosti na obrázkoch, ktoré ešte nikdy predtým nevidela.
V praxi teda dokáže veľmi dobre popisovať obsah fotografií, rozpoznávať, čo fotíte, identifikovať konkrétnych ľudí, objekty, činnosti a čokoľvek iné. V prípade DALL-E 2 a obdobných systémov je táto nadobudnutá „koncepčná“ znalosť následne použitá na otočenie celého procesu, pri ktorom neurónová sieť nepopisuje/nerozpoznáva čo na obrázku vidí, ale naopak, má ukázať svoju naučenú predstavu, na základe textového popisu, ktorý jej zadáme.
Až po túto časť je vlastne všetko podobné našim úvodným pokusom s týmito metódami, ktorých výsledok je akási rozmazaná machuľa z pixelov, vyextrahovaná z komplexného matematického modelu neurónovej siete, ktorá veľmi hmlisto pripomína to, čo má zobrazovať.
Z tejto hmlistej predstavy sa v systéme DALL-E 2 stáva akýsi obrazový zárodok, tzv. prior (čítané zhruba ako „prajor“), ktorý následne preberá druhá, špičkovo vytrénovaná difúzne generatívna neurónová sieť. Tá sa z tejto hmlistej predstavy pokúsi vyformovať obrazovú informáciu s vysokým rozlíšením.
Tieto špeciálne typy neurónových sietí ste v posledných mesiacoch možno už zaregistrovali v súvislosti s tým, že dokážu z obrázka s veľmi nízkym rozlíšením, napr. 200 × 300 pixelov, vygenerovať krištáľovo čistý obrázok s extrémne vysokým rozlíšením. Dokážu to vďaka tomu, že si obrazovú informáciu dopočítajú a „vymýšľajú“ podľa toho, že vedia ako objekty a dané činnosti majú vo vysokom rozlíšení vyzerať.
A precízna kombinácia týchto dvoch metód v máji 2022 priniesla niečo, čo svet doposiaľ ešte nevidel a nielen laikom, ale aj odbornej verejnosti a samotným vývojárom doslova vyrazila dych.
Sieť totiž ukázala extrémne dobré pochopenie informácie a zároveň špičkovú syntézu aj nesmierne komplexných zadaní. Je pritom jedno, či si od nej vyžiadate maľbu stroja na espreso, vyrábajúceho kávu z ľudských duší, alebo mačacieho Napoleona, ktorý drží v ruke syr na propagandistickom plagáte. Je schopná nezvyčajne kreatívnej kombinácie konceptov a nápadov, generovaných v takmer nekonečnom zástupe maliarskych a grafických štýlov.
Rovnaké prekvapenia vidíme aj u tvorieb fotorealistických scén, na úrovni klasických fotografií sveta okolo nás.
Pokiaľ sa venujete tvorbe 3D grafiky, budete zrejme enormne zaskočený, keď na generovaných fotografiách uvidíte nielen komplexné tiene a odrazy, ale aj rôzne svetelné refrakcie a dokonca aj kaustiku (čo je svetelný jav, ktorý vidíte napríklad v momente keď cez sklenený pohár preniká slnečné svetlo a v jeho tieni sa objavia rôzne komplexne zakrivené úseky zalomeného jasného svetla).
Fascinujúce na tom je, že neurónová sieť danú svetelnú scénu nepočíta. Neprebieha žiadny výkonný a dlhé hodiny trvajúci raytracing v surovej podobe, kde sa sledujú virtuálne lúče a počítajú ich odrazy a dopady. Neurónová sieť rôzne svetelné refrakcie, priehľadnosť a kaustiku skrátka len vygeneruje na základe naučenia toho, ako má vyzerať.
Výsledná podoba síce nie je úplne fyzikálne presná, ale je vizuálne vierohodná, pretože neurónová sieť sa naučila, že práve takto svetlo pri prechode týmto druhom predmetov na pohľad vyzerá.
Vývojový tím OpenAI, ktorý za DALL-E 2 stojí, vznikol v roku 2015 a v základe je ho možné považovať za jednu z najvýznamnejších konkurencií pre vývojové laboratóriá DeepMind a Google Brain (obe spadajúce pod krídla Googlu). Tie sú v oblasti vývoja systémov založených na hlbokých neurónových sieťach v mnohých ohľadoch považované za lídra, vďaka obrovskému počtu vskutku prelomových výsledkov v najrôznejších oblastiach (v nedávnej minulosti predovšetkým sieť AlphaFold, ktorá pred 1,5 rokom prelomila extrémne komplexný problém skladania proteínov, čomu sme sa venovali na našom webe).
Odpoveď na DALL-E 2 od týchto vývojových tímov tak na seba nenechala dlho čakať. Koncom mája tohto roku tím Google Brain predstavil svoj systém Imagen AI, ktorý všetko posunul o kus ďalej.
Nevedno, či publikovanie tejto vedeckej práce (arXiv:2205.11487) tak krátko po DALL-E 2 bola len náhoda, alebo jej vydanie bolo urýchlené v dôsledku úspechu tímu OpenAI (systém musel byť bez pochyby vo vývoji už dávno predtým). Realitou však je, že predstavený Imagen od Googlu ponúkol ešte dych berúcejšie výsledky.
Podobne ako v prípade DALL-E 2, aj Imagen je komplexnou súhrou transformačnej hlbokej neurónovej siete a difúzne generatívnej hlbokej neurónovej siete.
Jednou zo špecifických odlišností Google Imagen, ktorá sa rýchlo prevtelila do viditeľnej výhody je, že architektúra a výučba jej transformačnej siete je založená na výrazne dlhších a komplexnejších popisoch, pričom je napojená na výkonný jazykový model T5.
Namiesto fotiek s popisom typu „loď v prístave“, sa teda učí na fotkách s popisom „biela jachta je zakotvená v prístave a na jej palube tancujú traja ľudia. Na pozadí zapadá slnko a na oblohe letia vtáky“.
Vo výsledku je tak Imagen schopný správne reagovať na komplexnejšie zadanie a lepšie chápať ľudský jazyk. Jednou zo slabín DALLE-2 je napríklad to, že pri zadaní typu „červená kocka je na zelenej kocke“ má problém s tým, ktorá z kociek má byť vlastne dole a často ich polohu obráti. Rovnako nedokáže vygenerovať ani obrázok demonštranta s transparentom, na ktorom je nápis „sloboda“. Sieť síce vygeneruje demonštranta aj transparent, avšak namiesto konkrétneho slova či vety použije len svoju „predstavu“ toho, ako vyzerá, takže vo výsledku je text len náhodnou spleťou písmen.
A práve túto slabinu Imagen vďaka výrazne lepšiemu jazykovému modelu odstránil, čím sa vývojári náležite pochválili v príkladoch. Na vyššej úrovni je aj samotné generovanie, nielen v rámci matematického porovnania, ale aj toho subjektívneho, založeného na ľudskej preferencii. Google v rámci svojej vedeckej štúdie vykonal slepý test, pri ktorom ľudom ukazoval neoznačené obrázky vyprodukované Imagenom a DALL-E 2 s totožným textovým zadaním, pričom obrázky od Imagenu boli ľuďmi preferované v závislosti od typu úlohy zhruba v pomere 3 : 2.
Je dôležité poznamenať, že obrázky a fotky, ktoré vidíte v článku, sú vždy vybraté z väčšieho množstva snímok. Sú vyselektované človekom práve preto, že sú také dobré a podarené. Neurónové siete vygenerujú vždy súpravu obrázkov podľa vášho zadania a v mnohých variáciách, pričom mnohé z nich, a neraz aj drvivá väčšina, budú z dôvodu nejakej optickej nezrovnalosti nepoužiteľné.
Obzvlášť ak chcete, aby neurónová sieť generovala niečo, čo je extrémne náchylné na presnosť jednotlivých prvkov, ako napríklad ruku, ktorá niečo drží. Hľadanie vhodného obrázka, ktorý je možné následne znovu alternovať, tak pripomína prezeranie fotobánk, kde si vyberáte obrázok, ktorý vám vyhovuje (i keď v tomto prípade skôr hľadáte ten, ktorý je bez chýb).
To všetko je pravdaže dôsledok raných verzií týchto systémov. Nové riešenia budú prichádzať neustále. Systémy budú používať čoraz presnejšie generovanie obrazu a čoraz lepšie budú chápať zadanie. Budú mať čoraz menej drobných obrazových chýb, vďaka čomu bude čoraz nemožnejšie rozpoznať, že ide o syntetický produkt.
GENEROVANIE OBRÁZKOV PRE KAŽDÉHO
Predstavenie systémov DALL-E 2 a Imagenu otvorilo celkom novú éru. Existencia takých pokročilých generátorov grafického obsahu, ktoré sú schopné vytvoriť za pár sekúnd obrázok, na ktorý len pomyslíte, to je niečo, čo chce vyskúšať zrejme každý.
Kto k nim teda má prístup? V prípade Imagenu bude závisieť od Googlu, kam a ako tieto systémy do svojich produktov v budúcnosti integruje.
Lenže v prípade DALL-E 2 je to celkom inak. Ten je totiž v mnohom založený na prvkoch, ktoré sú voľne dostupné pre každého vývojára. Organizácia OpenAI je nezisková a publikuje mnoho otvoreného výskumu, vrátane zdrojových kódov jednotlivých hlbokých neurónových sietí, ktoré sú v rámci DALL-E 2 prepojené.
Na druhej strane jej dcérska spoločnosť, v podobe výskumného laboratória OpenAI LP, je komerčného rázu a produkuje riešenia a systémy určené na predaj. Výsledkom toho je, že cloudová služba, ktorá v rámci DALL-E 2 dokáže obrázky generovať komukoľvek na požiadanie, je platená.
V súčasnosti existuje v rámci Beta prístupu (od konca septembra už nepotrebujete čakať na pozvánku), pričom je dostupná za 15 dolárov mesačne. Za túto sumu si môžete sieťou vygenerovať 50 požiadaviek (súčasťou každej je niekoľko obrazových variácií), pričom za ďalších dodatočných 15 dolárov získate 115 ďalších.
To sa pravdaže mnohým nezávislým vývojárom UI po celom svete nepáčilo a prakticky okamžite vznikli alternatívne systémy, založené na publikovaných otvorených technológiách OpenAI, ktoré sú dostupné čiastočne alebo celkom zdarma.
V priebehu júla vošiel do beta štádia projekt Midjourney, od rovnomenného vývojového laboratória, pod vedením David Holza. Funguje v základe zdarma na sociálnej sieti Discord, kde automatické roboty odpovedajú na požiadavky už viac ako 2 miliónov návštevníkov a napojením na cloudovú službu generujú obrázky na základe textu, ktorý do chatu píšu.
Každý návštevník môže odoslať 25 požiadaviek (jedna požiadavka vráti 4 variácie obrázkov), pričom počas približne jednej minúty uvidíte svoje zadanie zhmotnené vo verejnom chate. Vybratý obrázok môžete následne vygenerovať vo vyššom rozlíšení, alebo vygenerovať jeho nové variácie.
Za poplatok je možné získať rýchlejšie a častejšie generovanie a ďalšie doplnkové služby, vyplývajúce z prístupu k danému cloudu. Začína na 10 dolároch mesačne, s nastaveným limitom na renderovací čas. Pokiaľ ste náročnejší a chcete generovať stovky obrázkov denne, za 30 dolárov mesačne už získate prakticky neobmedzený prístup. Vďaka tomuto „freemium“ modelu bol startup už v auguste sebestačný a ziskový.
Je nepochybné, že touto cestou sa vyberie mnoho ďalších startupov a vývojových tímov. Treba povedať, že použitie voľne dostupných neurónových sietí od OpenAI automaticky neznamená, že ich kombináciou a tréningom získate rovnako výkonný systém ako je DALL-E 2. Obvykle platí, že tieto systémy sú mierne pozadu a teda o niečo horšie, i keď nie nevyhnutne, pretože v budúcnosti môžu ťažiť z veľkej vývojárskej základne.
Každopádne celý „platený“ alebo „prémiový“ obchodný plán týchto služieb dostal v auguste poriadnu ranu. Objavil sa totiž Stable Diffusion, vyvinutý v spolupráci s vývojármi z Mníchovskej univerzity (LMU), Runway, EleutherAI a ďalších startupov a laboratórií. Podobne ako v prípade Midjourney, aj Stable Diffusion je založený na open-source kóde jednotlivých systémov od OpenAI.
Rozdielom je, že tento hotový model umelej inteligencie si môže ktokoľvek stiahnuť a po správnej konfigurácii prevádzkovať na svojom vlastnom hardvéri (predovšetkým herných grafických kartách), bez potreby prístupu ku cloudovej službe.
Inak povedané, generovanie obrázkov môžete vykonávať bez akýchkoľvek obmedzení, pretože celý systém prevádzkujete sami u seba doma. To, ako rýchlo dokážete obrázky na základe svojich textových požiadaviek generovať, závisí len od výkonu vašej grafickej karty (obvykle pár sekúnd až desiatok sekúnd). Rovnako pri tom nie ste obmedzení ani umelými limitmi na zakázané slová a témy, s ktorými sa stretnete u platených cloudových služieb. Nie je tak problém generovať napr. aj erotický obsah či čokoľvek iné.
V súčasnosti je vývoj tohto projektu zastrešený pod startupom Stability AI, ktorý je momentálne v procese získavania investícii, pričom do konca tohto roku môžeme očakávať jeho ohodnotenie zhruba niekde na úrovni miliardy dolárov.
Aj keď je v základe pravda, že generované obrázky cez Stable Diffusion alebo Midjourney nie sú na úplnom vrchole aktuálne dosiahnuteľných výsledkov, v prípade úspechu za špičkou zas až tak nezaostávajú a sú schopné generovať výborný obsah, vrátane toho fotorealistického. To koniec koncov vidieť aj na obrázkoch v tomto článku, pričom skoro až nekonečný počet ďalších nájdete na ich domovských stránkach alebo stránkach komunít na sociálnych sieťach (napr. www.reddit.com/r/StableDiffusion/, respektíve www.reddit.com/r/midjourney/).
Bezplatná a otvorená dostupnosť týchto riešení tak povediac „vypustila kone zo stodoly“ a dnes už si je ťažké predstaviť, že by automatické generovanie ľubovoľných obrázkov bolo v budúcnosti čisto len platenou službou.
Práve naopak. Skôr môžeme očakávať stále väčší výber, slobodu v tvorení a vďaka riešeniam zdarma aj vývoj mnohých naviazaných mechanizmov a služieb, integrovaných do iných produktov.
Ako príklad môže slúžiť vývoj nového pluginu pre Photoshop, s pomocou ktorého môžete už v súčasnosti generovať cez Stable Diffusion napríklad vybraté časti svojich obrázkov a vymieňať na gauči psa za mačku jediným príkazom. Plugin nesie meno Alpaca (www.getalpaca.io) a od septembra je v beta fáze, pričom si ho môžete zdarma stiahnuť a používať v prípade, že počkáte v poradovníku na pozvánku.
ČO SA VLASTNE DEJE POD KAPOTOU TAKÉHO SYSTÉMU?
Keď je bežný človek po prvý raz konfrontovaný so synteticky generovanými fotografiami a umeleckými dielami, často sa spýta, kto je vlastne autorom ich jednotlivých častí. Nepatria niekomu inému? Naoko to totiž vyzerá, že počítač obrázok vlastne len poskladá z nejakých existujúcich dát.
Lenže tak to nie je. Celá obrazová informácia je generovaná.
Ak chcete vidieť obrázok gorily v klobúku, ktorá jazdí na vodnom skútri, neurónová sieť nezoberie fotografiu opice a nenapasuje ju umelo na nejakú existujúcu fotografiu skútra.
Hlboká neurónová sieť je len naučená, ako dané objekty, zvieratá a činnosti vyzerajú a obrázok vytvorí na základe svojich obrazových znalostí. Nemá v sebe poskrývané útržky JPEG obrázkov, ktoré následne kombinuje ako skladačku. Má nehmotnú ideu, koncept, ako konkrétny objekt alebo činnosť vyzerá.
To koniec koncov platí aj pre človeka. Sme schopní spoznať, že je niečo motorka, aj keď ide o takú, ktorú vidíme prvýkrát. Máme totiž v pamäti funkčný koncept a predstavu toho, ako motorka vyzerá. A uplatníme ho nielen vonku na ulici, ale aj na kresbe a takisto aj pri pohľade na tanier s detskými cestovinami.
Keď transformačnú hlbokú neurónovú sieť učíme rozpoznávať objekty, nechávame ju, aby si tieto spojitosti a koncepty vytvárala sama. Predstavte si napríklad, že ju chceme naučiť, čo je banán a čo narodeninový balónik. Ukážeme jej fotku zeleného balónika a žltého banánu, pričom systém, ktorý ich chce odlíšiť, si vytvorí napríklad jednoduchú asociáciu, že banán sú žlté pixely a balón zelené.
Tento „jednorozmerný“ identifikátor odlišnosti sa pravdaže ukáže ako nedostatočný v momente, keď sieti ukážeme fotografiu červeného balóna, alebo zeleného banánu. Systém neurónovej siete si tak vytvorí nové spojenie, ktoré bude platiť pre oba prípady, pričom si všimne, že balón je kruhový a banán nie. Vytvorí si tak vzájomne previazaný dvojrozmerný popis, kde je farebnosť a tvar súčasťou spoločného parametra.
A takto to robí pre tisíce, milióny a miliardy situácií, objektov a činností. Postupne si pri balónoch začne všímať prítomnosť šnúrky, materiál gumy, to že sa často nachádzajú pri narodeninovej torte, alebo v prítomnosti detí. Všíma si, že balón môže mať aj iný tvar, že je občas na zemi a občas vo vzduchu. Vždy keď sa sieť zmýli a nedeteguje balón tam, kde popis hovorí že balón je, je donútená hľadať nové odlišnosti a špeciálne prípady.
Pri svojom učení automaticky a neúnavne hľadá rôzne premenné a konštruuje napojenia, ktoré si človek často ani neuvedomí. A buduje pri tom matematický model, operujúci s obrovským množstvom premenných (biliardy až trilióny), ktoré sú na seba naviazané ako vektory v abstraktnom mnohorozmernom priestore (500 a viac dimenzií).
Po ukončenom tréningu tak v týchto stovkách na seba vzájomne naviazaných matematických dimenzií nájdeme uloženú esenciu toho, čo si neurónová sieť predstavuje ako sneh, čo ako fotografiu zo 70. rokov a ako pre ňu vyzerá šťastie.
Keď sieti napíšeme naše textové zadanie pre generovanie obsahu, jednotlivé slová si môžeme predstaviť ako koordináty, s ktorými sa v tomto mnohorozmernom priestore dostaneme do toho či onoho konceptu a „esencií“ objektov a javov, ktorý nám otočená neurónová sieť tohto typu dokáže odovzdať.
Je dôležité si uvedomiť, že výsledná „idea“ neurónovej siete, čo a ako vyzerá, nie je určená pre naše oči a je v mnohých ohľadoch neľudská, pretože nie je limitovaná asociáciami, ktoré si obvykle vedome alebo podvedome vytvárame my (už len z dôvodu limitov nášho zraku a pamäte).
Celkom esenciálnym druhým mechanizmom je druhá, tentoraz difúzne generatívna neurónová sieť, ktorá funguje ako dekodér, respektíve generátor, ktorý vytvára obrazovú informáciu. Používa pritom nielen vytvorenú „hmlistú“ predstavu predošlej siete, ale aj samotný textový popis. Vo výsledku tak vo virtuálnej ruke drží „náčrtok“ a aj popis, čo má náčrtok byť a začne ho podľa toho doostrovať.
Tieto siete sa v základe trénujú tak, že vezmú existujúci obrázok s vysokým rozlíšením a postupne pridávajú do neho náhodný šum. S pribúdajúcimi krokmi sa obrázok stáva stále menej a menej jasný a výrazný, až sa napokon celkom rozplynie v náhodnom zrne pixelov. Neurónová sieť sa následne pokúša proces obrátiť a šum sa pokúša doostrovať do vysokého rozlíšenia, pričom porovnáva svoj úspech s originálom (ktorý má stále dostupný). Hľadá tak metódy a odhady na to, aby bola vždy pri dopočítavaní a extrapolácii informácie čo najpresnejšia, až sa to napokon mimoriadne dobre naučí.
Vo výsledku tak má veľmi dobrú predstavu toho, ako ktoré objekty vyzerajú v malom a vysokom rozlíšení, pričom tieto znalosti následne použije aj na doostrovanie a dopočet obrázka, s ktorým sa ešte nestretla.
Teda aj takého, ktorý jej odovzdá iná neurónová sieť.
KREATIVITA AKO SYNTETICKÝ PRODUKT VÝPOČTU A POPIERANIE REALITY
Dlhú dobu sa v bežnej vedecko-fantastickej literatúre môžeme stretávať s konceptom, že v nejakej budúcnosti ľudstvo presunie všetku manuálnu a mechanickú prácu na robotické stroje, zatiaľ čo pre nás zostanú už len tie, ktoré sú založené na veľkej kreativite a vychádzajú z nášho myslenia, pocitov, plánovania a podobne.
Kreativita však nie je žiadna magická substancia. Nejde o čarovný prvok z rozprávky, ale o čisto naturálny mechanizmus vychádzajúci z rôznych spôsobov spracovávania a kombinovania informácií. Nie je to žiadna neprekonateľná bariéra, ktorá má na sebe tabuľku s nápisom „zákaz vstupu pre systémy umelej inteligencie“.
Nič na tom nemení to, ako tieto systémy vyvíjame a trénujeme. Je treba si uvedomiť, že žiadne umelecké dielo, alebo iná kreatívna ľudská vec, nie je vytvorená človekom absolútne z ničoho. Vždy nevyhnutne vychádza z toho, respektíve má nejakú súvislosť a naviazanosť na to, čo autor zažil, videl, počul a skrátka svojimi zmyslovými orgánmi za svoj život vstrebal.
Nemôžete teda syntetickú kreativitu zavrhnúť preto, že neurónové siete sa učili spoznávať svet a celú problematiku na obrázkoch, ktoré boli popísané, odfotené, vytvorené a namaľované ľuďmi. To bol ich vstup do sveta a svoje nadobudnuté znalosti následne uplatňujú.
A často ich uplatňujú lepšie ako ľudia samotní. Od nástupu hlbokých neurónových sietí k tomu dochádza neustále, pričom prakticky každým rokom vidíme tieto systémy triumfovať v novej a novej oblasti.
Sprvu sú horšie ako človek, potom skoro také dobré ako človek a následne lepšie. A v momente keď sa to stane, už sa to nikdy nezmení. Je jedno či ide o hranie šachu, skladanie proteínov alebo včasné rozpoznávanie špecifických druhov rakoviny a iných chorôb na MRI snímkach. Akonáhle tento systém človeka v danej úlohe prekoná, už nikdy to nebude inak.
Nemožno pritom očakávať, že by úlohy, ktoré považujeme za kreatívne alebo vynaliezavé boli výnimkou. Či už ide o poéziu, skladanie hudby, maľovanie, alebo čokoľvek iné, počas rokov, dekád a prinajhoršom storočí budeme postupne vo všetkom ťahať za kratší povraz.
Ľudský umelec má pravdaže obrovskú výhodu v tom, že ak chce evokovať svojím dielom nejaký pocit, môže vychádzať z toho, čo sám cíti a vo svojom diele môže svoje pocity odzrkadľovať. Koniec koncov, umenie považujeme za súhru pocitov, tvorivosti a iných ľudských vlastnostní a systém umelej inteligencie založený na hlbokých neurónových sieťach rozhodne nič také necíti.
Lenže evokovanie pocitov samotným umeleckým dielom sa skrátka algoritmicky naučí. Ako? Formou interakcie s ľudským divákom.
Svojím spôsobom je to podobné, ako keby ľudský maliar chcel vytvárať obrazy pre mimozemskú rasu z planéty X, ktorá je celkom odlišná od tej našej. Musel by najprv odpozorovať, ako mimozemšťania na tie či oné prvky nakreslených obrazov reagujú a na základe toho kreslil ďalšie, v snahe vyvolať v nich najpozitívnejšiu reakciu. Je nepochybné, že s postupom času by bol stále lepší a lepší, i keď takmer určite takmer nikdy dokonalý.
Zrejme tušíte, že pre človeka by takáto úloha bola nesmierne komplexná a možno by ani za celý svoj život nebol plne úspešný a existovalo by ešte mnoho vecí, čo nepochopil, pretože ich sám necíti a nezažíva.
Tu má stroj v podobe systému umelej inteligencie nespornú výhodu, pretože môže za jeden deň „zažiť“ viac, než ľudský umelec za celý svoj život. Aj keď je teda vo výsledku limitovaný tým istým nedostatkom, teda že konkrétne veci sám necíti, vo výsledku má na jeho riešenie z praktického hľadiska nekonečné množstvo času a zdrojov.
A v určitom momente jeho výstup bude skrátka perfektný, respektíve v praxi nerozpoznateľný od prirodzených umelcov. Ak si myslíte že nie, je to podobné ako tvrdiť, že počítače nikdy nezvládnu simulovať fyzikálny pohyb, pretože samotné fyzikálne predmety sa v nich v skutočnosti nepohybujú. Podobne ako algoritmická simulácia fyziky, tak aj výpočtový umelecký prejav bude v určitom momente skrátka plne dostatočný a prakticky v ničom sa nebude odlišovať od relevantnej reality.
A dôkazy tohto stavu vidíme už dnes. Google vybraté výsledky svojho Imagenu nechal hodnotiť ľuďmi v „slepých“ testoch, v rámci ktorých boli reálne fotografie s popismi zmiešané s generovanými fotografiami s popismi, pričom v mnohých prípadoch ľudia skrátka neboli schopní spoznať rozdiel medzi reálnou fotografiou a synteticky generovaným obrázkom.
Neplatí to pritom len u klasických snímok, ale aj pri generovaní tých umeleckých. Na začiatku septembra tohto roku obletela svet prekvapivá informácia z relatívne nevýznamného, avšak už 150 rokov konaného štátneho veľtrhu v americkom Colorade. V rámci neho sa každoročne udeľujú ceny v troch umeleckých kategóriách (maľba, vyšívanie, sochárstvo), do ktorých sa ktokoľvek môže so svojimi dielami prihlásiť.
Tohtoročným víťazom sa stal Jason M. Allen, ktorý v kategórii maľby zaujal porotcov svojím fascinujúcim dielom „Théâtre D’opéra Spatial“, ktoré porotcovia vyzdvihli vďaka pútavému príbehu, ktorý obraz rozpovedal a umeleckému duchu, ktorý evokoval.
Obraz fantastického sveta, v ktorom postavy stoja pred obrovským kruhovým otvorom, cez ktorý preniká jasné svetlo dňa, má jednoznačne svoje čaro. Malým „problémom“ bolo, že Jason Allen daný obraz nemaľoval. Jeho obsah textovo popísal pre hlbokú neurónovú sieť umelej inteligencie Midjourney, ktorá ho synteticky vytvorila.
Allen pritom v základe neskrýval, ako obraz vytvoril. Do kolónky autora totiž uviedol „Jason M. Allen prostredníctvom Midjourney“. Problémom pravdaže bolo, že vzhľadom na to, že celá problematika synteticky generovaných obrazov na takejto úrovni je záležitosťou len niekoľkých mesiacov, porotcovia, ktorí sú bežnými ľuďmi, nevedeli, čo to znamená. Obraz tak určili za víťazný a následná senzácia bola na svete.
Keď sa ozajstný pôvod obrazu dostal na svetlo, pre mnohých maliarov a iných umelcov šlo o studenú sprchu a prebudenie do novej reality. Aj keď mnohí Allena obvinili z podvádzania či minimálne zavádzania, pretože sa s počítačom generovaným dielom zúčastnil súťaže pre umelecké diela ľudí, azda najťažšou pilulkou na prehltnutie bolo práve roztrieštenie zastaranej predstavy, že systémy UI sú len akýmsi modernejším „robotom“, pre ktorých je ľudská kreativita nepreniknuteľnou hranicou.
NEBUDE SA SYNTETICKY GENEROVANÁ OBRAZOVÁ INFORMÁCIA NUDNE OPAKOVAŤ?
Jedna z hlavných vecí, ktorá by vám mala z obrázkov v tomto článku okamžite udrieť do očí, je obrovská vizuálna variabilita.
Nejde len o to, že môžeme generovať rôzne podoby jednej veci, ako je to napríklad v prípade generovania ľudských tvárí, keď vytvárame prakticky nekonečný zástup odlišných ľudí rôzneho veku a etník.
Je dôležité rozpoznať, že počas tohto roku sme prešli k tomu, že môžeme generovať nielen fotografie, ale aj olejové maľby, konceptuálne umenie, skeče, prakticky čokoľvek, s čím ste sa v akýchkoľvek obrázkoch doposiaľ stretávali.
A to nielen v jednom štýle, ale v ľubovoľnom. Pozrite sa napríklad, ako sa zmení výstup neurónovej siete, keď jej zadáme, že chceme aby vygenerovala muža, ktorý si číta a sedí pri stole v čiernej miestnosti, do ktorej preniká trochu svetla a na stole sú položené žlté kvety.
Vidíme variabilné výsledky, zodpovedajúce popisu. Všimnite si ale, ako sa výstup zmení, keď sieti zadáme to isté, ale doplníme, že má ísť o maľbu, ktorú by namaľoval Picaso.
Ešte zaujímavejšie sú výsledky toho, keď od neurónovej siete chcete zdanlivo nezmyslenú vec. Napríklad ju požiadate o to, aby vám nakreslila obraz muža pracujúceho na počítači s veľkým CRT monitorom, v roku 1635.
Výsledky sú dych berúce, pretože vyzerajú naozaj tak, akoby maliari z tej doby práve tento výjav nakreslili. Môžete byť dokonca aj konkrétnejší a požiadať, aby vyzerali ako od Rembrandta a neurónová sieť, v tomto prípade DALL-E 2, vám vyprodukuje len to.
Je ľahké byť skeptický a podľahnúť dojmu, že synteticky generovaný obsah sa ľudom veľmi rýchlo omrzí, pretože nebude mať čo nové ponúknuť.
Koniec koncov, ak ste napríklad hráčom počítačových hier, dobre viete, že automatické procedurálne generovanie herných prostredí alebo misií, ktoré je s nami dlhé roky, vie byť niečo nesmierne otravné.
Typicky môže ísť o nejaký vesmírny simulátor, ktorý automaticky generuje prostredie prakticky nekonečného množstva planét a ich obyvateľov, pri ktorom veľmi rýchlo zistíte, že aj keď je každé prostredie ničím trochu iné, v realite je vlastne totožné a ničím vás po čase neprekvapí.
Ide len o hlúpu náhodnú variáciu veľkého zástupu parametrov, pričom v základe ide o zamiešaný balíček kariet. Možno viete, že ak balíček 52 kariet náhodne zamiešate, je takmer isté, že ste vytvorili variáciu poradia kariet, ktorú ešte nikto nikdy pred vami nevytvoril (počet permutácií je číslo so 67 nulami na konci). Výsledok je síce stále odlišný, ale koncepčne nič nové neprináša.
Naproti tomu, keď budete sledovať obrázky generované neurónovými sieťami, alebo čo je lepšie, keď ich sami budete svojím popisom vytvárať, rýchlo zistíte, že to tak nie je. Problematika vás opantá a budete šokovaný stále novými a novými myšlienkami a kombináciami, na ktoré ste možno predtým nikdy ani nepomysleli. Stačí skombinovať len iné zadania, nech sú akokoľvek komplexné. Obrovský počet naviazaností, ktoré majú neurónové siete svojpomocne naučené a vytvorené, totiž do všetkého vnáša celkom nevídané svetlo.
Súvisí to pritom so vznikom možno celkom novej technickej zručnosti, či možno aj novej profesie. Vaša schopnosť vytvoriť program či grafické dielo totiž v budúcnosti nebude dôsledkom toho, ako viete programovať alebo maľovať, ale to, ako dobre viete svoju myšlienku popísať umelej inteligencii.
KEĎ VAŠE OBYČAJNÉ SLOVÁ OTVÁRAJÚ NEZVYČAJNÉ SVETY
Predstavte si zeleného koňa, ktorému z úst šľahá oheň, pričom práve beží k veľkej priepasti, ktorú sa chystá preskočiť. Sedí na ňom tučný rytier, ktorý sa z neho v panike pokúša zoskočiť. S vytvorením tejto predstavy zrejme nemáte žiadny problém a každé ďalšie slovo, ktoré pribudlo, vašu úvodnú predstavu len viac dokresľovalo a spresňovalo.
Avšak, čo ak pokračujeme výrazom, že v danej predstave je „všetko je z lega“, alebo že má ísť o obraz, ktorý namaľoval Pablo Picaso. Nech bola vaša predchádzajúca predstava akákoľvek, tak táto nová špecifikácia ho zrazu vizuálne celkom premenila.
Rovnako je to aj s neurónovými sieťami, respektíve systémami umelej inteligencie, ktoré generujú obrázky. V ich prípade sú pritom takto formujúce aj slová, ktoré by vám osobne predstavu príliš nezmenili, ako napríklad 4K, vysoký detail, rozprávkové prostredie, snové svety.
Pre neurónovú sieť ale ide o celkom novú „myšlienkovú vrstvu“, plnú masívneho množstva nových spojení. Ak hľadáte inšpiráciu a chcete vidieť, čo aké slová dokážu, pozrite sa napríklad na web www.lexica.art, kde vidíte obrázky vyprodukované cez Stable Diffusion s kompletným textovým zadaním, ktoré ich vyvolalo, pričom jednotlivé slová môžete vyhľadávať a sledovať, ako sa koncepty menia s pridávaním iných.
Dokonca je možné zadávať aj slová popisujúce optiku fotoaparátu, ktorou chceme generovanú fotku vytvoriť. Sieť totiž má v mnohých ohľadoch existujúci koncept, ako fotografie s takouto optickou sústavou vyzerajú, pretože ich videla v miliónoch najrozličnejších prípadov.
Hľadanie správnych slov a zadaní pri tom môže byť kumštom samo o sebe a často sa pri tom odkrýva aj mnoho prekvapení. Jednotlivé naviazanosti, ktoré si neurónové siete vytvorili pri vlastnej výučbe, sú totiž aj neľudské. Častokrát to pripomína otváranie stále nových a nových dverí, za ktorými sú stále nové a nevídané veci.
Vo výsledku tak ide o celkom novú „popisnú grafickú prácu“, v rámci ktorej môžeme s narastajúcou praxou s tým či oným systémom kontrolovať produkciu UI generovaného obrázka čoraz lepšie a precíznejšie.
REÁLNE POUŽITIA DNES A ZAJTRA
Práve teraz vchádzame do sveta, v ktorom si každý človek bude môcť nakresliť obrázok, či vytvoriť fotku alebo inú obrazovú informáciu, čisto podľa svojich predstáv.
Bez ohľadu na to, či vie sám kresliť alebo dobre fotiť. Stačí, keď svoje myšlienky bude vhodne popisovať a nebude sa báť svoje popisy alternovať podľa dosiahnutých výsledkov, až kým nebude vo finále spokojný.
A už to nikdy nebude inak.
Ide o skutočnú demokratizáciu umeleckého výstupu, ktorá prinesie počas nasledujúcich rokov obrovské zmeny v rámci rôzneho grafického biznisu, a takisto napríklad v rámci rôznych fotobánk.
Ilustračná fotografia do článku ako niekto opravuje počítač? Vygenerujete si presne takú, akú ste si predstavovali. Ilustrácia do detskej knižky? Vygenerujete si ich presne v takom grafickom štýle, v akom potrebujete. Nové grafické logo pre firmu? Vygenerovať v tisíckach verzií a na jednu ukázať prstom.
De facto sa pozeráme na úplný koniec súčasnej podoby fotobánk, ktoré budú musieť výrazne zmeniť svoj biznis (napr. len smerom k fotografiám z konkrétnych udalostí). Prerod v niektorých oblastiach bude rýchlejší a inde pozvoľný a v mnohých prípadoch bude ľudská grafická práca ešte mnoho rokov výrazne lepšia, avšak nie nadlho.
V konečnom dôsledku sa v mnohých ohľadoch pozeráme na predavačov koní, ktorí poukazujú na prednosti skutočného spoľahlivého koňa oproti prvým automobilom, ktoré dostávali každý deň defekt a pohybovali sa rýchlosťou 10 km/h.
Niektoré dvere sa zatvárajú, to ale neznamená, že iné sa neotvárajú. Obrovský zástup grafických prác a na nich nadviazaných odborov bude vďaka týmto systémom zažívať naopak amplifikáciu svojich schopností, možností a takisto kreativity.
Tak ako sa práca grafikov zlepšila tým, že namiesto papiera a ceruzky mohli používať počítač, umožňujúci nové postupy a princípy, tak sa zlepší ich výstup vďaka tomu, že mnohé časti svojej práce budú môcť rýchlo generovať a následne len ručne precízne dolaďovať.
Mnoho odborov bude tieto generatívne systémy používať nie ako finálny produkt, ale ako studnicu nekončeného zástupu najrôznejších variácií, z ktorých budú čerpať. Za posledné mesiace sme svedkami vzniku nových metód napríklad v rámci vizualizácií architektonických variácií, či v rámci módnych návrhov a podobne.
Žiadny človek nikdy nebude mať toľko nápadov na zmeny, ako systém umelej inteligencie, ktorá vygeneruje za krátky čas tisícky variant nových domov so špecifickými znakmi, nových tenisiek, či obalov. Je jedno, že nebudú dokonalé či použiteľné. Stačí len dobrý a neopozeraný nápad, ktorý sa vyberie medzi stovkami či tisíckami variácií a následne dopracuje.
Všetko je to len začiatok. Rozhodne nie koniec. A sme len niekoľko rokov ďaleko od generovania komplexných videí na požiadanie.
Tento článok pôvodne vyšiel v tlačenom vydaní magazínu TOUCHIT, 9-10/2022 a preto sa niektoré údaje môžu líšiť oproti aktuálnemu dátumu publikovania. Na našom webe sa objavuje zdarma dodatočne v rámci propagácie nášho magazínu.