Pokrok v hlbokých neurónových sieťach, ktoré sú hlavným reprezentantom súčasných pokročilých systémov umelej inteligencie, otvoril nové brány do éry umelo generovaných fotografií. Tieto nové syntetické médiá pritom prinášajú obrovské benefity, rovnako ako nemalé množstvo nebezpečenstva a zmenia to, ako bude vyzerať blízka budúcnosť.
Žiadna osoba, ktorú vidíte na fotografiách v tomto článku, nikdy neexistovala. Všetky tváre boli stvorené hlbokou neurónovou sieťou systému umelej inteligencie, ktorá sa skrátka naučila, ako ľudské tváre vyzerajú a následne vymýšľa vlastné.
Azda najfascinujúcejšie na celej problematike je, že toto všetko ešte pred piatimi rokmi nebolo možné. Generované tváre vyzerali ako z hororu a neoklamali by nikoho. Ubehlo ale len pár rokov a človek už nedokáže zbadať, že tvár na fotografii je syntetická.
A aby to nebolo málo, tieto dokonalé tváre nie sú dielom nejakého superpočítača alebo systému, ktorý vyvinula len jedna firma na svete a ostro si ho stráži. Sú dielom rôznorodého zástupu vytrénovaných neurónových sietí, ktoré sú v niektorých prípadoch dokonca dostupné aj zdarma a môže ich prevádzkovať na svojom počítači prakticky ktokoľvek.
Značne to pripomína situáciu v oblasti tzv. deep fake videí, v rámci ktorých sa od roku 2017 môžeme stretávať predovšetkým s upravenou pornografiou. Pri nej sa tvár jednej osoby, ako napríklad tvár nejakej populárnej celebrity, presunie na telo postavy vystupujúcej v sexuálnej scéne, pričom kompletne preberie jej mimiku a výrazy.
V prípade tých dobre vykonaných pokusov, pri ktorých sa neurónová sieť správne vytrénuje, je pri tom výsledok až dych berúco presvedčivý. Tieto videá pritom nie sú produkované nejakými záškodníckymi štúdiami alebo firmami. Stalo sa skrátka to, že voľne dostupné neurónové siete začali byť schopné túto výmenu vykonať a úplne bežní ľudia ju tak v domácich podmienkach začali používať práve na takýto šteklivý účel.
Éra generovanej fotografie, do ktorej sme práve vstúpili, či lepšie povedané rovno skočili oboma nohami, pritom otvára ešte väčšie možnosti. Prináša pritom nové druhy uplatnení, ktoré výrazne zasiahnu mnohé odvetvia a zamestnania, ktoré sme ešte donedávna v súvislosti s nástupom umelej inteligencie vôbec nepovažovali za ohrozené.
Pri pohľade na súčasný pokrok týchto systémov je pritom veľmi pravdepodobné, že sme len pár rokov vzdialený od sveta, v ktorom budete môcť nadiktovať to, čo na fotke chcete mať a systém umelej inteligencie vám ju na požiadanie stvorí. Pritom nebude možné rozpoznať, že v skutočnosti nie je naozaj odfotená.
AKO JE VÔBEC MOŽNÉ TVORIŤ NEEXISTUJÚCE TVÁRE?
Súčasný obrovský pokrok v presvedčivosti a vierohodnosti syntetického obsahu, ktorý je taký badateľný na vytváraní neexistujúcich ľudských tvárí, je dôsledkom špecifických Generatívnych kontradiktórnych hlbokých neurónových sietí.
Skrátene ich označujeme ako GAN (z anglického Generative Adversarial Networks), pričom sa v dôležitých detailoch líšia od iných riešení systémov umelej inteligencie, ktoré používame napríklad na syntézu hlasu, či presun mimiky a tváre vo videoscéne. Pri úlohách ako je Deepfake, v ktorých sa tvár nejakej osoby vierohodne nasadí na inú, sa v základe používajú dve prepojené hlboké konvolučné (spletité) neurónové siete, ktoré sa trénujú na dve rozličné, avšak existujúce osoby a následne si dáta vymenia.
Vo vnútri Generatívnych kontradiktórnych sietí nájdeme takisto dve hlboké neurónové siete, avšak tie na rozdiel od predošlého prípadu vzájomne nespolupracujú, nedopĺňajú sa a ani si nevymieňajú naučené dáta. Ich úlohou je naopak vzájomne si oponovať.
Vo vnútri GAN systému jedna neurónová sieť plní rolu generátora, ktorý umelo vytvára „falošný“ obsah a druhá sieť plní rolu diskriminátora, ktorý sa trénuje na to, aby tento obsah odhalil. V prípade generovania ľudských tvárí si môžeme diskriminátora predstaviť ako vyhadzovača, ktorý stojí pri dverách baru a vpúšťa dnu iba reálnych ľudí. Ľudia neustále prichádzajú (dostáva skutočné fotky reálnych ľudí) a on ich správne púšťa, ale akonáhle sa mu niečo nezdá a predpokladá, že daný človek je syntetický (generovaná tvár), ďalej ho nepustí.
Neurónová sieť, ktorá tváre generuje, je o odhalení informovaná. Svojpomocne tak alternuje a upravuje svoje postupy produkcie syntetického obsahu a snaží sa vyhadzovača oklamať stále vierohodnejšími tvárami. Akonáhle sa jej to ale začne dariť a diskriminačný vyhadzovač nejakú syntetickú tvár pustí ďalej, je o tom sám ihneď informovaný. Upravuje tak svojej detekčné algoritmy a snaží sa vyhnúť tomu, aby v budúcnosti chybu opakoval.
A tu je vidieť silu celého systému. Spúšťa sa totiž akýsi „pretek v zbrojení“, pri ktorom sa víťazstvo nakláňa vždy na jednu alebo druhú stranu. Horšia strana sa vždy zlepšuje, až kým obranu súpera neprerazí a nestane sa víťazom. V tom okamihu ale porazený začne svoje zlepšovanie až dovtedy, kým nezačne znova víťaziť on. Výsledkom je, že „hra“ je čoraz pokročilejšia. Neurónová sieť v podobe generátora musí neprestajne tvoriť vierohodnejší a lepší obsah, aby čoraz lepší diskriminátor porazila. Každé jej víťazstvo je však zároveň tréningom pre diskriminátor, ktorý sa na základe toho zlepšuje v detekcii syntetického obsahu a jeho porážka je teda stále ťažšia a ťažšia.
Dôsledkom tohto preteku je, že po dostatočne dlhom čase začne byť syntetický obsah produkovaný generátorom už na takej vysokej úrovni, že ho nedokážeme od reálnych fotografií rozpoznať ani my. Systém sa stáva použiteľný v praxi a jeho diskriminačná časť sa z neho odoberá. Zostáva už len vysoko vytrénovaný generátor, ktorý na základe náhodného vstupu zo šumu generuje stále nové a nové tváre podľa ľubovoľnej požiadavky na rasu, pohlavie, vek či emocionálny výraz. Nikdy sa neunaví. Nikdy mu tváre nedôjdu. Vyprodukuje ich milióny, miliardy či viac bez toho, aby sme boli schopní rozpoznať, že títo ľudia v skutočnosti neexistujú.
Môžete sa pritom stretnúť s tým, že nejaký vývojársky tím či spoločnosť predstaví či dokonca uvedie na trh systém, ktorý synteticky generované tváre dokáže na internete a inde rozpoznávať. To ale nie je nijak prekvapivé. Je to len prirodzené pokračovanie daného preteku, pri ktorom sa do čela dostane zas neurónová sieť plniaca rolu diskriminátora. Nič nebráni tomu, aby neurónová sieť generátora začala znova bojovať až do svojho nového víťazstva. Tento súboj môže prebiehať prakticky donekonečna. Obvykle to ale nie je potrebné ani vhodné, pretože ultimátnym sudcom sme len my a naše oči. Akonáhle sú syntetické fotografie vizuálne celkom nerozlíšiteľné od reality pre nás, nie je obvykle dôvod ich ešte ďalej zlepšovať.
POUŽÍVANIE SYNTETICKÝCH TVÁRÍ VO VEĽKOM
Generatívne kontradiktórne siete po prvýkrát navrhol Ian Goodfellow, spolu s kolegami z Montrealskej univerzity (Kanada) v roku 2014 a od tej doby prebieha ich neprestajný vývoj, ktorý sa z akademického výskumu postupne preklopil do komerčnej sféry.
Prvé vážnejšie pokusy o predaj syntetických tvárí sme začali vidieť už v roku 2018. V tej dobe ešte často obsahovali mnohé malé nedostatky, predovšetkým v oblasti úst a očí a prípadne náhodne sa objavujúcich fragmentov na rôznych miestach, ktoré dnes nezriedkavo vidieť aj na mnohých voľne dostupných riešeniach (typicky napríklad odlišné náušnice na každom uchu).
Počas rokov 2019 a 2020 sme však začali vidieť, ako sa na vrcholových GAN začali tieto malé nezrovnalosti postupne potláčať a ich syntetické tváre začali byť prakticky kompletne bez chyby. V praxi to vidieť napríklad na adrese https://generated.photos/faces, kde vidíte ponuku tvárí od firmy Generated Media. Vyberať si môžete z niekoľkomiliónového zástupu fotiek rôznych rás, farieb a dĺžky vlasov či veku. Stačí nastaviť čo hľadáte a o dokonalé fotky neexistujúcich ľudí nie je núdza. Už vyprodukované tváre si môžete zdarma stiahnuť a používať a je jedno či ich potrebujete tisíc, alebo milión. Za poplatok môžete mať prístup aj k samotnej GAN sieti cez aplikačné rozhranie, pomocou ktorého budete môcť fotografie generovať napríklad svojou webovou stránkou či on-line aplikáciou na požiadanie v reálnom čase.
Na čo ale sú tieto tváre v praxi vlastne dobré? Ako prvé sme ich začali vídať v dizajnových návrhoch a predvádzacích demách. Napríklad SAP, veľká softvérová firma z oblasti podnikových aplikácií, ponúka na skúšku časovo obmedzené predvádzacie verzie svojich programov, doplnené o demo dáta. Firma pri tom chce, aby budúci zákazníci videli, ako softvér vyzerá v reálnej prevádzke, pričom dáta vymyslených zamestnancov a klientov majú byť čo najbližšie realite. Syntetické tváre to umožnili veľmi rýchlo a pohodlne. Je možné zachovať rôznorodé vekové zastúpenie, meniť tváre na základe mien a národností, pohlavia a podobne. Podobne užitočné sú generované tváre pre dizajnérov webových stránok (demonštrácia obsahu pre klienta), pri predvádzaní nových funkcií sociálnych sietí, alebo schopností komunikačného softvéru.
Toto je však len nesmelý začiatok. Azda najväčšiu bránu majú syntetické tváre otvorené v rámci propagácie a reklamy. Už onedlho sa s nimi budete pravidelne (a nevedomky) stretávať na bilboardoch pri ceste, na baneroch na webe, v letákoch či kdekoľvek inde. Výhodou neexistencie danej osoby je, že zadávateľ nemusí nejako podrobne študovať alebo overovať licenčné limity z hľadiska druhu použitia jej tváre. Nemusí napríklad riešiť, či daná modelka alebo model, vrátane tých detských, nemá obmedzenie v súvislosti s propagáciou liekov, alebo iného druhu tovaru. Môže ju použiť takisto aj v súvislosti s asociáciami, ktoré sú nejakým spôsobom ponižujúce, pretože daná osoba ho nikdy nebude žalovať a podobne.
Nástup umelej inteligencie si často spájame s koncom niektorých zamestnaní, na ktoré už ľudia nebudú potrební, pretože budú skrátka príliš neefektívni alebo drahí. Obvykle to však nevnímame v súvislosti s modelingom. Schopnosti hlbokých neurónových sietí v rámci GAN systémov však ukazujú, že to je už v mnohých ohľadoch rovno za dverami, pričom zvonec zazvoní v okamihu, ako sa k tvári pridá zvyšok tela.
Aj keď neurónovou sieťou vygenerovaná modelka sa pravdaže nepôjde prejsť po móle na módnej prehliadke, mnohonásobne častejšie predvádzanie oblečenia v letákoch, e-shopoch a inde je vec celkom iná. Vytváranie reklamných fotografií v súvislosti s ošatením je činnosť vyžadujúca nemalé množstvo finančných prostriedkov. Potrebujete konkrétnych modelov a modelky, ktoré s vašimi produktmi budú pózovať a takisto fotografa, fototechniku a fotoštúdio, v ktorom všetko prebehne. Produktov a ich vzájomných kombinácií je obrovské množstvo a stále pribúdajú. Občas chcete, aby s nimi pózovali mladší ľudia, občas starší. Občas potrebujete športovejšie postavy, inokedy korpulentnejšie. V rôznych krajinách často volíte odlišných modelov a modelky z hľadiska rasy či celkového vzhľadu.
V prípade generovanej postavy ale všetka starosť odpadá. Môžete si vybrať farbu pokožky, váhu, pohlavie, pózu a čokoľvek iné. A navyše, ak chcete urobiť fotky pre ďalšiu kolekciu produktov o mesiac či rok, syntetická modelka alebo model bude stále dostupný. Nikdy nebude chýbať, nikdy nezostarne a nikdy nebude požadovať vyšší plat.
Prvé komerčné pokusy v týchto smeroch vykonáva napríklad japonská firma DataGrid či americký startup Rosebud AI a je dosť dobre možné, že behom budúcej dekády už na bežných e-shopoch prakticky nenarazíte na predvádzanie oblečenia na reálnych ľuďoch (s výnimkou obsahu, ktorý budú zadarmo odosielať samotný nakupujúci). Nepôjde pri tom o nejaký prerod v zmysle, že každý bude „chcieť“ túto technológiu používať. Ľahko sa to môže stať ekonomická nutnosť. To pritom platí nielen pri predvádzaní oblečenia, ale aj u iných produktov, ktoré modelky a modeli držia v rukách, používajú či jedia.
Vzhľadom na súčasné tempo pokroku vývoja GAN systémov neurónových sietí je pritom zrejmé, že sme len niekoľko rokov od doby, kedy budete vidieť na propagačnej alebo reklamnej fotke celé syntetické mnohočlenné rodiny so syntetickým psom, syntetické mamičky kŕmiace umelým mliekom svoje syntetické bábätká a syntetických gurmánov jediacich lákavé syntetické jedlá, vzniknuté v „predstavivosti“ hlbokej neurónovej siete.
Pomerne prirodzeným dôsledkom tejto novej situácie bude, že sa začneme opakovane stretávať aj s pozorne vybranými syntetickými „brand tvárami“, ktoré budú natrvalo asociované s nejakou značkou, firmou alebo produktom.
Pomyslite napríklad na detské tváre z Kinder čokolády, hlavu zakladateľa firmy KFC v podobe Colonela Sandersa, alebo „strýka Bena“ z Uncle Ben’s omáčok. Tieto „modelingové“ práce už onedlho môže prevziať neurónová sieť. Ak si hovoríte, že predsa žiadna firma nebude riskovať to, že by „neexistencia“ tváre vyšla neskôr na povrch a spôsobila by tak negatívne asociácie, treba povedať, že v prvom rade bude musieť niekto také podozrenie nadobudnúť, čo je problém, ak rozdiel medzi generovanou a reálnou tvárou osoby nie je možné spoznať. A ak by sa to aj podarilo, nemusí to nič znamenať, pretože ľudia väčšinou po pôvode modelov a osôb na obálkach nepátrajú, pričom ani dnes si drvivá väčšina ľudí neuvedomuje, že nakreslená tvár strýka Bena, ktorá na nich pozerá z omáčok a ryže, nemá reálny náprotivok a je celkom vymyslená.
Z pohľadu firmy má pritom neurónovou sieťou generovaná tvár takmer nekonečné množstvo výhod. Syntetický model totiž nikdy nebude váhať vystupovať v novej reklamnej scéne. Nikdy nebude v budúcnosti žiadať zvýšenie honoráru z dôvodu dlhodobej asociácie so značkou. Nikdy nebude pracovať pre konkurenciu. Nikdy nenastane situácia, že bude v budúcnosti usvedčený z nejakého zločinu, alebo bude súčasťou nejakého odpudivého škandálu, vďaka ktorému budú „nakazené“ zlým menom aj projekty, na ktorých sa podieľal.
Netreba byť pri tom prehnane zdráhavý ani v súvislosti s tým, že by generovaná osoba pôsobila z hľadiska propagácie neautenticky, pretože predsa daný výrobok nepoužíva. Reálne osoby, ktoré výrobky propagujú dnes, sú totiž za danú činnosť skrátka len platené a samotný propagovaný výrobok takisto osobne nepoužívajú ani nepreferujú. O autenticite teda nemôže byť reč.
Okrem toho, falošné veci sa používajú v reklame odjakživa, aj bez toho, aby to niekto považoval za zavádzajúce. Napríklad lákavé hamburgery na fotografiách sú obvykle plné kartónu (na udržanie výšky), lievance sa pri fotení polievajú motorovým olejom namiesto medu (kvôli viskozite), koláče sa zdobia penou na holenie namiesto šľahačky (pre ostrejšie hrany) a do foteného piva v pohári sa často prilieva saponát, aby jeho pena vydržala dlho nespadnutá pri pózovaní.
Z týchto dôvodov je teda celkom absurdná predstava, že by sa v nasledujúcich rokoch marketingové oddelenia nejako urputne bránili nástupu a používaniu syntetických tvárí a postáv v reklamách a propagácii. Práve naopak, túto éru budú vítať s otvorenou náručou.
Treba sa pripraviť aj na to, že na niektoré úplne reálne pôsobiace syntetické tváre budú vydané aj ochranné známky, podobne ako sú dnes chránení napríklad maskoti a iné postavičky. Možno teda budete za pár rokov prekvapení, ak budete vyhľadávať informácie o nejakej osobe, ktorú budete poznať z rôznych reklám, a zistíte že je majetkom firmy XY. Obzvlášť ak k nej budete cítiť podobnú náklonnosť, ako k obľúbenému hercovi či herečke.
TVÁRE S TÝMI „SPRÁVNYMI“ NÁZORMI, KTORÉ VÁS NENÁVIDIA
Súčasná ľahká dostupnosť vierohodných synteticky generovaných ľudských tvárí má pravdaže aj tienisté stránky, a to najmä v súvislosti s koordinovanými propagandistickými a dezinformačnými kampaňami a takisto v súvislosti s cielenou on-line šikanou a vydieraním. Syntetické tváre je totiž možné použiť na „zhmotnenie“ nereálnych osobností, ktoré presvedčivo hromadne šíria názory svojich vlastníkov, alebo nenávidia konkrétnu osobu.
Ako sa situácia mení z hľadiska osobných útokov, je dobre vidieť napríklad na minuloročnom prípade aktivistky Nandini Jammi, zakladateľky organizácie Sleeping Giants, ktorá vedie úspešné kampane za účelom presvedčiť významné firmy, aby nezobrazovali svoje reklamy na stránkach propagujúcich rasovú či inú nenávisť a diskrimináciu (čím sa odstrihnú od hlavného zdroja financovania). Jammi vďaka svojej práci a názorom nemá o internetové obťažovanie a šikanu núdzu, pričom sa dlhodobo stretáva s tým, že je terčom útokov rôznych bezmenných a novogenerovaných účtov na Twitteri a iných sociálnych sieťach, ktoré sa jej neprestajne vyhrážajú.
Na túto situáciu si tak chtiac-nechtiac zvykla. Aj keď je určite nepríjemné čeliť neutíchajúcej záplave ponižujúcich či iných správ, ak si všimne, že ich neúnavne posielajú účty ako „Osoba745256“ a „Muž254667“, ktoré nemajú žiadny obsah ani informácie o sebe, uvedomí si, že sú len generované nejakým úbožiakom, ktorý ich na ňu cieli a snaží sa to hodiť za hlavu.
Jammi si však minulý rok začala v týchto prejavoch všímať výrazné zmeny. Nové útoky začali čoraz viac chodiť od účtov, ktoré vyzerali veľmi autenticky. Kontaktovala ju napríklad „Jessica“, blondína so žiarivým úsmevom, ktorej životné poslanie bolo podľa jej vyplneného profilu „bojovať so šikanou“, pričom paradoxne začala uštipačne poukazovať na údajné staré profily na zoznamovacích sociálnych sieťach, implikujúc, že na aktivistku má nejaké potenciálne kompromitujúce informácie. Nandini Jammi sa pokúšala zistiť, kto za vyhrážaním stojí.
Podľa štýlu komunikácie a vyhrážania šlo o prípad, keď sa záškodnícky útočník skrýva za ukradnutú identitu, ale Nandini nedokázala nájsť jej reálny náprotivok. Napokon kontaktovala niekoľko expertov na generovanie syntetického obsahu, pričom tí jej svorne potvrdili, že fotografia je na základe drobných nezrovnalostí, bežne nepostrehnuteľných pri netrénovanom pohľade, takmer určite synteticky generovaná.
A toto je pomerne výrazná zmena. Pri útoku on-line trollov, ktorých cieľom sú špecifické vplyvné alebo mienkotvorné osoby, alebo skrátka len šírenie propagandy a koordinovaná dezinformačná kampaň, sa štandardne využívajú desiatky a nezriedkavo aj stovky či tisíce generovaných účtov. Tie sú ovládané jedným zatrpknutým človekom, alebo v prípade tých štátnych snáh finančne zabezpečeným malým tímom ľudí, pričom sa obvykle snažia, aby aspoň časť z účtov vyzerala autenticky. Účty sú preto manuálne alebo strojovo vytvárané s reálne znejúcimi menami a fotografiami, indikujúce skutočné osoby.
V počiatkoch týchto aktivít na prelome storočí sa často používali dostupné snímky z fotobánk, následkom čoho sa nezriedkavo stávalo, že mnoho falošných účtov používalo rovnakú fotografiu a boli tak ľahko identifikované ako generované. Po veľkom nástupe sociálnych sietí v druhej dekáde tohto storočia sa hlavným zdrojom autenticity stalo kradnutie fotiek zo sociálnych účtov bežných ľudí, čo bolo omnoho účinnejšie, avšak takisto nie bez problémov.
Ako ukážka môže slúžiť napríklad účet „Jenny Abrams“, americkej ženy s vyhranenými konzervatívnymi názormi, ktorý behom roku 2017 naberal na popularite a získala na Twitteri viac ako 70 000 sledovateľov. V rámci práce investigatívnych žurnalistov CNN sa podarilo identifikovať napojenie tohto profilu na známu ruskú, štátom financovanú, skupinu trollov, ktorá ho spolu s ďalšími účtami využívala na propagandu a destabilizáciu americkej spoločnosti. Fotografie patriotickej Američanky totiž patrili v skutočnosti 26 ročnej žene z Ruska, ktorú sa reportérom podarilo vypátrať a kontaktovať. Žena o ukradnutí a využívaní svojich fotografií nemala ani poňatia. Skrátka ich len mala nahraté na svojom sociálnom účte.
Takéto kradnutie identít (stále hojne rozšírené aj dnes) má obvykle slabinu v tom, že ktokoľvek môže pri podozrení na falošný účet použiť napríklad reverzné vyhľadávanie obrázku pomocou Google vyhľadávača. Následne reálnu osobu na fotkách nájde a upozorní ju, že sú jej fotky používané na takýto účel. Väčšina veľkých sociálnych sietí má prísne pravidlá na vydávanie sa za nejakú osobu na základe cudzích fotografii a ak si takéto ukradnutie identity ktokoľvek všimne, môže ho samotnej sociálnej sieti nahlásiť, čo vedie obvykle k mimoriadne rýchlemu odstráneniu podvodného účtu.
Dostupnosť spoľahlivých a vierohodných systémov generovania tváre umelou inteligenciou, ktorý ktokoľvek môže prevádzkovať na svojom počítači, situáciu mení naozaj výrazne. Osoby ktoré útočník vygeneruje totiž nebude možné inde nájsť a ani kontaktovať. Identita reálnej osoby nebola ukradnutá. Bola nanovo synteticky stvorená.
Aj keď je možné trénovať nové systémy umelej inteligencie, ktoré budú fungovať ako identifikátor syntetických tvárí a integrovať ich napríklad do rozhrania Facebooku, ide len o pretek, ktorý je pre GAN systémy prirodzený. Generátor obsahu svojou úpravou algoritmu vždy napokon „odhaľovača“ porazí.
V nasledujúcich rokoch sa preto budeme opakovane stretávať s tlačovými správami rôznych sociálnych sietí, ktoré sa budú chváliť likvidáciou takého či onakého počtu účtov so syntetickými tvárami, ale z uvedeného dôvodu skrátka nikdy nepôjde o finálne riešenie vzniknutej situácie. Hlavne u štátom podporovaných útokov môžeme očakávať rýchle zlepšenia generačných systémov, za hranicu aktuálnej detekcie.
V septembri minulého roku napríklad Facebook odhalil čínsku sieť 155 falošných účtov, napojenú na 31 webov a takisto 20 instagramových profilov, ktoré boli s najväčšou pravdepodobnosťou ovládané profesionálnym tímom trollov so štátnou čínskou podporou. Všetky mali syntetické tváre, generované neurónovými sieťami. Boli využívané na čínsku propagandu v juhovýchodnej Ázii a USA, predovšetkým v súvislosti s podporou rozpínajúcich sa záujmov čínskej vlády v Juhočínskom mori a takisto v súvislosti s kritikou nezávislých spravodajských organizácií na Filipínach a oslabovaní demokratického procesu v USA. Len ťažko ale možno očakávať, že operačný tím, ktorý za danými účtami stál, to po podobnom zásahu skrátka „zabalil“. S najväčšou pravdepodobnosťou už simultánne prevádzkuje veľké množstvo alternatívnych sietí, ktoré odhalené neboli a pridáva ďalšie a ďalšie, ktoré sú stále lepšie a vierohodnejšie.
V lete minulého roku došlo takisto k zaujímavému odhaleniu skupiny fiktívnych žurnalistov, analytikov a politických konzultantov, ktorí publikovali podporujúce články a vyjadrenia v súvislosti s rôznymi vládami štátov v Perzskom zálive. Minimálne 19 takýchto osôb publikovalo články v rôznych pravicových konzervatívnych médiách, ako The Arab Eye a Persia Now, pričom ich profesné údaje, kariéry či LinkedIn profily boli kompletne vyprefabrikované a používali synteticky generované tváre (ako prvý na to upozornil redaktor Adam Rawnsley, z redakcie Daily Beast).
Aj keď sú identifikované falošné účty so syntetickými tvárami obvykle promptne odstránené, je nutné si uvedomiť, že desiatky či stovky príkladov sú len špičkou ľadovca, ktorú sa podarilo odhaliť. Je prakticky isté, že mnohonásobne väčší počet falošných účtov zostáva a v budúcnosti zostane neodhalených, pričom ich počet bude neprestajne narastať.
O pár rokov pritom bude možné vierohodne generovať nielen tváre ľudí, ale aj celé postavy a situácie, v ktorých sa nachádzajú. Bude tak možné synteticky vytvoriť kompletnú sociálnu existenciu neexistujúcej osoby s jej hromadou neexistujúcich priateľov, ktorí budú spolu tráviť čas na neexistujúcich dovolenkách, obedoch či v prácach. Odhalenie syntetickosti tak bude stále ťažšie a ťažšie.
KOMPLETNE GENEROVANÁ FOTOGRAFIA NA DOSAH
Pohľad na súčasný stav vývoja nám jasne naznačuje, že sme pomerne blízko realite, pri ktorej zadáte neurónovej sieti požiadavky na fotku a ona vám ju pred očami okamžite zhmotní. Tu pritom nejde len o tváre ľudí, postavy či konkrétne objekty, ale aj o kompletné syntetizovanie celej scény.
Predstavte si budúcnosť, v ktorej pracujete na nejakom grafickom projekte a budete do neho potrebovať napríklad fotku zamilovaného páru popíjajúceho šampanské na pláži. Namiesto návštevy fotobánk a nemalej platbe za fotku skrátka len spustíte generačný softvér, ktorému požiadavku len slovami popíšete. Neurónová sieť následne vyprodukuje snímku, na ktorej dve neexistujúce syntetické osoby v objatí, sedia na syntetickej a nikde neexistujúcej pláži a popíjajú syntetické šampanské. Nebude pritom možné rozpoznať, že fotka je generovaná. Všetko bude vyzerať tak, akoby ste vy sami práve stlačili spúšť fotoaparátu vedľa nich. A keď nebudete spokojní, zadáte, že žena má mať inú farbu vlasov a muž iné tričko a že slnko má byť nižšie k obzoru. Veď prečo sa uspokojiť s niečím iným, než ste si predstavovali.
Mierne nazretie do tohto sveta sme mohli vidieť na konci minulého roku na novom výskume a práci Allenovho inštitútu pre umelú inteligenciu (AI2), čo je vedecký inštitút založený zosnulým spoluzakladateľom Microsoftu Paulom Allenom. Ich práca v základe vychádza z hlbokých neurónových sietí, ktoré sa učia čoraz presnejšie popisovať fotografie, čo má mimoriadne veľkú cenu pri internetovom vyhľadávaní (tieto systémy sú už v rámci Google či Bing v nemalej miere používané). Princípom nového výskumu AI2 je však tento princíp otočiť a získať pochopenie toho, ako neurónové siete scénu vlastne vnímajú a čo si vizuálne „predstavia“, ak im zadáme naopak popis my.
Výsledky tohto prístupu môžete vidieť na fotografiách. Na prvý pohľad sa vám možno budú zdať smiešne, pretože sú úplne nepoužiteľné a na realitu sa nepodobajú ani náhodou. Ak sa ale na jednotlivé nevzhľadné machule pozriete podrobnejšie, pomerne rýchlo začnete cítiť, že vonkoncom nie sú hlúpe a zhmotňujú celkom správne samotnú ideu obrázka. Tvary sú nepresné, avšak samotná „obrazová myšlienka“ nie. Ak sa pozriete na textové zadanie pod fotkou, zistíte, že naozaj ide o niečo ako medveďa na ceste, alebo vedľa zas o akúsi vežu s hodinami v centre mesta. Ak máte pochyby, skúste si predstaviť, že by bola popiska pod inou fotografiou. Nedávala by zmysel. Neurónová sieť naozaj zhmotňuje a uplatňuje naučené idey scény, aj keď veľmi hmlisto. Nezliepa pri tom časti fotografií, ktoré videla v minulosti. Zhmotňuje celkom novú scénu na základe odpozorovaných a naučených princípov.
Je mimoriadne zaujímavé porovnať tento syntetický výstup s prvými neurónovými sieťami v GAN konfigurácii, pri ich úplne prvých pokusoch syntetizovať neexistujúce ľudské tváre. Zhruba takto smiešne a nepresne totiž ešte v roku 2016 ich snahy vyzerali. Prešlo len niekoľko rokov a dnes už človek bez pomoci stroja nie je schopný generovanú tvár rozpoznať od reálnej. Aj keď teda dnes syntetizovanie kompletnej fotografie scény na základe textového popisu vyzerá ešte smiešne a nepoužiteľne, nasledovný skok takmer k dokonalosti môže byť bližšie ako si myslíte. A malo by to pritom obrovské dôsledky.
Kedy niečo také nastane? Nuž, možno už aj koncom tejto dekády. Budúci vývoj sa pravdaže veľmi ťažko predpovedá, pretože nikdy nie je zaručené, že tempo vývoja sa zachová a nenarazíme na prekážky a dočasne neprekonateľné hranice. Každopádne éra plnohodnotného generovania akejkoľvek fotografie bezpochyby nastane už počas života drvivej väčšiny ľudí, ktorí tento článok čítajú. A to je možno niečo, na čo väčšina ľudí ani len nepomyslela.
Hodiny tikajú. Buďte pripravení.