Človek vs. konvolučné neurónové siete
Som technologický prielom. Dnes ráno som čítal viac ako 4000 vedeckých publikácií o leukémii, za menej ako sekundu. Zvládnem plynulo hovoriť akýmkoľvek novým jazykom, za pár týždňov praxe. Dokážem porozumieť eufemizmom, idiómom a komplexným metaforám. Poznám každý detail zo všetkých verejne dostupných finančných reportov firiem za posledných 20 rokov. A to som sa ešte len začal rozohrievať. Vitajte v kognitívnej ére. Toto sú slová zaujímavej reklamy spoločnosti IBM, ktorá predvádza svoje systémy Watson postavené na niekoľkých typoch neurónových sietí a iných technológiách umelej inteligencie. Marketingové oddelenia sa pravdaže radi nechajú uniesť a občas popustia uzdu fantázii trochu viac. Avšak to, ako veľmi sa tieto systémy zlepšujú v posledných rokoch je skutočne dych berúce. IT firmy investujú do vývoja umelej inteligencie obrovské množstvo peňazí. Prioritnými oblasťami výskumu je rozpoznávanie objektov na fotografiách a porozumenie kontextu, v akom sa objekty nachádzajú, ďalej porozumenie významu textov a reči v neposlednom rade takisto inteligentní asistenti a samoriadiace vozidlá. Vidieť efekt pokroku v tomto odbore je pre bežného používateľa často problematické. Typickým príkladom je napríklad rozpoznávanie reči. Kým v roku 2011 sa tieto systémy pohybovali na chybovosti okolo 25 %, dnes chybovosť klesá pod 8 %. Podobne obrovské zlepšenia sa udiali aj v rámci strojového prekladu, avšak ľudia považujú tieto mechanizmy obvykle za „hlúpe“ pretože, nezriedkavo robia chyby, ktoré sú až na smiech. https://www.youtube.com/watch?v=6SNs9kvRWSA Človek však v týchto oblastiach operuje vo veľmi úzkom rozsahu, a preto sa mu každá, hoc aj malá odchýlka od normálu, zdá veľmi neprirodzená. Vo výsledku má dojem, že vývoj sa skrátka neposúva, pretože stroj je stále horší ako on. Rozhodujúci skok ho následne môže zaskočiť. Systém sa napríklad môže zlepšovať postupne len o 5 % a pritom ešte pri kroku, keď dosahuje 97 či 98 % schopností človeka v danej úlohe, pôsobí smiešne, ťarbavo a hlúpo, avšak pri ďalšom malom skoku prejde zrazu do nadľudskej úrovne, kde človeka všetok smiech okamžite prejde. Dnes existuje niekoľko oblastí, kde neurónové siete prešli do nadľudskej úrovne a v mnohých iných sa začali výrazne tejto úrovni približovať. Aj keď ide často o rôzne experimenty, ktoré môžu na prvý pohľad pôsobiť neužitočne. V skutočnosti sú dôležitou súčasťou skladačky, ktorá v budúcnosti umožní mnohoúčelové použitie.
Ahoj, som neurónová sieť
Softvérové neurónové siete patria do odboru umelej inteligencie, respektíve jej špecializovanej časti, označovanej ako deep learning (systémy hlbokého učenia sa). Ich obvyklým cieľom je vyextrahovanie hlbšieho významu z dát, na základe čoho je systém schopný porozumieť abstraktným pojmom a reagovať na rôzne úlohy a situácie podobne ako človek. Môžete do systému vložiť napríklad fotografie psov, na základe ktorých si systém určí, ako pes zhruba vyzerá a následne túto znalosť uplatní inde a rozpozná psov aj na nových fotografiách, ktoré nikdy predtým nevidel. Nedeje sa pri tom to, že by do neurónovej siete podobu psa niekto naprogramoval. Systému sa skrátka poskytne informácia, že na tejto konkrétnej fotke pes je, na ďalšej nie a na tretej zas áno a tak ďalej. Neurónová sieť sa snaží rozoznať nejaké špecifické prvky a sama svoje metódy následne overuje. Zistí pri tom napríklad to, že popis typu „pes je súhrn pixelov v tvare valca so štyrmi výstupkami zospodu (nohy), jedným tenkým vzadu (chvost) a hrubým vpredu (hlava)“, ju ďaleko nedostane.
Na fotkách totiž môže byť pes zobrazený z mnohých uhlov, pričom niekde sú mu vidieť len tri nohy, inde zas leží, skáče, sedí a takisto niekedy je na obrázku namiesto neho líška či mačka. Systém teda hľadá popis, ktorý by pasoval na všetkých psov, pričom tie lepšie výsledky skúša ďalej modifikovať a viac zlepšovať, zatiaľ čo tie, ktoré dávajú horšie výsledky, postupne zavrhuje. Všetko pri tom robí celkom autonómne a interný popis, na základe ktorého psa následne rozoznáva, je pre nás celkom cudzí. V rámci spracovania obrazovej informácie sú tie najvýkonnejšie deep learnig systémy založené na tzv. konvolučných (spletitých) neurónových sieťach. Ide o softvérové siete, ktoré pozostávajú z vrstiev malých výpočtových jednotiek, tzv. neurónov, ktoré si hierarchicky posielajú spracovávanú informáciu. Keď sú konvolučné neurónové siete trénované v rámci rozpoznávacieho procesu, vytvoria reprezentáciu obrázka, ktorého komplexnosť sa v rámci hierarchického procesu stupňuje. Dá sa to mierne prirovnať k postupnému zaostrovaniu. Kým prvá vrstva určuje, kde sú na fotke svetlé a tmavé miesta, nasledujúca vrstva už začína rozpoznávať hrany, ďalšia tvary, nasledujúca objekty (napr. že na obrázku je človek), ďalšia typy objektov (muž) a napokon môže dôjsť aj k celkovému hodnoteniu situácie a pochopeniu významu (poloha muža, prítomnosť trávy a lopty indikuje, že hrá futbal). Systém je koncepčne (ale nie exaktne) podobný biologickému systému neurónov a synapsií mozgu, odkiaľ pochádza aj jeho názov. Konvolučné neurónové siete nie sú jediným typom takéhoto riešenia. Sú však najrobustnejšie a používajú sa predovšetkým na úlohy, ktoré súvisia so spracovaním obrazovej informácie. Iné typy sietí, ako napríklad rekurentné (zvratné) neurónové siete, pri ktorých informácia neprechádza od jednoduchších po pokročilejšie vrstvy a namiesto toho dynamicky cykluje, sa používajú hlavne pri rozpoznávaní reči.Už viem, čo je na obrázku …
Vlajkovou loďou konvolučných neurónových sietí je bezpochyby identifikácia objektov. Niet sa čomu čudovať. Pre Google, Microsoft či Facebook sú tieto technológie esenciálne, pretože ich potrebujú v mnohých svojich produktoch. S pokrokom tohto smeru vývoja sú obvykle oboznámení aj bežní používatelia, pretože si za posledné tri roky môžu všímať veľké zlepšenie vyhľadávania obrázkov napríklad v Google vyhľadávači a takisto napríklad čoraz lepšiu identifikáciu tvárí na Facebooku, ktorý ponúka „otagovanie“ osôb. Koniec koncov, pokročilí správcovia fotokolekcií dnes dokážu vaše fotky roztriediť napríklad na západy slnka, „selfie“, fotky na ktorých je vaša teta, vaša sestra či vy sami.
V súčasnosti je zrejme najprominentnejším vývojárom konvolučných neurónových sietí britský informatik Geoffrey Hinton. Ten v roku 2006 vyvinul úplne nový spôsob učenia sa jednotlivých vrstiev softvérových neurónov a celý odbor posunul o značný kus dopredu. To, o koľko to bolo, sa ukázalo v roku 2012, keď sa so svojou novou konvolučnou neurónovou sieťou zúčastnil renomovanej súťaže rozpoznávania fotografií (IMAGENET).
Všetku konkurenciu založenú na starších systémoch umelej inteligencie totiž deklasoval rozdielom triedy (ostatné tímy dosiahli dvoj- až trojnásobne väčšiu chybovosť). Vzhľadom na to, že medzi porazenými bol aj z hľadiska výpočtového výkonu mnohonásobne silnejší systém Googlu, odpoveď nenechala na seba dlho čakať. Hinton dnes pracuje na neurónových sieťach práve tejto spoločnosti. Google Hintonov projekt a jeho tím kúpil v roku 2013 za nezverejnenú sumu a od tejto doby je dobre vidieť aj výrazné stupňovanie kvality jeho obrázkového vyhľadávača. [tit_citation color=“#fa6161″ padding=“20px“ float=“left“ font-size=“1.2em“]“Najnovšiu súťaž v klasifikácii vyhral na jeseň minulého roku tím výskumného laboratória Microsoftu, ktorého konvolučná neurónová sieť MSRA dosiahla úspešnosť až 96,5 %“[/tit_citation] V nasledujúcich rokoch sa do podobných systémov pustili všetky relevantné vývojové spoločnosti a práve na spomenutej súťaži IMAGENET, ktorá je považovaná za ukážku aktuálnych schopností týchto systémov, pokrok vidieť najlepšie. V roku 2012 sa súťaž skladala z klasifikácie, pri ktorej dostávajú siete nejaký náhodný obrázok, pričom vyberú päť popisov, zoradených podľa dôležitosti, ktoré označujú, čo na obrázku je. Ak je na obrázku nemecký ovčiak a sieť odpovie najistejšie, že je to nemecký ovčiak, ide o správnu odpoveď a nezáleží na tom, že ako štyri ďalšie možnosti použije mená doberman, pudlík, bernardín, jazvečík, s ktorými si istá nie je. Opačné poradie by bolo nesprávne. Systém viacerých odpovedí zaručuje kontrolu toho, aby sieť nebola penalizovaná za správne odpovede pri detekcii viacerých objektov. Ak je napríklad na obrázku nemecký ovčiak, ktorý má v tlame loptu a systém použije päť odpovedí v poradí lopta, nemecký ovčiak, doberman, pudlík, bernardín, takisto je to správne. Súťaž prebieha tak, že siete dostanú najprv 1,2 milióna tréningových obrázkov s popisom (1000 typov klasifikácií), na ktorých sa učia a následne dostanú 100 000 nových nepopísaných obrázkov, pre ktoré majú niektorý z tisícky popisov zvoliť samé. V roku 2012 dosiahla v tomto teste prelomová Hintonova konvolučná neurónová sieť SuperVision chybovosť len 15 %, čo bolo o polovicu menej než najbližšia konkurencia. Úspešnosť 85 % skrátka zaskočila každého. V roku 2013 sa Hinton súťaže nezúčastnil, avšak mnohé iné spoločnosti použili systémy založené na jeho vedeckých prácach, doplnené o vlastné riešenia. Súťaž vyhrala konvolučná neurónová sieť americkej spoločnosti Clarifai, s úspešnosťou 89 %, čím výsledok z predchádzajúceho roku prekonala. V súťaži sa pri tom objavila už aj druhá náročnejšia kategória, v podobe detekcie. Pri nej majú siete na obrázku identifikovať a správne označiť niektorý z 200 objektov (napríklad človek, pes, ryža, pohár a podobne), pričom musia nájsť všetky. Siete pravdaže nevedia, ktoré objekty na daných obrázkoch sú. Ak je napríklad na obrázku človek, ktorý sedí na stoličke a je jablko, pričom v druhej ruke drží smartfón a na hlave má čiapku, tak za predpokladu že v zozname 200 objektov tieto predmety sú, siete musia označiť na obrázku každý, pretože inak budú za chýbajúci predmet penalizované. Vo všetkých prípadoch ale vidia túto variantu objektov prvýkrát a vyhľadajú teda pixelovú kópiu. V roku 2013 si v tejto úlohe najlepšie počínala sieť UvA-Euvision, ktorej tvorcom bola Univerzita v Amsterdame a spoločnosť Euvision (obe Holandsko), pričom dosiahla úspešnosť 22 %. V roku 2014 sa do súťaže vrátil Hinton a jeho tím, so sieťou nazvanou GoogLeNet. Hlavným cieľom tentoraz bola už náročnejšia kategória detekcie, pri ktorej sieť dosiahla úspešnosť v 44 % prípadov, teda o 100 % lepší výsledok, než víťaz z predchádzajúceho roku. Na druhom mieste skončila sieť DeepID-Net, za ktorou stál tým Multimediálneho laboratória čínskej univerzity v Hongkongu a na treťom Deep Insight, za ktorou stála Čínska akadémia vied a Hongkonská technická univerzita. Obe dosiahli úspešnosť 40 %. Víťaz z predchádzajúceho roku bol štvrtý s úspešnosťou 35 %. V klasickom teste klasifikácie skončil GoogLeNet na prvom mieste s 93,4 % úspešnosťou. Tesne za ním bol tím Univerzity z Oxfordu (Veľká Británia) s konvolučnou neurónovou sieťou VGG, ktorá dosiahla presnosti 92,7 %.
Viem, kde ste fotili minulé leto …
Vývoj konvolučných neurónových sietí pokračuje aj v iných rozpoznávacích úlohách. Predstavte si, že vám niekto ukáže päť či desať náhodných fotografií a spýta sa vás, kde boli vytvorené. Ak na fotke zbadáte nejaký veľmi známy objekt, napríklad Sochu slobody, Čínsky múr alebo Eiffelovu vežu, úloha je pomerne jednoduchá. Náš vizuálny kortex je nesmierne mocný a bez problémov dokážeme rozpoznať tieto objekty v mnohých svetelných podmienkach a uhloch pohľadu. Nezaskočí nás, ak sa na vzdialený londýnsky Big Ben pozeráme tak, že jeho celú spodnú časť zakrýva blízko stojaca osoba. Naše schopnosti tu ale nekončia. Aj keď ide napríklad len o fotku rušnej ulice, na ktorej žiadne takéto budovy nie sú, môžeme si všimnúť typické londýnske či americké taxíky. Všimneme si takisto, v akom jazyku sú nápisy na obchodoch, aký tvar majú dopravné značky a takisto napríklad to, či sú ľudia prevažne aziati. Čerpáme pri tom z obrovskej zásoby skúseností a znalostí a fotku často veľmi úspešne zaradíme aspoň približne do USA, Číny či na Slovensko. Ak vidíme len fotku nejakého lesa či lavičky, lokalitu už obvykle nemáme ako lokalizovať.
Do súboja najnovšie vstupujú aj konvolučné neurónové siete. Tím Googlu, pod vedením Tobiasa Weyanda (špecialista na počítačové videnie), predstavil na začiatku tohto roka neurónovú sieť PlaNet, ktorá je trénovaná tak, aby dokázala miesta na fotkách rozpoznať podobne ako človek. Pokrok, ktorý sieť dosahuje je pritom veľký, pretože v priemere začala ľudské výsledky už prekonávať. Google nazhromaždil 126 miliónov fotografií, ktoré obsahujú geolokačné dáta (GPS súradnice, ktoré do nich vkladajú predovšetkým smartfóny pri fotení). Z nich 91 miliónov kusov oddelil a poskytol ich aj s dátami o polohe neurónovej sieti, ktorá sa na nich začala trénovať. Následne bola sieť konfrontovaná so zostávajúcimi 34 miliónmi fotiek, pri ktorých sa jej už poloha zatajila. Sieť teda odhadovala ich umiestnenie len na základe toho, čo na nich videla. Výsledky boli nesmierne zaujímavé. Systém dokázal určiť presnú polohu na úroveň ulice v 3,6 % fotografií, na úroveň mesta v 10 % prípadov, na správny štát v 28,4 % prípadov a na správny kontinent v 48 % prípadov. [tit_citation color=“#fa6161″ padding=“20px“ float=“right“ font-size=“1.2em“]“Weyand vyskúšal schopnosti siete proti ľuďom. Kým u nej bola priemerná odchýlka 1131 km, u ľudí šlo o viac ako dvojnásobok. V tejto úlohe tak sieť prešla do nadľudskej úrovne.“[/tit_citation] Weyand a jeho tím túto úspešnosť vyskúšali proti ľudom. Ako porovnanie poslúžilo 10 scestovaných osôb. Na test použili hru www.geoguessr.com, ktorú môžete sami vyskúšať. Pri nej sa vám náhodne zobrazí obrázok z Google Street View a vy máte tipovať, kde asi môže byť. Z 50 súťažných pokusov vyhrala neurónová sieť PlaNet 28-krát. V zostávajúcich 22 prípadoch ju prekonal jeden z desiatky ľudí. PlaNet však okupovala vždy popredné priečky, o čom svedčí aj jej stupeň chybovosti. Kým u nej bola priemerná odchýlka pri chybe 1131 km, u ľudí bol priemer viac ako dvojnásobný (2320 km). Neurónová sieť tak v tejto úlohe prešla do nadľudskej úrovne. Tento úspech pravdaže nie je dosiahnutý tak, že by neurónová sieť mala prístup k celej databáze Google Street View a obrázky nejako porovnávala. To by v tak krátkom čase nebolo možné. Koniec koncov, pri teste zaberala len 377 MB v RAM. Na fotku sa skrátka „pozrie“ a následne behom momentu vykoná odhad, ktorý zodpovedá jej tréningu.Viem, ako zafarbiť starý fotosvet …
Kolorizácii fotografií sa venuje mnoho ľudí. Ide o pomerne prácnu úlohu (ak je v scéne množstvo detailov), pri ktorej na základe vašich znalostí odhadnete farbu scény a obrázok postupne upravujete v rastrovom editore, ako je napríklad Photoshop. Kým u niektorých farieb ste si si istý a viete, že tráva je zelená a obloha modrá, u iných musíte už tipovať, pričom je len na vás, akú farbu bude mať napríklad oblečenie ľudí. Pravdaže, vychádzate z okolností a viete, že kabáty ľudí na divokom západe môžu byť hnedé či čierne, ale rozhodne nebudú fialové. V mnohých prípadoch však nemáte prakticky žiadnu pomôcku a musíte si farbu zvoliť tak, ako vám pripadá prirodzené (ak napríklad ide o čiernobielu fotku maľovaného veľkonočného vajíčka). Dala by sa pre takéto úlohy trénovať konvolučná neurónová sieť? Ide o zaujímavú variáciu systému na rozpoznávanie objektov. Ak totiž sieť rozpozná, čo je tráva, vie, že má byť zelená. Problémom je, že sieť už očakáva, že tráva je zelená, pretože podľa toho bola vždy trénovaná. Rozpoznať šedú trávu na „čiernobielej“ fotografii je teda trochu odlišné. V marci publikoval tím z kalifornskej univerzity v Berkeley (Richard Zhang, Phillip Isola a Alexei Efros) výborné výsledky svojej konvolučnej neurónovej siete navrhnutej presne na tento účel.
Viem ťa nakresliť tak, ako tie francúzske dievčatá …
Človek je jediný organizmus na zemi, zaoberajúci sa umeleckou činnosťou. Maliari od pradávna maľovali výjavy zo života, postavy či krajiny s náhľadom vlastnými očami, pričom do nich prevteľovali svoj špecifický štýl a svoje poňatie vizualizácie reality. Svoje videnie reality nám môže podať aj neurónová sieť, pričom v minulom roku ste možno zaznamenali projekt Googlu – DeepDream, ktorý nechal sieť „snívať“, pričom jej sny nechal na obrázkoch ďalej zosilňovať. Kým nízke vrstvy neurónov konvolučnej siete obrázok postupne pretvárali do ornamentov (pretože „túžia“ po pekných ostrých hranách), vysoké sofistikované vrstvy „snívali“ o čudesných tvárach. Ide o zaujímavý pohľad na to, ako sieť pracuje. Niektoré obrázky sú skutočne čudesné a pripomínajú šok, aký spôsobuje špecifické poňatie reality rôznych umelcov. V tomto roku dokonca prebehla aj výstava týchto výtvorov v San Franciscu a ich následná aukcia.
Obrazové umelecké poňatie Rembrandta, Picassa či Vincenta van Gogha je veľmi špecifické a obrazy majú ich rozpoznateľný nádych. Hlboké neurónové siete by potenciálne mohli tento nádych odpozorovať a následne ho použiť inde. Človek je toho pravdaže schopný tiež a mnoho umelcov nemá problém namaľovať obraz napríklad štýlom Picassa. Na druhú stranu, neurónová sieť vďaka precíznosti môže zájsť aj za hranu toho, čo si je človek schopný všimnúť a môže tak svoju skúsenosť zakladať aj na tých najmenších detailoch. Týmto smerom sa vydali Leon Gatys, Alexander Ecker a Matthias Bethge z Bernsteinovho centra pre výpočtovú neurovedu a Inštitútu pre biologickú kybernetiku Maxa Plancka (obe Tübingen, Nemecko). Vo svojej práci Neurónové algoritmy umeleckého štýlu (A Neural Algorithm of Artistic Style) zobrali konvolučnú neurónovú sieť pôvodne určenú na rozpoznávanie textúr a pokúsili sa ju učiť špecifiká jednotlivých malieb. Ide o prvý projekt tohto kalibru, pretože predchádzajúce pokusy sa v tomto smere venovali len menej komplexným úlohám, ako je napríklad odvodenie charakteru rukopisu. Výsledky môžete vidieť na obrázkoch. Neurónová sieť dokáže extrahovať relevantné informácie o štýle a uplatniť ich následne na editáciu druhej fotografie, ktorú alternuje tak, aby základy vybratého štýlu plnila. Ako môžete vidieť, obrazová informácia pôvodnej fotografie sa nestratila a naďalej zostávajú zachované jej špecifické prvky. V súčasnosti teda ide o extrahovanie štýlu jedného diela, nie extrahovanie štýlu maliara ako celku. Algoritmy publikované vývojovým tímom už používajú rôzne startupy, ktoré na nich založili svoje podnikateľské plány. Jedným z nich je napríklad služba www.deepart.io, kde si po registrácii zdarma môžete nahrať ľubovoľnú fotografiu a nechať ju neurónovou sieťou prerobiť do štýlu inej. Podľa záťaže siete musíte čakať v poradovníku obvykle niekoľko hodín, môžete si ale pokojne večer nahrať aj 10 či 20 fotografií naraz a ráno si na stránku prísť po výsledok. Nahratie viacerých fotiek je vhodný postup, pretože nie je zaručené, že každý výsledok sa vám bude páčiť. Hotový obrázok v malom rozlíšení (zhruba 500 × 500 pixelov) je zdarma. Za verziu vo vysokom rozlíšení, prípadne jej vytlačenie na plagát, už musíte zaplatiť.Chceš si so mnou zahrať Go?
Hranie hier je pre počítač veľkou výzvou. Zrejme najviac pozornosti v minulosti celkom oprávnene dostával šach, pretože vzhľadom na kombinatorickú explóziu, ktorá nastane po pár ťahoch, je nemožné hru počítať do veľkých hĺbok hrubou silou. Šachový softvér prešiel do nadľudskej úrovne v roku 1997, keď počítač Deep Blue od IBM porazil v svetového šampióna Garriho Kasparova. Dnes sa pre šachový softvér usporadúvajú samostatné súťaže, kde so sebou súperia rôzne typy programov. Na neurónové siete sa zatiaľ obvykle nespoliehajú a na hľadanie optimálnych ťahov používajú rôzne pokročilé algoritmy (i keď prvé pokusy s neurónovými sieťami sa už začali objavovať, pričom ide napríklad o sieť Giraffe, ktorej tvorcom je Matthew Lai). Veľmi zaujímavý herný experiment vykonali v minulom roku vývojári z Google DeepMind (Britský vývojový tím umelej inteligencie, ktorý Google odkúpil v roku 2014). V prestížnom vedeckom magazíne Nature publikovali výsledky svojej novej konvolučnej neurónovej siete, ktorá sa naučila hrať hry zo starej konzoly Atari, a to v mnohých prípadoch výrazne lepšie ako človek.
Podobné články
Najlepšie seriály na Netflixe 2026 (13. týždeň)
Superpočítač PERUN bol spustený do ostrej prevádzky
Väčší než Galaxy Z Fold8: Nový skladací mobil má prekvapiť displejom
Hackeri ukradli dáta z webu Európskej únie a časť zverejnili
Najlepšie filmy na Netflixe 2026 (13. týždeň)












