OBROVSKÝ TRIUMF: umelá inteligencia Googlu práve prelomila problém skladania proteínov

Sme svedkami masívneho a historického úspechu. Pokročilé neurónové siete práve našli presné a rýchle riešenia obrovsky náročných vedeckých úloh, ktoré sú jadrom vývoja liekov a iných dôležitých oblastí biologického výskumu.

Hlboká neurónová sieť AlphaFold, ktorú vyvíja tím DeepMind, patriaci pod krídla Googlu, šokovala vedeckú komunitu absolútne dych berúcim skokom v presnosti v rámci predpovedania tvaru proteínov. Prešla pri tom za hranicu presnosti dosahovanú pri ozajstných meraniach.

Úspech sa odohral v rámci pravidelne konanej celosvetovej výzvy CASP (Critical Assessment of Structure Prediction), v ktorej sa už niekoľko dekád snažia stovky odborných tímov potrebnej hranici priblížiť.

Ukážka komplexnej štruktúry proteínov (T1037 a T1049). Modré čiary predpovedala neurónová sieť, zelené sú skutočný tvar potvrdený experimentálnym meraním /Animácia: Google/

Ešte pred pár dňami pri tom v rámci relevantných odborov panovala predstava, že presné predpovedanie tvaru automatickým softvérom je celé dekády ďaleko. Tento úspech pri tom bude mať nevyhnutne obrovský vplyv na to, akým štýlom budeme vykonávať biologický výskum v mnohých odboroch.

O AKÝ PROBLÉM VLASTNE IDE A PREČO JE TAK DÔLEŽITÝ?

Proteíny sú jedným zo základných stavebných kameňov všetkých živých organizmov. V rámci buniek vykonávajú obrovskú plejádu dôležitých funkcií, pričom to čo konkrétne proteíny robia a ako to robia je úzko späté s ich fyzickou podobou.

Jadrom problému je, že majú komplexný 3D tvar, vďaka ktorému na ne môžeme nazerať ako na akési biologické nano súčiastky. Ak tvar konkrétneho proteínu poznáme, v základe vieme určiť, akým spôsobom sa bude v určitej situácii chovať, čo využívame napríklad pri vývoji nových liekov.

Výskum tvaru, do akého sa konkrétne proteíny samovoľne skladajú, prebieha už celé dekády. Pokrok v tomto smere je neuveriteľne náročný a zdĺhavý, pričom pri ňom používame rôzne špeciálne metódy, ako nukleárnu magnetickú rezonanciu, röntgenovú kryštalografiu a po novom aj kryogenickú elektrónovú mikroskopiu. Pomocou nich proteíny takpovediac „ohmatávame“ a snažíme sa prísť na to, ako fyzicky vyzerajú.

Pokročilý kryogenický elektrónový mikroskop vo výskumnom laboratóriu/Foto:
Wadsworth Center Research Laboratory/

Spoločnou vlastnosťou týchto metód je, že vo veľkej miere závisia na obrovskom počte opakovaní, pri ktorých sa metódou pokus-omyl snažíme konkrétne delikátne 3D štruktúry identifikovať. To môže u jediného proteínu trvať celé mesiace, či dokonca roky, pričom úspech vonkoncom nie je vždy zaručený.

Dôsledkom tejto náročnosti je, že zo 180 miliónov známych proteínových sekvencií (každý rok objavujeme nové a nové) sa nám doposiaľ podarilo identifikovať tvar len 170 000 z nich, teda 0,09%.

Každý z proteínov, ktorý ešte nemáme vizualizovaný, pritom môže skrývať nejaký zaujímavý tvar a teda aj funkciu, ktorá môže byť pri vývoji liekov či iných biologických zlúčenín nesmierne cenná.

Christian Anfinsen, nositeľ Nobelovej ceny za chémiu, postuloval v roku 1972 slávnu myšlienku, že to ako sa proteín v prírode behom pár milisekúnd poskladá závisí priamo od toho, aký reťazec aminokyselín ho tvorí. Inak povedané, poradie a vzájomná interakcia týchto aminokyselín určí jeho finálny tvar.

Čítať aminokyseliny, z ktorých jednotlivé proteíny sú vytvorené, vieme veľmi dobre. Namiesto používania pokročilých strojov za milióny eur, ktorými sa snažíme 3D štruktúru proteínu tak enormne náročne rozpoznať na slepo metódou pokus-omyl, by sme teda mohli byť schopní štruktúru odvodiť výpočtovým modelom a následne ju len rýchlo potvrdiť.

Problémom je, že počet spôsobov ako sa proteín môže poskladať do svojej finálnej podoby je astronomický (odhaduje sa, že ide o číslo s 300 nulami). S pomocou čoraz výkonnejších počítačov a pokročilého softvéru sa snažíme na spoľahlivý model predpovedania štruktúr prísť už 50 rokov. Doposiaľ to bolo vždy neúspešné.

Umelá inteligencia však práve v týchto dňoch všetko zmenila.

AKO PRESNÝ A RÝCHLY ALPHAFOLD JE?

Je dôležité si uvedomiť si, že to čo neurónová sieť AlphaFold vykonala nie je nejaký obvyklý pokrok vo forme plynulého zlepšovania výsledkov, ktoré vyplýva zo zvyšovania výkonu počítačov.

Neurónová sieť Googlu úplne rozmetala akékoľvek predošlé snahy a „úspechy“ v tomto smere.

Azda nič neukazuje prechod do novej éry lepšie, než tento graf. Z prakticky kompletnej nepoužiteľnosti sme sa behom mimoriadne krátkej doby dostali do stavu, kedy je táto metóda jednou z najspoľahlivejších spôsobov určovania tvaru proteínov.

Neurónová sieť AlphaFold dosiahla v rámci celého CASP testu priemerného skóre 92,4 GDT. Ide o mieru podobnosti vypočítaného modelu, čo v týchto číslach znamená, že odchýlka jej 3D modelov od známeho nameraného tvaru proteínov sa pohybovala na úrovni 0,1 nanometra, teda zhruba hrúbky jedného atómu.

A na rozdiel od súčasných metód odhaľovania tvaru jediného proteínu, ktoré si vyžadujú stroje za milióny eur a tvrdú prácu vedcov po celé mesiace až roky, robí AlphaFold všetko sama v rámci svojej simulácie behom pár minút.

Očividná vec, ktorá ľudom v tejto súvislosti napadne je, že výsledok ktorý nie je na úrovni 100 % podobnosti predsa nie je tak významný. Avšak práve prelomenie hranice 90 GDT je v základe výsledok našich štandardných experimentálnych metód, s ktorými výsledky porovnávame.

Inak povedané, u niektorých typov proteínov, kde dosiahol model presnosti AlphaFold za hranicu napr. 99 GDT už nebolo možné s istotou povedať, že sa od reality odchyľuje práve AlphaFold a nie náš experimentálne priamo identifikovaný tvar, ktorý takisto nie je možné odmerať s tak enormnou istotou (teda na odchýlkach menších ako sú samotné atómy).

Základné kroky generovania poskladaného proteínu neurónovou sieťou /Ilustrácia: Google/

Asi najúžasnejšiu ukážku schopnosti pri tom neurónová sieť vykonala až po súťažnom teste. Organizátori výzvy boli presnosťou výsledkov natoľko šokovaní, že začali mať podozrenie, že umelá inteligencia nejako „podvádza“.

Podvodom sa v tejto sfére myslí napríklad to, že pri tréningu (ktorý bol vykonaný na známych tvaroch proteínov) sa neurónová sieť naučí všímať nejakej ľudom neviditeľnej súvislosti, ktorá jej umožní identifikovať už známy výsledok.

Andrei Lupas, evolučný biológ z inštitútu Maxa Plancka v Tübingene (Nemecko), ktorý dohliadal na priebeh skúšok, tak dal AlphaFold ešte jednu špeciálnu úlohu.

Mala určiť tvar membránového proteínu, pochádzajúceho z organizmu zo skupiny archeónov, teda evolučne prastarých baktérií, ktorého tvar ešte vôbec nepoznáme.

Lupas sa ho so svojimi kolegami snaží experimentálne odmerať pomocou röntgenovej kryštalografie už viac ako jednu dekádu, pričom všetky pokusy o určenie tvaru dopadli zatiaľ neúspešne, nakoľko je veľmi komplexný.

AlphaFold si však pri úlohe nevšimla žiadny rozdiel a behom krátkej chvíle vyprodukovala komplexnú trojzložkovú štruktúru, s dvojicou špirálových „rúk“ vychádzajúcich zo stredu. Lupas a jeho kolegovia začali následne tento model používať na koreláciu so svojimi fyzickými meraniami a behom polhodiny sa im v záplave dovtedy nezrozumiteľných nameraných dát podarilo odhaliť, že táto štruktúra v nich naozaj existuje.

Desať rokov dlhé hľadanie odpovede, ako tento proteín vyzerá, bolo ukončené za 30 minút vďaka 3D obrázku, ktorý vyprodukovala umelá inteligencia.

ČO SA ZMENÍ A ČO ZNAMENÁ PRELOMENIE TOHTO PROBLÉMU?

Skladanie proteínov je nesmierne dôležitý problém, ktorý sme doposiaľ riešili enormne komplexne a pomaly. Dá sa to trochu prirovnať k príchodu rýchleho a presného strojového rozpoznávania tváre a identifikácie objektov. Prielomom nie je to samotné rozpoznanie. Rozpoznať tvár zvládne každý človek. To v čom je to zlomové je, ak to stroj dokáže robiť presne a enormne rýchlo, čo otvára dvere celkom novým možnostiam, ktoré dovtedy neexistovali.

S presným virtuálnym skladaním proteínov s pomocou neurónových sietí je to podobné. Otvárajú sa dvere do obrovského množstva výskumu, ktorý sa bude môcť vykonávať v rýchlosti a rozsahu, aký doposiaľ vôbec nebol možný.

Masívna presnosť predpovedania štruktúry proteínov pomocou umelej inteligencie bude napríklad extrémne užitočná pri membránových a podobných proteínoch, ktoré je zložité kryštalizovať a experimenty s nimi sú preto veľmi nákladné, zdĺhavé a náročné.

Ako mávnutím čarovného prútika sa môže práca s nimi stať rutinou.

Aj keď demonštrované schopnosti AlphaFold sú obrovským úspechom, ktorý v tejto oblasti nemá obdoby, je pravdaže nutné byť opatrný. Aj keď v základe je pravda, že nám takáto pokročilá neurónová sieť otvára cestu napríklad k výrazne rýchlejšiemu a efektívnejšiemu vývoju liekov, alebo k hľadaniu špecifických enzýmov, určených napríklad na efektívny rozklad plastov, treba myslieť na to, že od prelomového vedeckého pokroku sa nedá vždy hneď skočiť do praxe.

Pri každom bombastickom oznámení významného vedeckého pokroku je potrebné vnímať aj slabiny. Aj keď AlphaFold dosiahla priemerného skóre 92,4 GDT, čo je na úrovni experimentálnych metód, u niektorých proteínov bolo skóre pochopiteľne lepšie a iných mierne horšie.

Pri predpovediach v skupine úplne najťažších známych proteínov, ktorých tvar poznáme, dosiahla AlphaFold priemerné skóre 87,0 GDT. To je síce stále výborné a obrovsky to pomôže pri klasickej experimentálnej identifikácii neznámych proteínov, ale je vidieť, že je stále priestor k zlepšenu. Hlavne ak chceme neurónové siete na tento účel v budúcnosti používať s veľkou istotou, či dokonca výhradne.

V reálnom čase demonštrovaný masívny úspech a presnosť AlphaFold však neradno podceňovať, či dokonca zľahčovať. Nejde o žurnalistické zveličenie. Mnoho superlatívov počujeme priamo od vedeckých špičiek v relevantných odboroch. Janet Thorntonová, riaditeľka Európskeho Bioinformatického inštitútu, to popísala ako „fantáziu, ktorá pretvorí budúcnosť štrukturálnej biológie“.

Andrei Lupas, evolučný biológ z inštitútu Maxa Plancka v nemeckom Tübingene, ktorému AlphaFold pred očami vyriešila desaťročnú snahu, to popísal ako „Toto úplne pretvorí medicínu. Zmení to spôsob akým robíme výskum, bioinžinierstvo a mnoho ďalšieho.“

John Moult, štrukturálny biológ Marylandskej univerzity, ktorý je jeden z patrónov výzvy CASP to popísal ako „Nikdy som si nemyslel, že sa to udeje ešte počas môjho života.“

Oslavné články je možné nájsť aj v dvoch najprestížnejších vedeckých periodikách v podobe Nature (‘Zmení sa všetko’: UI od DeepMind vykonáva obrovský skok vo vyriešení štruktúry proteínov) a Science (‘Hra skončila.’ Umelá inteligencia vyriešila proteínové štruktúry).

/Ilustrácia: Google/

Aké zmeny teda môžeme na základe tohto výsledku očakávať v blízkej a vzdialenejšej dobe?

Základným faktom je, že každý účastník výzvy CASP sa zaväzuje odhaliť dostatočné detaily o svojich metódach, aby ich ostatné tímy mohli reprodukovať. Výsledkom teda bude nezviazaný boom v celom odvetví, založený na základoch, ktoré Google položil, podobne ako sa to udialo pri strojovom rozpoznávaní obrazu pred šiestimi rokmi.

Predpovedané modely poskladaných proteínov vytvorené umelou inteligenciou nám sprvu umožnia rýchlo potvrdzovať tvar experimentálne. V rámci nameraných difrakčných dát z röntgenovej kryštalografie alebo kryogenickej elektrónovej mikroskopie totiž môžeme tvar proteínov úspešne identifikovať len v prípade, že aspoň v základe dobre odhadujeme ich očakávaný tvar. Ak ho teraz na základe modelu neurónovej siete budeme vopred poznať prakticky úplne presne, budú tvary ďalších proteínov experimentálne potvrdzované už behom veľmi krátkej doby.

Výsledkom bude, že naša kolekcia identifikovaných tvarov proteínov sa bude zo súčasného chabého 0,09% rýchlo enormne rozrastať, čo bude mať na mnoho výskumu veľmi významný vplyv.

Ako náhle bude naša dôvera vo výsledky neurónových sietí vďaka novým a novým meraniam stále narastať, mnohé vývojové tímy už budú rovno narábať len s týmito dátami a až neskôr ich v prípade potreby potvrdzovať.

V súčasnej situácii je asi najlepšia ukážka prípadná budúca pandémia, pri ktorej budeme schopní rýchlo identifikovať tvary všetkých proteínov v nebezpečnom patogéne (ako je práve SARS-CoV-2), a začneme ihneď hľadať molekuly, ktoré ich môžu blokovať (čo sa dá tak trochu prirovnať k zámku a jeho kľúču).

Čo sa týka dlhšej časovej škály, obrovská zmena môže nastať napríklad v rámci výskumu a vývoja biofarmaceutiky. V súčasnosti je stav taký, že si výskumníci všimnú, že napríklad nejaká baktéria produkuje zaujímavý druh proteínu, ktorý má nejaké vlastnosti blízke tomu, čo potrebujeme. V bioreaktoroch následne vyrobíme jeho kópie a následne s ním vykonávame experimenty, aby sme sa presvedčili či sa správa nejako užitočne v rámci danej liečby.

Predstavte si blízku budúcnosť, v ktorej máme vytvorené už masívne databázy tvarov proteínov, pričom výskumníci v nich len nájdu tvar, ktorý sa v ich špecifickej situácii hodí, podobne ako inžinier hľadá potrebné súčiastky pri návrhu konkrétnej elektroniky.

Po identifikácii správnych tvarov si následne overia, akému proteínu patria a hneď s ním môžu začať experimentovať. Inak povedané, proces budeme môcť v mnohom otočiť do podoby prvotného „hľadanie potrebných súčiastok“, namiesto toho aby sme len náhodne našli takú, ktorá sa vhodne správa.

V konečnom dôsledku sa tak na súčasný výsledok AlphaFold môžeme pozerať s obdivom a obrovským uznaním. Google sa so svojou neurónovou sieťou zúčastnil tejto súťaže po druhý krát, pričom už pri prvom pokuse v roku 2018 konkurenciu deklasoval (podobnosť cez 70 GDT). Avšak masívny skok, pri ktorom na aktuálne skončenej súťaži prelomil hranicu presnosti fyzických experimentov naozaj ešte nikto nečakal.

Ide o skutočnú ukážku toho, ako sa systémy umelej inteligencie stanú v blízkej budúcnosti nevyhnutným nosným pilierom nášho vedeckého výskumu, vďaka ktorým budeme robiť obrovské kroky vpred, o ktorých sa nám doposiaľ ani nesnilo.