Ako sa hľadajú a vyvíjajú dátové DNA úložiská

Kam a ako budeme dáta ukladať za desať či päťdesiat rokov? Aké nové metódy ukladania v súčasnosti preskúmavame a aké pokroky sme v posledných rokoch dosiahli? A hlavne, aké prekážky musíme ešte prekonať, než sa tieto nové technológie zhmotnia a preberú dátové opraty?

V súčasnosti digitálne dáta ukladáme na úložiská tromi základnými spôsobmi. Nabíjaním tranzistorov a čítaním ich elektrickej hodnoty (čo je prípad NAND flash a RAM), zmenou orientácie magnetických regiónov (HDD, dátové pásky) a fyzických dierkami, ktoré strojovo lisujeme alebo vypaľujeme laserom (Blu-ray, DVD, CD).

Spôsoby, akými tieto veci robíme, sa pravdaže neustále vyvíjajú a pokrok v technológiách nám umožňuje vyrábať z hľadiska kapacity stále väčšie a dátovo hustejšie úložiská. Z pár kilobajtových NAND flash čipov (v SSD diskoch či smartfónoch) sa tak behom dekád vyvinuli niekoľko gigabajtové a z pár megabajtových pevných diskov zas niekoľko terabajtové. Všetko hlavne zmenšovaním ich hlavných častí v podobe tranzistorov a magnetických zŕn. To platí aj pre optické médiá v podobe DVD a Blu-ray a zmenšovanie ich dierok, čo je prakticky len pokračovaním princípu štítkov a pások z ranných dôb počítačov, keď sa dierky razili do papiera.

Či už ide o elektrické nabitie hradla tranzistora, alebo orientáciu magnetických zŕn, na ukladanie dát obvykle používame zmenu vlastností nejakého materiálu. V základe je však hon na hustotu zápisu honom na to, aby jednotku informácie (bit) niesol čo najmenší prvok. Ideálnym stavom by bolo, ak by kompletnú dátovú hodnotu niesla len jediná molekula, teda najmenšia častica konkrétnej látky (podľa typu zložená z dvoch alebo viacerých atómov), ktorá má ešte svoje kompletné chemické vlastnosti. Molekulárne úložiská sú z tohto hľadiska atraktívne a aj keď existuje mnoho rôznych konfigurácií ako ich dosiahnuť, tou suverénne najlákavejšou je DNA.

Prečo nás DNA úložiská lákajú

DNA je najhustejšie a najpreverenejšie dátového úložisko, aké poznáme. Príroda ho vyvinula evolučnou úpravou RNA a iných chemických mechanizmov už pred niekoľkými miliardami rokov, pričom je základným stavebným kameňom všetkého súčasného života na zemi. Nemusíme premýšľať nad tým, či tento typ molekulárneho úložiska teoreticky zvládne uchovávať veľké objemy dát a či ich udrží aj na dlhú dobu, pretože to vidíme v praxi potvrdené v každom živom organizme, vrátane nás samých. Táto preverená funkčnosť je teda z pohľadu vývoja digitálnych úložísk veľmi lákavá.

DNA sa v základe skladá zo štyroch rôznych látok, tzv. nukleotidov, ktoré pre zjednodušenie nazývame písmená A, C, G a T. V skutočnosti pravdaže o žiadne písmená nejde a za týmto označením sa skrývajú organické chemikálie. Ide o dusíkaté bázy v podobe adenínu (A), guanínu (G), cytozínu (C) a tymínu (T). Striedaním týchto nukleotidov je možné uchovávať informáciu, podobne ako to robíme striedaním rôzne nabitých tranzistorov, alebo rôzne zmagnetizovaných skupín zŕn (juh/sever), čo reprezentuje jednotky a nuly na súčasných úložiskách.

DNA je najhustejšie a najpreverenejšie dátového úložisko, aké poznáme.

Do očí udierajúcim faktom je, že jeden nukleotid má rozmer len 0,33 nanometra, pričom sa v rámci DNA sám páruje s inými nukleotidmi a zamotáva do známej dvojitej špirály. Ľudská DNA sa skladá zo zhruba 3 miliárd takýchto párov, pričom pri rozmere 0,6 nm na každý pár sa dostávame na dĺžku špirály zhruba 1,8 metra. To na prvý pohľad môže pôsobiť veľa, obzvlášť ak to v rečiach digitálnych dát znamená len zhruba 3 GB. Avšak, keďže priemer špirály je len 2,2 až 2,6 nanometra, tak vďaka svojej tenkosti, flexibilite a zamotaniu je bez problémov „zaklbkovaná“ prakticky v každej našej bunke (0,001 mm). To je skoro až neuveriteľná dátová hustota na úrovni 1 exabajtu (miliónu terabajtov) na jeden milimeter kubického objemu. Od takýchto čísiel sú súčasné najpokročilejšie úložiská v podobe HDD a SSD vzdialené o šesť rádov, čo zodpovedá rozdielu veľkosti zrnka piesku od planéty Zem.

Inak povedané, ak by sme vedeli dáta do DNA zapísať a uchovať najúčinnejším možným spôsobom, všetky súčasné digitálne dáta ľudstva (33 zettabajtov) by sa zmestili do hrnčeka na rannú kávu. Tu je vhodné ale upozorniť, že ide o potenciál. Neznamená to, že prevádzka takéhoto dátového úložiska bude vôbec niekedy prakticky možná, a že sa k takémuto úplnému využitiu niekedy vôbec priblížime. Ak by sa však podarilo využiť hoc aj 1 % z tohto potenciálu, stále by šlo o enormne účinné úložisko. Koniec koncov, 33 zettabajtov je náhodou aj približný objem duplicitných DNA dát, ktoré sa nachádzajú v ľudskom tele (3 GB vo všetkých 30 biliardách, teda tridsiatich miliónoch miliónov buniek).

DNA a jeho štyri nukleotidy/písmená v podobe kyselín, spárované na nosnej kostre cukru a fosfátu

DNA nás však neláka len svojou vysokou hustotou držanej informácie. Nemenej lákavá je aj jej životnosť. Degradácia DNA je totiž omnoho pomalšia, ako je to v prípade iných úložísk tvorených z polovodičov či zmagnetizovaných zŕn, u ktorých sa zvyčajne počíta so životnosťou na roky až dekády. Naproti tomu DNA pri správnom uložení vydrží čitateľné aj niekoľko desiatok či stoviek tisícročí, o čom nás presvedčili mnohé objavy zmrznutých živočíchov, ktorých DNA sme extrahovali. S týmto súvisí aj fakt, že DNA je vo svojej aktuálnej podobe de facto svojím fyzikálnym konfiguračným maximom a táto forma uloženia dát skrátka už nezastará.

Všetky súčasné digitálne dáta ľudstva (33 zettabajtov) by sa zmestili do hrnčeka na rannú kávu

Reálnym problémom akýchkoľvek úložísk je, že aj keď majú dlhú životnosť dát, technologická životnosť môže spôsobiť, že jedného dňa ich už nebudeme mať na čom prečítať. Typicky si spomeňte na dierne štítky či diskety. V priebehu času tak musíme dáta zo starých nosičov presúvať na nové, aj keď nehrozí ich strata z dôvodu fyzickej životnosti, pretože tá technologická nás o možnosť ich čítania pripraví ako prvá. To je potenciálne možné v rámci DNA úložísk prekonať, pretože aj keď sa naše DNA úložiská budú nepochybne meniť a vyvíjať, ich výsledný produkt je stále len stará známa DNA špirála. A recept na jej čítanie bude stále rovnaký a bude na našej planéte dostupný tak dlho, ako na našej planéte bude existovať život.

Na akom princípe DNA úložiská fungujú a ako sme ich začali vyrábať

V DNA môžu byť uchovávané akékoľvek digitálne dáta. Vyžadujú sa na to tie isté kroky, ako pri iných úložiskách. Dáta v binárnej podobe sa prekonvertujú elektronicky najprv na ich fyzické reprezentácie, teda v tomto prípade písmená A, C, G, T. Podľa nich sa následne vytvoria príslušné chemikálie/nukleotidy a zamotajú sa v správnom poradí do DNA špirály. Pri procese čítania sa z nej zas rozmotajú, zistené chemikálie odhalia aké písmená reprezentujú, pričom daný „text“ zas prevedieme na binárne dáta. V princípe teda ide o podobný proces, ako keď sa pri NAND flash binárne dáta prevádzajú na hodnoty elektrického napätia tranzistorov, alebo pri HDD zas na orientáciu magnetických zŕn na sever alebo juh. To, čo je pravdaže komplikované, je samotné fyzické narábanie s nukleotidmi, teda ich správne spájanie a rozkladanie.

Pri týchto postupoch sa používa tzv. sekvencovanie DNA, čo sa dá popísať aj ako určovanie či rozoberanie, alebo v terminológii úložísk – čítanie. Ide pri tom o určenie toho, aké poradie jednotlivé nukleotidy, teda písmená v samostatnom reťazci DNA, majú. O čítanie DNA a teda zmapovanie konkrétnej genetickej informácie sme sa snažili už od jej objavenia v roku 1953. Po prvýkrát sa nám to podarilo v roku 1977, kedy sme sekvencovaním zmapovali DNA vírusu Phi X 174, ktorý pozostával z 5386 párov písmen.

Väčšie genómy zložitejších foriem života sme zmapovali po prvýkrát v 90. rokoch minulého storočia, pričom ten ľudský s 3,2 miliardami párov, bol zmapovaný v roku 2007 (veľkosť však nie je všetko, niektoré druhy rastlín a rýb majú genóm viac ako stonásobne väčší). V roku 2013 sa dokonca podarilo zmapovať aj genóm vyhynutého rodu človeka neandertálskeho, ktorý sme extrahovali zo 130 000 rokov starej kosti nájdenej v sibírskej jaskyni.

Postupom času bolo vyvinutých mnoho postupov čítania DNA, pričom jeden z prvých (Maxam-Gilbertova metóda) používal rozoberanie chemikáliami. Kým jeden roztok rozštiepil guanín (G) a odhalil jeho pozíciu v DNA špirále, iný zas rozštiepil cytozín (C) a tymín (T), čím odhalil zas ich pozíciu.

Veľký pokrok v rýchlosti sa dosiahol objavením metódy nazývanej ako pyrosekvencovanie, pri ktorom sa reťazec DNA použije ako podklad pre polymerázu, ktorá s ním vytvorí pár. Rozdielom je, že doplnkový pár obsahuje fluorescenčné nukleotidy (alebo laicky povedané písmená iných chemikálií) pričom pri spárovaní vyžiaria špecifický druh svetla. To je možné opticky sledovať a informáciu o písmenách pôvodného reťazca tak čítať.

Ako predošlé riadky napovedajú, pri čítaní DNA rozoberáme, a teda výslednú informáciu čítaním ničíme. To na oko môže vyzerať ako katastrofický problém, avšak takýto fakt je technicky v počítačoch riešený rutinne. Napríklad operačná pamäť v podobe DDR4 stráca svoje hodnoty už za pár milisekúnd, a preto je jej kompletný obsah nutné čítať a znova zapisovať do tranzistorov každých 64 milisekúnd, teda zhruba 15 000-krát za každú sekundu.

Pri používaní počítača tento fakt ale nijako nepociťujeme. V prípade deštruktívneho čítania DNA hrá do karát fakt, že už existujúcu DNA informáciu je možné rýchlo, lacno a energeticky nenáročne mnohonásobne duplikovať, napríklad pomocou Polymerázovej reťazovej reakcie. To znamená, že v rámci úložiska by sme tesne pred deštruktívnym čítaním konkrétnych úsekov mohli dáta opakovane zdvojovať a uchovávať ich.

Dna je najhustejší dátový nosič aký poznáme a pár skúmaviek dokáže niesť dáta celého dátového centra

Značne komplikovanejším procesom je nová syntéza DNA, teda v reči úložísk zápis, pri ktorom nukleotidy potrebujeme pospájať do DNA špirály v žiadanom poradí. O možnosti vytvárať DNA na účely nesenia digitálnych dát sme začali uvažovať už pred mnohými desaťročiami a zrejme prvý, kto tieto idey v súvislosti s počítačmi vyslovil, bol ruský fyzik Michail Neiman v roku 1964.

Dátová DNA syntéza sa nám po prvýkrát podarila v roku 1988, kedy biológ Joe Davis z univerzity MIT v rámci protestu proti cenzúre syntetizoval dátovú reprezentáciu grafického symbolu microvenus (znázorňujúceho ženskosť a život), ktorý pripomína písmeno Y. V binárnej podobe šlo o 10101011100010000100001000010000100, čo je objem 35 bitov.

Syntézu DNA reťazca robíme chemicky, nukleotid po nukleotide (písmeno po písmene), pričom každý nový nukleotid pridávame na koniec existujúceho vlákna, čím postupne tvoríme ich čoraz dlhšiu reťaz, nazývanú aj oligonukleotid. Dve kompatibilné vlákna vytvárajú pár v podobe dobre známej dvojitej špirály. Písmeno A vytvorí pár s T, zatiaľ čo C zas s G a reťazce sú tak svojim zrkadlovým obrazom. Nie je však nutné, aby boli vlákna plne kompatibilné a previazať sa dokážu aj pri drobných odlišnostiach.

Pri pripájaní ďalších článkov vždy existuje pravdepodobnosť toho, že sa pripojenie nepodarí. Aj keď je v základe malá, pokojne aj menšia ako 1 %, skôr či neskôr sa v procese budovania prejaví. Výsledkom sú obmedzenia toho, aké dlhé reťazce môžeme efektívne vytvoriť. Aj keď sú ale aj pomerne krátke, stále je možnosť každý identifikovať a výslednú informáciu skladať až pri výslednom čítaní. V DNA zásobníku tak máme mnoho dátových útržkov, ktoré informáciu nesú spoločne. Pripomína to minulosť diskiet a optických médií, keď inštalátor nejakej veľkej hry či programu musel byť umiestnený napríklad na piatich CD či disketách, ktoré sme pri čítaní/inštalácii postupne v mechanike vymieňali.

George Church z Katedry genetiky Harvardovej univerzity, ktorý sa významnou mierou podieľal na pokrokoch v DNA úložiskách

Vďaka tomuto procesu sa nám v rámci ukladania dát do DNA darilo napredovať, avšak vzhľadom na veľkú finančnú náročnosť len veľmi mierne a ešte v roku 2010 bol rekord DNA zápisu len na úrovni 7920 bitov, teda necelý 1 kB. Potrebovali sme skrátka dlhšie reťazce, aspoň na úrovni 100 až 200 nukleotidov. Výrazný zlom v tomto smere sa udial v roku 2012, pričom sa oň pričinili George Church, Yuan Gao a Siram Kosuri, z Katedry genetiky Harvardovej univerzity a Katedry bioinžinierstva Univerzity Johna Hopkinsa (obe USA). Tí si uvedomili, že chybovosť pripájania rôznych nukleotidov je mierne odlišná a navrhli novú kódovaciu schému, ktorá sa tým najproblematickejším vyhýbala.

V roku 2010 bol rekord DNA zápisu len na úrovni 7920 bitov, teda necelý 1 kB

Na zakódovanie binárnej informácie do DNA použili všetky štyri písmená. Nula bola reprezentovaná buď písmenom A alebo C, zatiaľ čo jednotka písmenom G alebo T. To umožnilo informáciu kódovať rôzne a vyhnúť sa kombináciám, ktoré bolo ťažké vytvárať alebo naopak čítať. Napríklad problematický dlhý reťazec vo formáte 0101010101, ktorý pôvodne pozostával z opakovania GCGCGCGCGC, sme tak mohli nahradiť striedavým zápisom GCATGVATGC, čo bolo na výrobu omnoho jednoduchšie a menej chybové.

Churchovi a jeho tímu sa podarilo vytvoriť reťazce DNA reprezentujúce Churchovu knihu Regenesis, pojednávajúcu o syntetickej biológii. Kniha bola uložená binárne v jednoduchom HTML formáte, pričom obsahovala 53 426 slov, 11 obrázkov vo formáte JPG a malý javascriptový kód. Spolu šlo o necelý megabajt, presnejšie 658 kB dát. Týchto viac ako päť miliónov bitov biológovia zakódovali do krátkych DNA molekúl a následne úspešne prečítali (z 5,27 milióna bitov bolo zle prečítaných 10, ktoré bolo nutné ručne opraviť).

Aký pokrok sme dosiahli v posledných rokoch a aké vývojové problémy dnes riešime

V posledných piatich rokoch sme sa s vývojom v tomto smere posunuli o značný kus vpred a idea praktického DNA úložiska sa začala čoraz viac zhmotňovať. Vďaka vedeckému výskumu v rámci biológie a iných príbuzných odporov DNA sekvencujeme a syntetizujeme stále rýchlejšie, lacnejšie a v stále väčšom objeme. To sa pre vývoj úložísk nesmierne hodí a mnoho výskumných tímov sa snaží aktuálny pokrok prevziať a doplniť ho o praktické metódy použiteľného dátového zápisu.

Darí sa nám zapisovať čoraz dlhšie reťazce, pričom pomocou rôznych metód dosahujeme na dĺžku 200 až 250 nukleotidov (s veľkou chybovosťou až na 1000 nukleotidov). Takouto dĺžkou obvykle končí len malé množstvo pokusov, avšak výhodou je, že sa nám darí vyrábať ich čoraz viac paralelne, čo mieru neúspechu potláča. Obvyklým postupom je, že začneme strojom dávkovo syntetizovať paralelne veľké množstvo totožných reťazcov, pričom niektoré z nich sa úspešne podarí dokončiť, zatiaľ čo väčšina ostatných v dôsledku chýb zlyhá.

Dá sa to predstaviť ako vytváranie riadkov s veľmi krehkými hrabľami, ktorým sa postupne lámu zuby. Ak začneme robiť riadky v piesku, začíname napríklad s piatimi brázdami a ako kráčame ďalej, zuby hrablí sa lámu a počet riadkov klesá. Avšak v čase keď sa zlomí ten posledný nám zostane jeden dlhý a plynulý riadok. Aj keď je chybovosť v rámci jedného reťazca vysoká, pri spustení mnohých kópií paralelne, sú vždy nejaké perfektné. Trochu to pripomína chybovosť napríklad výrobných procesov polovodičov, pri ktorých je vždy nejaká časť čipov na waferi zlá. Moderné paralelné metódy DNA syntézy umožňujú spúšťať v jednom paralelnom procese až 100 000 rôznych reťazcov, čo nám pomáha dosahovať čoraz lepšie výsledky.

Aj keď sa môže zdať, že dnes bežne dosahované rozmery reťazca DNA sú prikrátke (200 až 250 párov písmen je totiž smiešne číslo v porovnaní s biologickou DNA, ktorá má reťazec dlhý pokojne aj miliardy písmen), v skutočnosti sú pre potreby úložísk dostačujúce. Za rozumné maximum sa dnes považuje 1000 párov, pretože ďalšie predlžovanie rozmeru reťazca už žiadne merateľné výhody neprináša a len spôsobujú problémy ťažšou výrobou a dlhším čítaním nepotrebných dát. Pripomína to problematiku veľkosti sektora HDD/SSD, ktorý takisto používajú logické delenie len na 0,5 alebo 4 kB.

Dôležitým krokom vo vývoji DNA úložísk je takisto riešenie chybovosti zápisu. Prvé pokusy s ukladaním dát riešili chybovosť len veľkou manuálnou fyzickou redundanciou, teda veľkým množstvo rovnakých dát, čo je v reálnom úložisku veľmi nepraktické. V zjednodušenom prirovnaní si to môžeme predstaviť ako uloženie jedného súboru desať či stokrát, pričom následne by sme túto stovku súborov čítali a dúfali, že aspoň jedna kópia je kompletne nepoškodená.

Praktické digitálne úložisko potrebuje chyby zisťovať a riešiť v reálnom čase a na jednom súbore, tak ako to robia tie dnešné typy. Ide o korekciu chýb, vychádzajúcu z kontrolného súčtu, vypočítaného pre každý úsek dát. Tento súčet sa uloží spolu s dátami a môže sa použiť na ich kontrolu a opravu. Zjednodušene si to môžeme ukázať na príklade uloženia štyroch čísiel v podobe 2, 1, 3, 2, ku ktorým uložíme aj ich kontrolný súčet 8. Ak následne dôjde ku chybe pri čítaní a zistia sa dáta 2, 1, CHYBA, 2, úložisko na základe kontrolného súčtu spočíta, že chybové dáta majú hodnotu 3.

Každý typ úložiska vykazuje nejaké percento chýb pri zápise a čítaní, ktoré je treba opravovať. Inak tomu nie je ani pri DNA, pričom v jeho prípade je podiel chýb výrazne naklonený smerom k sekvencovaniu, teda čítaniu, ktoré môže dosiahnuť až na 10 %. Aby logická korekcia podľa kontrolných súčtov mohla dobre fungovať, je potrebné dosiahnuť chybovosť okolo 1 %, s ktorou bežne pracujeme v rámci súčasných magnetických úložísk (ide o surový stav čítania, dáta sa samozrejme v reálnom čase opravujú).

Úspešný pokrok v tomto smere vykonali v roku 2016 výskumníci z laboratória Technicolor Research (Nemecko), ktorí spojili svoje sily s tímom Georgeho Churcha z Harvardovej univerzity a nadviazali na predošlý experiment z roku 2012. Spoločne sa im podarilo po prvýkrát vyvinúť robustnú doprednú metódu korekcie chýb pre DNA zápis, vďaka ktorej úspešne uložili 22 MB dát, teda zhruba 35-krát viac, ako to bolo v predošlom pokuse (číslo vedeckej publikácie doi: 10.1016/j.procs.2016.05.398). Kľúčom bolo ukladanie korekčnej informácie na úplný začiatok každého DNA reťazca, kde je chybovosť najmenšia (náchylnosť na chybu stúpa s jeho dĺžkou). Tým sa dosiahlo minimálnej pravdepodobnosti, že by tieto opravné dáta boli poškodené a mohli sa tak vždy používať na opravu chýb v ďalších častiach reťazca. Chybovosť pri čítaní následne dosiahla úroveň jedného percenta, čiže vďaka účinnej korekcii bolo možné prečítať dáta celkom bez chýb (šlo o krátke video).

Výskumný tím Washingtonskej univerzity a laboratória Microsoft Research, ktorý stojí za zatiaľ posledným veľkým pokrokom v DNA úložiskách

Druhým veľmi potrebným prvkom pre praktické úložiská je náhodné čítanie, v ktorom urobili v roku 2016 po prvýkrát veľký krok vpred molekulárni biológovia Washingtonskej univerzity a inžinieri z laboratórií Microsoft Research (číslo vedeckej publikácie: dx.doi.org/10.1145/2872362.2872397). Doterajšie techniky narábali pri čítaní vždy s celou uloženou informáciou a sekvencovali tak všetku uloženú DNA. To je pri uložení jedného súboru logické, ale akonáhle chceme tvoriť úložisko rôznych dát, nastáva problém.

Predstavte si, že by ste napríklad na USB kľúč uložili 1000 fotografií a ak by ste chceli zobraziť len jednu, museli by ste všetkých zhruba 5 GB dát najprv prečítať a až následne z nich vyselektovať tú jednu, napríklad 125. v poradí. Očividne je to nepraktické a pre každé použiteľné úložisko je preto nutné čítať hocaký úsek zvlášť. Ak už nie konkrétne presne danú fotografiu, tak aspoň dávkovo napríklad len päť, v ktorých sa tá žiadaná nachádza. Tím z laboratória Microsoft Research a Washingtonskej univerzity pri tomto prvotnom experimente uložil 151 kB syntetizovanej DNA (dva obrázky, na ktorých bola mačka a opera v Sydney), na ktorých úspešne predviedli metódu náhodného dátového čítania časti uloženej informácie pomocou reťazovej reakcie polymerázy.

V roku 2018 svoj projekt značne rozšírili a dosiahli na novú rekordnú métu v podobe 200 MB (číslo vedeckej práce: doi.org/10.1038/nbt.4079). Pri experimente bolo použitých 35 rozličných súborov, vo veľkosti 29 kB až 44 MB, ktoré boli uložené pomocou 13 miliónov DNA reťazcov o dĺžke 150 nukleotidov. Ich súčasťou boli aj redundantné dáta pre logickú korekciu, pričom v prípade 33 súborov šlo o 15 % objemu a u dvoch zvyšných 25 %, čo viedlo k zápisu 32 MB dát navyše. Tento experiment vôbec po prvý raz úspešne zlúčil schopnosť syntézy veľkého objemu uložených dát, spolu s náhodným prístupom a takisto detekciou chýb v reálnom čase. Všetky uložené súbory (texty, hudba a krátke HD video) tak boli z DNA nazad bezchybne prečítané, vrátane náhodného prístupu súbor po súbore.

Tím Microsoftu vyvinul celkom nové algoritmy na rýchle čítanie malých úsekov DNA dát s funkčnou korekciou chýb, pričom využíval to, že informáciu kódoval do 16-bitových logických blokov. Každý z 13,4 milióna reťazcov DNA pritom niesol identifikátor, pričom pri náhodnom prístupe do malého objemu reťazcov došlo k jeho správnej identifikácii, zatiaľ čo informácia z tých nesprávnych sa ignorovala. Táto prelomová práca bola publikovaná minulý rok v prestížnom vedeckom magazíne Nature, pričom výskumníci sa v nadväznej práci (DOI: 10.1109/JPROC.2018.2875386) o pár mesiacov neskôr pochválili s úspešným zdvojnásobením objemu, teda uložením 400 MB dát (40 súborov, 25 miliónov reťazcov) a napokon v marci tohto roku na 1 GB dát.

Vôbec po prvýkrát došlo ku konštrukcii zariadenia, ktoré rudimentárne pripomínalo úložisko

Zaujímavým prvkom tohto vedeckého projektu je, že vôbec po prvýkrát došlo ku konštrukcii zariadenia, ktoré rudimentárne pripomínalo úložisko, nakoľko obsahovalo všetky potrebné prvky. Pozostávalo zo samostatného syntetizátora DNA, z kontajnera, v ktorom boli jednotlivé reťazce vytvorenej DNA uložené a namapované na jednotku a napokon zo sekvenčného mechanizmu, ktorý DNA reťazce podľa potreby konvertoval späť na digitálne dáta. V predošlých experimentoch sa vykonávalo všetko na rozličných pokročilých biomechanických strojoch, počítačoch a za účasti veľkého množstva ručnej práce.

Plne automatické DNA úložisko Microsoftu demonštrované v marci tohto roku

Na obrázku môžete vidieť, ako dané zariadenie vyzerá. Takmer určite vás neohúri, pretože pripomína len pult so skúmavkami, ktoré sú prepojené hadičkami a elektronikou. Ide však vskutku o dôležitý demonštrátor funkčného princípu. V projektoch z roku 2016 a 2018 ešte síce tieto mechanizmy obsluhovali ľudia často ručne, avšak v marci tohto roku Microsoft predviedol plne automatický režim. Rudimentárne mechanizmy tohto DNA úložiska je pritom veľmi zaujímavé dať do súvislostí s bežnými typmi, pretože je veľmi ľahké nachádzať všetky potrebné paralely.

Máme tu zapisovací mechanizmus v podobe syntetizátora DNA, ktorý vytvára základné dátové prvky v podobe DNA reťazcov dlhých 150 písmen (nukleotidov), ktoré obsahujú zhruba 100 bitov. Tieto „dátové regióny“ sú umiestňované v skupinách do miniatúrnych zhromaždísk/nádobiek, ktoré môžeme nazvať ako dátové bloky. Dochádza tak k zjavnému štrukturálnemu deleniu ako pri magnetických platniach HDD a NAND flash tranzistorov SSD.

Uložená informácia je pri tom adresovaná a namapovaná. Aj keď fyzické delenie neelektronického materiálu síce neumožňuje štrukturálne adresovanie, Microsoft vyriešil problém tým, že adresy dát kódoval priamo do uloženej informácie. Trochu to pripomína riešenie internetových paketov, ktoré takisto nesú vlastný identifikátor sami v sebe a je ich možné správne zoradiť aj keď dorazia v rozličnom poradí.

Zaujímavé sú aj paralely čítania. Pri vyberaní DNA reťazcov zo zhromaždísk/sektorov sa daná vzorka „spotrebováva“, a teda mizne. Ako sme už uviedli, proces čítania (sekvencovania) DNA samotnú špirálu kompletne ničí (a teda aj dáta, ktoré nesie), takže daný malý úsek dát je tesne pred náhodným čítaním potrebné najprv zduplikovať, aby sme ho nestratili.

V problematike úložísk to pripomína zapisovanie do NAND flash, pri ktorom radič SSD môže zapisovať dáta len po blokoch 32 alebo viac tranzistorov a ak už napríklad 20 z nich nesie dáta, musí najprv celý blok prečítať, ich hodnoty skopírovať, následne hodnoty celej skupiny 32 tranzistorov zmazať a zapísať do nich nazad pôvodné hodnoty spolu s novými. Proces nutnosti rýchlej duplikácie konkrétnej malej časti DNA vzorky pred každým čítaním teda z technického hľadiska nie je ničím škandalóznym ani ničím vyložene nepraktickým. Duplikovanie DNA je totiž relatívne triviálna a rutinne robená úloha.

„Tlačiarenský“ DNA syntetizátor firmy Catalog, ktorý v júni tohto roku syntetizoval celú Wikipédiu

Koncom júna tohto roku zaujal v problematike DNA úložísk nový startup Catalog, ktorý sa v demonštračnom videu pochválil sériovým strojom s veľkosťou skrine, ktorý je schopný syntetizovať gigabajty DNA v rýchlom slede behom jedného dňa. Jeho funkčnosť bola demonštrovaná na syntetizovaní 16 GB súboru skomprimovanej Wikipédie. Veľká rýchlosť bola dosiahnutá tým, že namiesto unikátneho skladania DNA reťazca sa používal katalóg maličkej predvytvorenej DNA informácie (miniatúrnych reťazcov), z ktorých sa výsledné dáta skladali. DNA sa pritom vo forme malých kvapiek umiestňovala na rýchlo sa točiaci plastový pás, z ktorého sa následné kvapky po uschnutí ručne odstránili a zhutnili do jednej skúmavky. Stroj tak pripomína tlačiarensky pás, pri ktorom sa na rotujúcom papieri vytvorí akýkoľvek text formou odtláčania jednotlivých písmen abecedy.

Aj keď to pôsobí zaujímavo a startup ohlásil, že cieľom je už v budúcom roku predstaviť stroj (vo veľkosti autobusu), ktorý dokáže syntetizovať 1 TB DNA dát za deň, treba byť skeptický. Startup nepublikoval žiadne vedecké dáta o svojich projektoch a nemáme ani potuchy, ako veľmi je jeho syntéza chybová a či je výsledné dáta vôbec možné uspokojivo čítať. Korekcia chýb v reálnom čase a náhodný prístup k dátam takmer určite chýba a ide o skôr test surovej (skoro)syntézy.

Prezentácia startupu pôsobí ako „reklama“ a nepoznáme žiadne detaily o skutočnej úspešnosti procesu. Tento projekt sa tak veľmi ťažko hodnotí v reálnom svetle. V súčasnosti je nutné byť pred výsledkami tohto typu na pozore, pretože startupy tvrdiace „veľké veci“ bez hmatateľného dôkazu a bez vedeckých publikácii tu už boli a dopadli aj napriek veľkým investíciám vskutku neslávne. Naposledy to bol veľkohubý miliardový biotechnologický startup Theranos, ktorý sa ukázal ako podvod.

Kedy DNA úložiská očakávať, ako budú vyzerať a kam sa do dátovej hierarchie zaradia

Úspešné experimenty, ktoré sme v posledných rokoch vykonali, nás napĺňajú optimizmom. Aktuálne riešenia laboratórií Microsoftu a biológov z Washingtonskej univerzity ukazujú, že navrhnuté metódy kódovania, korekcie chýb a spracovávania dát s detekciou konfliktov sú z princípu plne aplikovateľné aj na DNA dátach s objemom niekoľkých TB. V dehydrovaných úložných bunkách (rehydratácia tesne pred čítaním) by pritom mohla byť hustota dát na úrovni jednotiek terabajtov na kubický milimeter, čo je hustota o niekoľko rádov väčšia, aké majú súčasné magnetické úložiská.

Budúcnosť sa, pravdaže, veľmi ťažko odhaduje. Obvykle totiž môžeme len primitívne extrapolovať súčasný pokrok a zhodnotiť ho, pričom samozrejme nemôžeme do odhadu zarátať mnoho neznámych faktorov, ktoré skrátka ešte nepoznáme. V konečnom dôsledku tak ide stále len o smelé odhady, ktoré sa nemusia naplniť.

Pri pohľade na hmatateľný pokrok, ktorý sme dosiahli v tejto dekáde (1 GB) však veľmi láka povedať, že prvé úspešné experimenty na úrovni zápisu 100 GB (s náhodným čítaním a plnohodnotnou korekciou) sa odohrajú už v nasledujúcich troch rokoch, teda na začiatku tretej dekády. Nebolo by zároveň príliš veľkým prekvapením, ak by sme sa na úroveň niekoľkých terabajtov dokázali posunúť už na jej konci. V prípade, že po roku 2030 začne DNA zápis dosahovať na stovky TB, dostane sa na úroveň iných úložných metód a bude to masívny signál na vyvinutie praktických úložísk tohto typu.

DNA úložiská sa stanú niekedy medzi rokmi 2030 a 2040 prioritným veľkokapacitným dátovým nosičom ľudstva.

Možnostiam škálovania molekulárnych úložísk z hľadiska dátovej hustoty sa totiž tie tranzistorové a magnetické nemôžu nikdy rovnať. Do hry teda vstúpi cena a ak pokles finančných nárokov na syntézu a sekvencovanie DNA bude v nasledujúcej dekáde pokračovať tak ako v tej súčasnej, DNA úložiská sa stanú niekedy medzi rokmi 2030 a 2040 prioritným veľkokapacitným dátovým nosičom ľudstva.

Vízia vysokokapacitného DNA úložiska pre dátové centrá

V tejto súvislosti si je dobré uvedomiť, kam sa v dátovej hierarchii zaradia. Každé dátové úložisko má štyri základné aspekty svojej vyspelosti a použiteľnosti. Ide o hustotu zápisu (počet uložených bitov na nejaký konkrétny rozmer), prístupovú rýchlosť (ako rýchlo je dáta možné zapisovať a čítať), udržateľnosť (po akom čase je dáta možné ešte úspešne čítať) a takisto cenu (pomer objemu zapísaných dát ku nákupným a prevádzkovým nákladom zariadenia). Výsledkom je hierarchická pyramída úložísk, kde na vrchole stoja extrémne rýchle a drahé pamäťové/úložné mechanizmy s nízkou kapacitou a na spodku naopak tie pomalé s vysokou kapacitou, s najlepším pomerom k cene.

V hornej skupine sú krátkodobé úložiská, pričom tie najrýchlejšie sú súčasťou procesorov, kde slúžia ako register alebo vyrovnávacia pamäť a ich kapacita je na úrovni pár kB až MB. Za nimi nasledujú operačné pamäte s kapacitami pár GB. Následne pokračuje stred hierarchickej dátovej pyramídy, kam patria úložiská nevyžadujúce napájanie, pričom sú stále permanentne dostupné. Nájdeme tu NAND flash, ktorý dominuje v mobilnej elektronike a SSD a pod ním magnetický zápis, ktorý reprezentujú 4 až 14 TB HDD v dátových centrách a serverovniach (a pravdaže aj v domácnostiach). Hlavná časť dát ľudstva leží práve na ich magnetických bedrách a tak tomu bude aj v nadchádzajúcich rokoch. Pod týmto sa nachádza ešte tretia hlavná skupina, v podobe off-line úložísk, kam patria dátové magnetické pásky (a historicky aj dnes už mŕtve a z hľadiska kapacity nezaujímavé optické médiá).

Aj keď magnetické pásky môžu pre niekoho, kto si pamätá éru magnetofónových kaziet a VHS pôsobiť zastarano, v skutočnosti ide o veľmi používanú metódu ukladania dlhodobých neaktívnych záloh, dostupných na požiadanie, čo používa mnoho aj tých najväčších IT spoločností, vrátane Googlu, Microsoftu či Facebooku. Páska je síce výrazne pomalšie úložisko ako HDD (z hľadiska prístupu ku konkrétnym dátam, samotné čítanie a zápis môže prebiehať podobne rýchlo), ide však o lacné a z hľadiska skladovania mimoriadne kompaktné médium (do objemu o veľkosti HDD je možné navinúť niekoľko desiatok TB pásky).

Budúce praktické DNA úložiská sa umiestnia práve do tejto skupiny a na samé dno dátovej pyramídy. Nemôžeme totiž u nich počítať s prístupovými dobami na úrovni jednotiek nanosekúnd (RAM), stovkami mikrosekúnd (SSD), desiatkami milisekúnd (HDD) a ani jednotkami minút (pásky). Realisticky sa dá počítať v dohľadnej dobe skôr s prístupovými dobami na úrovni hodín. Spadajú teda do tej najspodnejšej vrstvy, ktorá však ponúkne ohromnú kapacitu a takisto extrémne veľkú trvácnosť dát. Nie roky, ako v prípade SSD a HDD, ani desaťročia ako v prípade pások, ale pokojne aj storočia či tisícročia.

O tom, že takéto vysokokapacitné molekulárne úložiská potrebujeme, pritom nie je pochýb. Väčšina dát, ktoré ľudstvo vo svojej 300 000-ročnej histórii vytvorilo, pochádza z posledných piatich rokov. A nech sa nám zdá súčasný historický objem rátajúci sa na zettabajty akokoľvek veľký, v nasledujúcich piatich rokoch vytvoríme znovu toľko a ešte viac. Podľa štatistík analytickej spoločnosti IDC sme historickú hranicu zettabajtu prerazili na prelome poslednej dekády. V roku 2010 sa odhadoval objem generovaných dát na úrovni 2 zettabajtov, ktorý do roku 2015 narástol na 15 zettabajtov. Tento rok číslo odhadom narastie na 41 zettabajtov a do roku 2025 poskočí na 175 zettabajtov. Všetko vďaka masívnemu prechodu našej spoločnosti do digitálnej a dátovej éry.

Aj keď sa nám kapacity súčasných úložísk stále darí zvyšovať, či už ide o budovanie stále väčších konštrukcií vrstvených tranzistorov NAND flash, alebo o mikrovlnnú a tepelnú asistenciu magnetického zápisu (MAMR a HAMR pevné disky), dátovým objemom, ktoré z princípu môže niesť DNA úložisko sa nikdy nepriblížia. A ako pohľad na narastanie dátového objemu ľudstva prezrádza, skôr či neskôr budeme molekulárne úložisko pre najnižšie a najväčšie „dátové vrstvy“ potrebovať.

Väčšina dát, ktoré ľudstvo vytvára je čoraz viac digitálnych a ak nebudeme zodpovední, tak pre budúce generácie z nich nezostane nič. Zmazané digitálne dáta totiž nikto nevykope ako črepiny krčahov či monumenty zo starovekého Egypta. A dnes, pravdaže, nemáme ani potuchy, aké cenné budú dnešné historické digitálne dáta pre budúce storočia a tisícročia. Ľahko sa tak môže stať, že mnoho tých dôležitých skončí tak, ako mnohé videomateriály televízií spred pár dekád, ktoré už neexistujú, pretože sa pôvodné pásky prehrali z dôvodu nedostatku miesta novým obsahom. DNA úložiská nás pred takýmto osudom môžu v budúcich dekádach zachrániť, pretože DNA dáta môžu byť v dobrých podmienkach uložené off-line v neveľkých nádobách rátajúcich sa na kapacity, pre ktoré ešte ani nemáme pomenovanie.

Dáta ľudstva sa už onedlho môžu stať na tisícročia bežnou súčasťou múzeí

V súčasnosti to vyzerá, že DNA úložiská sú skutočne na ceste a v nasledujúcich dvoch dekádach sa plne zhmotnia do použiteľného stavu. Nečakajte ich však v mobilnej elektronike či osobných počítačoch. Budú naším základným dátovým kameňom v dátových centrách (dlhodobé zálohy) a takisto možno aj v dátových trezoroch múzeí. DNA totiž už nikdy nezabudneme čítať a dané dáta budeme môcť vždy použiť, hoc aj o tisíc rokov.

V nadchádzajúcej dekáde budeme prekonávať niekoľko hlavných prekážok, pričom ide o zvyšovanie použiteľnej kapacity na úrovni niekoľkých GB až TB, spolu so zvyšovaním praktickosti použitia a čoraz väčšou a rýchlejšou automatizáciou všetkých relevantných procesov. Musí to ísť však všetko ruka v ruke s poklesom ceny za syntézu a sekvencovanie DNA, čo používame na čítanie a zápis.

Výhoda je, že IT firmy nemusia ťahať vývoj DNA technológie naslepo, dúfajúc, že niekedy budú už DNA úložiská ekonomicky životaschopné. Vývoj totiž prebieha nezávisle v rámci biotechnológie z celkom iných dôvodov (zdravotníctvo, vývoj liekov, porozumenie chorobám, vedecký biologický výskum atď.). V posledných dvoch dekádach sme tak videli masívny cenový pokles. Kým ešte v roku 2001 stálo sekvencovanie 1000 písmen DNA zhruba 5000 dolárov, v roku 2007 už to bola len desatina, teda 500 dolárov.

To plne zodpovedalo rýchlosti známeho Moorovho zákona, ktorý hovorí o dvojnásobnom zlepšení každé dva roky. Následne ho ale pokrok v rámci DNA celkom zosmiešnil, pretože v roku 2008 nastúpila nová generácia sekvencovacích metód a behom dvoch rokov nastalo rapídne klesnutie ceny pod 100 dolárov, následne pod 1 dolár a v roku 2011 už pod desatinu dolára. V súčasnosti je možné 1000 písmen DNA sekvencovať za približne jeden cent. Podobný trend bolo vidieť aj v syntéze DNA, ktorá je dnes zhruba na úrovni 10 centov za 1000 písmen/nukleotidov.

Z týchto čísiel vyplýva, že prevádzka plnohodnotného terabajtového DNA úložiska by dnes stála niekoľko stoviek miliónov dolárov. To je pravdaže nepraktické, ale treba myslieť na to, že než budú tieto úložiská možné, je pred nami ešte vývoj trvajúci jednu či dve dekády. Ak si uvedomíme, že pred 10 rokmi bola cena týchto procesov 10 000-krát väčšia a pred 20 rokmi 500 000-krát väčšia ako dnes, realizácia DNA úložiska v nasledujúcich dvoch dekádach už tak šialene nevyzerá.

Vychádzame pravdaže len z extrapolácie, ktorá sa vonkoncom nemusí naplniť. DNA úložiská môžu v priebehu vývoja naraziť na vážny technický problém, vďaka ktorému zamrznú na niekoľko dekád, než sa príbuzné technológie z rôznych odvetví vyvinú na výrazne vyššiu úroveň. Pravdu ukáže až čas. Každopádne tento vývoj budeme so záujmom sledovať. Málokedy sa totiž v technologickom svete stáva, že jasný budúci cieľ už vidíme v prírode v praxi a treba ho len chytiť za pačesy.