Vedeli ste, že internet dnes stráca dáta masívnou rýchlosťou? Dáta, ktorá nikto nemá a nikdy sa nevrátia späť? Zostane niečo vôbec zachované pre naše deti, vnúčatá a pravnúčatá? Nedeľník TOUCHIT vážne i nevážne. Nezviazané IT témy na tisíc spôsobov.

V San Franciscu, v útrobách jedného starého a nepoužívaného kostola, dnes nájdeme sídliť jeden z najdôležitejších a najvznešenejších internetových projektov. Nie, nie je to „cool“ textový komunikátor, ani švihácka sociálna sieť podľa najnovších trendov. Je to databáza a skladisko toho, čo jedného dňa nebude, alebo toho čo už dnes nie je – internetových digitálnych spomienok.

Jasne biela budova, s deviatimi stĺpmi a trojicou kovových dvier hlavného vstupu, pripomína starovekú grécku či rímsku pamiatku. Zvonku tak ani netušíte, že v jej vnútri prebiehajú snahy o trvalé zachovanie čo možno najväčšieho množstva digitálneho obsahu.

Možno sa vám to zdá zvláštne. Ľudovou múdrosťou je, že čo sa raz na internete objaví, už nikdy nezmizne. Všetci poznáme nejakú tú nelichotivú fotografiu celebrity, alebo nešťastné vyjadrenie riaditeľov firiem, ktoré sa z internetu nedajú odstrániť, aj keď sa o to vplyvné osoby snažia. Jedna kópia sa zmaže, desať ďalších sa objaví.

Toto ale žiaľ platí len pre dáta tohto typu. Pre dáta, ktoré sú nesmierne populárne. Drvivá väčšina tých ostatných zmizne ticho a bez stopy. Nikto ich totiž inde neuložil. Nikto to nepovažoval za nutné.

INTERNETOVÝ ARCHÍV AKO ZÁLOHA TOHO, AKÝ INTERNET BOL

Web ale pamäť potrebuje. Potrebuje schopnosť ohliadnuť sa späť, na to čo bolo. Odhady toho, ako dlho na internete vydrží priemerná stránka sa značne líšia, ale časté je napríklad číslo 70 až 100 dní. Strácajú sa nielen stránky ako celok, ale aj podoba a ich obsah. Text je prepísaný a nahradený iným, grafika sa zmení a prispôsobí moderným trendom. Staré mizne preč a zľahne sa po ňom digitálna zem.

Takáto strata internetového obsahu je pri tom porovnateľná s inými katastrofickými stratami našej histórie. Aj najstaršie knihy sveta sa stratili, zničili a rozpadli na prach. Poklady v podobe unikátnych zvitkov a ľudského historického poznania naveky pohltili plamene v Alexandrijskej knižnici. No a dokonca aj relatívne nedávno, v počiatkoch kinematografie, bol obrovský zástup ranných filmov navždy stratený recykláciou ich striebro obsahujúcich nosičov.

Jedna z možných podôb pôvodnej Alexandrijskej knižnice (3 storočie pred n.l., až po rok 48 pred n.l)

Možno sa vám dnes toto prirovnanie ešte zdá absurdné, ale to sa zdá vždy všetkým ľudom, čo v danej dobe žijú. Dnes s úžasom sledujeme poklady z dôb starovekého Grécka a Ríma, ktoré boli počiatkami modernej civilizácie, avšak pre ľudí, ktorí v danej dobe žili, boli skrátka dennou a nezvláštnou realitou.

Tak ako sa na historické udalosti a éry pozeráme s bázňou my dnes, sa budú ľudia za storočia pozerať na tú našu dobu s počiatkami internetu, ktorý tak pretvoril celú našu spoločnosť. Úlohou Internetového archívu je teda masívnej strate starého webu zabrániť.

Zakladateľ Internetového archívu Brewster Kahle pred jeho vchodom

Internetový archív založil v roku 1996 informatik Brewster Kahle, so vskutku pompéznym a vznešeným poslaním. Inštitúcia sa mala stať ultimátnou studnicou a databázou historického digitálneho materiálu, ktorý by bol dostupný komukoľvek, odkiaľkoľvek, zdarma a bez obmedzení.

Podobne ako je dnes Wikipédia ultimátnou ľudskou encyklopédiou, úlohou Internetového archívu je byť ultimátnym digitálnym skladiskom a historickým digitálnym múzeom. A treba povedať, že za 22 rokov jeho existencie sa mu toto poslanie darí nasledovať.

Za túto dobu nazhromaždil archív viac ako 30 petabajtov dát, ktoré zahŕňajú viac ako 340 miliárd rôznych webových stránok, 11 miliónov kníh, 5 miliónov audio nahrávok (ako napríklad 160 000 koncertov), 4 milióny video záznamov a 300 000 programov a hier.

Ikonická budova v San Franciscu svojou architektúrou vyvoláva správny dojem, že sa vo vnútri deje niečo dôležité. Aj keď sa zdá, že logo Internetového archívu je vlastne daná budova ako taká, realita je opačná. Šlo o šťastnú náhodu. Zakladatelia Archívu túto pôvodne cirkevnú stavbu kúpili práve preto, že sa na logo podobá.

Pôvodne bola určená na šírenie pavedy, pričom slúžila kresťanskej odnoži známej ako Kresťanská veda (odmieta súčasné vedecké poznanie a takisto lekárske poznatky, pričom sa snaží všetky choroby a zdravotné ťažkosti liečiť pomocou modlitieb).

Ak dnes po širokých ružových schodoch do nej vojdete, na prvý pohľad sa akoby nič nezmenilo. Vo vnútri sú totiž kostolné lavice plné ľudí. Je to však len dojem. Sedia v nich drevené sochy, ktoré reprezentujú osoby, ktoré pre archív za posledných 20 rokov pracovali (viac ako tri roky). Vpredu miestnosti nie je oltár, ale pódium na vzdelávacie prednášky a v mieste, ktoré bolo pôvodne určené pre nejakú sochu, stojí trojica blikajúcich serverových veží. Každé bliknutie diódy pritom oznamuje, že niekto archív práve používa – v súčasnosti je to 3 až 4 milióny unikátnych návštevníkov denne z celého sveta.

Programátori a softvéroví správcovia Internetového archívu

Vo zvyšku budovy už nie je po pôvodnom účele ani stopy. V priestoroch nájdeme pracovať zhruba 50 ľudí, pričom ide o rôznych technikov, programátorov ale aj digitalizátorov a dobrovoľných pomocníkov. Kým tí prví menovaní sa starajú o prevádzku obrovského zástupu serverov, umiestnených na druhom poschodí, dobrovoľníci obvykle digitalizujú knihy pomocou špecializovaných knižných skenerov.

Tím archívu sa tu riadi jednoduchým pravidlom: „Ak niečo nie je on-line, tak to neexistuje“. Z tohto dôvodu sa archív stará aj o digitalizovanie veľkého množstva starej knižnej tvorby, ktorú ľudia mohli nájsť v knižniciach, pričom je jedno či ide o dielo Drakula z roku 1897, alebo nejakú knihu z roku 1000.

Internetový archív má po svete 30 skenovacích centier, ktoré v priebehu posledných 20 rokov zdigitalizovali viac ako 11 miliónov kníh v 184 rôznych jazykoch. Všetky sú dostupné on-line komukoľvek a zdarma. V mnohých prípadoch tieto knihy požičiavajú archívu najväčšie knižnice na svete, ktoré si nechávajú digitalizovať celú svoju kolekciu.

Zakladateľ a súčasný riadiť archívu, Brewster Kahle, dúfa, že jedného dňa archív digitalizuje všetky alebo aspoň čo možno najväčšie percento kníh na svete. Aj keď sa to môže zdať ako obrovské množstvo dát, nie je tomu tak. V porovnaní s internetom ide o malé množstvo textu. Najväčšie knižnice na svete, v podobe Britskej národnej knižnice alebo Americkej knižnice kongresu, majú vo svojej úschove zhruba 30 až 40 miliónov kníh, čo je objem, ktorý sa digitálne zmestí zhruba na tri veľké 14 TB HDD.

Internetový archív prostredníctvom 30 centier na piatich kontinentoch digitalizuje zhruba 1000 kníh denne

Internet je vec iná. Internetový archív dnes uchováva kópie zhruba 340 miliárd webových stránok a cez 600 miliárd ich rôznych variantov. Podľa dôležitosti je počet záznamov rôzny, ale behom zhruba každých dvoch mesiacov automatické programy archívu zakonzervujú prakticky celý World wide web.

Idea je pomerne jednoduchá, navštíviť všetky dostupné stránky webu, uložiť ich text a podobu a následne začať znova. Takto to robí archív od roku 1996 a vďaka tomu zachytil napríklad aj to, ako vyzerala stránka Googlu pri svojom zrode v roku 1998.

Systém v základe funguje tak, ako regulárne Webové crawlery Googlu či iného vyhľadávača, ktoré neprestajne navštevujú všetky dostupné stránky a vytvárajú obrovskú indexovaciu databázu. Rozdiel v prípade Internetového archívu je, že sa preberá celá podoba stránky ako taká a uchováva sa pre neskoršiu návštevu.

Ak sa stránka zmení, nedôjde k jej nahradeniu, ale len k vytvoreniu nového záznamu v danom časovom úseku. Archivujú sa pravdaže len stránky, ktoré sú verejne dostupné, teda bez zadania hesla či vytvárania používateľského účtu a takisto tie, ktoré sú nejakým spôsobom objaviteľné (smeruje na ne nejaký odkaz z už známej stránky).

Aj keď sú nastavené rozumné limity, teda napríklad limitná hĺbka ukladania odkazov v rámci stránky, vysoká kompresia obrázkov a ignorovanie veľkých súborov, ide o obrovské množstvo dát. V súčasnosti neprestajne točiace sa HDD archívu nesú 30 petabajtov dát, pričom toto množstvo treba pravdaže zdvojnásobiť, pretože všetky dáta sú uložené kvôli zálohe dva alebo viac krát, na rozdielnych fyzických úložiskách.

Servery archívu s neprestajne točiacimi sa HDD

To vyžaduje nemalé množstvo financií. Archív bol v počiatkoch živený hlavne zo súkromných peňazí samotného zakladateľa, čo bolo s postupným nárastom rozsahu pravdaže neudržateľné. Dnes je celý projekt financovaný z rôznych zdrojov. Ide o rôzne dobročinné fondy a takisto o množstvo ľudí z celého sveta, ako v prípade Wikipédie. Ďalším zdrojom príjmov sú knižnice a iné inštitúcie, ktoré archívu platia za digitalizovanie svojich diel, a takisto čiastočne aj vláda USA, nakoľko Archív je od roku 2007 rozpoznávaný štátom Kalifornia ako knižnica a môže si nárokovať aj federálne príspevky z rozpočtu.

Aby boli dáta svetovo v bezpečí pred požiarmi či zmenou politickej situácie, musia byť pravdaže na viacerých miestach. Aj keď je teda hlavným úložiskom digitálneho archívu budova v San Franciscu, ďalšie jej čiastočné kópie (úplné dohromady) sú v umiestnené v Kanade, v Holandskom Amsterdame a symbolicky aj v novej rozsiahlej Alexandrijskej knižnici v Egypte.

NEOCENITEĽNÝ POKLAD V PODOBE WAYBACK MACHINE

Úlohou Internetového archívu je uchovávať obsah minulého, dnešného i budúceho webu. Bolo by ale chybou predstavovať si to len ako uchovávanie dát pre budúce generácie. Obrovský význam archívu je cítiť už dnes a všetci z neho vedome alebo aj nevedome profitujeme.

Začnime niečím jednoduchým. Čo ak napríklad chcete vidieť ako vyzeral Twitter, Amazon, alebo YouTube v čase, kedy sa spustili? Alebo ako vyzerala stránka novín SME na konci minulého storočia?

Tieto weby stále existujú, rovnako ako ich majitelia, ale po ich návšteve sa vám zobrazí ich dnešná podoba. Po tých starých už nie je ani chýru, ani slychu. Zavreli sa za nimi brány času. Sú preč. Internetový archív vám ale zdarma a na požiadanie otvára okno do minulosti. Dáva vám možnosť vrátiť sa späť.

Way back machine vykoná zhruba 1 miliardu záchytov stránok za týždeň.

Na použitie Internetového webového archívu slúži Way Back Machine, čo je webová rozhranie, vtipne pomenované podľa časostroja z kresleného seriálu The Adventures of Rocky and Bullwinkle and Friends (z rokov 1959 až 1964). Šlo o vynález psa Mr. Peabodyho, ktorého možno poznáte z kresleného filmu Dobrodružstvá pána Peabodyho a Shermana z roku 2014.

Rozhranie je napojené na jednotlivé archívy záznamov stránok (archív používa vlastný, ale mimoriadne jednoduchý samo-popisný formát ARC – Archive File Format) a sprostredkováva ich vo vašom webovom prehliadači tak, ako keby šlo o regulárne stránky.

Stačí klikať na zobrazený kalendár so záznamami a prezerať si konkrétnu stránku tak, ako v danom období vyzerala. Môžete pritom sledovať to, ako sa postupne vyvíjal webový dizajn i princíp fungovania webu ako takého.

Tento hon na nostalgiu a spomienky je ale len malá časť celkovej skladačky. Tou ďalšou je, že archív nám pomáha eliminovať jednu z prirodzených a kľúčových slabín webu –  nestabilitu. Z digitálnej povahy centrálnych webových serverov vyplýva, že obsah je majiteľmi ľahko manipulovateľný a zmeniteľný. Čo nejaká stránka tvrdí dnes, už zajtra, či dokonca o päť minúť nemusí platiť.

Zaujímajú vás knihy? Vyhľadajte ich elektronickú podobu v databáze viac ako 11 miliónov kusov na podsekcii https://archive.org/details/texts. Sú v rôznych formátoch, vrátane PDF a Epub.

Internetový archív vám napríklad umožňuje navštíviť staré licenčné a používateľské podmienky rôznych webových služieb, ktoré sa môžu kedykoľvek meniť. Ľahko je tak možné dokázať, že ešte včera, keď ste s niečím súhlasili, firma sľubovala niečo celkom iné, než na nasledujúci deň, kedy vás už za porušenie podmienok trestá.

Dokázať je možné takisto to, že nejaký e-shop ešte pred pár dňami uvádzal chybnú informáciu a podvádzal zákazníkov. To má mnohonásobne väčšiu váhu, než obyčajná snímka obrazovky, ktorú môže sfalšovať ktokoľvek.

Konzervovanie webu je nemenej dôležité aj z hľadiska politických vyhlásení či stanovísk a aj preto Internetový archív používajú aj tie najväčšie svetové spravodajské organizácie. Napríklad Rachel Maddow, reportérka americkej spravodajskej stanice MSNBC, poukázala na udalosti, pri ktorých zmizli oficiálne vyhlásenia súčasného amerického viceprezidenta Mika Penca, ktorý sa pokúšal pretlačiť pozmeňovací návrh, ktorý by pripravil o finančnú pomoc ľudí nakazených AIDS a namiesto toho chcel peniaze presmerovať na „liečenie“ homosexuality, alebo keď súčasný prezident Donald Trump na oficiálnej stránke úradu nelegálne propagoval svoj biznis. Tieto oficiálne vyhlásenia boli na stránkach úradov po kritike zlikvidované a nie je po nich ani stopy. V internetovom archíve však budú žiť už naveky.

Archív sprostredkováva niekoľko miliónov historických záznamov https://archive.org/details/movies, vrátane celého Prelingerovho archívu, obsahujúceho videá v rámci amerického kultúrneho dedičstva

Web je vždy iba súčasný. Je tak náchylný na alternáciu reality v zmysle, že to čo uvádza dnes, uvádzal odjakživa, pretože stará verzia webu, stránky či iných dát je nezvratne prepísaná novou. Pár dní ju síce udrží napríklad index Googlu, ale následne je už navždy preč.

Ak by sme mali k dispozícii vždy len aktuálne webové dáta, bez akéhokoľvek prístupu k ich predchádzajúcej podobe, web by bol vskutku Orwellovský. A práve tomuto sa Internetový archív snaží zabrániť. Uchovanie histórie tak, ako naozaj bola, je teda extrémne šľachetné a noblesné poslanie, ktoré potrebujeme ako soľ.

To ale nie je všetko. Internetový archív je dnes životne dôležitý aj pre Wikipédiu. V rámci nej je totiž esenciálne citovanie zdrojov (tak ako u iných encyklopédií), čo bolo postupom času čoraz väčší problém. S pribúdajúcimi rokmi totiž mnohé zdrojové stránky mizli v nenávratne. Buď prestali celkom existovať, alebo sa ich podoba a štruktúra zmenila natoľko, že pôvodný zdrojový odkaz prestal fungovať.

Vďaka archívu sa za posledné dva roky odkazová situácia výrazne zlepšila. V roku 2016 totiž prispievateľ Wikipédie, Maximilian Doerr, vyvinul pre encyklopédiu automatický mechanizmus, ktorý neprestajne skenuje všetky jej články a pokúša sa otvárať jednotlivé odkazy.

Viac ako štvrť milióna historického softvéru a hier vďaka archívu prežije (https://archive.org/details/software)

Ako náhle robot narazí na to, že odkaz vedie na neexistujúcu stránku, pokúsi sa tú pôvodnú nájsť na Internetovom archíve. V prípade úspechu zdrojový odkaz Wikipédie automaticky upraví a teda znova sfunkční, aj keď už pôvodná stránka neexistuje.

Do dnešného dňa bolo takto zachránených 9 miliónov odkazov.

NEMODERNÝ KLENOT S DÔLEŽITÝM POSLANÍM

Z technologického hľadiska je nesmierne zaujímavé, že Internetový archív funguje výrazne odlišne od súčasných „hip“ technologických spoločností sídliacich v Silicon Valley či inde vo svete.

V prvom rade, v rámci archívu neexistuje žiadne chvátanie za najnovšími technológiami, trendmi a softvérom. Archív preferuje staré otestované, pred novým a nevyskúšaným. Stránka Archive.org tak funguje na pomerne starom PHP a shell skriptoch, ktoré dobre slúžia k svojmu účelu.

Záložné servery Internetového archívu priamo v budove novej Alexandrijskej knižnice

Ako pred pár dňami pekne zhrnul jeden z bývalých externých zamestnancov, softvér je len nutnosť a prostriedok – cieľové dáta je to, čo je cenné. Systém služby kombinuje množstvo rôznych pozliepaných častí a na dnešnú dobu neefektívnych mechanizmov, avšak dôležité je, že držia dáta v bezpečí za každú cenu.

V rámci firmy koluje prirovnanie, že projekt je ako vetrom ošľahaná loď, plávajúca po mori času, ktorá z hľadiska obmedzeného rozpočtu a zdrojov má na sebe mnoho provizórnych opráv. Svoj náklad však drží neprestajne v perfektnom stave. Záleží totiž na ňom, nie na lodi.

Všetko je držané extrémne jednoducho a bez komplexnosti. Formáty súborových systémov sú základné a jednoduché, všetko je na čo najnižšej hierarchickej úrovni. Ak by ste jedného dňa našli jeden HDD internetového archívu na smetisku, našli by ste na ňom užitočné dáta, na rozdiel od mnohých moderných serverových diskových formátov, ktoré držia dáta komplexne naprieč mnohými diskami a sú tak bez prístupu k celej hierarchii bezcenné.

Čitateľ a používateľ obsahu je mimo záujmu. Systém a web archívu je navrhnutý tak, aby nezbieral o návštevníkoch žiadne dáta, čo i len omylom. Dôvodom existencie projektu nie je generovanie peňazí a ani snaha robiť niečo „cool“ alebo zaujímavé. Ide o vznešenú misiu, ktorej úlohou je uchovávať históriu a dátové dedičstvo ľudstva v digitálnom veku. Vďaka nemu budeme mať vždy možnosť naozaj vidieť, ako vyzeral web vo svojich počiatkoch.

Ide vskutku o jeden z najzákladnejších a najdôležitejších kameňov dnešného internetu. Zaslúži si naše uznanie a poďakovanie.

Nedeľník TOUCHIT hľadajte na našom webe ako inak než v nedeľu. Ak ste predchádzajúce zmeškali, nájdete ich všetky pod rovnomenným kľúčovým slovom.

František Urban

František Urban
Zameriavam sa najmä na prehľadové a analytické články z oblasti najrôznejších technológií a ich vývoja. Nájdete ma takisto pri diagnostike HW a SW problémov.