Hlasová syntéza prešla do ultimátnej úrovne – vitajte v novej ére

Vďaka aktuálnemu pokroku v systémoch umelej inteligencie sa hlasová syntéza prestala dať rozlíšiť od skutočného hlasu človeka. To je však len začiatok. Na čom vývojári pracujú dnes a ako ich výsledky ovplyvnia nás všetkých behom nasledujúcich rokov? Nedeľník TOUCHIT vážne i nevážne. Nezviazané IT témy na tisíc spôsobov.

Asi netreba pripomínať, že drvivá väčšina populácie sveta sa v posledných dekádach stretávala s hlasovou syntézou len veľmi zriedka. Dnešné tempo vývoja v súvislosti s digitálnymi asistentmi to možno skresľuje, ale ak sa posunieme o viac ako desať či dokonca dvadsať rokov do minulosti, hlavnými používateľmi tejto technológie boli ľudia so zrakovým postihnutím, ktorí si ňou nechávali čítať text zobrazený na obrazovke.

Bežná verejnosť mala hlasovú syntézu, teda hlas generovaný počítačom, asi najviac spojený s nedávno zosnulým vedcom Stephenom Hawkingom, ktorý sa vďaka svojej popularite často objavoval na televíznych obrazovkách.

Hawking kvôli zhoršovaniu svojho zdravotného stavu stratil schopnosť reči v roku 1985, pričom vzhľadom na neschopnosť akéhokoľvek pohybu (Amyotrofická laterálna skleróza) bol sprvu nútený komunikovať len drobnou indikáciou súhlasu či nesúhlasu, pozerajúc sa na papierové kartičky s písmenami. Ich rolu neskôr zastúpil počítač, ovládaný najprv klikaním prsta a neskôr, keď prišiel aj túto schopnosť, už len trhaním kútiku úst a pohybom očí.

Hlas, ktorý stále máme s Hawkingom spojený, patril syntetizátoru DECtalk. Konkrétne šlo o jeho verziu Calltext 5010, vyrobenú v roku 1988 firmou SpeechPlus.

Audio prehrávač

00:00

Pomocou šípok hore/dole zvýšite alebo znížite hlasitosť.

DECtalk, založený na algoritmoch KlattTalk od Dennisa Klatta z MIT, dobre ukazoval stav hlasovej syntézy počítačov na konci 80. rokov minulého storočia. Robotickosť prejavu bola značná a typická.

Hlasová syntéza v rokoch 2000 až 2015

Aj keď hardvér Hawkingovho počítača, ktorý poskytoval Intel, sa v priebehu rokov stále zlepšoval, Stepehen zostal celý čas verný pôvodnému syntetizátoru, pretože sa s daným hlasom stotožnil ako s vlastným. Koniec koncov ho podľa neho rozpoznávalo nielen jeho okolie, ale aj celý svet.

Vývoj hlasovej syntézy sa však nezastavil. Dominantným riešením umelého rozprávania bola v priebehu prakticky celej modernej histórie tzv. konkatenačná syntéza. Pri tejto metóde sa používa obrovská databáza nahratých krátkych úsekov reči (nejakého konkrétneho človeka) v podobe slabík, písmen a iných krátkych štruktúr, ktoré sú následne softvérom kombinované do slov a viet.

Audio prehrávač

00:00

Pomocou šípok hore/dole zvýšite alebo znížite hlasitosť.

Na prelome storočí boli tieto metódy stále ešte nie príliš vzdialené od éry DECtalk. Ako ukážka môže slúžiť syntetizátor v rámci Microsoft Speech API, ktorého reprezentantom je napríklad hlas Sam, z ukážky vyššie.

Bol používaný napríklad na automatické čítanie textu na operačných systémoch Windows 2000 a Windows XP, ktoré prišli na trh v roku 2001. Môžete si na ňom dobre všimnúť to, ako pri spájaní jednotlivých častí zvukov vznikajú veľké nezrovnalosti a intonačná strojovosť, ktorú si ľudia hovorovo nazvali „robotickou“.

Zrejme viete, že čítanie nahlas nie je len spájaním písmen niekoľkých písmen abecedy. Slabiky neznejú vždy v každom slove rovnako a záleží v ktorej časti slova sú, v akom slove a v akej vete. V slovenčine možno na ukážku použiť výraz „rôzne veľké inštitúcie“. Prečítali ste prvé slovo mäkko či tvrdo? Sú tie inštitúcie rôzne veľké (mäkko), alebo ide o niekoľko rôznych inštitúcii, ktoré sú všetky veľké (tvrdo)?

V angličtine, ktorá je kolískou všetkých najpokročilejších syntetizátorov, je situácia ešte horšia. Typicky ide napríklad o vetu „My latest project is to learn how to better project my voice“ v ktorej sa slovo project dva krát číta úplne inak. Syntetizátor tak musí pre správnu fonetickú reprezentáciu analyzovať aj kontext.

Audio prehrávač

00:00

Pomocou šípok hore/dole zvýšite alebo znížite hlasitosť.

Zlepšenie práce so štatistickými modelmi, ako je predovšetkým Skrytý Markovov model, ktorý vytvára štruktúry na základe pravdepodobnosti, sa kvalita syntetizátorov čoraz viac zlepšovala. Na ukážke syntetizéra Microsoftu (hlas Zira) môžete počuť, že v prvej dekáde tohto storočia sa začal stav značne zlepšovať.

Tento syntetizovaný hlas je typický pre obdobie okolo roku 2005. Môžete na ňom už počuť, že robotickosť sa čoraz viac stráca, ale trhavosť prejavu a intonačné schody sú stále veľmi výrazné.

Koniec prvej dekády a hlavne obdobie medzi rokmi 2010 až 2012, sa začal trend vývoja hlasovej syntézy spájať s vývojom hlasových asistentov. Tu treba pripomenúť, že ide o kombináciu niekoľkých samostatných technológií, ktorými sú rozpoznávanie hlasu/reči (hlasový pokyn človeka), následne pochopenie významu vety, potom vykonanie príkazu a skonštruovanie vlastnej vety pre odpoveď a až na koniec jej finálne prečítanie (syntéza).

Audio prehrávač

00:00

Pomocou šípok hore/dole zvýšite alebo znížite hlasitosť.

Na ukážke hlasu Siri z telefónu Apple iPhone 4 môžete pekne počuť stav hlasovej syntézy okolo roku 2012. Strojovosť a robotickosť je stále badateľná, avšak mierne sa už zdvíha plynulosť, pričom nadväznosť slov v rámci viet je čoraz väčšia.

Hlas pravdaže pôsobí stále chladne a pomerne nepríjemne, pričom veľké intonačné trhania sú stále prítomné, ale nedá sa odoprieť už nejaká rudimentárna podoba súvetí a mierny dojem toho, že za hlasom je už nejaká bytosť. Všetko je to pravdaže v porovnaní s reálnym hlasom človeka katastrofálne.

Pokrok vo vývoji konkatenačná syntézy však v danom čase doslova vrcholil, takže v nasledujúcich rokoch sme začali byť svedkami čoraz lepšej intonácie a lepšieho citu.

Audio prehrávač

00:00

Pomocou šípok hore/dole zvýšite alebo znížite hlasitosť.

Toto je napríklad ukážka hlasovej syntézy z on-line nástrojov, ktoré dnes môžete nájsť voľne k použitiu na webe. Ide o peknú ukážku dostupnej hlasovej syntézy okolo roku 2015.

Skladba viet je už výborná a strojovosť odchádza do dôchodku. Máte pocit, že hlas patrí skutočnej osobe. Obrovským rozdielom oproti minulosti je takisto to, že intonačné schody, ktoré vyvolávali neprirodzené tóny uprostred rôznych slov, sú takmer preč.

Tento pokrok znamenal to, že hlas prestával byť robotický. Do popredia tak vystúpila nová slabina, ktorá bola ďalšia v poradí – strojenosť a intonačná skamenenosť. Hlas síce už pôsobí ľudsky, ale stále umelo. Tento efekt si preto už nezaslúži pomenovanie „citeľná robotickosť“, ale skôr „citeľná umelosť“ či syntetickosť.

Masívny pokrok za posledné dva roky

Ak tento vývoj podrobne nesledujete, zrejme bude pre vás masívny skok, ktorý sa udial za posledné dva roky, poriadnym prekvapením. Na nasledujúcej ukážke si napríklad vypočujte syntézu dostupnú na komerčných produktoch v roku 2016. Konkrétne ide o smartfón iPhone, ktorý svojim hlasom aktivuje syntézu na inteligentom reproduktore Amazon Echo, ktorý následne zas aktivuje syntézu na reproduktore Google Home.

Audio prehrávač

00:00

Pomocou šípok hore/dole zvýšite alebo znížite hlasitosť.

Ide o peknú ukážku celkového stavu hlasovej syntézy v danom roku. Hlasy sú už veľmi príjemné a dobre sa počúvajú. V základe pôsobia veľmi ľudsky, ale behom chvíľky si vždy uvedomíte, že o človeka nejde, pričom hlavnými rozlišovacími prvkami je horšia intonácia a miestami neprirodzené skrátenie niektorých slabík.

Behom niekoľkých slov je však vždy rozpoznať mierne zachvenie či trhnutie, ktorý celý dojem pokazí a aj keď napríklad 90 % celej vety znie veľmi dobre, drobné chyby v zostávajúcich 10 % syntézu vždy prezradia.

Poznáte to porekadlo, že dokončenie posledných 10 % z úlohy zaberie 90 % času? Ak by to bola pravda aj v prípade vývoja dokonalej hlasovej syntézy, ktorá sa už behom roku 2016 veľmi priblížila k schopnostiam človeka, veru by sme na vyrovnanie museli čakať ešte poriadnych pár dekád.

Ono by to bola možno aj pravda, nebyť pomocníka, ktorý sa dostáva do svetla reflektorov v čoraz väčšom množstve IT odvetví. Je ním umelá inteligencia založená na pokročilých druhoch neurónových sietí. A nikto v tejto oblasti nie je dnes ďalej, než Google.

Audio prehrávač

00:00

Pomocou šípok hore/dole zvýšite alebo znížite hlasitosť.

Audio prehrávač

00:00

Pomocou šípok hore/dole zvýšite alebo znížite hlasitosť.

Na prvej ukážke môžete počuť vrcholovú konkatenačnú syntézu Googlu, ako bola prítomná na jeho hlasových asistentoch v priebehu rokov 2016 a 2017. Druhá ukážka tej istej vety a toho istého hlasu je generované systémom umelej inteligencie WaveNet.

WaveNet je konvolučná neurónová sieť, kŕmená veľkým množstvom zvukových dát. Na ich základe sa učí, ako má reč vyzerať a akými pravidlami sa riadi. Generuje zvukovú krivku do prirodzenejšej podoby, pričom si sama vytvára kostru, ako je potrebné zvukové vzorky správne upraviť, aby pri kombinácii dosahovali podobný výstup, aký má človek.

Rozdiel oproti klasickým riešeniam je masívny. Kvalita hlasového výstupu sa najčastejšie hodnotí podľa MOS, čo je priemerné skóre názorov ľudských poslucháčov (Mean Opinion Scores). Ide o slepý test, pri ktorom sa berie viac ako 500 hodnotení 100 zvukových sekvencií. Ľudská reč pri týchto testoch dosahuje skóre 4,55, najlepšia konkatenačná syntéza na začiatku roku 2017 skóre 3,86. WaveNet túto hranicu rozdrvil a dosiahol na skóre 4,21, čím preklenul rozdiel medzi človekom a strojom o 50 %.

Keď Google svoje výsledky po prvý krát predstavil zhruba pre 1,5 rokom, bolo to nesmierne zaujímavé, ale zároveň frustrujúce. Problémom bolo, že systém syntézy založený na sieti WaveNet bol výpočtovo veľmi náročný a nebolo ho možné integrovať do koncových zariadení, ako sú smartfóny a inteligentné reproduktory.

Audio prehrávač

00:00

Pomocou šípok hore/dole zvýšite alebo znížite hlasitosť.

_{Neurónová sieť môže produkovať rôzne typy hlasov}

Behom roku 2017 však tím DeepMind vo vývoji pokračoval, pričom ho začal kombinovať s novým riešením Tacotron. Ide o rekuretnú (zvratnú) neurónovú sieť, ktorá generuje spektrogram frekvencií reči celkom sama, na základe tréningu, čo umožňuje prakticky odstrániť najkomplexnejšiu a najnáročnejšiu časť konfigurácie modelov pri klasických postupoch. Jej výsledok následne putuje do konvolučnej (spletitej) neurónovej siete WaveNet, ktorá jej výstup upraví do prirodzenej ľudskej podoby.

Toto riešenie je omnoho menej náročné na výkon, čo umožnilo, aby Google na samom sklonku minulého roka začal tieto systémy integrovať do svojho asistenta, dostupného na smartfónoch, reproduktoroch či iných zaradeniach s Androidom (v angličtine a japončine).

Vývoj však nekončí…

2018: Vitajte v krajine zázrakov

Prelom rokov 2017 a 2018 privítal hlasovú syntézu na celkom novej úrovni. Google predstavil svoj nový systém Tacotron 2, ktorý v kombinácii s WaveNet začal dosahovať MOS skór 4,53. Vzhľadom na skóre ľudskej reči, ktoré je na úrovni 4,58, to v praxi to znamená, že hlasová syntéza začala byť prakticky na nerozpoznanie od človeka. Chcete si to vyskúšať? Nech sa páči.

Audio prehrávač