Vďaka aktuálnemu pokroku v systémoch umelej inteligencie sa hlasová syntéza prestala dať rozlíšiť od skutočného hlasu človeka. To je však len začiatok. Na čom vývojári pracujú dnes a ako ich výsledky ovplyvnia nás všetkých behom nasledujúcich rokov? Nedeľník TOUCHIT vážne i nevážne. Nezviazané IT témy na tisíc spôsobov.

Asi netreba pripomínať, že drvivá väčšina populácie sveta sa v posledných dekádach stretávala s hlasovou syntézou len veľmi zriedka. Dnešné tempo vývoja v súvislosti s digitálnymi asistentmi to možno skresľuje, ale ak sa posunieme o viac ako desať či dokonca dvadsať rokov do minulosti, hlavnými používateľmi tejto technológie boli ľudia so zrakovým postihnutím, ktorí si ňou nechávali čítať text zobrazený na obrazovke.

Bežná verejnosť mala hlasovú syntézu, teda hlas generovaný počítačom, asi najviac spojený s nedávno zosnulým vedcom Stephenom Hawkingom, ktorý sa vďaka svojej popularite často objavoval na televíznych obrazovkách.

Hawking kvôli zhoršovaniu svojho zdravotného stavu stratil schopnosť reči v roku 1985, pričom vzhľadom na neschopnosť akéhokoľvek pohybu (Amyotrofická laterálna skleróza) bol sprvu nútený komunikovať len drobnou indikáciou súhlasu či nesúhlasu, pozerajúc sa na papierové kartičky s písmenami. Ich rolu neskôr zastúpil počítač, ovládaný najprv klikaním prsta a neskôr, keď prišiel aj túto schopnosť, už len trhaním kútiku úst a pohybom očí.

Hlas, ktorý stále máme s Hawkingom spojený, patril syntetizátoru DECtalk. Konkrétne šlo o jeho verziu Calltext 5010, vyrobenú v roku 1988 firmou SpeechPlus.

DECtalk, založený na algoritmoch KlattTalk od Dennisa Klatta z MIT, dobre ukazoval stav hlasovej syntézy počítačov na konci 80. rokov minulého storočia. Robotickosť prejavu bola značná a typická.

Hlasová syntéza v rokoch 2000 až 2015

Aj keď hardvér Hawkingovho počítača, ktorý poskytoval Intel, sa v priebehu rokov stále zlepšoval, Stepehen zostal celý čas verný pôvodnému syntetizátoru, pretože sa s daným hlasom stotožnil ako s vlastným. Koniec koncov ho podľa neho rozpoznávalo nielen jeho okolie, ale aj celý svet.

Vývoj hlasovej syntézy sa však nezastavil. Dominantným riešením umelého rozprávania bola v priebehu prakticky celej modernej histórie tzv. konkatenačná syntéza. Pri tejto metóde sa používa obrovská databáza nahratých krátkych úsekov reči (nejakého konkrétneho človeka) v podobe slabík, písmen a iných krátkych štruktúr, ktoré sú následne softvérom kombinované do slov a viet.

Na prelome storočí boli tieto metódy stále ešte nie príliš vzdialené od éry DECtalk. Ako ukážka môže slúžiť syntetizátor v rámci Microsoft Speech API, ktorého reprezentantom je napríklad hlas Sam, z ukážky vyššie.

Bol používaný napríklad na automatické čítanie textu na operačných systémoch Windows 2000 a Windows XP, ktoré prišli na trh v roku 2001. Môžete si na ňom dobre všimnúť to, ako pri spájaní jednotlivých častí zvukov vznikajú veľké nezrovnalosti a intonačná strojovosť, ktorú si ľudia hovorovo nazvali „robotickou“.

Zrejme viete, že čítanie nahlas nie je len spájaním písmen niekoľkých písmen abecedy. Slabiky neznejú vždy v každom slove rovnako a záleží v ktorej časti slova sú, v akom slove a v akej vete. V slovenčine možno na ukážku použiť výraz „rôzne veľké inštitúcie“. Prečítali ste prvé slovo mäkko či tvrdo? Sú tie inštitúcie rôzne veľké (mäkko), alebo ide o niekoľko rôznych inštitúcii, ktoré sú všetky veľké (tvrdo)?

V angličtine, ktorá je kolískou všetkých najpokročilejších syntetizátorov, je situácia ešte horšia. Typicky ide napríklad o vetu „My latest project is to learn how to better project my voice“ v ktorej sa slovo project dva krát číta úplne inak. Syntetizátor tak musí pre správnu fonetickú reprezentáciu analyzovať aj kontext.

Zlepšenie práce so štatistickými modelmi, ako je predovšetkým Skrytý Markovov model, ktorý vytvára štruktúry na základe pravdepodobnosti, sa kvalita syntetizátorov čoraz viac zlepšovala. Na ukážke syntetizéra Microsoftu (hlas Zira) môžete počuť, že v prvej dekáde tohto storočia sa začal stav značne zlepšovať.

Tento syntetizovaný hlas je typický pre obdobie okolo roku 2005. Môžete na ňom už počuť, že robotickosť sa čoraz viac stráca, ale trhavosť prejavu a intonačné schody sú stále veľmi výrazné.

Koniec prvej dekády a hlavne obdobie medzi rokmi 2010 až 2012, sa začal trend vývoja hlasovej syntézy spájať s vývojom hlasových asistentov. Tu treba pripomenúť, že ide o kombináciu niekoľkých samostatných technológií, ktorými sú rozpoznávanie hlasu/reči (hlasový pokyn človeka), následne pochopenie významu vety, potom vykonanie príkazu a skonštruovanie vlastnej vety pre odpoveď a až na koniec jej finálne prečítanie (syntéza).

Na ukážke hlasu Siri z telefónu Apple iPhone 4 môžete pekne počuť stav hlasovej syntézy okolo roku 2012. Strojovosť a robotickosť je stále badateľná, avšak mierne sa už zdvíha plynulosť, pričom nadväznosť slov v rámci viet je čoraz väčšia.

Hlas pravdaže pôsobí stále chladne a pomerne nepríjemne, pričom veľké intonačné trhania sú stále prítomné, ale nedá sa odoprieť už nejaká rudimentárna podoba súvetí a mierny dojem toho, že za hlasom je už nejaká bytosť. Všetko je to pravdaže v porovnaní s reálnym hlasom človeka katastrofálne.

Pokrok vo vývoji konkatenačná syntézy však v danom čase doslova vrcholil, takže v nasledujúcich rokoch sme začali byť svedkami čoraz lepšej intonácie a lepšieho citu.

Toto je napríklad ukážka hlasovej syntézy z on-line nástrojov, ktoré dnes môžete nájsť voľne k použitiu na webe. Ide o peknú ukážku dostupnej hlasovej syntézy okolo roku 2015.

Skladba viet je už výborná a strojovosť odchádza do dôchodku. Máte pocit, že hlas patrí skutočnej osobe. Obrovským rozdielom oproti minulosti je takisto to, že intonačné schody, ktoré vyvolávali neprirodzené tóny uprostred rôznych slov, sú takmer preč.

Tento pokrok znamenal to, že hlas prestával byť robotický. Do popredia tak vystúpila nová slabina, ktorá bola ďalšia v poradí – strojenosť a intonačná skamenenosť. Hlas síce už pôsobí ľudsky, ale stále umelo. Tento efekt si preto už nezaslúži pomenovanie „citeľná robotickosť“, ale skôr „citeľná umelosť“ či syntetickosť.

Masívny pokrok za posledné dva roky

Ak tento vývoj podrobne nesledujete, zrejme bude pre vás masívny skok, ktorý sa udial za posledné dva roky, poriadnym prekvapením. Na nasledujúcej ukážke si napríklad vypočujte syntézu dostupnú na komerčných produktoch v roku 2016. Konkrétne ide o smartfón iPhone, ktorý svojim hlasom aktivuje syntézu na inteligentom reproduktore Amazon Echo, ktorý následne zas aktivuje syntézu na reproduktore Google Home.

Ide o peknú ukážku celkového stavu hlasovej syntézy v danom roku. Hlasy sú už veľmi príjemné a dobre sa počúvajú. V základe pôsobia veľmi ľudsky, ale behom chvíľky si vždy uvedomíte, že o človeka nejde, pričom hlavnými rozlišovacími prvkami je horšia intonácia a miestami neprirodzené skrátenie niektorých slabík.

Behom niekoľkých slov je však vždy rozpoznať mierne zachvenie či trhnutie, ktorý celý dojem pokazí a aj keď napríklad 90 % celej vety znie veľmi dobre, drobné chyby v zostávajúcich 10 % syntézu vždy prezradia.

Poznáte to porekadlo, že dokončenie posledných 10 % z úlohy zaberie 90 % času? Ak by to bola pravda aj v prípade vývoja dokonalej hlasovej syntézy, ktorá sa už behom roku 2016 veľmi priblížila k schopnostiam človeka, veru by sme na vyrovnanie museli čakať ešte poriadnych pár dekád.

Ono by to bola možno aj pravda, nebyť pomocníka, ktorý sa dostáva do svetla reflektorov v čoraz väčšom množstve IT odvetví. Je ním umelá inteligencia založená na pokročilých druhoch neurónových sietí. A nikto v tejto oblasti nie je dnes ďalej, než Google.

Na prvej ukážke môžete počuť vrcholovú konkatenačnú syntézu Googlu, ako bola prítomná na jeho hlasových asistentoch v priebehu rokov 2016 a 2017. Druhá ukážka tej istej vety a toho istého hlasu je generované systémom umelej inteligencie WaveNet.

WaveNet je konvolučná neurónová sieť, kŕmená veľkým množstvom zvukových dát. Na ich základe sa učí, ako má reč vyzerať a akými pravidlami sa riadi. Generuje zvukovú krivku do prirodzenejšej podoby, pričom si sama vytvára kostru, ako je potrebné zvukové vzorky správne upraviť, aby pri kombinácii dosahovali podobný výstup, aký má človek.

Rozdiel oproti klasickým riešeniam je masívny. Kvalita hlasového výstupu sa najčastejšie hodnotí podľa MOS, čo je priemerné skóre názorov ľudských poslucháčov (Mean Opinion Scores). Ide o slepý test, pri ktorom sa berie viac ako 500 hodnotení 100 zvukových sekvencií. Ľudská reč pri týchto testoch dosahuje skóre 4,55, najlepšia konkatenačná syntéza na začiatku roku 2017 skóre 3,86. WaveNet túto hranicu rozdrvil a dosiahol na skóre 4,21, čím preklenul rozdiel medzi človekom a strojom o 50 %.

Keď Google svoje výsledky po prvý krát predstavil zhruba pre 1,5 rokom, bolo to nesmierne zaujímavé, ale zároveň frustrujúce. Problémom bolo, že systém syntézy založený na sieti WaveNet bol výpočtovo veľmi náročný a nebolo ho možné integrovať do koncových zariadení, ako sú smartfóny a inteligentné reproduktory.

Neurónová sieť môže produkovať rôzne typy hlasov

Behom roku 2017 však tím DeepMind vo vývoji pokračoval, pričom ho začal kombinovať s novým riešením Tacotron. Ide o rekuretnú (zvratnú) neurónovú sieť, ktorá generuje spektrogram frekvencií reči celkom sama, na základe tréningu, čo umožňuje prakticky odstrániť najkomplexnejšiu a najnáročnejšiu časť konfigurácie modelov pri klasických postupoch. Jej výsledok následne putuje do konvolučnej (spletitej) neurónovej siete WaveNet, ktorá jej výstup upraví do prirodzenej ľudskej podoby.

Toto riešenie je omnoho menej náročné na výkon, čo umožnilo, aby Google na samom sklonku minulého roka začal tieto systémy integrovať do svojho asistenta, dostupného na smartfónoch, reproduktoroch či iných zaradeniach s Androidom (v angličtine a japončine).

Vývoj však nekončí…

2018: Vitajte v krajine zázrakov

Prelom rokov 2017 a 2018 privítal hlasovú syntézu na celkom novej úrovni. Google predstavil svoj nový systém Tacotron 2, ktorý v kombinácii s WaveNet začal dosahovať MOS skór 4,53. Vzhľadom na skóre ľudskej reči, ktoré je na úrovni 4,58, to v praxi to znamená, že hlasová syntéza začala byť prakticky na nerozpoznanie od človeka. Chcete si to vyskúšať? Nech sa páči.

Jedna ukážka z každého páru je čítaná človekom, druhá je v jeho hlase plne generovaná neurónovými sieťami Tecatron2/WaveNet. Ktorá je ale ktorá? Čo je nahratý hlas mikrofónom a čo syntéza?

Chcete poznať odpoveď? Chcete nutne vedieť, ktorá ukážka je tá falošná, umelá a imitátorská? Alebo je vhodné filozoficky odpovedať slovami pokročilého androida zo sci-fi seriálu Westworld: „ak nedokážeš spoznať rozdiel, záleží vôbec na tom?

Význam originálu a kópie sa stráca, ak si človek ani neuvedomí, že počuje stroj. Peknú demonštráciu tohto faktu môžete vidieť na videu, pochádzajúcom z aktuálnej májovej konferencie I/O 2018 Googlu. Google Asistent, na telefóne s Androidom, vykoná požiadavku svojho používateľa na objednanie ostrihania u holiča tak, že do salónu fyzicky zavolá a dohovorom zarezervuje konkrétny čas.

Vidíme tu v praxi vrcholové použitie neurónovej siete na rozpoznávanie hlasu (protistrany), analýzu vetnej skladby a takisto špičkovú neurónovú syntézu hlasu. Tieto výsledky, vyplývajúce z prác tímu Google DeepMind, nemajú vo svete obdobu a Google je o krok napred pred všetkou konkurenciou.

Vývoj tu však nekončil. Aj keď je aktuálny výstup produkovaný neurónovými sieťami takmer dokonalý a na nerozpoznanie od človeka, stále má mnohé slabiny. Ide predovšetkým o veľkú podobnosť a strojenosť výstupu. Ak sa asistenta spýtate na rovnaké otázky, jeho odpovede budú znieť neustále rovnako. Na drobnú variabilitu v hlase, akú má človek pri opakovaní tých istých viet, môžete zabudnúť.

Vypočujte si tieto dve ukážky. Tak ako v predošlej trojici prípadov, aj tu je prvá ukážka ľudská a druhá syntetizovaná (v príklade vyššie sú syntetizované čísla 2, 3 a 5). V tomto prípade ale už rozdiel zrejme spoznáte, pričom tým faktorom je intonácia, ktorú ste už viackrát pri syntéze počuli.

Aby systém hlasovej syntézy dokázal človeka napodobiť úplne dokonale, musí sa naučiť používať expresívne faktory reči vo veľkom rozsahu, pričom intonácia, dôraz a rytmus čítania musí byť variabilný.

Ešte donedávna aj tie najlepšie systémy používajúce neurónové siete nedokázali precízne kontrolovať to, ako má reč citovo znieť. Výsledkom je monotónny a citovo opakujúci sa prejav a to aj napriek tomu, že sú trénované na zdrojoch, ktoré ich obsahuje (napríklad čítanie audio kníh).

Google však v tomto smere napreduje rýchlym tempom a čerstvý pokrok práve v tomto smere sme mohli vidieť na dvoch vedeckých publikáciách z marca tohto roku (1, 2). V rámci nich môžeme počuť masívny pokrok pri generovaní umelých prízvukov a predovšetkým celkom novú pokročilú reprezentáciu dôrazu na jednotlivé slová.

Na prvom súbore môžete počuť štandardný syntetický výstup z neurónovej siete Tecatron/WaveNet. Druhý zvukový súbor je precítená intonačná ukážka, ktorú prečítal skutočný človek a tretím súborom je pokus neurónovej siete túto intonáciu zopakovať. Ide o vetu I’ve Swallowed a Pollywog (prehltla som žubrienku), čítanú z knižky, pričom to, ako veľmi sa jej to podarilo, je vskutku impozantné.

Ďalšiu ukážku, tentoraz s vetou Quick as he himself thought, he was to keep the batsman on toes, môžete počuť v tom istom poradí. Tu je pri tom veľmi zaujímavé, že emócie a intonácia bola vyextrahovaná od ženy s indickým prízvukom. Neurónovej sieti to však nevadilo a svoju reč upravila celkom správne.

Tieto zmeny intonácie je možné použiť aj na manipuláciu s tým, ako veľký dôraz používa neurónová sieť pri syntéze konkrétnych slov. Pozrite sa napríklad ako číta vetu The buses aren’t the problem, they actually provide a solution (Autobusy nie sú problémom, v skutočnosti poskytujú jeho riešenie) a ako sa jej prejav zmení, ak ju požiadame o lepší dôraz na slová autobusy a riešenie – The buses aren’t the PROBLEM, they actually provide a SOLUTION.”

Čo tento obrovský pokrok vlastne znamená a ako nás ovplyvní v nadchádzajúcich rokoch?

Plynulá a rýchla duplikácia konkrétneho hlasu už je takmer tu

Aktuálne špičkové výsledky v súvislosti s kopírovaním intonácie a citu sa v súčasnej podobe ešte nedajú generovať v reálnom čase. Podobná vec ale platila aj pri prvých demonštráciách výsledkov siete WaveNet z prelomu rokov 2016/2017, pričom pokrok v algoritmoch behom pár mesiacov umožnil, že Google technológiu zaviedol do svojho asistenta už o rok neskôr, na konci minulého roku. Je teda možné, že aktuálne špičkové výsledky vývojového tímu DeepMind sa objavia integrované v produktoch už niekedy začiatkom roku 2019.

To, že hlasová syntéza bude na nerozpoznanie od hlasu človeka však nie je konečnou hranicou. Dnešné systémy vyžadujú tréning na veľkej databáze nahratých zvukov hlasu konkrétnej osoby (desiatky či stovky hodín). A táto hranica v nasledujúcich rokoch bude postupne padať. Novým systémom bude stačiť na tréning čoraz menej času a jedného dňa budú môcť imitovať hlas konkrétnej osoby už na základe malého množstva zdrojových ukážok.

Tieto pokusy dnes napríklad vykonáva čínsky ekvivalent Googlu, Baidu. Jeho vývojový tím vedie významný vývojár neurónových sietí Andrew Ng Yan-tak, profesor Stanfordovej univerzity, ktorý má pod palcom vývojársku odnož Baidu sídliacu v Silicon Valley. Ide o projekt Deep Voice, ktorý sa v marci tohto roku pochválil s úctyhodnými výsledkami založenými na necelých 7 minútach audio záznamu.

Vľavo je veta vyslovená konkrétnym človekom, vpravo odlišná syntetizovaná veta od umelej inteligencie, ktorá sa snažila daný hlas napodobiť. Hlas znie nepríjemne roboticky, avšak podobnosť je jasne badateľná (robotický je ale aj priamy výstup zo rekurentnej neurónovej siete Tecatron od Googlu, pričom až následne ho vyhladzuje do prirodzenej podoby konvolučná neurónová sieť WaveNet). To, že tak dobrý zvukový výsledok je vyprodukovaný na základe necelých 7 minút počutia je však celkom úžasný fakt a naznačuje nám to, že kompletná kópia akéhokoľvek hlasu bude môcť byť vykonateľná na počkanie už behom niekoľkých nasledujúcich rokov.

Čo to v praxi bude znamenať? Napríklad to, že o pár rokov bude možné napríklad to, aby dnes dávno mŕtvi speváci znovu ožili a spievali do rádia celkom nové pesničky tak ako zamlada. To však nie je všetko. Čo tak ak syntetizátoru poskytnete hlas vášho zosnulého partnera, rodiča či priateľa, ktorého máte nahratého na pár videách a následne sa už s vami bude virtuálny asistent rozprávať práve týmto hlasom?

Čím lepšie a rýchlejšie tieto systémy budú, tým bude efektívnejšie ich trénovať na menej rozšírené jazyky, ako je aj slovenčina. Tento pokrok má pravdaže aj negatívnu stránku, ktorej sa podrobnejšie venujem v článku Svet bez video a audiodôkazu je za dverami, ktorý nájdete v májovom vydaní nášho časopisu.

Tak či onak, pokrok, ktorý sa udial v syntéze hlasu za posledné dva roky, je skoro až neuveriteľný. Mechanizmy umelej inteligencie, konkrétne systémy hlbokého učenia, založené na neurónových sieťach, nám dnes dovoľujú prelamovať hranice, o ktorých sme snívali celé storočie.

Nedeľník TOUCHIT hľadajte na našom webe ako inak než v nedeľu. Ak ste predchádzajúce zmeškali, nájdete ich všetky pod rovnomenným kľúčovým slovom.

František Urban

František Urban
Zameriavam sa najmä na prehľadové a analytické články z oblasti najrôznejších technológií a ich vývoja. Nájdete ma takisto pri diagnostike HW a SW problémov.

Máte pripomienku alebo otázku k článku? Napíšte nám na redakcia@touchit.sk alebo priamo autorovi článku. Ďakujeme.