Google ešte v roku 2014 kúpil britský projekt DeepMind, s ktorým neskôr dosiahol prelomové úspechy. Písali sme napríklad už o tom, ako porazil najlepšieho hráča Go na svete. Teraz sa rapídne zlepšuje v napodobovaní ľudskej reči.
Google používa dva typy syntetizovania reči. Prvým je konkatenačný prevod textu do reči, pri ktorom sú najprv zvuky, hlásky a slabiky nahrané človekom do databázy a z tej potom počítač skladá vety. Keďže sú zvuky nahrávané bez emócií, kontextu či intonácie, výsledok znie roboticky.
Druhý typ je parametrický, pri ktorom sú všetky informácie na generáciu dát uložené v parametroch modelu, a charakteristika výstupu môže byť ovplyvnená vstupnými údajmi. Táto metóda však zatiaľ funguje ako tak dobre s jazykmi ako je mandarínska čínština. Pri angličtine znie horšie, ako konkatenačná metóda.
WaveNet, čo je technológia spadajúca pod DeepMind, zlepšuje prirodzenosť syntetickej reči až o 50% a to oproti obom. WaveNet je plne konvolučná neurálna sieť, ktorá dokáže modifikovať čistú vlnovú dĺžku audio signálu jednu vzorku po druhej. Napríklad pri 16KHz zvuku modifikuje WaveNet 16000 zvukových vzoriek za sekundu, čím dosahuje prirodzenejší zvuk. Niekedy dokonca imituje aj zvuky ako dýchanie či pohyby úst, čím dokazuje svoju flexibilitu.
Momentálne je proces extrémne náročný na výpočtový výkon, takže v súčasnej forme nie je vhodný na komerčné použitie – napríklad v Google prekladači. Je však veľmi efektívny, pri slepých testoch na 500 ľuďoch, ktorým pustili 100 rôznych viet, dosiahla nová technológia o 50% lepšie výsledky ako predošlé technológie.
Autor: Pavol Ondruška
Zdroj: tomshardware.co.uk