20. apríla 2026 • 2m čítanie

Google má nový model Gemini, ktorý prečíta texty nahlas

Nový hlasový model AI Gemini 3.1 Flash TTS prekonáva možnosti ElevenLabs V3.

Google vydal novinku zameranú na vytváranie hlasového výstupu, tzv. text-to-speech model s názvom Gemini 3.1 Flash TTS. Je zameraný na generovanie hovoreného slova v reálnom čase. Rozširuje doterajší model Gemini 2.5 TTS.

Uplatnenie nájde všade tam, kde vystačíte so syntetickým hlasom a potrebujete nízku latenciu spracovania, napríklad pri konverzáciách v reálnom čase, nielen pri predčítaní textov na základe textových vstupov. Použiť ho však môžete rôznymi spôsobmi.

Tón hlasu podľa opisu

Špecialitou je možnosť definovať, ako má hlas znieť. Stačí zadať text, ktorý má model prečítať a doplniť informácie, napríklad, že ide o knihu s napínavým dejom. Využitie nájde aj v kancelárskom prostredí, napríklad ako hlasový AI asistent. Vtedy zmeníte parametre a textovým zadaním doplníte, že má byť priateľský, s úsmevom a miestami energický.

Vďaka týmto možnostiam sa dá definovať nielen virtuálny AI asistent, ktorého môžete použiť vo svojich aplikáciách, ale vo výsledku aj štýl a jedinečnosť vášho hlasového avatara. Navyše môžete textové pokyny na úpravu hlasu vkladať priamo do textu a dosiahnuť tak, aby boli jednotlivé pasáže spracované s rôznou intonáciou.

Rôzne možnosti využitia nájdete v nástroji Google AI Studio. Aj keď sa dá použiť na prečítanie textu v AI rozhraní, primárne ide o službu dostupnú cez API.

Zdroj: Google

Prečítajte si aj: