Google má nový model Gemini, ktorý prečíta texty nahlas
Zdroj: Google
2m čítanie

Google má nový model Gemini, ktorý prečíta texty nahlas

Nový hlasový model AI Gemini 3.1 Flash TTS prekonáva možnosti ElevenLabs V3.

Google vydal novinku zameranú na vytváranie hlasového výstupu, tzv. text-to-speech model s názvom Gemini 3.1 Flash TTS. Je zameraný na generovanie hovoreného slova v reálnom čase. Rozširuje doterajší model Gemini 2.5 TTS.

Uplatnenie nájde všade tam, kde vystačíte so syntetickým hlasom a potrebujete nízku latenciu spracovania. Teda napríklad pri konverzáciách v reálnom čase, nielen predčítanie textov na základe textových vstupov. Použiť ho ale môžete rôznymi spôsobmi.

gemini-3.1-flash tts
Porovnanie s inými TTS modelmi
Zdroj: Google

Tón hlasu podľa opisu

Špecialitou je definovanie, ako má hlas znieť. Stačí zadať text, ktorý má model prečítať a doplniť informácie napríklad o tom, že ide o knihu s napínavým dejom. Využitie nájdete aj v kancelárskom prostredí, napríklad ako hlasového AI asistenta. Vtedy zmeníte parametre a textovým zadaním doplníte, že má byť priateľský, s úsmevom a miestami energický.

gemini-3.1-flash tts
Zdroj: Google

Vďaka týmto možnostiam sa dá definovať nielen virtuálny AI asistent, ktorého môžete použiť vo svojich aplikáciách ale vo výsledku aj štýl a jedinečnosť vášho hlasového avatara. Navyše môžete textové príkazy na úpravu hlasu definovať priamo medzi textom a mať tak konkrétne pasáže textu spracované rôznou intonáciou hlasu.

Rôzne možnosti využitia nájdete v nástroji Google AI Studio. Aj keď sa dá použiť na prečítanie textu v AI rozhraní, primárne ide o službu dostupnú cez API.

Zdroj: Google

Prečítajte si aj: