Google má nový model Gemini, ktorý prečíta texty nahlas
Nový hlasový model AI Gemini 3.1 Flash TTS prekonáva možnosti ElevenLabs V3.
Google vydal novinku zameranú na vytváranie hlasového výstupu, tzv. text-to-speech model s názvom Gemini 3.1 Flash TTS. Je zameraný na generovanie hovoreného slova v reálnom čase. Rozširuje doterajší model Gemini 2.5 TTS.
Uplatnenie nájde všade tam, kde vystačíte so syntetickým hlasom a potrebujete nízku latenciu spracovania. Teda napríklad pri konverzáciách v reálnom čase, nielen predčítanie textov na základe textových vstupov. Použiť ho ale môžete rôznymi spôsobmi.
Tón hlasu podľa opisu
Špecialitou je definovanie, ako má hlas znieť. Stačí zadať text, ktorý má model prečítať a doplniť informácie napríklad o tom, že ide o knihu s napínavým dejom. Využitie nájdete aj v kancelárskom prostredí, napríklad ako hlasového AI asistenta. Vtedy zmeníte parametre a textovým zadaním doplníte, že má byť priateľský, s úsmevom a miestami energický.

Vďaka týmto možnostiam sa dá definovať nielen virtuálny AI asistent, ktorého môžete použiť vo svojich aplikáciách ale vo výsledku aj štýl a jedinečnosť vášho hlasového avatara. Navyše môžete textové príkazy na úpravu hlasu definovať priamo medzi textom a mať tak konkrétne pasáže textu spracované rôznou intonáciou hlasu.
Rôzne možnosti využitia nájdete v nástroji Google AI Studio. Aj keď sa dá použiť na prečítanie textu v AI rozhraní, primárne ide o službu dostupnú cez API.
Zdroj: Google
Prečítajte si aj:
Podobné články
Google Stitch AI navrhne web alebo mobilnú aplikáciu
Chcete použiť lokálnu AI? Zistite, ktorý model je pre váš počítač vhodný
Gemini pre Wear OS hodinky bude fungovať aj bez internetu
Google Gemma 4: K dispozícii sú nové AI modely od Googlu
Google Gemini čoskoro pridá ďalšiu aplikáciu. Už ju poznáte
Google Veo 3.1 Lite generuje AI videá o polovicu lacnejšie