Google má nový model Gemini, ktorý prečíta texty nahlas
Nový hlasový model AI Gemini 3.1 Flash TTS prekonáva možnosti ElevenLabs V3.
Google vydal novinku zameranú na vytváranie hlasového výstupu, tzv. text-to-speech model s názvom Gemini 3.1 Flash TTS. Je zameraný na generovanie hovoreného slova v reálnom čase. Rozširuje doterajší model Gemini 2.5 TTS.
Uplatnenie nájde všade tam, kde vystačíte so syntetickým hlasom a potrebujete nízku latenciu spracovania, napríklad pri konverzáciách v reálnom čase, nielen pri predčítaní textov na základe textových vstupov. Použiť ho však môžete rôznymi spôsobmi.
Tón hlasu podľa opisu
Špecialitou je možnosť definovať, ako má hlas znieť. Stačí zadať text, ktorý má model prečítať a doplniť informácie, napríklad, že ide o knihu s napínavým dejom. Využitie nájde aj v kancelárskom prostredí, napríklad ako hlasový AI asistent. Vtedy zmeníte parametre a textovým zadaním doplníte, že má byť priateľský, s úsmevom a miestami energický.

Vďaka týmto možnostiam sa dá definovať nielen virtuálny AI asistent, ktorého môžete použiť vo svojich aplikáciách, ale vo výsledku aj štýl a jedinečnosť vášho hlasového avatara. Navyše môžete textové pokyny na úpravu hlasu vkladať priamo do textu a dosiahnuť tak, aby boli jednotlivé pasáže spracované s rôznou intonáciou.
Rôzne možnosti využitia nájdete v nástroji Google AI Studio. Aj keď sa dá použiť na prečítanie textu v AI rozhraní, primárne ide o službu dostupnú cez API.
Zdroj: Google
Prečítajte si aj:
Podobné články
Gemini teraz vytvorí celé dokumenty ako PDF, Word, Excel a iné
Samsung Galaxy Glasses prídu už čoskoro. Takto budú vyzerať
Google Fotky majú novú AI funkciu
Gemini od Googlu si nepamätá veci v slovenčine. Asi ide o dočasnú chybu
Ako naplánovať dovolenku cez Google AI?