19. mája 2026 • 2m čítanie

Gemma 4 od Googlu zrýchli generovanie textov

Google zlepšil model Gemma 4 o tzv. Multi-Token Prediction (MTP).

Novinka mení spôsob generovania textu pri AI modeloch a podľa firmy prináša vyšší výkon so zachovaním podobných hardvérových požiadaviek. Zmena je zaujímavá najmä pre vývojárov, ktorí prevádzkujú modely lokálne alebo ich integrujú do vlastných aplikácií. Nové možnosti a zaradenie modelov Gemma 4 sa objavuje aj Gemini CLI, avšak musíte byť zapojení do insider testovania, aby ste k nim získali prístup.

Čo nám to prinesie?

Bežné jazykové modely vytvárajú text po jednom tokene, teda po malých častiach slov alebo viet. Technológia Multi-Token Prediction umožňuje modelu generovať viac tokenov naraz. Výsledkom je rýchlejšie vytváranie odpovedí a nižšia latencia pri práci s AI. Dalo by sa povedať, že ich dostanete po vetách.

Google uvádza, že pri modeli Gemma 4 26B / Gemma 4 31B môže MTP zvýšiť rýchlosť generovania až približne o 1,5 až 2,5×, pričom závisí od konkrétneho hardvéru a typu úlohy. Tu konkrétne išlo o testovanie na hardvéri s kartou NVIDIA A100.

gemma 4 MTP Chart_Blog_Updated.width-1000.format-webp

Treba ale uviesť, že nejde len o jednoduché zrýchlenie. Model musí zároveň predvídať viac budúcich tokenov s dostatočnou presnosťou. Ak predikcia nie je správna, časť generovaného textu musí znovu upraviť a prepočítať. Navyše takéto výsledky dosiahnete len pri výkonných grafických kartách a tie má v počítači len málokto.

Google sprístupnil podporu MTP pre modely Gemma 4 cez vlastné vývojárske nástroje. Funkcia je dostupná v ekosystéme modelov Gemma, čo znamená, že vývojári ju môžu testovať aj na vlastných riešeniach mimo cloudu od Googlu.

Zatiaľ nie sú známe ďalšie poplatky. Začlenenie je ale podobné ako pri Codexe od OpenAI, kde už môžete využívať GPT-5.5 a používa sa spoplatnenie cez API alebo predplatného, ktoré máte.

Zdroj: Google

Prečítajte si aj: