Veľké jazykové modely menia svet. Disponujú nielen schopnosťou spracovať prirodzený jazyk, generovať obsah, ale dokážu takisto do určitej miery porozumieť informáciám a simulovať interakciu podobnú tej ľudskej.

Spoločnosť Seznam.cz sa dlhodobo venuje strojovému učeniu a vytvorenie vlastného veľkého jazykového modelu bolo preto jasným strategickým krokom. Pre všetky služby Seznamu sú nové technológie obrovskou príležitosťou, ktorú chce česká internetová jednotka rozhodne využiť.

Prečo mať vlastný jazykový model?

Vlastný jazykový model ponúka hneď niekoľko kľúčových výhod. V prvom rade sa nemusíte spoliehať na konkurenčné komerčné modely, ktoré aj v prípade češtiny pokrivkávajú. Máte vlastný model so stabilným jazykom. Okrem toho je pre Seznam dôležité, aby u neho boli dáta používateľov v bezpečí. Firma sa nechce spoliehať na externé modely a zdieľať informácie o používateľoch s tretími stranami vo väčšej miere, než je to nevyhnutné.

Medzi výhody patrí aj to, že vlastný jazykový model budú môcť vývojári v Sezname upravovať na mieru podľa špecifických zadaní. Pre firmu teda vlastný jazykový model predstavuje cenné aktívum. „Naším cieľom je mať čo najskôr k dispozícii interne prevádzkovaný model, ktorý bude vedieť chatovať, sumarizovať a extrahovať informácie z textu. Celkovo pre produkčné riešenie definujeme sedem zručností, pre ktoré modely testujeme a optimalizujeme“, dopĺňa k motivácii vyvíjať vlastné riešenia Diana Hlaváčová, produktová manažérka veľkých jazykových modelov v Sezname. 

Ako prebieha vývoj vlastného jazykového modelu?

Pre vývoj modelu sú kľúčové dáta, ktoré definujú jeho použitie na konkrétnych službách. „S tým, ako bude LLM tím počas roka vydávať lepšie modely, bude možné postupne nahrádzať nákladné prototypové použitie externého OpenAI API pomocou našej technológie. Na to vzniká podporný nástroj, ktorý ponúkne jednotné LLM API a umožní experimenty s rôznymi jazykovými modelmi a dátami zo Seznamu. Interne už teraz pracujeme s modelom, ktorý je v češtine dokonca mierne lepší ako GPT3.5. Pred spustením pre používateľov však musíme ešte optimalizovať jeho prevádzku,“ hovorí Diana Hlaváčová.

Ako sa s jazykovým modelom v Sezname pracuje?

V Sezname pracujú na tom, aby sa v ich vyhľadávaní zobrazovali čo najlepšie výsledky. Nasadzujú úpravy, ktoré relevanciu organického hľadania zlepšujú. A práve jazykové modely sú v tomto ohľade veľkou pomocou. Napríklad jednou z funkcií, ktorej sa vo vyhľadávaní nedávno venovali, je okrem detekcie času a lokalít aj detekcia mien, priezvisk a osôb (osobností) v otázkach či textoch. Úloha, ktorú model rieši, sa nazýva detekcia mennej entity (Named entity recognition) a po doučení na vhodných príkladoch je rozšíriteľná na ďalšie typy entít.

Martin Lohner, produktový manažér reklamných systémov na Skliku, skúša pomocou jazykových modelov nachádzať nové príležitosti pre automatizáciu inzercie, od samotného začiatku až po výdaj reklamného oznámenia. „Uvažujeme, že jazykový model by nám pomohol vytvoriť inzeráty na základe cieľovej stránky, na ktorú inzerát odkazuje. V súčasnosti vznikajú inzeráty tak, že si ich každý inzerent musí vytvoriť sám, a nielen inzeráty, aj všetky tzv. kľúčové slová, ktoré sa potom porovnávajú s otázkou v nejakom type zhody,“ vysvetľuje Martin Lohner. „V tzv. experimentoch sa potom pokúšame inzeráty pomocou jazykových modelov nielen vytvárať, ale tie súčasné – písané človekom – aj ďalej vylepšovať.“ Ďalším využitím jazykového modelu je potom proces overenia, či inzerát vôbec spĺňa podmienky na zaradenie do systému.

Martin Lohner
Martin Lohner

Martin Lohner ďalej dopĺňa: „Ako ukážku súčasných technických možností vnímame jazykový model GPT. Cieľom je však práve mať vlastný jazykový model, ktorý by nám pomohol zvládať vyššie uvedené úlohy. Tie vedú jednak k zvýšeniu efektivity pri interných procesoch (napr. spomínaná kontrola), ale taktiež k nejakej automatizácii práce, ktorú musí teraz robiť inzerent (vytvorenie inzerátu a kľúčových slov).“

Bez ľudí to veru nejde

Tím, ktorý stojí za prípravou veľkého jazykového modelu (LLM) v Sezname, je rozdelený do troch oblastí: výskum, produkt a vývoj. Spoločným cieľom je, aby mal model výbornú češtinu a čo najlepšie fungoval na úlohách špecifických pre Seznam. Navyše je zásadné, aby bol použiteľný naprieč všetkými službami v Sezname. V súčasnosti sa intenzívne pracuje na prototype, ktorý bude stabilný a rýchly. Pre úspech projektu je dôležitý čas a zázemie, ale hlavne kvalitní a skúsení vývojári. Posily do tímu, ktorý sa bude podieľať na tvorbe najlepšieho českého generatívneho jazykového modelu a formovať tak históriu, sa neustále hľadajú, a to aj na Slovensku.

Pre slovenské pobočky v Bratislave a Žiline v súčasnosti pracuje zhruba 30 ľudí. Aktuálne voľné pozície si záujemcovia z Česka aj Slovenska môžu pozrieť na kariérnych stránkach Seznam.cz.

Zdroje: Seznam.cz

Prečítajte si tiež