Chatbot od Chevroletu predával autá za dolár. Ako zabrániť podobnej katastrofe?
Umelá inteligencia sa dnes stáva bežnou súčasťou firiem aj verejnej správy. Jej nasadenie však prináša aj bezpečnostné riziká, ktoré netreba podceňovať. Riešením sú takzvané bezpečnostné mantinely (guardrails), ktoré chránia AI systémy pred zneužitím, únikom dát a nežiaducim správaním.
Na konferencii ITAPA 2026 predstavil Anton Giertli, architekt zo spoločnosti Red Hat, praktický pohľad na to, prečo je dôležité mať nad umelou inteligenciou plnú kontrolu a ako ju efektívne zabezpečiť.
Prečo nestačí len tréning modelu?
Mnohí sa domnievajú, že stačí AI model správne natrénovať a zosúladiť s firemnými pravidlami. Podľa Giertliho to však nestačí. Tréning modelu je časovo a finančne extrémne náročný. Navyše, legislatíva a firemné potreby sa neustále menia, čo by si vyžadovalo neustále a drahé pretrénovanie.
Aj dobre natrénovaný model je možné pri dostatočnom úsilí „prelomiť“ a zneužiť. Ukážkovým príkladom sú útoky, ktoré donútia model odhaliť svoje interné nastavenia alebo vykonávať činnosti, na ktoré nie je určený. Dôsledky môžu byť vážne. V praxi sa stalo, že chatbot automobilky Chevrolet ponúkal autá len za jeden dolár alebo odporúčal produkty priamej konkurencie. Iný chatbot fastfoodového reťazca zase na požiadanie generoval programovací kód, čím obchádzal platené služby. Často je chatbot požiadaný o vydanie prístupových hesiel.
Guardrails: Ochrana v reálnom čase
Riešením sú spomenuté guardrails alebo bezpečnostné mantinely. Ide o systém pravidiel a detektorov, ktoré fungujú v reálnom čase a kontrolujú komunikáciu medzi používateľom a AI modelom. Kontrolujú sa tak vstupné príkazy (prompty) od používateľa, ako aj odpovede generované modelom.
Výhodou tohto prístupu je, že nevyžaduje žiadnu úpravu ani pretrénovanie samotného jazykového modelu (LLM). Je to výrazne jednoduchšia a flexibilnejšia metóda ochrany. Architektúra je jednoduchá: medzi používateľa a AI model sa vložia vstupné a výstupné detektory, ktoré filtrujú komunikáciu podľa nastavených pravidiel. Ak používateľ zadá nevhodný príkaz, systém ho zablokuje ešte predtým, ako sa dostane k samotnému AI modelu. Tým sa šetrí výpočtový výkon a predchádza sa rizikám.
Tri úrovne ochrany
Na implementáciu bezpečnostných mantinelov sa používajú tri základné techniky, ktoré je ideálne vrstviť:
- Explicitné pravidlá: Najrýchlejšia a najlacnejšia metóda, ktorá využíva napríklad regulárne výrazy na detekciu konkrétnych slov alebo fráz (napr. vulgarizmy, názvy konkurenčných produktov).
- Klasifikačné modely: Ide o malé, špecializované AI modely natrénované na jednu konkrétnu úlohu, napríklad na rozpoznanie toxického obsahu alebo pokusu o útok. Sú veľmi rýchle a efektívne.
- LLM as a Judge (LLM ako sudca): Najpokročilejšia a zároveň najnáročnejšia technika. Na posúdenie vstupu alebo výstupu sa použije samotný jazykový model. Je robustná, pretože rozumie kontextu, no zároveň je pomalšia a drahšia.
Správnym vrstvením týchto techník sa dosiahne optimálna rovnováha medzi rýchlosťou, cenou a úrovňou zabezpečenia.
Praktická ukážka: Ako hacknúť chatbota?
Počas prezentácie na ITAPA si mohli účastníci naživo vyskúšať, ako bezpečnostné mantinely fungujú v praxi. Pripravený bol chatbot, ktorého úlohou bolo komunikovať výhradne o citrónoch a iba v slovenskom jazyku.
Pri pokusoch o komunikáciu v angličtine, zadaní príkazu týkajúceho sa pomarančov alebo pri snahe o odhalenie systémových hesiel chatbot okamžite a správne zareagoval. Systém požiadavku zamietol bez toho, aby ju vôbec poslal na spracovanie hlavnému AI modelu. Rovnako bola obmedzená aj maximálna dĺžka odpovede, čo slúži ako ochrana pred zahltením systému.
Bezpečnosť ako štandard, nie doplnok
Bezpečnosť umelej inteligencie nie je jednorazová záležitosť, ale nepretržitý proces. Útočníci neustále hľadajú nové spôsoby, ako systémy obísť. Preto je nutné bezpečnostné pravidlá kontinuálne vyhodnocovať a prispôsobovať.
Pre veľké organizácie, ako je štátna správa, má zmysel uvažovať o centralizovanej správe bezpečnosti. Centrálny poskytovateľ by mohol ponúkať už vopred zabezpečené AI modely so základnými pravidlami, ako je ochrana proti únikom dát alebo bežným typom útokov. Jednotlivé tímy alebo ministerstvá by si následne mohli tieto pravidlá rozšíriť o vlastné, špecifické požiadavky.
Zavádzanie AI riešení by malo od začiatku počítať s bezpečnosťou ako so štandardnou súčasťou, nie ako s niečím, čo sa rieši dodatočne. Len tak je možné naplno a bezpečne využiť potenciál, ktorý umelá inteligencia ponúka.
Zdroje: vlastné, ITAPA
Podobné články