Chcete zabrániť umelej inteligencii zdieľať tajomstvá? Trénujte ju sami…

Spoločnosť MosaicML je jedna z tých, ktorá poskytuje bezpečnú platformu pre hostovanú AI.

A kým sa k tomu dostaneme jeden príklad: Divízia Device Solutions spoločnosti Samsung povolila 11. marca 2023 používanie ChatGPT zamestnancami. Vznikli vážne problémy. Správa v časopise The Economist Korea, uverejnená o necelé tri týždne neskôr, identifikovala tri prípady „úniku údajov“. Dvaja inžinieri používali ChatGPT na riešenie problémov s dôverným kódom a jeden vedúci pracovník ho použil na prepis stretnutia. Spoločnosť Samsung zmenila kurz a ihneď zakázala zamestnancom používať nielen ChatGPT, ale aj všetky externé generatívne AI.

Situácia spoločnosti Samsung ilustruje problém, ktorému v dnešnej dobe čelí každý, kto používa externé nástroje generatívnej AI založené na veľkom jazykovom modeli (LLM). Najvýkonnejšie nástroje AI dokážu „prehltnúť veľké kusy textu“ a rýchlo produkovať užitočné výsledky, ale táto vlastnosť môže veľmi ľahko viesť k úniku údajov.

„To môže byť v poriadku na osobné použitie, ale čo na firemné použitie? Predsa nemôžete si dovoliť iba tak jednoducho posielať všetky svoje údaje do OpenAI (teda na ich servery)“ hovorí Taleb Alashkar, technologický riaditeľ spoločnosti AlgoFace, ktorá sa zaoberá počítačovým videním, Taleb je aj spolupracovníkom v MIT Research.

Naivní používatelia „s ľahkosťou“ odovzdávajú AI súkromné údaje.

Problémy s ochranou osobných údajov generatívnej umelej inteligencie sa zužujú na dva kľúčové problémy.

Na umelú inteligenciu sa vzťahujú rovnaké predpisy o ochrane osobných údajov ako na iné technológie. K dočasnému zákazu ChatGPT zo strany Talianska došlo po bezpečnostnom incidente v marci 2023, ktorý umožnil používateľom vidieť históriu chatu iných používateľov. Tento problém by sa mohol týkať akejkoľvek technológie, ktorá uchováva údaje používateľov. Taliansko zrušilo svoj zákaz po tom, ako spoločnosť OpenAI pridala funkcie, ktoré používateľom poskytujú väčšiu kontrolu nad tým, ako sa ich údaje ukladajú a používajú.

AI však čelí ďalším jedinečným výzvam. Generatívne modely AI nie sú navrhnuté tak, aby reprodukovali tréningové údaje, a vo všeobecnosti nie sú schopné to urobiť v žiadnom konkrétnom prípade, ale nie je to nemožné. V článku s názvom „Extracting Training Data from Diffusion Models“ (Extrahovanie tréningových údajov z difúznych modelov), ktorý bol uverejnený v januári 2023, sa opisuje, ako stabilná difúzia dokáže generovať obrázky podobné obrázkom v tréningových údajoch. Žaloba Doe vs. GitHub obsahuje príklady kódu vygenerovaného nástrojom Github Copilot, poháňaným LLM od OpenAI, ktoré sa zhodujú s kódom nájdeným v tréningových údajoch.

Nuž a to vedie k obavám, že generatívna umelá inteligencia ovládaná treťou stranou by mohla neúmyselne vypustiť citlivé údaje, či už čiastočne alebo úplne. Niektoré nástroje generatívnej AI (vrátane ChatGPT) túto obavu ešte zhoršujú tým, že do svojho tréningového súboru zahŕňajú údaje používateľov. Organizáciám, ktoré sa obávajú o ochranu osobných údajov, neostávalo nič iné, ako zakázať ich používanie.

„Predstavte si poisťovňu, veľké banky, ministerstvo obrany alebo kliniku“ hovorí Alashkar a dodáva, že „každý CIO, CTO, bezpečnostný riaditeľ alebo manažér v spoločnosti má plné ruky práce s prezeraním týchto politík a osvedčených postupov. Myslím si, že väčšina zodpovedných spoločností je teraz veľmi zaneprázdnená snahou nájsť to správne bezpečné riešenie.“

Odpoveďou na súkromnú AI je efektívnosť

Problémy AI s ochranou osobných údajov majú zjavné riešenie. Spoločnosť či organizácia by mohla trénovať pomocou vlastných údajov (alebo údajov, ktoré získala prostriedkami spĺňajúcimi predpisy o ochrane osobných údajov) a nasadiť model na hardvér, ktorý vlastní a kontroluje. Toto zjavné riešenie však so sebou prináša jeden zjavne obrovský problém: je to neefektívne.
Proces školenia a nasadenia generatívneho modelu umelej inteligencie je nákladný a ťažko zvládnuteľný pre všetky organizácie okrem tých najskúsenejších a najlepšie financovaných.

„Keď začnete trénovať iba na 500 grafických procesoroch, veci sa pokazia. Musíte naozaj vedieť, čo robíte, a to sme urobili aj my a zabalili sme to do rozhrania,“ hovorí Naveen Rao, spoluzakladateľ a generálny riaditeľ spoločnosti MosaicML. Raova spoločnosť ponúka tretiu možnosť: hostovaný model umelej inteligencie, ktorý beží v bezpečnom prostredí MosaicML. Model možno ovládať prostredníctvom webového klienta, rozhrania príkazového riadka alebo jazyka Python.

„Je tu platforma, je tu model a vy si ponechávate svoje citlivé údaje. Trénujte svoj model a nechajte si svoje váhy modelu. Údaje zostávajú iba vo vašej internej sieti,“ vysvetľuje Julie Choi, šéfka marketingu a komunity spoločnosti MosaicML. Choiová hovorí, že spoločnosť spolupracuje s klientmi z finančného odvetvia a ďalšími, ktorí „skutočne investujú do vlastného duševného vlastníctva“.

Hostovaný prístup je rastúcim trendom

Spoločnosť Intel spolupracuje na súkromnom modeli AI pre Boston Consulting Group, IBM plánuje vstúpiť do tejto oblasti so službou Watsonx AI a existujúce služby ako Sagemaker od Amazonu a Azure ML od Microsoftu sa vyvíjajú v reakcii na dopyt.

Trénovanie hostovaného modelu umelej inteligencie je aj naďalej nákladné, zložité a časovo náročné, ale podstatne menej náročné ako samostatné riešenie. Spoločnosť MosaicML 5. mája 2023 oznámila, že za deväť a pol dňa a bez ľudského zásahu vycvičila model LLM s názvom MPT-7B za menej ako 200 000 amerických dolárov. Spoločnosť OpenAI nezverejňuje náklady na výcvik svojich modelov, ale odhady stanovujú náklady na výcvik GPT-3 na minimálne 4,6 milióna USD.

Nasadenie hostovaného modelu umelej inteligencie poskytuje organizáciám aj kontrolu nad otázkami, ktoré hraničia so súkromím, ako je napríklad dôvera a bezpečnosť. Choi hovorí, že aplikácia na „chat-ovanie o výžive“ sa obrátila na MosaicML po tom, ako zistila, že jej návrhy AI produkujú reakcie „hanobenia tuku“. Aplikácia, ktorá v tom čase používala konkurenčný LLM, nedokázala zabrániť nežiaducim reakciám, pretože nemala kontrolu nad tréningovými údajmi ani váhami používanými na doladenie jeho výstupu.

„Sme naozaj presvedčení, že pri vytváraní systémov umelej inteligencie je najdôležitejšia bezpečnosť a ochrana osobných údajov. Pretože v konečnom dôsledku AI je váš „urýchľovač“ a bude vycvičený na vašich údajoch, aby vám pomohol pri rozhodovaní,“ hovorí Choi.

Zdroj: Customer Stories (mosaicml.com)

Julo Kováč, peerIT