Meta trénovala AI modely na ukradnutých dátach.

Nebola by prvá a AI spoločnosti trénujú svoje modely na rôznych dátach, ktoré sa hýbu v akejsi sivej zóne alebo sú úplne za čiarou. Tréning modelu Llama bol založený na 81,7 TB dát z pirátskeho obsahu kníh na internete. Ide o informáciu podľa novej žaloby podanej na okresnom súde v Kalifornii.

Sieť torrent tvorená nezávislými uzlami (počítačmi ľudí) môže obsahovať aj nelegálny obsah. Takýto obsah si zobrala aj Meta a autorsky chránené diela vrátane zdrojov Z-Library a LibGen poslúžili na svoje účely s AI. Vyšetrovanie tohto prípadu potvrdili aj zamestnanci spoločnosti. Žalobu podali autori kníh, ktorí hovoria o nezákonnosti stiahnutia ich diel.

Z celkového počtu 81,7 TB dát sa uvádza, že minimálne 35,7 TB pochádzalo z vyššie uvedených stránok s knihami. Podľa interných emailov bolo použitie nezákonného obsahu „odobrené“ priamo Markom Zuckerbergom.

AI je nateraz ohromný biznis a vedia to všetky firmy, ktoré sa venujú vývoji modelov. DeepSeek mal tiež svoje kauzy a neuvádzal správne finančné odhady na tréning AI. Okrem toho sa hovorí, že na DeepSeek R1 bol použitý na trénovanie model od OpenAI. Viac o kauze aj o tom, ako používať DeepSeek, sa dozviete v týchto článkoch:

Zdroj: TweakTown.com

Prečítajte si aj:

Michal Reiter

Michal Reiter
Publikujem o dianí na internete, súkromí, bezpečnosti a testujem notebooky, smartfóny, audio produkty a ďalšie gadgety.

Máte pripomienku alebo otázku k článku? Napíšte nám na redakcia@touchit.sk alebo priamo autorovi článku. Ďakujeme.