Meta trénovala AI modely na ukradnutých dátach.
Nebola by prvá a AI spoločnosti trénujú svoje modely na rôznych dátach, ktoré sa hýbu v akejsi sivej zóne alebo sú úplne za čiarou. Tréning modelu Llama bol založený na 81,7 TB dát z pirátskeho obsahu kníh na internete. Ide o informáciu podľa novej žaloby podanej na okresnom súde v Kalifornii.
Sieť torrent tvorená nezávislými uzlami (počítačmi ľudí) môže obsahovať aj nelegálny obsah. Takýto obsah si zobrala aj Meta a autorsky chránené diela vrátane zdrojov Z-Library a LibGen poslúžili na svoje účely s AI. Vyšetrovanie tohto prípadu potvrdili aj zamestnanci spoločnosti. Žalobu podali autori kníh, ktorí hovoria o nezákonnosti stiahnutia ich diel.
Z celkového počtu 81,7 TB dát sa uvádza, že minimálne 35,7 TB pochádzalo z vyššie uvedených stránok s knihami. Podľa interných emailov bolo použitie nezákonného obsahu „odobrené“ priamo Markom Zuckerbergom.
AI je nateraz ohromný biznis a vedia to všetky firmy, ktoré sa venujú vývoji modelov. DeepSeek mal tiež svoje kauzy a neuvádzal správne finančné odhady na tréning AI. Okrem toho sa hovorí, že na DeepSeek R1 bol použitý na trénovanie model od OpenAI. Viac o kauze aj o tom, ako používať DeepSeek, sa dozviete v týchto článkoch:
Zdroj: TweakTown.com
Prečítajte si aj: