Meta miała trenować swój model sztucznej inteligencji na terabajtach spiraconych książek
Nowo ujawnione e-maile mają dostarczać twardych dowodów przeciwko Meta w sprawie dotyczącej praw autorskich podniesionej przez autorów książek. Twierdzą oni, że firma do której należy m.in. Facebook, nielegalnie trenowała swoje modele sztucznej inteligencji na kilkudziesięciu terabajtach spiraconych książek – podaje portal Ars Technica.
AI uczy się na spiraconych książkach
Jak czytamy na portalu „Ars Tecnica”, w zeszłym miesiącu Meta przyznała się do torrentowania dużego zbioru danych znanego jako LibGen, który zawiera dziesiątki milionów spiraconych książek w celu trenowania swojego modelu sztucznej inteligencji – MetaAI.
Szczegóły tego procederu były jednak niejasne aż do przedwczoraj, kiedy to po raz pierwszy upubliczniono e-maile firmy Meta dotyczące tej sprawy.
Nowe dowody wykazały, że Meta torrentowała co najmniej 81,7 terabajtów danych z wielu bibliotek cieni za pośrednictwem strony Anna’s Archive, w tym co najmniej 35,7 terabajtów danych z Z-Library i LibGen.
– czytamy w oświadczeniu sądowym autorów książek, którzy w innym miejscu dodają, że jeszcze wcześniej Meta miała pobrać 80,6 terabajtów danych z LibGen.
Torrentowanie to metoda wymiany plików w sieci P2P („równy z równym”), w której użytkownicy pobierają i udostępniają fragmenty danych bez centralnego serwera. Seeding oznacza udostępnianie pliku innym po jego pobraniu – im więcej seedów (osób udostępniających pełny plik), tym szybsze pobieranie. Pobieranie z torrentu bez jednoczesnego seedowania jest najczęściej niemożliwe.
Skala nielegalnego torrentowania przez Metę jest zdumiewająca
– twierdzą autorzy, podkreślając, że „w przeszłości znacznie mniejsze akty piractwa danych powodowały w USA dochodzenia karnego”.
Meta udostępniała spiracone książki?
Dowodem na torrentowanie (i seedowanie) przez Meta mają być wiadomości, jakie wymieniali ze sobą pracownicy tej firmy. W jednej z nich Nikolay Bashlykov, inżynier ds. badań w Meta, napisał, że:
Torrentowanie z firmowego laptopa nie jest w porządku
W tej samej wiadomości miał ponadto wyrazić „zaniepokojenie używaniem adresów IP Meta” do „pobierania pirackich treści za pośrednictwem torrentów”.
We wrześniu tego samego roku Bashlykov miał konsultować się bezpośrednio z zespołem prawnym i podkreślać w e-mailu, że „korzystanie z torrentów wiązałoby się z seedowaniem plików – tj. udostępnianiem treści na zewnątrz, co może być „prawnie nie w porządku”.
Autorzy twierdzą, że te e-maile dowodzą, że Meta wiedziała, że jest to „nielegalne” i zdecydowała się ukryć torrentowanie najlepiej jak potrafiła, pobierając i wysyłając terabajty danych z wielu „bibliotek cieni” jeszcze w kwietniu ubiegłego roku.
Mark Zuckerberg twierdzi, że nie był zaangażowany w decyzje dotyczące wykorzystania LibGen do trenowania modeli sztucznej inteligencji. W korespondencji pracowników Meta ma jednak padać stwierdzenie, że „decyzja o użyciu LibGen nastąpiła po wcześniejszej eskalacji do MZ”
Źródło: Ars Technica