Meta i Facebook

Meta miała trenować swój model sztucznej inteligencji na terabajtach spiraconych książek

07.02.2025
Redakcja
Czas czytania: 2 minut/y

Nowo ujawnione e-maile mają dostarczać twardych dowodów przeciwko Meta w sprawie dotyczącej praw autorskich podniesionej przez autorów książek. Twierdzą oni, że firma do której należy m.in. Facebook, nielegalnie trenowała swoje modele sztucznej inteligencji na kilkudziesięciu terabajtach spiraconych książek – podaje portal Ars Technica.

AI uczy się na spiraconych książkach

Jak czytamy na portalu „Ars Tecnica”, w zeszłym miesiącu Meta przyznała się do torrentowania dużego zbioru danych znanego jako LibGen, który zawiera dziesiątki milionów spiraconych książek w celu trenowania swojego modelu sztucznej inteligencji – MetaAI.

Szczegóły tego procederu były jednak niejasne aż do przedwczoraj, kiedy to po raz pierwszy upubliczniono e-maile firmy Meta dotyczące tej sprawy.

Nowe dowody wykazały, że Meta torrentowała co najmniej 81,7 terabajtów danych z wielu bibliotek cieni za pośrednictwem strony Anna’s Archive, w tym co najmniej 35,7 terabajtów danych z Z-Library i LibGen.

– czytamy w oświadczeniu sądowym autorów książek, którzy w innym miejscu dodają, że jeszcze wcześniej Meta miała pobrać 80,6 terabajtów danych z LibGen.

Torrentowanie to metoda wymiany plików w sieci P2P („równy z równym”), w której użytkownicy pobierają i udostępniają fragmenty danych bez centralnego serwera. Seeding oznacza udostępnianie pliku innym po jego pobraniu – im więcej seedów (osób udostępniających pełny plik), tym szybsze pobieranie. Pobieranie z torrentu bez jednoczesnego seedowania jest najczęściej niemożliwe.

Skala nielegalnego torrentowania przez Metę jest zdumiewająca

– twierdzą autorzy, podkreślając, że „w przeszłości znacznie mniejsze akty piractwa danych powodowały w USA dochodzenia karnego”.

Meta udostępniała spiracone książki?

Dowodem na torrentowanie (i seedowanie) przez Meta mają być wiadomości, jakie wymieniali ze sobą pracownicy tej firmy. W jednej z nich Nikolay Bashlykov, inżynier ds. badań w Meta, napisał, że:

Torrentowanie z firmowego laptopa nie jest w porządku

W tej samej wiadomości miał ponadto wyrazić „zaniepokojenie używaniem adresów IP Meta” do „pobierania pirackich treści za pośrednictwem torrentów”.

We wrześniu tego samego roku Bashlykov miał konsultować się bezpośrednio z zespołem prawnym i podkreślać w e-mailu, że „korzystanie z torrentów wiązałoby się z seedowaniem plików – tj. udostępnianiem treści na zewnątrz, co może być „prawnie nie w porządku”.

Autorzy twierdzą, że te e-maile dowodzą, że Meta wiedziała, że jest to „nielegalne” i zdecydowała się ukryć torrentowanie najlepiej jak potrafiła, pobierając i wysyłając terabajty danych z wielu „bibliotek cieni” jeszcze w kwietniu ubiegłego roku.

Mark Zuckerberg twierdzi, że nie był zaangażowany w decyzje dotyczące wykorzystania LibGen do trenowania modeli sztucznej inteligencji. W korespondencji pracowników Meta ma jednak padać stwierdzenie, że „decyzja o użyciu LibGen nastąpiła po wcześniejszej eskalacji do MZ”

Źródło: Ars Technica

Masz temat, o którym powinniśmy napisać? Skontaktuj się z nami!
Opisujemy ciekawe sprawy nadsyłane przez naszych czytelników. Napisz do nas, opisz dokładnie fakty i prześlij wraz z ewentualnymi załącznikami na adres: redakcja@pkb24.pl.
REKLAMA
REKLAMA