Согласно судебным документам, обнаруженным Ars Technica, Meta* массово использовала пиратские материалы для обучения своих языковых моделей. В ходе расследования всплыли десятки электронных писем между сотрудниками компании, обсуждающих загрузку огромных объемов нелегального контента.
В прошлом месяце выяснилось, что Meta получала данные для обучения ИИ из LibGen — крупной файлообменной базы, содержащей платные новости, академические статьи и книги. По данным обвинения, компания скачала более 80 терабайт данных с LibGen и другой "теневой библиотеки" Z-Library.
В электронных письмах сотрудники Meta неоднократно выражали обеспокоенность использованием LibGen. Один из исследователей предложил получать доступ к сервису только через VPN, а позже пошутил:
Скачивать торренты с корпоративного ноутбука как-то неправильно 😂.
Компания в итоге перешла в "скрытный режим", скачивая и раздавая торренты за пределами официальных серверов Facebook. Обвинение утверждает, что руководство Meta, включая Марка Цукерберга, знало об использовании пиратских материалов.
Интересная деталь: согласно переписке, сотрудники Meta полагали, что OpenAI также использует LibGen для обучения своих моделей, что создавало своего рода гонку вооружений в сфере ИИ.
Пока сложно сказать, чем кончится это дело. Но сам факт того, что ИИ обучается на основе человеческого труда миллиардов людей, при этом вся власть концентрируется в руках боссов техногигантов — вызывает слишком много параллелей с киберпанковой антиутиопией.
* — Meta признана в РФ экстремистской организацией и запрещена.