Согласно расследованию 404 Media, компания Runway AI, разрабатывающая ИИ для генерации видео, предположительно использовала для обучения своих моделей огромную базу данных видео, незаконно скопированных с YouTube и других источников.
Runway AI — это стартап, оцениваемый в $1,5 млрд, получивший финансирование от таких гигантов, как Google и NVIDIA. Журналисты 404 Media обнаружили таблицу со списком YouTube-каналов крупнейших медиагрупп и контент-создателей, а также сайтов с пиратским контентом и ссылок на конкретные видео.
Анонимный источник сообщил изданию, что эта таблица была частью "общекорпоративных" усилий по сбору контента из интернета. При этом никакого разрешения компания не спрашивала.
https://twitter.com/Radio_poodle/status/1816487719780106731
По данным источника, работавшего в Runway, компания использовала таблицу для передачи данных в программу-кроулер, которая скачивала видео через прокси-серверы. В таблице содержались ссылки на YouTube-каналы Netflix, Disney, Sony, Pixar, Vice News и других известных медиакомпаний, а также популярных блогеров.
Сотрудников якобы просили отбирать видео по ключевым словам, фокусируясь на определенных типах контента. Видео также сортировались по тематике, например, анимационные короткометражки и студенческие фильмы.
Тестовые запросы 404 Media к Gen-3 генерировали контент, похожий на предположительно скопированные с YouTube видео — при этом издание отмечает, что модель перестала генерировать такие видео после обращения к Runway за комментарием.