NVIDIA обвиняют в использовании пиратских книг для обучения моделей ИИ. Компания обратилась в Архив Анны
NVIDIA оказалась в центре скандала, связанного с методами обучения собственных моделей ИИ. Расширенная версия коллективного иска показывает, что компания не только использовала пиратские наборы данных, но и активно контактировала с крупнейшей в мире «теневой библиотекой» Anna’s Archive, чтобы получить доступ к сотням терабайт нелегальных материалов. Внутренние электронные письма сотрудников NVIDIA показывают, что компания полностью осознавала незаконность своих действий.
Конкурентное давление подтолкнуло NVIDIA к пиратству. Компания сознательно воспользовалась крупнейшей в мире библиотекой пиратских книг, чтобы получить преимущество в гонке ИИ.
Илон Маск требует от OpenAI и Microsoft 134 миллиарда долларов. Абсурдная математика или обоснованное утверждение?
Дело началось в марте 2024 года, когда писатели Абди Наземян, Брайан Кин и Стюарт О’Нан подали в суд на NVIDIA за использование их работ для обучения моделей семейств NeMo, Megatron, Retro-48B и InstructRetro. Авторы утверждали, что их книги вошли в коллекцию Books3, насчитывающую почти 200 000 экземпляров. пиратские электронные книги с сайта Bibliotik, которые затем были включены в большую коллекцию «The Pile». NVIDIA защищалась аргументом добросовестного использования, утверждая, что книги представляют собой лишь «статистическую корреляцию» для ее ИИ. Однако теперь просочившиеся документы рисуют совершенно иную картину.
Несмотря на миллиарды прибыли, Ericsson увольняет больше сотрудников. Швеция потеряет 1600 позиций
Согласно измененному иску, поданному в Окружной суд США Северного округа Калифорнии, член команды NVIDIA по стратегии данных напрямую связался с Архивом Анны, или так называемым «теневая библиотека» объединение ресурсов Z-Library, LibGen и Sci-Hub. Компания поинтересовалась условиями «быстрого доступа» примерно к 500 ТБ данных. «Архив Анны» потребовал десятки тысяч долларов за экспресс-доступ и четко предупредил, что его коллекции получены незаконным путем. Тем не менее, согласно документам, руководство NVIDIA «дало добро» уже через неделю после предупреждения. В иске не уточняется, была ли сделка завершена, но предполагается, что NVIDIA действительно получила доступ к материалам.
Управление по конкуренции и защите прав потребителей оштрафовало Заландо и Тему на 37 миллионов злотых. Системы представления цен на платформах не соответствовали требованиям Омнибусной директивы.
Авторы обвиняют NVIDIA в распространении скриптов и инструментов, позволяющих корпоративным клиентам автоматически загружать «The Pile», содержащую Books3. Это приводит к новым обвинениям в косвенном нарушении авторских прав. NVIDIA будет зарабатывать деньги, облегчая доступ к пиратским коллекциям. Дело приобретает более широкий контекст. С аналогичными обвинениями столкнулись Meta, OpenAI и Anthropic. В середине 2025 года суд отклонил часть обвинений против Меты, признав обучение ИИ добросовестным использованием, но в то же время в феврале этого года другое дело завершилось первым постановлением о том, что обучение ИИ не является добросовестным использованием. Таким образом, NVIDIA может столкнуться с прецедентным решением, тем более что имеющиеся данные свидетельствуют о сознательном и активном приобретении незаконных материалов, а не просто о пассивном использовании общедоступных наборов данных. Для пользователей технологий ИИ это потенциально означает увеличение стоимости лицензий на обучение и задержки в разработке последующих моделей.
Источник: CourtListener, Heise Online, TorrentFreak, PC Gamer.