Сообщается, что Nvidia поймана на сборе данных искусственного интеллекта с Netflix и YouTube (снова)

Сообщается, что Nvidia поймана на сборе данных искусственного интеллекта с Netflix и YouTube (снова)

Как опытный наблюдатель, десятилетиями наблюдавший за развитием технологической индустрии, я должен сказать, что эта сага о Nvidia вызывает ощущение дежавю. Кажется, что грань между инновациями и этическими границами часто размыта, особенно когда речь идет о данных обучения ИИ.


Судя по разоблачению 404 Media, которое включает внутренние сообщения Slack, электронные письма и документы, полученные изданием, похоже, что Nvidia использует огромное количество обучающих данных каждый день — достаточно для визуального опыта на всю жизнь, как заявил Минг- Ю Лю, вице-президент по исследованиям Nvidia и руководитель проекта Cosmos, в электронном письме, отправленном в мае.

Сообщается, что анонимным бывшим сотрудникам Nvidia было поручено собрать видеоматериалы с таких платформ, как Netflix, YouTube и других, для создания обучающих данных для разнообразного спектра AI-решений компании. К ним относятся создатель виртуального мира Omniverse 3D от Nvidia, автономные транспортные системы и проект «цифрового человека».

Когда сотрудники поинтересовались правовым статусом «Проекта Космос», руководство ответило им, что они получили одобрение от высших эшелонов корпорации на использование указанного контента.

Проект стремился создать базовую модель, подобную Gemini 1.5, GPT-4 или Llama 3.1, «которая объединяет в себе моделирование переноса света, физику и интеллект в одном месте, чтобы разблокировать различные последующие приложения, критически важные для Nvidia».

Сообщается, что для выполнения этой задачи проект Cosmos использовал загрузчик видео с открытым исходным кодом, а также технологию машинного обучения для ротации IP-адресов, эффективно обходя попытки YouTube заблокировать его. Согласно электронным письмам, полученным 404, руководители проекта обсуждали возможность развертывания до 30 виртуальных машин на Amazon Web Services для ежедневной загрузки полнометражных и коротких видеороликов за около 80 лет.

Nvidia утверждает, что не нарушила никаких правил: «Мы ценим и поддерживаем права всех создателей. Мы считаем, что наши модели и исследования строго соответствуют как буквальным, так и философским аспектам закона об авторском праве». Представитель Nvidia сообщил об этом по электронной почте 404 Media. По сути, закон об авторском праве защищает конкретные выражения, но не факты, концепции, данные или информацию. Поэтому каждый имеет право узнать подобные подробности из другого источника и применить их для создания собственных выражений. Добросовестное использование также защищает право использовать произведение в преобразовательных целях, например, в обучении моделей.

Во многих случаях, в том числе в июле, Nvidia вместе со многими другими членами сообщества ИИ применяла стратегию сначала сбора данных (часто без явного разрешения), а затем, возможно, поиска прощения в своих усилиях по обучению ИИ. В этом случае Nvidia была замешана в нелегальном отчете по очистке видео вместе с Anthropic и Salesforce.

На выставке CES 2024 компания спровоцировала бурную онлайн-дискуссию, предоставив неясные ответы о методе обучения своего нового ИИ для игрового движка. Это побудило Nvidia еще раз подчеркнуть, что их инструменты разработаны с учетом коммерческой безопасности.

Смотрите также

2024-08-06 00:27