Apple только что поймали на обучении ИИ на видео на YouTube без согласия

Как опытный исследователь с более чем двадцатилетним опытом работы в технологической отрасли, я стал свидетелем быстрого развития искусственного интеллекта и его влияния на нашу повседневную жизнь. Однако недавние события, связанные с использованием контента, защищенного авторским правом, для обучения моделей ИИ, вызвали этические проблемы, которые я больше не могу игнорировать.

🧐

Купил акции по совету друга? А друг уже продал. Здесь мы учимся думать своей головой и читать отчётность, а не слушать советы.

Прочитать отчет 10-K

Как страстный поклонник технологической индустрии, я должен признать, что мне неприятно узнать, что Apple, пионера в области разработки генеративного искусственного интеллекта с богатой историей, почти такой же долгой, как и сама эта область, недавно была обвинена в извлечении контента, защищенного авторским правом, из социальных сетей для использовать при обучении своих систем искусственного интеллекта.

Недавнее исследование Proof News показывает, что Apple использовала расшифровки субтитров примерно 173 536 видеороликов YouTube для обучения своему искусственному интеллекту, вопреки явным запретам YouTube на несанкционированное использование данных. Однако эта практика не уникальна для Apple; Было также обнаружено, что Anthropic, Nvidia и Salesforce используют такие данные без разрешения.

Я большой поклонник обширного и интригующего набора данных по субтитрам YouTube! Эта сокровищница содержит стенограммы более чем 48 000 каналов YouTube, начиная от уважаемых учреждений, таких как Академия Хана, Массачусетский технологический институт и Гарвард, и заканчивая известными СМИ, такими как The Wall Street Journal, NPR и BBC. Мало того, он также включает стенограммы популярных ночных шоу, таких как «Позднее шоу со Стивеном Колбертом», «Сегодня вечером на прошлой неделе с Джоном Оливером» и «Джимми Киммел в прямом эфире». Кроме того, в эту базу данных входят видео таких влиятельных лиц YouTube, как Маркес Браунли и MrBeast. Однако важно отметить, что некоторый контент, например видео некоторых влиятельных лиц YouTube и сторонников теории заговора, был добавлен без их явного разрешения.

В коллекции, собранной EleutherAI и называемой набором данных, отсутствуют видеофайлы, несмотря на наличие различных переводов на такие языки, как японский, немецкий и арабский. Сообщается, что EleutherAI получил эти данные из более крупного набора данных под названием Pile. Примечательно, что Pile изначально был создан некоммерческой организацией, которая черпала информацию не только из YouTube, но и из записей Европейского парламента и Википедии.

Bloomberg, Anthropic и Databricks использовали набор данных Pile для обучения модели, как было предложено в их соответствующих публикациях. По словам Дженнифер Мартинес, представителя Anthropic, в беседе с Proof News: «Стопка включает в себя незначительную часть субтитров YouTube». Что касается потенциальных нарушений условий обслуживания YouTube, мы должны обратиться к авторам The Pile за ответами.

Не вдаваясь в тонкости, споры вокруг компаний, занимающихся искусственным интеллектом, таких как Stability AI и Midjourney, использующих материалы из общедоступного Интернета, стали темой дискуссий с момента появления ChatGPT. Производители контента теперь предъявляют иск этим фирмам за предполагаемое несанкционированное использование их материалов, защищенных авторским правом. Аналогичным образом, Google, управляющая YouTube, прошлым летом столкнулась с двумя судебными исками, при этом компания утверждала, что эти судебные иски могут не только нанести вред ее сервисам, но и поставить под угрозу саму концепцию генеративного искусственного интеллекта.

Технический директор OpenAI не уверен, использовались ли видео YouTube для обучения Соры.

Я настоятельно рекомендую просмотреть все интервью WSJ с Мурати, чтобы получить исчерпывающие ответы на многие актуальные вопросы, касающиеся Соры. Вы можете найти его полностью на YouTube.

— Джоанна Стерн (@JoannaStern) 14 марта 2024 г.

Кроме того, стоит отметить, что эти компании, занимающиеся искусственным интеллектом, сталкиваются с проблемами при раскрытии источников своих обучающих данных. Во время интервью с Джоанной Стерн из The Wall Street Journal в марте 2024 года технический директор OpenAI Мира Мурати уклонилась от вопросов о том, использует ли ее компания видео с YouTube, Facebook и других социальных сетей для обучения моделей. Мурати отказался предоставить конкретную информацию об использованных данных.

В июле прошлого года Мустафа Сулейман, генеральный директор подразделения искусственного интеллекта Microsoft, выдвинул точку зрения, что любая информация, доступная в Интернете, подпадает под действие нематериального «социального соглашения» и может использоваться свободно.

«С 1990-х годов широко признано, что контент, доступный в открытой сети, может использоваться свободно и без разрешения для таких целей, как копирование, воссоздание и воспроизведение. Сулейман выразил эту точку зрения CNBC».

Смотрите также

2024-07-16 22:57