Создатели YouTube были удивлены, обнаружив, что Apple и другие компании обучали ИИ на своих видео

Как технический энтузиаст, который уже много лет внимательно следит за разработками в области искусственного интеллекта и машинного обучения, я нахожу недавний отчет о крупных технологических компаниях, использующих видео на YouTube без согласия для обучения своих моделей, абсолютно тревожным. Использование данных из The Pile, набора данных, собранного EleutherAI, поднимает серьезные этические вопросы относительно владения и контроля интеллектуальной собственности в открытой сети.

🧐

Купил акции по совету друга? А друг уже продал. Здесь мы учимся думать своей головой и читать отчётность, а не слушать советы.

Прочитать отчет 10-K

Недавний отчет, опубликованный в Proof News и Wired, показывает, что модели искусственного интеллекта, разработанные Apple, Salesforce, Anthropic и другими известными технологическими компаниями, вероятно, были обучены на более чем 40 000 видеороликах YouTube без одобрения создателей контента и, возможно, вопреки политике YouTube.

The companies trained their models in part by using «the Pile,» a collection by nonprofit EleutherAI that was put together as a way to offer a useful dataset to individuals or companies that don’t have the resources to compete with Big Tech, though it has also since been used by those bigger companies.

Будучи заядлым учеником, я постоянно расширяю свою базу знаний, собирая широкий спектр ресурсов. Стопка состоит из книг, статей Википедии и многого другого. Среди этих ресурсов — субтитры YouTube, которые я собрал с помощью API YouTube. Я собрал субтитры из более чем 173 536 видеороликов, разбросанных по более чем 48 000 каналов. Некоторые из этих каналов принадлежат известным пользователям YouTube, таким как MrBeast, PewDiePie и технический комментатор Маркес Браунли. Хотя X, Браунли, раскритиковал Apple за использование этого набора данных во время конкретного видео на его канале, он признал сложность возложения вины, поскольку Apple сама не собирала данные напрямую. По его собственным словам: [

Apple получила данные для своего ИИ от нескольких компаний

Один из них собрал тонны данных/расшифровок видео на YouTube, в том числе и моего

Технически Apple избегает здесь «вины», потому что не они собирают данные

Но эта проблема будет развиваться еще долгое время

Основываясь на моем обширном опыте работы в средствах массовой информации и журналистике, я могу с уверенностью сказать, что Ars Technica, бренд Condé Nast, предлагает богатый контент не только от своей команды, но и от других авторитетных брендов под эгидой Condé Nast, таких как Wired и The New. Йоркер. Это означает, что у вас будет доступ к разнообразным точкам зрения и высококачественному мультимедийному контенту, включая видео, созданные собственными силами и этими уважаемыми изданиями. Мой личный опыт показал мне, что отслеживание нескольких надежных источников новостей и обновлений технологий имеет важное значение для того, чтобы оставаться в курсе последних тенденций и разработок и быть в курсе последних тенденций и разработок.

По случайности одно из видео в наборе данных оказалось коротким фильмом, созданным Ars Technica, который содержал юмористический аспект: утверждалось, что его написал ИИ. Кроме того, в статье Proof News отмечалось, что эта модель была обучена с использованием клипов с изображением попугая. Это означает, что модели ИИ имитируют не только человеческую речь, но и других ИИ и даже попугаев.

С ростом распространенности контента, созданного искусственным интеллектом (ИИ), в Интернете станет сложнее собирать наборы обучающих данных для новых систем ИИ без включения материалов, ранее созданных ИИ.

To be clear, some of this is not new news. The Pile is often used and referenced in AI circles and has been known to be used by tech companies for training in the past. It has been cited in multiple lawsuits by intellectual property owners against AI and tech companies. Defendants in those lawsuits, including OpenAI, say that this kind of scraping is fair use. The lawsuits have not yet been resolved in court.

Вместо «Proof News провело небольшое расследование, чтобы выявить конкретные детали», вы можете сказать «Proof News провело углубленное расследование» или «Proof News тщательно изучило». Вместо «зашел так далеко, что создал инструмент, который можно использовать для поиска в куче отдельных видео или каналов», вы могли бы сказать: «разработал инструмент поиска, позволяющий пользователям находить определенные видео и каналы в базе данных».

Анализ подчеркивает эффективность процесса сбора данных и выявляет ограниченные возможности владельцев интеллектуальной собственности управлять использованием их творений, когда они доступны в Интернете.

Основываясь на моем обширном опыте в области науки о данных и машинном обучении, я могу сказать вам, что, хотя компании часто используют наборы данных для обучения конкурентных моделей, важно помнить, что это не всегда так. Например, за время работы в Apple я помню, что мы использовали определенный набор данных не для создания конкурентного контента, а скорее для исследовательских целей или улучшения таких функций, как автозаполнение на наших устройствах.

Реакция создателей

С несколькими создателями, в том числе Дэвидом Пакманом из «Шоу Дэвида Пакмана», Proof News связалась после того, как обнаружила, что их контент был включен в набор данных EleutherAI. Многие были ошеломлены этим открытием, а те, кто ответил, выступили с критикой в адрес EleutherAI и компаний, которые использовали его набор данных. Например, Дэвид Пакман выразил свое неодобрение:

Ко мне никто не обращался с просьбой использовать это, но для меня это больше, чем просто времяпрепровождение. Я вложил немало времени, финансов и труда своей команды в создание этого контента. Спрос стабильно высок.

Джулия Уолш, генеральный директор Complexly, курирует создание такого контента, как SciShow и другие образовательные проекты Хэнка и Джона Гринов.

Прискорбно узнать, что наши тщательно разработанные образовательные материалы были использованы без нашего разрешения.

Еще один момент, который следует учитывать, — противоречит ли извлечение данных из этого контента правилам YouTube, которые запрещают доступ к видео через «автоматизированные процессы». По словам Сида Блэка, основателя EleutherAI, он использовал сценарий для получения субтитров через API YouTube так же, как и в обычном веб-браузере.

Anthropic is one of the companies that has trained models on the dataset, and for its part, it claims there’s no violation here. Spokesperson Jennifer Martinez said:

The Pile включает в себя очень небольшую часть субтитров YouTube… Условия YouTube распространяются на прямое использование его платформы, что отличается от использования набора данных The Pile. Что касается потенциальных нарушений условий использования YouTube, нам придется направить вас к авторам The Pile.

Представитель Google сообщил Proof News, что Google на протяжении многих лет принимает меры для предотвращения несанкционированного сбора данных и злоупотреблений. Однако более подробного объяснения они не дали. Ранее компании, занимающиеся искусственным интеллектом и технологиями, сталкивались с обвинениями в использовании контента YouTube без согласия для обучения своих моделей. Ходят слухи, что OpenAI, организация, стоящая за ChatGPT и инструментом генерации видео Sora, использовала данные YouTube при разработке своей модели, хотя не все такие отчеты были проверены.

Во время интервью с Нилаем Пателем из The Verge генеральный директор Google Сундар Пичаи отметил, что использование видео YouTube для обучения модели Sora OpenAI противоречило бы политике YouTube. Важно отметить, что эта практика существенно отличается от доступа к субтитрам через API.

Смотрите также

2024-07-17 01:55