57% Интернета, возможно, уже представляет собой отстой искусственного интеллекта

57% Интернета, возможно, уже представляет собой отстой искусственного интеллекта

Как давний пользователь Интернета и ценитель качественного контента, я должен признать, что в последнее время заметил сдвиг в качестве онлайн-информации. Такое ощущение, что мы проходим через море контента, созданного искусственным интеллектом, и это не только я — даже исследователи из Amazon Web Services бьют тревогу.


Оказывается, дело не только в вашем опыте: похоже, результаты онлайн-поиска становятся менее надежными. Исследователи из Amazon Web Services (AWS) обнаружили доказательства того, что примерно 57% информации, доступной сегодня в сети, либо сгенерировано искусственно, либо переведено с использованием алгоритма искусственного интеллекта.

В исследовательской работе под названием «Ошеломляющее количество Интернета переводится машинно: выводы из многостороннего параллелизма» предполагается, что за это явление в значительной степени ответственен дешевый машинный перевод, который преобразует один фрагмент контента на несколько языков. По мнению исследователей, на языках с меньшими ресурсами, где доступен машинный перевод, машинные многоязычные переводы составляют не только большую часть переведенного веб-контента, но и значительную часть общего контента на этих языках.

Кроме того, они обнаружили признаки предвзятости при выборе при сравнении типа контента, который автоматически переводится на разные языки, с контентом, написанным исключительно на одном языке. Авторы отметили, что этот многоязычный контент, как правило, короче, более предсказуем и охватывает разные темы по сравнению с одноязычным контентом.

Кроме того, поскольку все больше контента, созданного ИИ, наводняет Интернет, и мы все больше зависим от инструментов ИИ для изменения этого материала, может возникнуть проблема, называемая коллапсом модели, что негативно повлияет на результаты поиска в Интернете. Стоит отметить, что передовые модели искусственного интеллекта, такие как ChatGPT, Gemini и Claude, обучаются с использованием огромного количества данных, полученных с общедоступных веб-сайтов (независимо от того, нарушает ли это авторские права или нет). Если Интернет наполнен контентом, созданным ИИ, который часто является неточным, это может значительно снизить эффективность этих моделей.

Доктор Илья Шумайлов из Оксфордского университета объяснил Windows Central, что поразительно, как быстро модель может начать давать сбой и насколько сложно обнаружить этот сбой. Первоначально проблемы, как правило, возникают из-за недостаточно представленных наборов данных. Затем изменяется выходное разнообразие, и дисперсия уменьшается. В некоторых случаях может показаться, что наблюдается незначительное улучшение качества большинства данных, но за этим улучшением скрывается ухудшение качества недостаточно представленных данных. Коллапс модели может привести к существенным проблемам.

Как технический энтузиаст, я недавно наткнулся на интригующее исследование, в котором ученые анализировали влияние многоязычных переводов на распределение тем в английских предложениях. Для этого они заручились помощью профессиональных лингвистов, которые классифицировали 10 000 случайно выбранных предложений из различных категорий. Результаты были весьма поразительными!

Это предполагает предвзятость в том, какие данные переводятся на разные языки, поскольку они в значительной степени склонны к таким темам, как дискуссии и мнения.

Кроме того, исследование показало, что «переводы, включающие одновременно множество разных направлений, имеют тенденцию быть более низкого качества, зарабатывая на 6,2 меньше баллов по шкале оценки качества Comet по сравнению с двусторонними переводами». При анализе 100 таких разнонаправленных предложений (переведенных более чем на восемь языков) было обнаружено, что большая часть из них была создана контент-фабриками, где статьи считались низкокачественными, простыми в создании или требующими минимальных знаний и усилий.

Понятно, что генеральный директор OpenAI Сэм Альтман неоднократно подчеркивает сложность разработки таких инструментов, как ChatGPT, без неограниченного доступа к материалам, защищенным авторским правом, поскольку это имеет решающее значение для их создания.

Смотрите также

2024-09-10 00:57