Поисковым системам, не принадлежащим Google, запрещено показывать последние результаты Reddit


Как преданный исследователь с обширным опытом в области технологий и интернет-культуры, я считаю, что недавние события, касающиеся обновленной Политики контента Reddit и ее влияния на поисковые системы, не относящиеся к Google, вызывают глубокую обеспокоенность. Я провел бесчисленные часы, изучая различные онлайн-форумы и обсуждения, пытаясь раскрыть скрытые истины и разгадать сложные проблемы.


Обсуждения на Reddit больше не появляются в результатах поиска поисковых систем, не принадлежащих Google, из-за недавних изменений политики Reddit. Эти обновления запрещают веб-сканерам доступ к сайту, если они не соответствуют условиям Reddit, которые включают ограничение на использование контента Reddit для обучения ИИ без явного разрешения Reddit.

Я наткнулся на интригующую информацию от 404 Media. Они упомянули, что использование команды site:reddit.com в поисковых системах, отличных от Google, таких как Bing, DuckDuckGo и Mojeek, дает минимальные результаты Reddit за прошедшую неделю или вообще не дает их. Ars Technica также провела поиски и подтвердила эти выводы. Например, Brave может время от времени выдавать несколько результатов Reddit, но не так много, как Google по идентичным запросам (см. примеры здесь и здесь). Однако Kagi, платная поисковая система, которая получает свой индекс от Google и при этом умудряется отображать последние результаты Reddit, выделяется среди других.

По наблюдению 404 Media, Reddit использует протокол исключения роботов, чтобы запретить веб-сканерам доступ к его сайту, как указано в файле robots.txt. Reddit поддерживает открытый Интернет, но не одобряет злоупотребление общедоступным контентом. Утвержденные парсеры, например, из Интернет-архива и исследовательских институтов, получили разрешение Reddit на работу.

25 июня Reddit сообщил о предстоящих изменениях в файле robots.exclusion. До обновлений платформа выражала обеспокоенность по поводу увеличения количества коммерческих организаций, злоупотребляющих Reddit и утверждающих, что они освобождены от условий и политики сайта. Хуже того, эти организации использовали robots.txt, чтобы оправдать использование контента Reddit для любых целей, которые они выбрали.

В прошлом месяце Reddit предложил любому заслуживающему доверия человеку связаться с компанией напрямую через онлайн-форму для потенциального сотрудничества. Однако, по словам генерального директора Mojeek Колина Хейхерста, ранее он пытался связаться с Reddit после блокировки, но не получил от них ответа. Он упомянул, что с тех пор генеральный директор Reddit Стив Хаффман инициировал контакт.

Поисковая политика Google ужесточается

Google, в настоящее время доминирующая поисковая система, непреднамеренно усиливает свой контроль над поисковой индустрией благодаря недавней интеграции Reddit результатов поиска в реальном времени. Этот сдвиг происходит на фоне растущей обеспокоенности по поводу релевантности и качества результатов поиска Google, которые отдают предпочтение спам-фермам SEO и AI, рекламе и ссылкам на электронную коммерцию более актуальной информации. Кроме того, существуют опасения по поводу возможностей искусственного интеллекта Google.

В ответ на запрос о заявлении представитель Reddit Тим Ратшмидт упомянул в электронном письме, что Reddit ведет переговоры с несколькими компаниями, занимающимися поисковыми системами.

Некоторые люди отказались или не смогли предоставить обязательные обязательства относительно того, как они будут использовать контент Reddit, включая его применение в ИИ, что не позволяет нам прийти к соглашению со всеми ними.

Reddit занял твердую позицию против неограниченного использования своего контента для обучения ИИ после объявления об этом изменении политики, что привело к значительному увеличению платы за доступ к API, что привело к закрытию многочисленных сторонних приложений. Напротив, Reddit заключил с Google годовое соглашение на сумму 60 миллионов долларов, предоставляющее технологическому гиганту доступ к данным Reddit для целей обучения искусственному интеллекту. Первоначально ожидалось, что Reddit заключит аналогичное соглашение с Microsoft; однако, похоже, что обе стороны не смогли прийти к соглашению из-за различий в политике в отношении контента, особенно в отношении конфиденциальности пользователей и удаления контента.

Представитель Microsoft сказал мне: «Мы уважаем стандарт robots.txt».

Search Engine Land сообщила, что с 1 июля Bing прекратил сканирование Reddit после внедрения обновленного файла robots.txt Reddit, который запрещает любую активность сканирования на их сайте. В октябре газета Washington Post сообщила, что Reddit рассматривает возможность блокировки поисковых роботов Bing, если они не смогут достичь соглашения с Microsoft.

Согласно анализу 404 Media, Reddit указывает, что «поисковая реклама или реклама на веб-сайте» подпадают под коммерческое использование, за которое взимается плата, как указано в их руководстве по доступу к данным. Точная сумма, необходимая поисковым системам для очистки платформы, остается неясной. Однако Reddit открыт для сотрудничества как с крупными, так и с мелкими партнерами.

Он выразил обеспокоенность по поводу негативного воздействия на здоровье Интернета, когда коммерческие корпорации беспрепятственно собирают наш контент для таких целей, как обучение моделей искусственного интеллекта.

В настоящее время Google по-прежнему может полагаться на Reddit как на важный источник для повышения релевантности результатов поиска. Google отказался комментировать запрос Ars Technica по этому поводу.

Между тем, альтернативным поисковым системам может оказаться труднее конкурировать.

«По словам Хейхерста из Mojeek, пользователи могут находить на Reddit совершенно разные страницы при использовании внутренней системы ранжирования платформы по сравнению с поисковыми системами, такими как Google».

Генеральный директор отметил, что запрет на Reddit не является для него серьезной проблемой, но он обеспокоен потенциальными последствиями. Он пояснил: «Трафик из поисковых систем имеет решающее значение для большинства веб-сайтов, и если эта тенденция сохранится, поток посетителей будет постепенно сокращаться. Маленькие сайты, скорее всего, понесут на себе основную тяжесть этого, чем более крупные».

Смотрите также

2024-07-25 19:54