За последние несколько месяцев сторонники искусственного интеллекта (AI) начали вместе выдвигать предположение о растущем среди общественности убеждении, что мы приближаемся к развитию «общего искусственного интеллекта» (AGI). Это относится к цифровым агентам, способным соответствовать или превосходить человеческий уровень понимания и производительности в широком спектре когнитивных задач.
Говоря проще, предсказывается появление продвинутого ИИ-агента, способного выполнять независимую работу на уровне высокооплачиваемых профессионалов в ближайшие годы. Илон Маск считает, что к 2025 году ИИ может превзойти любого отдельного человека, а генеральный директор Anthropic Дарио Амодеи предполагает, что это произойдет до 2027 года. Однако оба согласны с тем, что такой ИИ потенциально сможет достичь успеха почти во всем, что делают люди к этим датам.
За последний год меня увлекла интригующая проблема, которая частично занимала внимание нескольких коллег по работе в Anthropic AI. Может ли Клод играть в Pokemon? Тред: — Anthropic (@AnthropicAI) 25 февраля 2025
В прошлом месяце Anthropic представил свой эксперимент «Claude играет в Pokemon», как значимый шаг к ожидаемому будущему искусственного общего интеллекта (AGI). Этот проект демонстрирует появление систем ИИ, которые не только достигают успеха через обучение, но и используют обобщенное рассуждение для более эффективного выполнения задач. Компания привлекла внимание, подчеркнув улучшенные способности к решению проблем у Claude 3.7 Sonnet, своей новейшей модели, которая продвинулась в классической RPG Game Boy таким образом, что предыдущим моделям было сложно достичь.
Предыдущие версии Claude, всего год назад, испытывали трудности с выходом за пределы начальной игровой области. Однако Клод 3.7 Сонет сумел значительно продвинуться вперед, накопив несколько знаков отличия Gym Badge при минимальном количестве действий внутри игры. Этот прогресс, по словам Антропока, был обусловлен ‘расширенным мышлением’ Claude 3.7 Sonnet, позволяющим стратегически планировать действия, помнить свои цели и адаптироваться в случае неудачи первоначальных стратегий — способностями, отсутствовавшими у предыдущих моделей. Эти навыки, согласно Anthropoc, необходимы не только для победы над пиксельными тренерами-лидерами, но и крайне важны для решения реальных задач.

Как поклонник могу признаться, что хотя Claude играет в Pokémon заметно продвинулся по сравнению с ранними моделями, он еще не достиг вершины полного освоения игры. За последние несколько недель бесчисленные зрители на Twitch стали свидетелями его пути, который часто сопровождался неудачами: повторными визитами уже исследованных городов, застреванием в скрытых уголках карты на длительные периоды времени или многократными взаимодействиями с бесполезными NPC. Даже во время продуманных пауз между ходами, когда зрителям удается наблюдать процесс симуляции рассуждения системы на экране, игровая производительность Claude все еще не достигает уровня человеческого мастерства, как это видно из этих примеров.
Удивительно наблюдать за тем, как Клод ошибается в игре, предназначенной для детей; возможно, это начало мощного компьютерного интеллекта. Однако текущие слабые результаты Клода в Покемоне могут предоставить ценные данные при нашей попытке разработать общий, человекоподобный искусственный интеллект.
Умный по-разному
Удивительно, насколько легко Клод может освоить правила Покемона. В отличие от систем ИИ, предназначенных для игр вроде Go и Dota 2, разработчики обычно снабжают свои алгоритмы основательным пониманием принципов игры и основных стратегий с самого начала, а также функцией, направляющей их к повышению эффективности. Однако Дэвид Херши, разработчик проекта в Anthropic, отмечает, что модель Клода, используемая для Покемона, не была специально адаптирована или доработана для игр такого рода; она представляла собой стандартную, обобщенную версию модели Клода.
Херши объяснил Арсу, что знания Клода о мире, включая информацию о видеоиграх, напоминают покемона. Например, если спросить Claude.ai о покемонах, он сможет определить, какой именно покемон имеется в виду по своим данным… Если задать специфические детали, например, количество значков гимна или личность первого тренера (Брока), он даст точные ответы на основе своего понимания общей структуры.

Как исследователь, я не только отслеживаю конкретные адреса оперативной памяти для данных игрового состояния, но и расшифровываю визуальный вывод игры аналогично тому, как это делает человек. Несмотря на то, что прогресс в обработке изображений с помощью ИИ значительно продвинулся, моему AI, Клоду, все еще трудно интерпретировать низкоразрешенные пиксельные миры скриншотов Game Boy так же интуитивно, как это сделал бы человек. Херши откровенно заметила: ‘Клод не особенно хорош в понимании того, что происходит на экране.’ Часто можно увидеть, как он пытается пройти сквозь стены.
Согласно Херши, он считает, что тренировочные данные для Клода могут не включать обширные текстовые описания объектов, напоминающих экраны Game Boy. Иными словами, если бы Клод играл в игру с более реалистичными визуальными эффектами, Херши полагает, что Клоду было бы легче видеть детали.
В интересном отклонении человеческого восприятия мы часто можем рассмотреть крошечные изображения размером восемь на восемь пикселей и определить детали, такие как ‘Это изображение показывает девочку с синими волосами’. Херши нашёл это удивительным в свете способности Клода узнавать людей на экране. Это объясняется тем, что люди обладают уникальным талантом переводить физический мир в цифровое понимание, подобно схватыванию идеи или концепции.
Несмотря на полное понимание визуальных эффектов экрана, Херши отметила, что Клод все еще может столкнуться с трудностями при навигации по 2D-окружениям, которые для человека кажутся легкими. ‘Мне довольно легко распознать здание как здание и понять, что я не могу пройти сквозь него,’ объяснила Херши. ‘Однако это оказывается весьма сложной задачей для Клода… Это забавно, потому что демонстрирует интеллект в уникальных формах.’

В областях, где игра больше опирается на текст, отметил Hershey, Клод обычно выделяется. Во время боя Клод быстро определяет неэффективность приемов электрических покемонов против каменных противников и сохраняет эту информацию для последующего использования. Он также обладает умением разрабатывать сложные стратегии боя, комбинируя несколько связанных знаний, иногда даже создавая долгосрочные планы по управлению командами различных существ для будущих сражений.
Я находил забавным, когда Клод показывал уровень понимания, превосходящий его возраст, в ситуациях, когда игровой текст намеренно вводящий в заблуждение или неполный. Например, есть задание на раннем этапе, которое заставляет вас искать Профессора Оука рядом, но его там нет на самом деле. Это было сбивающим с толку для меня как ребенка. Однако Клод обычно следовал той же последовательности действий; разговаривал со своей матерью, посещал лабораторию, понимал отсутствие Оука и затем демонстрировал способность мыслить независимо, говоря ‘Мне нужно разобраться во всем’. Такое поведение достаточно продвинутое, чтобы имитировать процесс обучения игре у человека, что предполагает высокий уровень сложности в программировании Клода.

По словам Херши, относительные сильные и слабые стороны при сравнении с «человекоподобной» производительностью указывают на текущий этап исследования ИИ в целом. В сущности, он считает, что существует общая черта среди этих моделей: мы изначально более эффективно развили возможности понимания текста, которые действительно сильнее. Но когда дело доходит до того, насколько хорошо эти модели могут понимать изображения, хотя улучшение происходит, они все еще немного отстают по сравнению с обработкой текста.
Не забывай меня.
Хершай отметил, что Клоду иногда сложно вспомнить информацию, которую он ранее изучил, не только в процессе обработки текста и изображений. Сейчас модель использует окно контекста размером 200 000 токенов, что означает, что она может сохранять лишь определенное количество связанной информации на любой момент времени. Когда накопленные знания системы превышают этот лимит, Клод проходит через сложный процесс обобщения для сжатия подробных записей о своем опыте обучения в краткие резюме, которые могут потерять некоторые тонкие детали.
Херши объяснил Херши, Клод может изо всех сил пытаться запомнить детали на продленные периоды и может не иметь четкого понимания того, что было предпринято. Иногда он может ошибочно удалять то, что не должно было быть удалено. Все, что не включено в базу знаний или резюме, будет удалено, поэтому важно рассмотреть, какую информацию вы хотите включить там.

Вместо игнорирования критически важной истории, что действительно представляет большую проблему для Клода – это непреднамеренное добавление ложных данных в его базу знаний. Подобно человеку, формирующему свои убеждения на основе фундаментально ошибочного основания, Клод может быть довольно упорным при признании ошибок в самосозданной базе знаний, которые искажают ход игры про покемонов.
Хершэй заявил: ‘Исторические записи часто принимаются без особого сомнения. Например, я наблюдал случай, когда система стала слишком уверенной в обнаружении выхода из Виридианского леса на определенных координатах. Вместо продолжения исследования она провела бесчисленные часы, обследуя маленькую область вокруг неверных координат, игнорируя другие задачи. Потребовалось значительное время для того, чтобы она наконец осознала свою ошибку.’
Несмотря на начальные трудности, Claude 3.7 Sonnet существенно превосходит предыдущие модели в своей способности проверять собственные предположения, экспериментировать с новыми подходами и контролировать эффективность множества стратегий на протяжении длительных периодов времени. Хершэ объяснила, что хотя модель может настойчиво пытаться выполнять одни и те же действия длительное время, она имеет тенденцию к пониманию ситуации и прошлых усилий, что часто приводит к прогрессу.
Мы довольно близко подошли к цели…
Херши находит увлекательным наблюдать за тем, как Клод играет в Покемона через многочисленные версии и перезапуски игры, так как развитие игры и стратегия могут существенно меняться от одного игрового сеанса к другому. Иногда Клод показывает способность строить хорошо структурированную стратегию, ведя подробные записи различных путей для исследования, согласно Хершу. Однако чаще всего Клод застревает или сталкивается с препятствиями из-за излишней уверенности в том, что найдет выход.
Вместо бесцельного блуждания или впадения в повторяющиеся циклы, как некоторые более ранние модели, Claude 3.7 Sonnet активно составляет план действий, отслеживает свои цели и корректирует свой подход, когда изначальные стратегии не работают эффективно.
B качестве исследователя я углубляюсь в оттачивание критически важных способностей для победы над цифровыми лидерами фитнеса, интересно, что те же самые навыки оказываются полезными при решении реальных жизненных задач.
Одним из существенных препятствий на пути улучшения текущей модели под названием Claude, как отметил Херши, является ее отсутствие самосознания. Кажется, что когда она генерирует хорошую стратегию, она может не распознать превосходство этой стратегии над другой, которую уже разработала ранее. Это сложная проблема для преодоления.
Тем не менее, Херши отметил потенциальные области для улучшения геймплея Pokémon в Клоде путём повышения способности модели интерпретировать скриншоты Game Boy. Он предложил, что с более точным пониманием содержимого экрана модель могла бы даже самостоятельно пройти игру. Однако он предупредил, что такая модель скорее всего будет лишь немного уступать человеческой производительности.
Проще говоря, расширение объёма доступной информации для будущих моделей Клода может позволить им «планировать на более длительные периоды и эффективнее поддерживать последовательность со временем», согласно объяснению Херши. По сути, улучшенные модели будут лучше справляться с вспоминанием и отслеживанием постоянных данных для достижения прогресса, предположил он.

Несмотря на ожидаемые улучшения в моделях ИИ, текущая производительность Клода в играх Покемон не создаёт впечатления, что он скоро принесёт волну искусственного интеллекта, похожего на человеческий, охватывающего всё. В действительности, даже Херши признает, что наблюдение за тем, как Клод 3.7 Сонет борется с Mt. Moon около 80 часов, может создать впечатление неопределённости в действиях модели.
Однако Херши продолжает изумляться тем, как новая модель рассуждений Клода иногда демонстрирует намек на самосознание и кажется понимает, что не работает оптимально и нужно изменить свой подход. Он объяснил: «Для этих AI-систем разрыв между ‘не может сделать вообще’ и ‘может кое-как делать» весьма значителен.» Он добавил: «Когда что-то может выполнять задачу хоть как-то, это обычно означает, что мы очень близки к тому, чтобы она могла превосходно с ней справляться.»
Смотрите также
- 7 лучших чехлов для Apple iPhone 16 Pro Max 2024 года
- Honor Magic 7 Pro против OnePlus 13: битва андроидов
- LG OLED55G4
- Обзор саундбара LG S95TR: наконец-то хорошо
- Разблокируйте DeepSeek: обойдите цензуру за 10 минут!
- Моторола Мото G35 5G
- Филипс 65OLED809
- Xiaomi 14T Pro против Xiaomi 13T Pro: стоит ли обновляться?
- Обзор Beyerdynamic DT 770 Pro X Limited Edition – 100 лет звука
- Моторола Мото G85 5G
2025-03-21 17:56