Почему успех Pokemon от Google Gemini не такой впечатляющий, как кажется.

Ранее в этом году мы исследовали причины трудностей Anthropic с моделью Claude для обработки больших языков при игре в Pokémon Red (название изначально предназначалось для молодой аудитории). Несмотря на продолжающиеся попытки с использованием Claude 3.7, модель все еще не показала значительного улучшения после нескольких недель игры. Однако аналогичный эксперимент на Twitch с использованием модели Google Gemini 2.5 успешно завершил игру в Pokémon Blue за выходные, совершив примерно 106 тысяч игровых действий. Это достижение получило высокую оценку зрителей, включая генерального директора Google Сундара Пичаи.

Прежде чем рассматривать данное достижение как основу для сравнения производительности этих двух моделей искусственного интеллекта или отслеживания развития способностей LLM со временем, следует учитывать несколько критических моментов. Заметно, что Gemini не достигла своего окончательного успеха в игре Pokémon самостоятельно; на пути к победе она получила значительную внешнюю помощь.

Пристегнитесь к агенту

JoelZ, не связанный с Google, быстро объяснит, что Pokémon не является подходящим ориентиром для оценки моделей обучения языку (LLM). Он более подробно объясняет это в FAQ проекта Twitch, заявляя, что ‘неправильно рассматривать это как показатель того, насколько хорошо LLM могут играть в Pokémon’. Причина заключается в том, что Gemini и Claude имеют разные ресурсы и получают различную информацию. Кроме того, JoelZ подчеркивает ограничения фреймворка Claude, которые он хотел исследовать, наблюдая за прогрессом Gemini при предоставлении ему оптимальных инструментов.

В экспериментах по сравнению игровой механики Claude и Gemini в Pokémon, отличительные особенности их соответствующих ‘инструментов’ или фреймворков могут значительно способствовать пониманию того, почему одна модель работает лучше другой. Как поясняет Джулиан Брэдшоу из LessWrong в своем всеобъемлющем анализе, у Gemini есть преимущество благодаря специально разработанной

Поскольку эти игровые интерфейсы были созданы отдельно, они предлагают различные степени помощи в зависимости от стиля игры с покемонами. Например, оба стиля используют генерируемую оверлей для облегчения понимания грид-экранного отображения карты игры, но конструкция Gemini добавляет дополнительные подробности о том, какие плитки можно пересечь или маневрировать.

Как энтузиаст технологий, я вижу как дополнительная информация может изменить игру для Gemini в решении некоторых сложных навигационных задач, которые кажутся затруднительными для Claude. Это действительно захватывающе, так как это то, что мне легко понять — например, знать, что здание — это конструкция, через которую нельзя пройти — но, видимо, представляет собой вызов для Claude. Забавно наблюдать, насколько это умно спроектировано.

Говоря проще, в процессе игры Gemini получает упрощенную версию общей карты, которая отображается как мини-карта. Это помогает Gemini лучше ориентироваться в мире покемонов, предоставляя контекст за пределами текущего экрана. Однако JoelZ уточняет в своем FAQ, что такая дополнительная информация не считается ‘читерством’, поскольку современные системы ИИ вроде больших языковых моделей пока не могут самостоятельно создавать ментальные карты, подобно людям. Функция мини-карты предназначена для устранения этого пробела в способностях ИИ.

Проще говоря, основной модели Gemini, играющей в игру, иногда требуется помощь специализированных помощников Gemini, предназначенных для конкретных задач. Один из таких ассистентов использует метод поиска в ширину для обнаружения путей через сложные лабиринты. Другой сосредоточен на предложении решений для головоломки Боулдер в Victory Road.

В ходе выполнения своих заданий Гемини выполняет задачи, используя свою уникальную модель и мыслительный процесс. Однако стоит отметить, что ДжоэлЗ добавил специализированных агентов на базовую модель, чтобы эффективно преодолевать некоторые из самых сложных препятствий в игре. Как объясняет ДжоэлЗ: ‘Мои модификации улучшают общие навыки решения проблем и аналитические способности Гемини.’

Что мы здесь тестируем?

Позвольте уточнить, преобразование степени магистра права (LLM) в нечто способное выиграть игру о покемонах — безусловно достижение. Однако важно оценить степень необходимой помощи для поддержки Gemini с задачами, которые LLMS пока не могут выполнять самостоятельно, при оценке общего успеха этой попытки.

B то время как превращение LLM в машину-победительницу игр о покемонах впечатляет, помните, что может потребоваться значительная помощь, чтобы оно могло выполнить задачи, требующие самостоятельных действий со стороны человека, когда мы оцениваем его успех.

Хорошо известно, что продвинутые инструменты машинного обучения с подкреплением могут эффективно побеждать в покемонах, тогда как даже базовый генератор случайных чисел может справиться с этим неэффективно. Интерес к тому, чтобы «LLM играл в покемоны», заключается в определении того, способна ли универсальная языковая модель разработать собственную стратегию для решения сложной игры без посторонней помощи. Предоставление модели дополнительной поддержки в виде внешних данных, инструментов или инструкций снижает ценность игры как теста на самостоятельность.

Антропикс заявила в феврале, что игра Клода в Pokémon продемонстрировала, что системы ИИ проявляют «намеки на способности эффективнее справляться с задачами не только через обучение, но и благодаря общим навыкам решения проблем». Однако согласно Брэдшоу на LessWrong, эти модели испытывают значительные трудности даже при первой сцене игры, спальне Реда. Эта сложность была дополнительно подчеркнута во время тестов геймплея Брэдшоу без использования агента harness, так как модели часто блуждали бесцельно, возвращались по пройденным путям или представляли невозможные игровые сценарии.

Проще говоря, мы далеки от того момента, когда можно было бы поручить искусственному общему интеллекту самостоятельно играть и побеждать в покемонах.

Смотрите также

2025-05-05 21:25