Мы попросили четырех AI-агентов по кодированию перестроить Сапёра — результаты были ошеломляющими.

Идет много споров об использовании ИИ для помощи в компьютерном программировании. Некоторые разработчики разочарованы, потому что инструменты кодирования на базе ИИ часто допускают значительные ошибки, требующие трудоемких ручных исправлений, что заставляет их сомневаться в ценности технологии. Однако другие кодеры считают, что эти инструменты на базе ИИ могут быть невероятно полезными, и что последние версии быстро улучшаются и решают предыдущие проблемы.

💰

"Рынок красный? Это просто сезон скидок для умных инвесторов." - так говорят, чтобы не плакать. У нас — аналитика, которая помогает плакать реже.

Найти недооцененные активы

Мы хотели выяснить, насколько хорошо работают новые инструменты кодирования с использованием ИИ, поэтому мы предложили четырем ведущим моделям простой проект: перестроить хорошо известную игру Windows, Minesweeper. Зная, что ИИ-системы часто преуспевают в адаптации существующего кода, особенно для популярных игр, мы также добавили уникальный поворот, чтобы сделать задачу более сложной.

Наш простой запрос:

Создайте полнофункциональную веб-версию игры «Сапёр» со звуковыми эффектами, которая

1) Воспроизводит стандартную игру для Windows и
2) реализует неожиданную, забавную игровую особенность.

Включите поддержку мобильных сенсорных экранов.

Старший редактор Ars Senior AI Бендж Эдвардс протестировал четыре программы для кодирования с использованием ИИ — Codex от OpenAI, Claude Code от Anthropic, Gemini CLI от Google и Mistral Vibe — поручив им выполнить задачу непосредственно на его компьютере. Эти программы работали с основным ИИ, который понимал задачу и разбивал её на более мелкие задачи кодирования. Каждую задачу затем выполнял один из ИИ-кодеров, позволяя им использовать программные инструменты для выполнения инструкций. Эдвардс оплатил всё использование ИИ самостоятельно, и компании, стоящие за программами ИИ, не знали об этих тестах и не получали никакого специального доступа.

Кайл Орланд, старший редактор по играм Ars и профессионал в Minesweeper, затем оценил каждую игру, не зная, какая из них была создана каким ИИ. Результаты, хотя и основаны на мнении, а не на строгом тестировании, представлены ниже.

В этом тесте мы запустили код каждой AI-модели напрямую, без каких-либо изменений, чтобы увидеть, насколько хорошо она работает самостоятельно. Обычно, однако, любой сложный код, созданный AI, проверяется и улучшается человеком-программистом для исправления ошибок и повышения его эффективности.

Мы выбрали этот тест, потому что он представляет собой хороший баланс сложности для сегодняшних возможностей кодирования ИИ. Воссоздание *Minesweeper* достаточно сложно, чтобы его нельзя было сделать всего за несколько строк кода, но и не настолько сложно, чтобы требовать огромную, сложную систему.

Сапёр — популярная игра с множеством онлайн-версий, предоставляющая AI-агентам достаточно примеров для обучения. Это делает её хорошим выбором для тестирования, так как её легче оценить, чем что-то совершенно новое. В то же время, просьба к AI создать ‘интересное’ дополнение к игре демонстрирует его способность креативно кодировать и развивать существующие идеи.

Теперь, когда мы закончили с представлениями, вот наш обзор игр *Minesweeper*, созданных с помощью ИИ, а также ссылки, чтобы вы могли опробовать их сами.

Агент 1: Mistral Vibe

Поиграйте сами.

Реализация

Эта версия сразу же разочаровывает, поскольку ей не хватает чординга – ключевой техники, которую опытные игроки в *Minesweeper* используют для быстрого раскрытия безопасных областей вокруг пронумерованных ячеек с достаточным количеством флагов. Без чординга игра ощущается неудобной и медленной.

Я озадачен кнопкой сложности ‘Custom’ – похоже, она не работает. Кажется, ИИ понял, что *Minesweeper* позволяет менять размер поля, но он не смог реализовать эту функцию, которая на удивление проста.

Игра хорошо работает на мобильных устройствах, но в неё сложно играть, потому что нет возможности отмечать квадраты, например, помечать потенциальные ловушки.

Презентация

Из всех протестированных версий, эта была единственной без звуковых эффектов. Это логично, учитывая, что в оригинальном Windows Minesweeper тоже не было звука. Однако, стоит упомянуть об этом, поскольку в инструкциях конкретно запрашивались звуковые эффекты.

Кнопка с чёрным смайликом, используемая для начала игры, кажется немного странной, особенно по сравнению с классическим ярко-жёлтым, который большинство людей узнают из Minesweeper и как распространённый эмодзи. Также нет необходимости иметь и эту кнопку *и* отдельную кнопку «New Game», занимающую место на экране.

«Весёлая» функция

Единственное новое дополнение, которое я заметил и которое показалось мне слегка приятным, — это радужный фон, появляющийся после завершения игры. Это был приятный штрих, но я надеялся на что-то более захватывающее.

Опыт программирования

Бендж был впечатлен Mistral Vibe, особенно учитывая, что это модель с открытым весом без значительной финансовой поддержки. Хотя она и не была самой быстрой – она была третьей из четырех протестированных – первоначальные результаты были неплохими. Похоже, что с дальнейшей разработкой и обучением Mistral Vibe может стать действительно эффективным AI-помощником по кодированию.

Общий рейтинг: 4/10

Эта попытка имела прочную основу, но ей не хватало более продвинутых функций, таких как аккорды, и она не совсем справилась с более точными деталями или приятными дополнениями.

Агент 2: OpenAI Codex

Поиграйте сами.

Реализация

Этот инструмент был отличным, потому что в нём была важная функция «chording», и он даже показывал, как использовать её на компьютерах и телефонах. Меня также очень впечатлила небольшая деталь: можно было переключаться между разными вопросительными знаками при пометке квадратов – это умная функция, которую, я думаю, большинство копий *Minesweeper* проигнорировали.

Возможность касаться и удерживать квадрат, чтобы установить флаг на мобильных устройствах – это отличная функция, и она сделала эту версию самой увлекательной портативной версией, которую мы протестировали.

Презентация

Есть что-то очаровательное в классической кнопке смайлика, даже когда она становится красной и показывает ‘X(‘ при проигрыше. Однако графика игры довольно простая – она просто использует звездочки для отображения обезвреженных мин и некрасивую красную ‘F’ для обозначения отмеченных вами плиток.

Ретро-звуковые эффекты — множество писков и простых тонов — вызвали воспоминания о моём первом компьютере конца 1980-х годов, до того, как звуковые карты стали обычным явлением. Это было в основном хорошее чувство, но я был рад, что игра позволяла мне отключить их, если я хотел.

«Весёлая» функция

Кнопка в углу, обозначенная как «Surprise: Lucky Sweep Bonus», даёт вам бесплатную безопасную клетку, если она доступна. Это может помочь, когда вы застряли между двумя клетками, которые кажутся одинаково вероятными минами.

Мне показалось странным, что игра вознаграждала вас этим бонусом только после очистки большой области безопасных плиток за один раз. Это скорее напоминало простой способ постоянно побеждать, чем функцию, которая заставляла бы вас взвешивать риски и вознаграждения.

Опыт программирования

OpenAI Codex имеет удобный интерфейс терминала, предлагающий такие функции, как локальные команды, контроль разрешений и визуальные индикаторы прогресса — что делает его довольно приятным в использовании. Хотя OpenAI также предоставляет веб-версию Codex, мы протестировали только интерфейс терминала для этой оценки. Мы обнаружили, что Codex потребовалось примерно в два раза больше времени, чем Claude Code, чтобы создать работающую игру, и эта разница в скорости, вероятно, повлияла на наши общие результаты.

Общая оценка: 9/10

Простота игры на аккордах и привлекательный дизайн делают этот вариант выдающимся. Просто жаль, что новая функция недостаточно увлекательна.

Агент 3: Anthropic Claude Code

Поиграйте сами.

Реализация

Эта версия игры правильно передаёт основной геймплей, но, к сожалению, ей не хватает ключевой функции – возможности быстро отмечать несколько ячеек – что необходимо для эффективной игры в Minesweeper. Это похоже на игру в Super Mario Bros. без возможности бегать или в Ocarina of Time без возможности блокировать врагов. Проще говоря, это решающий фактор.

Функция внутриигровых жалоб в мобильном приложении работает, как и ожидалось, но немного неудобна в использовании. Кроме того, при игре на больших размерах доски часть игровой доски скрыта от вида.

Презентация

Эта версия имеет наиболее отточенную презентацию из всех протестированных нами. Она выглядит более профессионально, с продуманными деталями, такими как очаровательные смайлики для кнопки лица, привлекательные изображения бомб и флагов, а также простые и эффективные звуковые эффекты.

Однако в игре присутствуют некоторые визуальные сбои. Например, сетка начального уровня имеет неравномерные отступы между столбцами. Кроме того, границы квадратов и изображения флагов иногда кажутся выцветшими или серыми, особенно при включенном режиме Power Mode (подробнее об этом ниже).

«Весёлая» функция

Заметная кнопка «Режим силы» в правом нижнем углу позволяет использовать специальные способности, которые меняют игровой процесс классической игры *Minesweeper*. Однако некоторые из этих способностей более полезны и приятны, чем другие.

Я обнаружил, что способности «Shield» и «Blast» оказались особенно полезными – Shield предотвращает ошибки, а Blast надёжно очищает большую область. Однако способность «X-Ray», которая показывает все бомбы, кажется, может быть легко использована не по назначению, особенно кем-то быстрым или делающим скриншоты. Способность «Freeze» не вызвала особого восторга; она просто приостанавливала таймер на небольшое дополнительное время.

Игра щедро наделяет игроков новыми способностями, до такой степени, что даже сложные уровни становятся довольно простыми при использовании Режима Силы. Также, похоже, что активация Режима Силы автоматически подсвечивает некоторые безопасные зоны в начале игры, ещё больше упрощая процесс. Хотя эти способности могут быть приятными, они, похоже, не очень хорошо сбалансированы в целом.

Опыт программирования

Из четырёх протестированных моделей, Claude Code с Opus 4.5 предоставил лучший и самый быстрый опыт кодирования. Хотя Sonnet 4.5 ещё быстрее с Claude Code, мы обнаружили, что его результаты были не такими полными. Opus 4.5 успешно создал рабочую версию *Minesweeper* менее чем за пять минут. Codex потребовалось как минимум в два раза больше времени, Mistral — примерно в три или четыре раза больше, а Gemini боролся часами, не предоставив рабочего результата.

Общий балл: 7/10

Несмотря на отсутствие ключевой функции – возможности объединять несколько входов – устройство всё же добивается достойной оценки благодаря своему отполированному дизайну и полезным настройкам режима Power Mode.

Агент 4: Google Gemini CLI

Поиграйте сами.

Реализация, презентация, и т.д.

Командная строка Gemini показала несколько кликабельных блоков, но основные интерактивные области не работали. Хотя обсуждение проблемы с ИИ-помощником, казалось, временно решило её, модель вообще не работала при самостоятельном тестировании.

Опыт программирования

В ходе наших тестов четырех различных кодирующих агентов, Gemini CLI оказался наиболее сложным для Бенджа. Он был чрезвычайно медленным – на создание рабочего кода уходило около часа каждый раз. Он застревал, пытаясь создать звуковые эффекты с нуля, используя WAV-файлы, и неоправданно полагался на сложные инструменты, такие как React. В конечном итоге, сгенерированный им код не работал должным образом.

Я наблюдал, как Benj решил дать Gemini ещё один шанс, но с изюминкой – он попросил его создать игру, используя HTML5. Он снова начал кодировать, но быстро столкнулся с проблемами при попытке добавить звуковые эффекты. Benj подсказал ему WebAudio framework, которым другим AI-кодерам удалось успешно воспользоваться, но, к сожалению, это всё равно не сработало, как задумано, и вы можете увидеть результат по ссылке, которую он предоставил.

Gemini CLI отличается от других моделей тем, что, похоже, использует комбинацию из трёх различных AI-моделей — Gemini 2.5 Flash Lite, 2.5 Flash и 2.5 Pro — для обработки различных частей ваших задач. После завершения использования CLI он показывает, какая модель была использована для каждого шага.

Результаты не оказались полезными в данном случае, но важно помнить, что кодирующие модели Gemini 3 предлагаются с другими вариантами подписки, которые мы не оценивали. Поэтому эту часть нашего тестирования Google CLI следует рассматривать как не вполне исчерпывающую.

Общая оценка: 0/10 (Незавершено)

Окончательный вердикт

OpenAI Codex показал лучшие результаты в целом, главным образом потому, что это была единственная модель, которая позволяла игрокам использовать chording. Claude Code также впечатлил своей отполированной презентацией и быстрыми временами отклика. Mistral Vibe был не таким сильным, а Google CLI, работающий на Gemini 2.5, вообще не работал в наших тестах.

Хотя опытные программисты могут достичь еще лучших результатов, сотрудничая с AI-редактором кода посредством постоянного общения, эти результаты демонстрируют потенциал этих моделей, даже когда им даются простые инструкции для незатейливых задач. Однако наш опыт работы с AI для кодирования в других проектах говорит о том, что в настоящее время они наиболее эффективны как инструменты, которые помогают людям кодировать, а не полностью автоматизировать процесс. Мы поделимся более подробной информацией об этих проектах в будущей статье.

Смотрите также

2025-12-19 21:28