Новая модель искусственного интеллекта «учится» моделировать Super Mario Bros. по видеоматериалам

Новая модель искусственного интеллекта «учится» моделировать Super Mario Bros. по видеоматериалам


Новая модель искусственного интеллекта «учится» моделировать Super Mario Bros. по видеоматериалам

Last month, Google’s GameNGen AI model showed that generalized image diffusion techniques can be used to generate a passable, playable version of Doom. Now, researchers are using some similar techniques with a model called MarioVGG to see if an AI model can generate plausible video of Super Mario Bros. in response to user inputs.

Как опытный аналитик с многолетним опытом исследований искусственного интеллекта и разработки видеоигр, я должен сказать, что модель MarioVGG — это интригующий шаг вперед в сфере контента, генерируемого искусственным интеллектом. Тот факт, что эта модель может изучать физику и динамику игрового процесса Super Mario Bros. на основе ограниченного набора данных, впечатляет, если не сказать больше.


Модель MarioVGG, которая в настоящее время опубликована в качестве предварительного документа ИИ-компанией Virtuals Protocol и связана с криптовалютой, демонстрирует несколько очевидных проблем и пока недостаточно быстра для игр в реальном времени. Однако его результаты показывают, что даже базовая модель может вывести замечательную физику и механику игрового процесса после анализа лишь небольшого количества видео и входных данных.

Исследователи надеются, что это может стать первой вехой на пути к созданию и демонстрации последовательного, управляемого создателя видеоигр, что в долгосрочной перспективе потенциально приведет к замене традиционных игр и игровых движков методами генерации видео.

Просмотр 737 000 кадров Марио

Для обучения своей модели команда MarioVGG (в число участников входят пользователи GitHub erniechew и Брайан Лим) первоначально использовала общедоступный набор данных игрового процесса Super Mario Bros., который включал примерно 280 «уровней» входных данных и данных изображений, отформатированных для машинного обучения (уровень 1-1 был исключен из обучающих данных, чтобы изображения из него можно было использовать при оценке). Затем более 737 000 отдельных кадров в этом наборе данных были разбиты на фрагменты по 35 кадров каждый, что позволило модели начать распознавать типичные результаты различных входных данных.

Чтобы упростить сценарий в игровом процессе, исследователи решили сконцентрироваться только на двух возможных действиях в наборе данных: «бежать направо» и комбинации «бежать направо» и «прыгнуть». Однако даже при таком ограниченном наборе движений модель машинного обучения столкнулась с проблемами. Это произошло в первую очередь потому, что препроцессору необходимо было проверить несколько кадров перед переходом, чтобы определить, начался ли «прогон» и если да, то когда. Кроме того, исследователи объясняют, что любые прыжки, включающие корректировку в воздухе (с помощью кнопки «влево»), были отброшены, поскольку они добавляли нежелательный шум в набор тренировочных данных.

Новая модель искусственного интеллекта «учится» моделировать Super Mario Bros. по видеоматериалам
Новая модель искусственного интеллекта «учится» моделировать Super Mario Bros. по видеоматериалам
Новая модель искусственного интеллекта «учится» моделировать Super Mario Bros. по видеоматериалам
Новая модель искусственного интеллекта «учится» моделировать Super Mario Bros. по видеоматериалам
Новая модель искусственного интеллекта «учится» моделировать Super Mario Bros. по видеоматериалам

После предварительной обработки и примерно 48 часов обучения на видеокарте RTX 4090 исследователи применили традиционные методы свертки и шумоподавления для создания видеокадров из стационарного исходного игрового изображения и текстового ввода (в данном конкретном сценарии либо «бегать», либо «прыгать»). . Хотя эти сгенерированные последовательности кратки, последний кадр одной последовательности можно использовать в качестве начального кадра для новой последовательности, теоретически создавая игровые видеоролики любой длины, которые сохраняют «непрерывность и последовательность», как утверждают исследователи.

Супер Марио 0.5

Несмотря на обширную настройку, MarioVGG не производит видео с плавным качеством, которое нельзя было бы отличить от реальных игр для NES. Чтобы повысить эффективность, исследователи уменьшили размер выходных кадров с высокого разрешения NES 256×240 до более пиксельного 64×48. Кроме того, они сжимают 35 кадров всего в семь сгенерированных кадров, расположенных равномерно, что приводит к менее отточенному «геймплейному» видео по сравнению с исходным результатом игры.

Хотя модель MarioVGG имеет некоторые ограничения, в настоящее время ей сложно приблизиться к созданию видео в реальном времени. Исследователи использовали один RTX 4090, которому требовалось шесть секунд для создания последовательности из шести кадров, что соответствует примерно половине секунды видео с чрезвычайно низкой частотой кадров. Они признают, что такая скорость непрактична и не подходит для интерактивных игр, но они оптимистичны в отношении того, что улучшения в квантовании веса (и, возможно, добавление большего количества вычислительных ресурсов) могут повысить производительность в будущем.

With those limits in mind, though, MarioVGG can create some passably believable video of Mario running and jumping from a static starting image, akin to Google’s Genie game maker. The model was even able to «learn the physics of the game purely from video frames in the training data without any explicit hard-coded rules,» the researchers write. This includes inferring behaviors like Mario falling when he runs off the edge of a cliff (with believable gravity) and (usually) halting Mario’s forward motion when he’s adjacent to an obstacle, the researchers write.

Новая модель искусственного интеллекта «учится» моделировать Super Mario Bros. по видеоматериалам
Новая модель искусственного интеллекта «учится» моделировать Super Mario Bros. по видеоматериалам
Новая модель искусственного интеллекта «учится» моделировать Super Mario Bros. по видеоматериалам

Поскольку MarioVGG был разработан для имитации действий Марио, исследователи обнаружили, что система может убедительно создавать новые задачи для Марио по мере прохождения видео через вымышленный уровень. Эти задачи соответствуют визуальному стилю игры, но на этом этапе ими нельзя управлять с помощью пользовательских команд (например, создание ямы впереди, через которую Марио может перепрыгнуть).

Просто придумай это

Как и большинство вероятностных моделей ИИ, MarioVGG иногда дает совершенно бесполезные результаты. Это может происходить по-разному, например, при игнорировании подсказок пользователя («текст действия по вводу не всегда соблюдается», — отмечают исследователи) или при визуализации очевидных ошибок, например, когда Марио бежит сквозь препятствия и врагов, исчезает на несколько кадров, а затем снова появляется, или отображает неожиданные ошибки. изменения цвета или колебания размера от одного кадра к другому

Замечательное видео, опубликованное исследователями, изображает необычный сценарий: Марио падает с моста, превращается в существо «чип-чип», взлетает через мосты, а затем снова превращается в Марио. Такое поведение обычно ассоциируется с Чудо-цветком, а не с видео классической игры Super Mario Bros., созданным ИИ.

Исследователи полагают, что расширенное обучение с использованием более широкого спектра игровых данных может решить эти существенные проблемы и позволить их модели имитировать действия, выходящие за рамки простого бега и прыжков вправо. Тем не менее, MarioVGG остается занимательной демонстрацией того, что даже при наличии минимальных обучающих данных и алгоритмов можно разработать достойные начальные модели для простых игр.

Смотрите также

2024-09-05 22:09