Microsoft демонстрирует прогресс в создании игровых миров, созданных с помощью искусственного интеллекта в реальном времени

В последнее время многочисленные исследователи ИИ стремились включить в свои системы, что известно как «мировая модель». Цель состоит в том, чтобы разработать модели, способные вывести воображаемое понимание того, как внутриигровые сущности и персонажи будут вести себя из видеоданных, и впоследствии генерировать интерактивные видео, которые мгновенно создают новые игровые миры на основе этого понимания.

Последняя модель Microsoft Research, модель мира и человеческих действий (WHAM), представленная сегодня в публикации журнала Nature, демонстрирует замечательный прогресс, достигнутый за короткий срок. Тем не менее, это также подчеркивает существенное расстояние, которое нам все еще нужно охватить, прежде чем может быть реализовано стремление создавать целые игровые кадры, исключительно из основных подсказок и образцов видеоклипов.

Более последовательный, более настойчивый

Так же, как модель Google Genie сделала ранее, WHAM начинает с того, что учится на видео «Ground Prute» и входных данных, предоставленных непосредственно игроками. Источником этих данных является Bleeding Edge, онлайн-драка с четырьмя на четыре, выпущенный в 2020 году Ninja Theory, дочерней компанией Microsoft. В ходе выпуска игры Microsoft собрала реальные кадры игроков (согласно условиям пользовательского соглашения игры). Это составляет приблизительно семь лет видео геймплея, сопровождаемого подлинными входными веществами игроков.

Первоначально на этапе обучения Katja Hoffman из Microsoft Research выразила обеспокоенность тем, что модель может запутаться, создавая непоследовательные видеоклипы, которые в конечном итоге превратятся в солидные цвета. Однако после миллиона раундов обучения модель WHAM продемонстрировала элементарное понимание сложной динамики геймплея, такую ​​как ячейка PEART Power, взрывающуюся после трех ударов от игрока или возможностей полета определенного персонажа. Производительность продолжала улучшаться, когда исследователи добавляли больше вычислительной мощности и более крупных моделей для решения проблемы, как указано в документе природы.

Microsoft проверила способность модели WHAM создавать новые последовательности игровых процессов, предоставив ее второй из реальных кадров игрового процесса и попросив ее предсказать, как могут выглядеть следующие кадры на основе свежих моделируемых входов. Чтобы оценить надежность модели, Microsoft использовала реальные входные строки человека, чтобы создать до двух минут видеозаписей, которые затем сравнивались с подлинными результатами игрового процесса с использованием показателя видео дистанции Frechet.

Microsoft с гордостью утверждает, что результаты WHAM могут поддерживать общую согласованность в течение до двух минут без потери структуры, так как смоделированные видео эффективно соответствуют реальным кадрам, даже когда объекты и настройки появляются или исчезают. Это превосходит «Длинную память горизонта» модели Google Genie 2, которая управляла лишь минутой последовательной видеозаписи.

Microsoft дополнительно оценила производительность WHAM, используя различные невидимые входы, которые не были частью его обучающих данных. Тесты показали, что WHAM обычно обеспечивает подходящие ответы на несколько входных шаблонов, как оценивается по человеческим оценкам результирующего видеоконтента. Несмотря на это, даже лучшие модели не совсем соответствовали «от человеческого стандарта».

Одним из интригующих открытий из тестов Microsoft WHAM может быть постоянное присутствие игровых элементов. Как описано, разработчики продемонстрировали добавление свежих игровых объектов или персонажей к существующим игровым клипам. Система WHAM удалось включить это новое изображение в последующие кадры, разумно реагируя на действия игрока и настройки камеры. Примечательно, что даже с пятью модифицированными кадрами новый объект оставался последовательным в последующих кадрах для диапазона от 85% до 98%, как это было предложено в газете природы.

Предстоит пройти долгий путь

Несмотря на то, что Microsoft выделяет многочисленные достижения в своей модели WHAM, компания признает, что разработчики в основном используют его для грубого прототипирования в настоящее время. Они могут экспериментировать с «демонстратором WHAM» на литейном заводе Azure AI, чтобы наблюдать, как система может создавать свежие интерактивные последовательности игрового процесса из нескольких видео кадров.

Демонстратор в настоящее время производит видео с использованием предварительно записанных данных, значительно медленнее, чем требуется для игрового процесса в реальном времени. Однако во время частной прессы Microsoft представила раннюю версию инструмента генерации видео в реальном времени в реальном времени. Этот инструмент мгновенно создает новые кадры игрового процесса на основе непосредственных входов пользователя. Пользователи могут даже быстро переходить между сценами, предоставляя систему свежую партию образцов кадров.

В этой области изучения ИИ создание интерактивной динамичной мировой модели, которая развивается, когда вы взаимодействуете с ним, является очень востребованным достижением, часто по сравнению с легендарным поиском Святого Грааля. Хотя продемонстрированная версия Microsoft не повторяет, играя в игру в традиционном смысле, как отметил Хоффман во время демонстрации, она явно отличается. Он предлагает уникальный и интригующий опыт, который не похож ни на одну обычную видеоигру, предлагая нам раскрыть его потенциал и того, чего можно достичь в этой инновационной обстановке.

Вряд ли мы увидим всплеск видеоигр, управляемых искусственным интеллектом, в ближайшем будущем, так как прототип Microsoft WHAM вполне ограничен, предлагая только дисплей с низким разрешением 300 × 180 (аналогично оригинальному экрану Nintendo DS) и работает в Всего 10 кадров в секунду. Это значительно не хватает стандарта, необходимого для современных игр.

Как аналитик, я должен признать, что, хотя имелись значительные достижения с точки зрения однородности и долговечности, остается сюрреалистическая, похожая на сновидение сущности для многочисленных объектов, изображенных даже в кадрах WHAM с низким разрешением. Примечательно, что персонаж игрока, по -видимому, трансформируется и удлиняется, как форсифтер, отклоняясь от ожидаемой плотной, последовательной модели с прочной скелетной структурой.

Microsoft выражает оптимизм, что WHAM может проложить путь на время, когда ИИ может легко создать высококачественные интерактивные переживания в любой момент. По словам Хоффмана, когда мы приступаем к созданию такого опыта в режиме реального времени, используя эти современные модели ИИ, мы имеем в виду это видение.

Смотрите также

2025-02-19 22:56