Новая модель искусственного интеллекта может галлюцинировать игру Doom 1993 года в реальном времени

Новая модель искусственного интеллекта может галлюцинировать игру Doom 1993 года в реальном времени


Новая модель искусственного интеллекта может галлюцинировать игру Doom 1993 года в реальном времени

Как опытный геймер и энтузиаст искусственного интеллекта, который провел бесчисленные часы, путешествуя по пиксельным мирам и восхищаясь достижениями в области технологий, я должен сказать, что проект GameNGen действительно вызывает у меня интерес. Идея нейронного игрового движка, способного генерировать интерактивные миры в реальном времени, является не чем иным, как революционной.


Во вторник эксперты из Google и Тель-Авивского университета представили GameNGen, инновационную модель искусственного интеллекта, способную динамически воссоздавать шутер от первого лица 1993 года «Doom» в реальном времени, используя методы генерации изображений искусственного интеллекта, аналогичные Stable Diffusion. По сути, это сетевая система, которая служит элементарным игровым движком, который может проложить путь для создания продвинутых видеоигр в реальном времени в будущих приложениях.

Вместо создания графических видеокадров традиционными методами в продвинутых играх может использоваться механизм искусственного интеллекта, который может «визуализировать» или вызывать изображения на лету, рассматривая это как задачу прогнозирования.

В ответ на эту новость разработчик приложения Ник Добос заявил: «Возможности огромны». Он задался вопросом, почему нужно вручную создавать сложные программные правила, если вместо этого ИИ может анализировать каждый пиксель?

Говорят, что GameNGen способен воспроизводить игровой процесс Doom со скоростью более 20 кадров в секунду, и все это с помощью всего одного тензорного процессора (TPU). Этот тип процессора, во многом похожий на графический процессор (GPU), специально разработан для задач машинного обучения.

В некоторых случаях во время тестирования оценщикам было сложно отличить короткие отрывки (от 1,6 до 3,2 секунды) аутентичного игрового процесса Doom и кадры, созданные GameNGen. Они правильно идентифицировали подлинные кадры игрового процесса примерно в 58–60 % случаев.

Концепция создания визуальных эффектов видеоигр в реальном времени с помощью «нейронного рендеринга» не совсем нова. В мартовском интервью генеральный директор Nvidia Дженсен Хуанг смело предположил, что большая часть графики видеоигр может быть создана с помощью искусственного интеллекта в реальном времени в течение следующих пяти-десяти лет.

GameNGen опирается на прошлые исследования в этой области, как указано в документе GameNGen, который включает в себя World Models от 2018 года, GameGAN от 2020 года и Google Genie от марта. Кроме того, в этом году группа университетских исследователей недавно обучила модель искусственного интеллекта под названием «DIAMOND» эмуляции классических видеоигр Atari с использованием диффузионной модели.

Более того, текущие исследования в области «моделей мира» или «симуляторов мира», часто связанные с передовыми моделями генерации видео искусственного интеллекта, такими как Gen-3 Alpha от Runway и Sora от OpenAI, имеют тенденцию двигаться по аналогичному пути. Чтобы проиллюстрировать это, во время презентации Sora компания OpenAI продемонстрировала видеоролики, в которых ИИ создает симуляции Minecraft.

Диффузия – это ключ к успеху

В исследовательской статье «Диффузионные модели — игровые движки реального времени» я, как аналитик, углубляюсь в работу системы под названием GameNGen. Создатели, Дэни Валевски, Янив Левиафан, Моав Арар и Шломи Фрухтер, разработали эту систему, используя модифицированный вариант Stable Diffusion 1.4, модели диффузии синтеза изображений, представленной в 2022 году. Эта модель широко используется для создания изображений, создаваемых ИИ.

Похоже, что ответ на вопрос «Можно ли на нем запустить DOOM?» является утвердительным, когда речь идет о моделях диффузии, по словам директора по исследованиям Stability AI Танишка Мэтью Абрахама, который не участвовал в исследовании.

Новая модель искусственного интеллекта может галлюцинировать игру Doom 1993 года в реальном времени

Под контролем действий игрока модель диффузии прогнозирует предстоящее состояние игры на основе предыдущих состояний после обучения на большом количестве игровых видеороликов классической игры Doom.

Создание GameNGen включало процедуру обучения, состоящую из двух частей. Сначала исследователи научили агента обучения с подкреплением играть в Doom, записывая эти игровые сеансы и создавая автономно сгенерированный тренировочный набор — рассматриваемые кадры. Впоследствии они использовали эти данные для разработки своей индивидуальной модели стабильной диффузии.

Вместо использования Stable Diffusion могут возникнуть некоторые визуальные аномалии, как сообщается в аннотации: «Первоначальный автокодировщик Stable Diffusion v1.4, который конденсирует сегменты пикселей 8×8 в 4 скрытых канала, генерирует значительные артефакты при прогнозировании игровых кадров, влияет на сложные детали, особенно на нижнюю панель HUD».

Кроме того, поддержание четкости и согласованности изображения в разные периоды времени, что в исследованиях видео с использованием ИИ часто называют «временной когерентностью», представляет собой еще одно препятствие. Ученые GameNGen утверждают, что создание интерактивных виртуальных миров выходит за рамки простого создания быстрых видеороликов. В своей статье они объясняют, что необходимость адаптироваться к непрерывному потоку входных действий усложняет существующие структуры моделей диффузии. Это связано с тем, что эти модели часто делают предположения, которые нарушаются при генерации новых кадров на основе предыдущих (авторегрессия), что может привести к нестабильности и быстрому ухудшению качества моделируемого мира с течением времени.

При длительном создании автоматически генерируемых изображений визуальные артефакты могут возникать из-за кумулятивных ошибок в последовательных кадрах, наслаивающихся друг на друга, что приводит к постепенному созданию более сбойной, деградированной или нелогичной виртуальной среды. Чтобы решить эту проблему, исследователи намеренно включили различное количество случайного шума в набор обучающих данных и обучили модель устранять этот шум. Этот метод сохраняет качество сгенерированного мира постоянным в течение длительных периодов времени.

Ограничения

Стоит отметить, что GameNGen представляет собой впечатляющее достижение в новой экспериментальной области, но у него есть существенные недостатки. Наиболее существенным из них является то, что исследователи в первую очередь сосредоточились на одной существующей игре. Подобно другим моделям на основе Трансформера, Stable Diffusion превосходно имитирует и производит убедительные результаты, но ей не хватает способности по-настоящему внедрять инновации или создавать что-то совершенно новое.

Кроме того, важно отметить, что GameNGen может использовать только короткий трехсекундный интервал прошлых событий. Это означает, что если игрок сталкивается с уровнем Doom, который он видел раньше, системе придется делать обоснованные предположения о более раннем состоянии игры, поскольку отсутствуют необходимые исторические данные. По сути, это будет создание или представление данных, аналогично тому, как другие модели ИИ генерируют результаты, работая без всесторонних предварительных знаний.

Распространение метода GameNGen на сложные настройки или отдельные игровые жанры может создать новые препятствия. Вычислительные ресурсы, необходимые для мгновенного выполнения подобных моделей, могут быть чрезмерными, что может затруднить их немедленное широкое применение, если они будут широко использоваться для будущего рендеринга графики видеоигр. (Вполне возможно, что будущие игровые консоли будут включать в себя специализированные чипы «нейронного рендеринга» для решения этой проблемы.)

Заглядывая в будущее

Как исследователь, я воодушевлен текущим прогрессом, которого мы достигли с GameNGen, который в первую очередь фокусируется на копировании классической игры Doom. Однако я твердо верю, что по мере того, как модели ИИ продолжают развиваться, а вычислительные затраты снижаются, мы можем раздвинуть границы возможного с помощью этой технологии. Будущие итерации потенциально могут обрабатывать более сложные игры и симуляции, открывая путь для нейронных игровых движков, которые смогут создавать огромные, связные интерактивные миры в реальном времени. Эта трансформация не только расширит горизонты разработки видеоигр, но и фундаментально изменит способы создания и опыта игр.

В их исследовании говорится, что сегодня видеоигры создаются программистами-людьми. Однако GameNGen представляет собой инновационную концепцию в рамках потенциально нового подхода, в котором вместо кодирования традиционными способами игры будут служить весами в модели нейронной сети.

Исследователи предполагают, что этот метод может позволить создавать видеоигры не с помощью традиционного программирования, а с использованием вместо этого текстовых описаний или примеров изображений. Другими словами, люди могут преобразовать серию статичных изображений в новый игровой уровень или персонажа в существующей игре, и все это на основе примеров, а не требует навыков программирования.

На данный момент все это лишь теория или догадки. Мы можем только предвидеть, что может произойти по мере продвижения исследований и как потенциальные инновации могут повлиять на интерактивные игры в долгосрочной перспективе. Давайте следить за обновлениями!

Смотрите также

2024-08-28 22:25