Раскрытие «мировой модели» Google Genie 2 оставляет больше вопросов, чем ответов

Как опытный геймер с многолетним опытом за плечами, я должен признаться, что последние достижения в области 3D-миров, создаваемых искусственным интеллектом, такие как Google Genie 2, вызвали у меня одновременно удивление и скептицизм. С одной стороны, потенциал создания обширной, динамичной среды, которую могут исследовать агенты ИИ, является не чем иным, как революцией. Однако, с другой стороны, я изо всех сил пытаюсь подавить смешок при мысли о том, что мы, возможно, находимся на пороге создания общего искусственного интеллекта с помощью этих виртуальных игровых площадок.

💰

"Рынок красный? Это просто сезон скидок для умных инвесторов." - так говорят, чтобы не плакать. У нас — аналитика, которая помогает плакать реже.

Найти недооцененные активы

В марте Google представила свой первый прототип Genie AI. Этот ИИ был доработан путем изучения бесчисленных часов 2D-видеоигр-платформеров с элементами бега и прыжков. В результате он мог создавать относительно убедительные симуляции этих игр, используя в качестве входных данных общие изображения или письменные описания.

За девять месяцев мы продвинулись на шаг дальше, представив на этой неделе модель Genie 2. Это нововведение теперь исследует концепцию захватывающих 3D-вселенных, оснащенных настраиваемыми персонажами от третьего или первого лица для управления пользователем. Google описывает Genie 2 как «базовую модель для моделирования мира», способную создавать полностью адаптивную цифровую копию виртуальной обстановки. По мнению Google, такая функция может позволить агентам ИИ учиться и адаптироваться в смоделированных, но реалистичных сценариях, что станет важной вехой на пути к созданию общего искусственного интеллекта.

Хотя Genie 2 демонстрирует впечатляющие достижения, достигнутые командой Google DeepMind за последние девять месяцев, скудные сведения о модели, доступные на данный момент, оставляют множество вопросов без ответа относительно того, насколько мы близки к этим фундаментальным модельным мирам, практичным для чего-то более чем краткого, но развлекательного. демонстрации.

Как долго твоя память?

Подобно исходной 2D-модели Genie, Genie 2 начинает с одного изображения или текста и создает последующие видеокадры, используя как информацию предыдущих кадров, так и новые пользовательские данные, такие как направления движения или «прыжок». Google упоминает, что его обучение проводилось на обширном наборе видеоданных, хотя остается неясным, насколько этот объем данных соотносится с 30 000 часами видео, использованными для первоначального обучения Genie.

На рекламной странице Google DeepMind краткие демонстрации с использованием GIF-файлов иллюстрируют использование Genie 2 для анимации самых разных аватаров: от элементарных деревянных марионеток до сложных роботов и даже лодок на воде. GIF-файлы изображают этих аватаров, участвующих в простых действиях, таких как лопание воздушных шаров, взбирание по лестницам или стрельба из взрывающихся бочек. Примечательно, что нет никаких упоминаний о конкретных игровых движках с подробным описанием отображаемых взаимодействий.

Похоже, что одним из главных достижений Google в Genie 2 является возможность «долгосрочной памяти». Эта функция позволяет модели отслеживать области сцены, когда они выходят из поля зрения, а затем точно повторно отображать их, когда они снова появляются в кадре, на основе движения аватара. Подобная инерционность была постоянной проблемой для таких моделей генерации видео, как Sora, поскольку в феврале OpenAI заявила, что такие модели «не всегда производят правильные изменения в состоянии объекта» и могут создавать «несогласованности… на длительных выборках».

Аспект «длинного горизонта» «длинного горизонта памяти» может быть немного преувеличен, поскольку Genie 2 может поддерживать постоянную среду только до минуты, причем большинство представленных примеров длится от 10 до 20 секунд. Хотя эта продолжительность действительно впечатляет с точки зрения согласованности видео AI, она сильно отличается от того, с чем вы можете столкнуться в игровом движке реального времени, таком как Skyrim. Представьте, что через пять минут вы возвращаетесь в город в ролевой игре, похожей на Skyrim, и обнаруживаете, что игровой движок забыл внешний вид города и вместо этого создал совершенно новый, незнакомый город.

Что именно мы прототипируем?

Вполне вероятно, что Google рекомендует Genie 2, поскольку он кажется более эффективным для быстрого проектирования разнообразных интерактивных возможностей, чем для создания комплексного игрового процесса. Альтернативно его можно использовать для преобразования концепт-арта и эскизов в полностью интерактивные настройки.

Преобразование простого «концепт-арта» в слегка интерактивные «концептуальные видеоролики» действительно может оказаться полезным для художников-визуалистов при поиске идей для новых игровых вселенных. Тем не менее, такие образцы, созданные ИИ, могут оказаться не столь выгодными для разработки полноценных дизайнов игр, охватывающих элементы, выходящие за рамки визуальной сферы.

На Bluesky известный британский геймдизайнер Сэм Барлоу (известный по «Silent Hill: Shattered Memories» и «Her Story») объясняет, что геймдизайнеры часто используют технику, называемую «белым ящиком». Этот процесс включает в себя набросок каркаса игровой среды с использованием простых белых коробок задолго до того, как будет завершен художественный дизайн. Основная цель, по словам Барлоу, — создать первоначальную версию игры, в которой приоритет отдается игровому процессу, который затем можно заморозить, чтобы художники могли добавить к структуре детальную визуальную составляющую. Первоначально они используют форматы low-fi (низкой точности), потому что это позволяет им сконцентрироваться на этих аспектах и вносить коррективы по доступным ценам, прежде чем они достигнут точки, когда изменения станут дорогостоящими или трудными для реализации.

Кажется немного нелогичным сначала создавать сложные визуальные ландшафты с использованием такой модели, как Genie 2, а затем проектировать базовую структуру. Этот подход больше похож на толкание телеги впереди лошади. Это, как правило, приводит к созданию универсальных миров, напоминающих «переворот активов», где эстетика, создаваемая ИИ, скрывает стандартизированные взаимодействия и архитектуру.

По словам ведущего подкаста Райана Чжао на Bluesky, процесс проектирования ошибочен, когда вместо создания чего-то осязаемого вы концептуализируете что-то вроде «если бы существовало пространство».

Надо идти быстро

Когда в этом году Google представила первый Genie, они одновременно поделились всеобъемлющим исследовательским документом, объясняющим сложные методы, используемые для обучения модели, и то, как она создает интерактивные видеоролики. Напротив, ни один подобный исследовательский документ, касающийся процесса Genie 2, не был обнародован, что оставляет нам вопросы о некоторых ключевых аспектах.

Среди этих важнейших аспектов скорость модели выделяется как значимая. Первоначальная модель Genie создавала свой мир со скоростью примерно один кадр в секунду, что на много порядков было значительно медленнее, чем то, что можно было бы считать играбельным в реальном времени. Google намекает, что примеры, показанные в этом сообщении блога, были созданы с использованием нерафинированной базовой модели для демонстрации потенциала. Они отмечают, что в улучшенную версию можно играть в реальном времени, хотя и с ухудшением качества вывода.

Судя по тому, что можно сделать, похоже, что полная версия Genie 2 может работать со скоростью медленнее, чем быстрые взаимодействия, предлагаемые привлекательными GIF-файлами. Не совсем ясно, какое снижение производительности приемлемо для достижения контроля в реальном времени с помощью упрощенной версии модели, но, учитывая нехватку примеров, продемонстрированных Google, кажется, что снижение должно быть существенным.

Проще говоря, мы близки к тому, чтобы увидеть, как интерактивные видеоролики с искусственным интеллектом в реальном времени становятся реальностью. Ранее в этом году производитель моделей искусственного интеллекта Decart и производитель оборудования Etched представили модель Oasis, которая способна генерировать видеоклон популярной игры Minecraft с плавной частотой 20 кадров в секунду. Однако важно отметить, что эта модель с 500 миллионами параметров была обучена на бесчисленных часах видеоматериалов одной относительно простой игры с упором только на конкретные действия и дизайн окружающей среды, уникальные для этой игры.

Когда Oasis был представлен, его разработчики открыто признали, что модель столкнулась с проблемами при обобщении предметной области, продемонстрировав, что сложные сцены «реального мира» необходимо упростить до базовых блоков, подобных Minecraft, для удовлетворительной производительности. Несмотря на эти ограничения, нетрудно найти видеоклипы, показывающие, как Oasis превращается в ужасающие кошмарные образы всего за несколько минут после игрового процесса.

В кратких GIF-изображениях, опубликованных командой Genie, мы замечаем признаки ухудшения, аналогичные тем, которые наблюдаются при долгосрочном распаде. Например, во время быстрого движения изображение аватара может казаться туманным, как во сне, а неигровые персонажи (неигровые персонажи) могут сливаться вместе на коротких расстояниях, превращаясь в неразличимые пятна. Это не является многообещающим признаком для модели, которая подчеркивает «длинный горизонт памяти» как одну из своих ключевых особенностей.

Учебные ясли для других агентов ИИ?

Похоже, что Genie 2 структурирует свою анимацию на основе отдельных игровых экранов, но, кроме того, кажется, что он способен выводить фундаментальные подробности об объектах в этих сценах и создавать взаимодействие с этими объектами, как это сделал бы игровой движок.

Блог Google демонстрирует, как агент SIMA, включенный в настройки Genie 2, может выполнять основные команды, такие как «пройти через красную дверь» или «пройти через синюю дверь», манипулируя аватаром с помощью простых взаимодействий с клавиатурой и мышью. Это могло бы превратить Genie 2 в идеальную игровую площадку для агентов ИИ в различных цифровых сферах.

Google смело утверждает, что Genie 2 помогает им решить важную структурную проблему безопасного обучения воплощенных агентов, одновременно работая над расширением и универсальностью, необходимыми для продвижения к общему искусственному интеллекту. Хотя еще неизвестно, верно ли это утверждение, текущие исследования показывают, что обучение, полученное на основе фундаментальных моделей, может быть успешно реализовано в практических приложениях робототехники.

Использование моделей ИИ для разработки сред обучения для других моделей ИИ является потенциальным основным применением этой технологии. Однако идея модели искусственного интеллекта, генерирующей универсально применимые трехмерные миры для исследования человеком в реальном времени, возможно, не так неизбежна, как кажется.

Смотрите также

2024-12-07 03:25