Новый искусственный интеллект робототехники от Google может работать без облака и все равно завязать ваши шнурки.

Время от времени чатботы вроде Gemini и ChatGPT называются «роботами», однако важно отметить, что передовые технологии ИИ все более влияют не только на цифровых помощников, но и на физических роботов в реальном мире. После анонса Gemini Robotics компанией Google DeepMind ранее в этом году они представили новую модель VLAI (vision language action) для управления роботами на уровне устройства. В отличие от предыдущих версий, эта новая модель работает независимо без подключения к облаку, позволяя роботам функционировать автономно.

Согласно Каролине Параде, ведущей в области робототехники в Google DeepMind, эта стратегия для AI-роботов может сделать роботов более надежными в сложных ситуациях. Кроме того, это первая модель роботов от Google, которая позволяет разработчикам настраивать ее под свои особые требования.

В области искусственного интеллекта (AI), робототехника представляет собой особую задачу из-за взаимодействия с реальным миром и возможности изменять это окружение. Например, когда робот перемещает предметы или завязывает шнурки, предвидеть все возможные сценарии его действий может быть очень сложно. Традиционный метод обучения роботов через обучение с подкреплением был затратным по времени, но с помощью генеративных AI мы можем достичь более широкого применения в различных ситуациях.

Каролина Парада объясняет: ‘Это использование способности Джемини понимать различные типы информации по нескольким каналам для выполнения совершенно новой функции’. Это значит, что так же как Джемени может создавать текст, писать стихи или суммировать статьи, он также способен генерировать код и изображения. Более того, он может разрабатывать действия роботов.’

Общие роботы без облака не нужны

В последней версии Gemini Robotics (главной технологии робототехники от Google), роботы использовали комбинированную систему, включающую компактную модель на самом роботе и более крупную модель в облаке. В отличие от чат-ботов, которым может потребоваться время для генерации ответов, роботам необходимо действовать быстро. Поэтому когда им поручают поднять или переместить объект, вы не хотите, чтобы они задерживались при расчете каждого действия. Локальная модель обеспечивает быструю корректировку, тогда как облачная модель помогает с сложными задачами рассуждения. Недавно Google DeepMind выпустил автономную версию локальной модели, и, к удивлению, она демонстрирует большую устойчивость.

Новая модель Gemini Robotics On-Device демонстрирует почти сопоставимую точность с гибридным аналогом, и согласно Параде, множество задач можно выполнять без дополнительной настройки. Взаимодействуя с этими роботами, становится очевидно, что они удивительно адаптируются к новым средам обитания, отмечает Парада для Ars.

Выпуская эту модель вместе с полным комплектом для разработки программного обеспечения (SDK), команда ожидает, что разработчики будут назначать новые обязанности и подвергать роботов на базе Gemini различным условиям эксплуатации, потенциально обнаруживая действия, несовместимые с конфигурацией по умолчанию модели. Используя SDK, исследователи в области робототехники могут быстро адаптировать VLAs к новым задачам, используя всего 50-100 демонстраций.

В робототехнике искусственного интеллекта демонстрации проводятся иначе по сравнению с другими областями исследований ИИ. Как объясняет Парада, демонстрации обычно включают ручное управление роботом (телеоперацию) для выполнения задачи, что в конечном счете позволяет модели самостоятельно справиться с этой задачей. Хотя синтетические данные являются частью процесса обучения Google, они не могут полностью заменить реальные данные. ‘Даже при самых сложных и тонких задачах,’ замечает Парада, ‘нам все равно требуются настоящие данные.’ Однако существует множество способов использования симуляций.

Встроенное в устройство VLAs может столкнуться с трудностями при выполнении сложных действий. Оно способно легко справляться с простыми задачами, например, завязыванием шнурков или складыванием рубашки, что обычно сложно для AI роботов. Однако если бы вы ожидали от робота приготовления бутерброда, потребовалось бы более продвинутая модель из-за многошагового логического рассуждения, необходимого для правильного размещения хлеба.

Команда считает, что устройство On-Device от Gemini Robotics особенно подходит для мест с плохим или отсутствующим подключением к интернету. Локальная обработка визуальных данных робота также улучшает приватность, как показано в медицинских условиях.

Создание безопасных роботов

Обеспечение безопасности крайне важно в системах искусственного интеллекта, будь то чатбот, распространяющий недостоверную информацию, или робот-имитатор Терминатора. Мы видели множество случаев, когда генеративные инструменты ИИ создают неточности, и наши системы Gemini Robotics на базе ИИ не являются исключением – они не всегда безупречны. Тем не менее, когда мы оснащаем эти системы механическими конечностями, напоминающими холодные металлические захватки без чувств, потенциальные риски становятся немного сложнее.

В Gemini Robotics мы уделяем приоритетное внимание безопасности роботов с помощью многоуровневой стратегии. Проще говоря, как объясняет Парада: «При использовании всей системы Gemini Robotics вы соединяетесь с моделью, которая решает, какие действия безопасны — и точка.» Далее эта модель взаимодействует со Value Limiting Agent (VLA), который формирует возможные варианты действий. Затем VLA вступает в контакт с низкоуровневым контроллером, содержащим критически важные компоненты безопасности, такие как степень прилагаемой силы или скорость движения руки робота.

По сути, новая модель на устройстве функционирует подобно виртуальному лёгкому агенту (VLA), что означает, что разработчики должны самостоятельно внедрять меры безопасности. Google советует следовать примеру команды Gemini. Для разработчиков, участвующих в ранней стадии тестирования, рекомендуется соединить систему со стандартным API Gemini Live, который включает функцию безопасности. Кроме того, они должны разработать базовый контроллер безопасности для критически важных проверок на более низком уровне.

Если вас заинтриговала возможность испытать технологию Gemini Robotics On-Device, подумайте о регистрации в программе надежных тестеров Google. Как отметила Каролина Парада из Google, область робототехники показала значительные продвижения за последние три года, и это только начало — текущая версия Gemini Robotics построена на основе Gemini 2.0. Парада указывает, что команда разработчиков Gemini Robotics обычно немного отстает от развития Gemini, причем Gemini 2.5 был признан существенным улучшением в производительности чат-ботов. Возможно, аналогичный прогресс будет достигнут и в области робототехники.

Смотрите также

2025-06-24 17:54