Gemini AI делает роботов в офисе гораздо более полезными

Gemini AI делает роботов в офисе гораздо более полезными


Gemini AI делает роботов в офисе гораздо более полезными

Как поклонник робототехники и искусственного интеллекта, я просто потрясен последней разработкой Google DeepMind. Возможность перемещаться по внутреннему пространству с помощью подсказок на естественном языке и визуальных данных меняет правила игры в роботизированной навигации.


Если вы заблудились в незнакомом офисном здании, большом магазине или складе, не стесняйтесь обратиться к ближайшему роботу за помощью в навигации.

В недавно опубликованном исследовании исследовательская группа Google успешно объединила технологии обработки естественного языка и компьютерного зрения, чтобы создать инновационный метод навигации роботов.

Просмотреть эту публикацию в Instagram

Запись, опубликованная пользователем Google DeepMind (@googledeepmind)

Как исследователь, я являюсь частью команды, которая изучает новые способы для роботов, в частности роботов повседневного использования, для навигации по закрытым помещениям. Традиционно это включало тщательное составление карты окружающей среды и предоставление конкретных физических координат для руководства. Однако с появлением навигации Vision Language пользователи теперь могут давать роботам команды на естественном языке, например «подойти к рабочему месту». Наше исследование выходит за рамки этого, интегрируя мультимодальные возможности, позволяя роботу одновременно обрабатывать как естественный язык, так и визуальные инструкции.

Используя расширенные возможности Gemini 1.5 Pro, пользователь на складе может представить товар и задать вопрос: «На какой полке мне его разместить?» В ответ система искусственного интеллекта не только дает ответ, но и генерирует маршрут, который приведет пользователя к соответствующему месту на карте склада.

В ролике Instagram, с которым я столкнулся, я, как исследователь, запускаю робота с помощью простой команды «ОК, робот», а затем прошу совета, чтобы найти место, где я могу рисовать. Робот отвечает: «Дайте мне минутку. Поразмышляем с Близнецами…», прежде чем быстро пройти через обширный офис DeepMind площадью 9000 квадратных футов в поисках просторной доски на стене.

Как страстный поклонник робототехники, я не могу не быть впечатлен этими новаторскими ботами и их способностью с легкостью перемещаться по нашему офисному пространству. Им не требовалось подробное ознакомление с макетом; вместо этого мы применили метод под названием «Мультимодальная навигация по инструкциям с демонстрационными турами» (MINT). Этот метод работает в двух частях. Во-первых, член команды физически водит робота по офису, словесно выделяя важные области и функции. В качестве альтернативы можно создать видео окружающей среды с помощью смартфона, чтобы ИИ мог учиться на нем.

После этого команда реализует иерархическую навигационную стратегию «Видение-Язык-Действие» (VLA), которая объединяет как понимание окружающей среды, так и практическое рассуждение, чтобы направлять ИИ в преобразовании пользовательских указаний в соответствующие навигационные действия.

Я наблюдал, как роботы демонстрируют впечатляющие результаты в решении сложных навигационных задач со сложным рассуждением и мультимодальными пользовательскими инструкциями в обширных реальных условиях. Им удалось добиться сквозного успеха в 86% и 90%.

Несмотря на признание прогресса, они признают, что потребность в прогрессе все еще существует. Они отмечают, что у робота нет возможности самостоятельно проводить демонстрационные туры, и поднимают вопрос о длительном времени отклика ИИ (от 10 до 30 секунд), что делает взаимодействие с системой испытанием на терпение.

Смотрите также

2024-07-11 21:57