Как поклонник робототехники и искусственного интеллекта, я просто потрясен последней разработкой Google DeepMind. Возможность перемещаться по внутреннему пространству с помощью подсказок на естественном языке и визуальных данных меняет правила игры в роботизированной навигации.
Если вы заблудились в незнакомом офисном здании, большом магазине или складе, не стесняйтесь обратиться к ближайшему роботу за помощью в навигации.
В недавно опубликованном исследовании исследовательская группа Google успешно объединила технологии обработки естественного языка и компьютерного зрения, чтобы создать инновационный метод навигации роботов.
Просмотреть эту публикацию в Instagram
Запись, опубликованная пользователем Google DeepMind (@googledeepmind)
Как исследователь, я являюсь частью команды, которая изучает новые способы для роботов, в частности роботов повседневного использования, для навигации по закрытым помещениям. Традиционно это включало тщательное составление карты окружающей среды и предоставление конкретных физических координат для руководства. Однако с появлением навигации Vision Language пользователи теперь могут давать роботам команды на естественном языке, например «подойти к рабочему месту». Наше исследование выходит за рамки этого, интегрируя мультимодальные возможности, позволяя роботу одновременно обрабатывать как естественный язык, так и визуальные инструкции.
Используя расширенные возможности Gemini 1.5 Pro, пользователь на складе может представить товар и задать вопрос: «На какой полке мне его разместить?» В ответ система искусственного интеллекта не только дает ответ, но и генерирует маршрут, который приведет пользователя к соответствующему месту на карте склада.
В ролике Instagram, с которым я столкнулся, я, как исследователь, запускаю робота с помощью простой команды «ОК, робот», а затем прошу совета, чтобы найти место, где я могу рисовать. Робот отвечает: «Дайте мне минутку. Поразмышляем с Близнецами…», прежде чем быстро пройти через обширный офис DeepMind площадью 9000 квадратных футов в поисках просторной доски на стене.
Как страстный поклонник робототехники, я не могу не быть впечатлен этими новаторскими ботами и их способностью с легкостью перемещаться по нашему офисному пространству. Им не требовалось подробное ознакомление с макетом; вместо этого мы применили метод под названием «Мультимодальная навигация по инструкциям с демонстрационными турами» (MINT). Этот метод работает в двух частях. Во-первых, член команды физически водит робота по офису, словесно выделяя важные области и функции. В качестве альтернативы можно создать видео окружающей среды с помощью смартфона, чтобы ИИ мог учиться на нем.
После этого команда реализует иерархическую навигационную стратегию «Видение-Язык-Действие» (VLA), которая объединяет как понимание окружающей среды, так и практическое рассуждение, чтобы направлять ИИ в преобразовании пользовательских указаний в соответствующие навигационные действия.
Я наблюдал, как роботы демонстрируют впечатляющие результаты в решении сложных навигационных задач со сложным рассуждением и мультимодальными пользовательскими инструкциями в обширных реальных условиях. Им удалось добиться сквозного успеха в 86% и 90%.
Несмотря на признание прогресса, они признают, что потребность в прогрессе все еще существует. Они отмечают, что у робота нет возможности самостоятельно проводить демонстрационные туры, и поднимают вопрос о длительном времени отклика ИИ (от 10 до 30 секунд), что делает взаимодействие с системой испытанием на терпение.
Смотрите также
- На фотографии iPhone 16 Pro Max видны удивительно тонкие рамки
- Концовка «Субстанции» объясняет: что происходит со Сью и Элизабет?
- Если вы скучаете по старым Windows Phone от Nokia, вам понравится HMD Skyline.
- Приложение Google Gemini AI получает более широкую версию. Ваш телефон есть в списке?
- Xiaomi Mix Fold 4 против Xiaomi Mix Flip: в чем разница?
- Что лучше: Dell Latitude или Inspiron?
- Эта функция Apple Watch сводила меня с ума. Вот как я это исправил
- 5 телефонов, которые стоит купить вместо Samsung Galaxy Z Flip 5
- Samsung может разработать тройной телефон к следующему году
- iOS 18.2: как использовать ChatGPT с Siri
2024-07-11 21:57