Как поклонник робототехники и искусственного интеллекта, я просто потрясен последней разработкой Google DeepMind. Возможность перемещаться по внутреннему пространству с помощью подсказок на естественном языке и визуальных данных меняет правила игры в роботизированной навигации.
Если вы заблудились в незнакомом офисном здании, большом магазине или складе, не стесняйтесь обратиться к ближайшему роботу за помощью в навигации.
В недавно опубликованном исследовании исследовательская группа Google успешно объединила технологии обработки естественного языка и компьютерного зрения, чтобы создать инновационный метод навигации роботов.
Просмотреть эту публикацию в Instagram
Запись, опубликованная пользователем Google DeepMind (@googledeepmind)
Как исследователь, я являюсь частью команды, которая изучает новые способы для роботов, в частности роботов повседневного использования, для навигации по закрытым помещениям. Традиционно это включало тщательное составление карты окружающей среды и предоставление конкретных физических координат для руководства. Однако с появлением навигации Vision Language пользователи теперь могут давать роботам команды на естественном языке, например «подойти к рабочему месту». Наше исследование выходит за рамки этого, интегрируя мультимодальные возможности, позволяя роботу одновременно обрабатывать как естественный язык, так и визуальные инструкции.
Используя расширенные возможности Gemini 1.5 Pro, пользователь на складе может представить товар и задать вопрос: «На какой полке мне его разместить?» В ответ система искусственного интеллекта не только дает ответ, но и генерирует маршрут, который приведет пользователя к соответствующему месту на карте склада.
В ролике Instagram, с которым я столкнулся, я, как исследователь, запускаю робота с помощью простой команды «ОК, робот», а затем прошу совета, чтобы найти место, где я могу рисовать. Робот отвечает: «Дайте мне минутку. Поразмышляем с Близнецами…», прежде чем быстро пройти через обширный офис DeepMind площадью 9000 квадратных футов в поисках просторной доски на стене.
Как страстный поклонник робототехники, я не могу не быть впечатлен этими новаторскими ботами и их способностью с легкостью перемещаться по нашему офисному пространству. Им не требовалось подробное ознакомление с макетом; вместо этого мы применили метод под названием «Мультимодальная навигация по инструкциям с демонстрационными турами» (MINT). Этот метод работает в двух частях. Во-первых, член команды физически водит робота по офису, словесно выделяя важные области и функции. В качестве альтернативы можно создать видео окружающей среды с помощью смартфона, чтобы ИИ мог учиться на нем.
После этого команда реализует иерархическую навигационную стратегию «Видение-Язык-Действие» (VLA), которая объединяет как понимание окружающей среды, так и практическое рассуждение, чтобы направлять ИИ в преобразовании пользовательских указаний в соответствующие навигационные действия.
Я наблюдал, как роботы демонстрируют впечатляющие результаты в решении сложных навигационных задач со сложным рассуждением и мультимодальными пользовательскими инструкциями в обширных реальных условиях. Им удалось добиться сквозного успеха в 86% и 90%.
Несмотря на признание прогресса, они признают, что потребность в прогрессе все еще существует. Они отмечают, что у робота нет возможности самостоятельно проводить демонстрационные туры, и поднимают вопрос о длительном времени отклика ИИ (от 10 до 30 секунд), что делает взаимодействие с системой испытанием на терпение.
Смотрите также
- Huawei Watch GT 5 против GT 4: стоит ли обновлять свое носимое устройство?
- Концовка «Субстанции» объясняет: что происходит со Сью и Элизабет?
- Amazon Fire TV Stick HD против Fire TV Stick Lite: что нового?
- Snapdragon 8 Elite против Snapdragon 8 Gen 3: что нового?
- О RTX 5090 только что появился действительно многообещающий слух
- Обзор Intel Core Ultra 9 285K: впечатляет, но не обязательно хорошо
- Samsung Galaxy Tab S10 Ultra против Galaxy Tab S9 Ultra: что нового?
- Этот ремонтопригодный телефон Android — хорошая покупка, даже если вы не неуклюжи.
- Плата за подписку на потоковую передачу растет, а качество контента падает
- Huawei Watch GT 5 против GT 5 Pro: какие умные часы выбрать?
2024-07-11 21:57