Как поклонник робототехники и искусственного интеллекта, я просто потрясен последней разработкой Google DeepMind. Возможность перемещаться по внутреннему пространству с помощью подсказок на естественном языке и визуальных данных меняет правила игры в роботизированной навигации.
Если вы заблудились в незнакомом офисном здании, большом магазине или складе, не стесняйтесь обратиться к ближайшему роботу за помощью в навигации.
В недавно опубликованном исследовании исследовательская группа Google успешно объединила технологии обработки естественного языка и компьютерного зрения, чтобы создать инновационный метод навигации роботов.
Просмотреть эту публикацию в Instagram
Запись, опубликованная пользователем Google DeepMind (@googledeepmind)
Как исследователь, я являюсь частью команды, которая изучает новые способы для роботов, в частности роботов повседневного использования, для навигации по закрытым помещениям. Традиционно это включало тщательное составление карты окружающей среды и предоставление конкретных физических координат для руководства. Однако с появлением навигации Vision Language пользователи теперь могут давать роботам команды на естественном языке, например «подойти к рабочему месту». Наше исследование выходит за рамки этого, интегрируя мультимодальные возможности, позволяя роботу одновременно обрабатывать как естественный язык, так и визуальные инструкции.
Используя расширенные возможности Gemini 1.5 Pro, пользователь на складе может представить товар и задать вопрос: «На какой полке мне его разместить?» В ответ система искусственного интеллекта не только дает ответ, но и генерирует маршрут, который приведет пользователя к соответствующему месту на карте склада.
В ролике Instagram, с которым я столкнулся, я, как исследователь, запускаю робота с помощью простой команды «ОК, робот», а затем прошу совета, чтобы найти место, где я могу рисовать. Робот отвечает: «Дайте мне минутку. Поразмышляем с Близнецами…», прежде чем быстро пройти через обширный офис DeepMind площадью 9000 квадратных футов в поисках просторной доски на стене.
Как страстный поклонник робототехники, я не могу не быть впечатлен этими новаторскими ботами и их способностью с легкостью перемещаться по нашему офисному пространству. Им не требовалось подробное ознакомление с макетом; вместо этого мы применили метод под названием «Мультимодальная навигация по инструкциям с демонстрационными турами» (MINT). Этот метод работает в двух частях. Во-первых, член команды физически водит робота по офису, словесно выделяя важные области и функции. В качестве альтернативы можно создать видео окружающей среды с помощью смартфона, чтобы ИИ мог учиться на нем.
После этого команда реализует иерархическую навигационную стратегию «Видение-Язык-Действие» (VLA), которая объединяет как понимание окружающей среды, так и практическое рассуждение, чтобы направлять ИИ в преобразовании пользовательских указаний в соответствующие навигационные действия.
Я наблюдал, как роботы демонстрируют впечатляющие результаты в решении сложных навигационных задач со сложным рассуждением и мультимодальными пользовательскими инструкциями в обширных реальных условиях. Им удалось добиться сквозного успеха в 86% и 90%.
Несмотря на признание прогресса, они признают, что потребность в прогрессе все еще существует. Они отмечают, что у робота нет возможности самостоятельно проводить демонстрационные туры, и поднимают вопрос о длительном времени отклика ИИ (от 10 до 30 секунд), что делает взаимодействие с системой испытанием на терпение.
Смотрите также
- Обзор Samsung Galaxy Book4 Ultra: это не MacBook Pro
- 6 лучших альтернатив iPad в 2024 году
- Garmin Enduro 3 против Garmin Enduro 2: стоит ли обновляться?
- Есть ли в Google Pixel 8a разъем для наушников?
- Обзор HP OfficeJet Pro 9125e: экологичный принтер для домашнего офиса
- Наконец-то я нашел утилиту для игрового ноутбука, которую действительно стоит использовать
- Black Phone 2 находится в разработке в Universal: все, что мы знаем о сиквеле
- TicWatch Pro 5 Enduro — отличные новые умные часы (с одной загвоздкой)
- Asus ROG Ally X против Steam Deck OLED: свергнут ли чемпион?
- Мы понятия не имеем, что делать с следующим сотрудничеством OnePlus.
2024-07-11 21:57