ChatGPT уже говорит. Скоро он тоже может увидеть

ChatGPT уже говорит. Скоро он тоже может увидеть

Как опытный исследователь, ставший свидетелем эволюции искусственного интеллекта за последние несколько десятилетий, я должен сказать, что перспектива того, что расширенный голосовой режим ChatGPT обретет способность видеть, просто поразительна. Это похоже на то, как ребенок делает свои первые шаги: каждая веха в развитии ИИ приближает нас к тому дню, когда машины будут не только общаться с нами, но и воспринимать окружающий мир.


Расширенный режим чата в ChatGPT, который позволяет пользователям общаться с ботом в реальном времени, возможно, вскоре сможет просматривать изображения или видео (называемые «живой камерой») на основе кода, найденного в последней бета-версии платформа. Хотя OpenAI официально не объявила дату выпуска этой новой функции, по данным Android Authority, все указывает на то, что она появится в ближайшее время.

Мне как исследователю посчастливилось стать свидетелем первой демонстрации визуальных возможностей расширенного голосового режима для ChatGPT еще в мае, когда эта функция была представлена ​​в альфа-фазе. В представленном видеоролике система продемонстрировала впечатляющую способность распознавать собаку по изображению камеры телефона, идентифицировать собаку на основе предыдущих взаимодействий, различать игрушку собаки (мяч) и понимать контекст взаимодействия собаки с мячом ( игра в апорт).

Эту функцию тепло приветствовали альфа-тестеры, а пользователь Мануэль Сэнсили продемонстрировал ее полезность, вдумчиво отвечая на устные вопросы о своем новом котенке с помощью камеры.)

Рекомендуемые видео

Экспериментируем с новейшим расширенным голосовым режимом ChatGPT, который теперь доступен в альфа-версии. Разговор напоминает беседу с очень умным другом, что оказывается невероятно полезным в связи с нашим недавним приобретением — нашим новым котенком. В режиме реального времени он может отвечать на запросы и даже использовать камеру в качестве источника входных данных!

— Мануэль Сансили (@ManuVision), 30 июля 2024 г.

В сентябре расширенный голосовой режим стал доступен в бета-версии для пользователей Plus и Enterprise, хотя поначалу в нем отсутствовали визуальные функции. Однако это не помешало энтузиастам-тестерам исследовать границы его голосовых возможностей. Компания описывает Advanced Voice как обеспечивающую «более реалистичные разговоры в реальном времени, позволяющую прерывать разговор в любой момент и интуитивно реагирующую на ваши эмоции.

Включение цифровых глаз в качестве уникальной функции, несомненно, отличит Advanced Voice Mode от таких основных конкурентов, как Google и Meta, которые недавно представили свои собственные разговорные возможности.

Gemini Live может похвастаться способностью общаться на более чем 40 языках, но ему не хватает способности воспринимать окружающую среду (пока проект Астра не станет реальностью). Аналогичным образом, естественное голосовое взаимодействие Meta, представленное на мероприятии Connect 2024 в сентябре, не включает визуальный ввод с камер.

Смотрите также

2024-11-19 21:57