У искусственного интеллекта Google только что появились уши

У искусственного интеллекта Google только что появились уши


У искусственного интеллекта Google только что появились уши

С новым обновлением Gemini Pro 1.5 чат-боты с искусственным интеллектом больше не могут просто обрабатывать визуальные данные с помощью изображений и видео. Они также оснащены возможностью «прослушивания» аудиофайлов и преобразования звуков в письменный текст.

Компания выпустила общедоступную предварительную версию LLM на своей платформе Vertex AI для более широкого экспериментирования со стороны бизнес-пользователей. После частного представления избранным разработчикам и корпоративным клиентам в феврале эта функция теперь открыта для более широкой аудитории. Первоначально он был доступен исключительно ограниченной группе.

<р>1. Разбор + понимание длинного видео

Я загрузил всю информацию о вчерашнем соревновании по данкам в НБА и спросил, какой из данков набрал больше всего очков.

«Gemini 1.5 продемонстрировал замечательные возможности извлечения точного 50-секундного сегмента и сложных деталей из длинного контекстного видео».

— Роуэн Чунг (@rowancheung), 18 февраля 2024 г.

На продолжающейся конференции Cloud Next в Лас-Вегасе Google раскрыла информацию об обновлении мощного чат-бота Gemini Advanced, Gemini Ultra LLM, который они теперь называют Gemini 1.5 Pro. Эта последняя версия рекламируется как самая совершенная генеративная модель в семействе Google Gemini, обладающая улучшенными возможностями обучения, требующими минимальных настроек.

Программное обеспечение Gemini 1.5 Pro универсально и способно конвертировать различные типы аудио в текст. Он обрабатывает телешоу, фильмы, радиопрограммы и конференц-связь. Кроме того, он поддерживает несколько языков, что делает его ценным инструментом для многоязычных пользователей. Более того, по данным TechCrunch, хотя программа может генерировать расшифровки видео, ее точность может быть нестабильной.

Первоначально Google описал метод обработки данных Gemini 1.5 Pro как использование системы токенов. Грубо говоря, один миллион токенов соответствует примерно 700 000 слов или 30 000 строк кода. С точки зрения медиаконтента это соответствует часовому видео или примерно 11 часам аудио.

Некоторым людям был предоставлен эксклюзивный предварительный просмотр частных демонстраций Gemini 1.5 Pro, демонстрирующих способность языковой модели (LLM) идентифицировать точные моменты в расшифровках видео. Например, сторонник искусственного интеллекта Роуэн Чунг получил ранний доступ и поделился в Твиттере, как его демо обнаружило динамичную сцену спортивного соревнования и свело это событие в краткое изложение, как показано во встроенном твите выше.

Тем не менее, Google отметил, что некоторые первоначальные пользователи, такие как United Wholesale Mortgage, TBS и Replit, вместо этого выбирают бизнес-приложения. Эти компании сосредоточены на таких областях, как одобрение ипотечных кредитов, автоматическая маркировка данных, а также разработка, интерпретация и пересмотр кодексов.

Смотрите также

2024-04-10 03:39