С новым обновлением Gemini Pro 1.5 чат-боты с искусственным интеллектом больше не могут просто обрабатывать визуальные данные с помощью изображений и видео. Они также оснащены возможностью «прослушивания» аудиофайлов и преобразования звуков в письменный текст.
Компания выпустила общедоступную предварительную версию LLM на своей платформе Vertex AI для более широкого экспериментирования со стороны бизнес-пользователей. После частного представления избранным разработчикам и корпоративным клиентам в феврале эта функция теперь открыта для более широкой аудитории. Первоначально он был доступен исключительно ограниченной группе.
<р>1. Разбор + понимание длинного видео
Я загрузил всю информацию о вчерашнем соревновании по данкам в НБА и спросил, какой из данков набрал больше всего очков.
«Gemini 1.5 продемонстрировал замечательные возможности извлечения точного 50-секундного сегмента и сложных деталей из длинного контекстного видео».
— Роуэн Чунг (@rowancheung), 18 февраля 2024 г.
На продолжающейся конференции Cloud Next в Лас-Вегасе Google раскрыла информацию об обновлении мощного чат-бота Gemini Advanced, Gemini Ultra LLM, который они теперь называют Gemini 1.5 Pro. Эта последняя версия рекламируется как самая совершенная генеративная модель в семействе Google Gemini, обладающая улучшенными возможностями обучения, требующими минимальных настроек.
Программное обеспечение Gemini 1.5 Pro универсально и способно конвертировать различные типы аудио в текст. Он обрабатывает телешоу, фильмы, радиопрограммы и конференц-связь. Кроме того, он поддерживает несколько языков, что делает его ценным инструментом для многоязычных пользователей. Более того, по данным TechCrunch, хотя программа может генерировать расшифровки видео, ее точность может быть нестабильной.
Первоначально Google описал метод обработки данных Gemini 1.5 Pro как использование системы токенов. Грубо говоря, один миллион токенов соответствует примерно 700 000 слов или 30 000 строк кода. С точки зрения медиаконтента это соответствует часовому видео или примерно 11 часам аудио.
Некоторым людям был предоставлен эксклюзивный предварительный просмотр частных демонстраций Gemini 1.5 Pro, демонстрирующих способность языковой модели (LLM) идентифицировать точные моменты в расшифровках видео. Например, сторонник искусственного интеллекта Роуэн Чунг получил ранний доступ и поделился в Твиттере, как его демо обнаружило динамичную сцену спортивного соревнования и свело это событие в краткое изложение, как показано во встроенном твите выше.
Тем не менее, Google отметил, что некоторые первоначальные пользователи, такие как United Wholesale Mortgage, TBS и Replit, вместо этого выбирают бизнес-приложения. Эти компании сосредоточены на таких областях, как одобрение ипотечных кредитов, автоматическая маркировка данных, а также разработка, интерпретация и пересмотр кодексов.
Смотрите также
- Huawei Watch GT 5 против GT 4: стоит ли обновлять свое носимое устройство?
- Новейший планшет HUAWEI, MatePad 12 X, сочетает в себе элегантный дизайн и повышенную производительность.
- Как использовать Gemini AI для освоения Google Таблиц
- Обзор Dell Inspiron 14 Plus (7441): ноутбук начального уровня на Snapdragon X
- Huawei Watch GT 5 против GT 5 Pro: какие умные часы выбрать?
- Обзор Brother MFC-L3720CDW: надежный, но ограниченный цветной лазерный принтер
- AirPods Max 2 против AirPods Max: в чем разница?
- Утечка новой Ryzen 7 9800X3D: «Эта легенда непобедима»
- Instax Mini Link 3 против Link 2: что нового?
- iPhone 16 Pro Max может изменить представление о батареях смартфонов
2024-04-10 03:39