С новым обновлением Gemini Pro 1.5 чат-боты с искусственным интеллектом больше не могут просто обрабатывать визуальные данные с помощью изображений и видео. Они также оснащены возможностью «прослушивания» аудиофайлов и преобразования звуков в письменный текст.
Компания выпустила общедоступную предварительную версию LLM на своей платформе Vertex AI для более широкого экспериментирования со стороны бизнес-пользователей. После частного представления избранным разработчикам и корпоративным клиентам в феврале эта функция теперь открыта для более широкой аудитории. Первоначально он был доступен исключительно ограниченной группе.
<р>1. Разбор + понимание длинного видео
Я загрузил всю информацию о вчерашнем соревновании по данкам в НБА и спросил, какой из данков набрал больше всего очков.
«Gemini 1.5 продемонстрировал замечательные возможности извлечения точного 50-секундного сегмента и сложных деталей из длинного контекстного видео».
— Роуэн Чунг (@rowancheung), 18 февраля 2024 г.
На продолжающейся конференции Cloud Next в Лас-Вегасе Google раскрыла информацию об обновлении мощного чат-бота Gemini Advanced, Gemini Ultra LLM, который они теперь называют Gemini 1.5 Pro. Эта последняя версия рекламируется как самая совершенная генеративная модель в семействе Google Gemini, обладающая улучшенными возможностями обучения, требующими минимальных настроек.
Программное обеспечение Gemini 1.5 Pro универсально и способно конвертировать различные типы аудио в текст. Он обрабатывает телешоу, фильмы, радиопрограммы и конференц-связь. Кроме того, он поддерживает несколько языков, что делает его ценным инструментом для многоязычных пользователей. Более того, по данным TechCrunch, хотя программа может генерировать расшифровки видео, ее точность может быть нестабильной.
Первоначально Google описал метод обработки данных Gemini 1.5 Pro как использование системы токенов. Грубо говоря, один миллион токенов соответствует примерно 700 000 слов или 30 000 строк кода. С точки зрения медиаконтента это соответствует часовому видео или примерно 11 часам аудио.
Некоторым людям был предоставлен эксклюзивный предварительный просмотр частных демонстраций Gemini 1.5 Pro, демонстрирующих способность языковой модели (LLM) идентифицировать точные моменты в расшифровках видео. Например, сторонник искусственного интеллекта Роуэн Чунг получил ранний доступ и поделился в Твиттере, как его демо обнаружило динамичную сцену спортивного соревнования и свело это событие в краткое изложение, как показано во встроенном твите выше.
Тем не менее, Google отметил, что некоторые первоначальные пользователи, такие как United Wholesale Mortgage, TBS и Replit, вместо этого выбирают бизнес-приложения. Эти компании сосредоточены на таких областях, как одобрение ипотечных кредитов, автоматическая маркировка данных, а также разработка, интерпретация и пересмотр кодексов.
Смотрите также
- 7 лучших чехлов для Apple iPhone 16 Pro Max 2024 года
- Обзор саундбара LG S95TR: наконец-то хорошо
- 20 лучших циферблатов Samsung Galaxy Watch, которые вам стоит использовать
- AirPods Max 2 против AirPods Max: в чем разница?
- Наконец-то я нашел утилиту для игрового ноутбука, которую действительно стоит использовать
- Обзор PrivadoVPN: новый бюджетный VPN, которым можно пользоваться бесплатно
- Xiaomi 14T Pro против Samsung Galaxy S24: что купить?
- LG OLED55G4
- Обзор Beyerdynamic DT 770 Pro X Limited Edition – 100 лет звука
- Huawei Watch GT 5 против GT 4: стоит ли обновлять свое носимое устройство?
2024-04-10 03:39