

С новым обновлением Gemini Pro 1.5 чат-боты с искусственным интеллектом больше не могут просто обрабатывать визуальные данные с помощью изображений и видео. Они также оснащены возможностью «прослушивания» аудиофайлов и преобразования звуков в письменный текст.
"Рынок красный? Это просто сезон скидок для умных инвесторов." - так говорят, чтобы не плакать. У нас — аналитика, которая помогает плакать реже.
Найти недооцененные активыКомпания выпустила общедоступную предварительную версию LLM на своей платформе Vertex AI для более широкого экспериментирования со стороны бизнес-пользователей. После частного представления избранным разработчикам и корпоративным клиентам в феврале эта функция теперь открыта для более широкой аудитории. Первоначально он был доступен исключительно ограниченной группе.
<р>1. Разбор + понимание длинного видео
Я загрузил всю информацию о вчерашнем соревновании по данкам в НБА и спросил, какой из данков набрал больше всего очков.
«Gemini 1.5 продемонстрировал замечательные возможности извлечения точного 50-секундного сегмента и сложных деталей из длинного контекстного видео».
— Роуэн Чунг (@rowancheung), 18 февраля 2024 г.
На продолжающейся конференции Cloud Next в Лас-Вегасе Google раскрыла информацию об обновлении мощного чат-бота Gemini Advanced, Gemini Ultra LLM, который они теперь называют Gemini 1.5 Pro. Эта последняя версия рекламируется как самая совершенная генеративная модель в семействе Google Gemini, обладающая улучшенными возможностями обучения, требующими минимальных настроек.
Программное обеспечение Gemini 1.5 Pro универсально и способно конвертировать различные типы аудио в текст. Он обрабатывает телешоу, фильмы, радиопрограммы и конференц-связь. Кроме того, он поддерживает несколько языков, что делает его ценным инструментом для многоязычных пользователей. Более того, по данным TechCrunch, хотя программа может генерировать расшифровки видео, ее точность может быть нестабильной.
Первоначально Google описал метод обработки данных Gemini 1.5 Pro как использование системы токенов. Грубо говоря, один миллион токенов соответствует примерно 700 000 слов или 30 000 строк кода. С точки зрения медиаконтента это соответствует часовому видео или примерно 11 часам аудио.
Некоторым людям был предоставлен эксклюзивный предварительный просмотр частных демонстраций Gemini 1.5 Pro, демонстрирующих способность языковой модели (LLM) идентифицировать точные моменты в расшифровках видео. Например, сторонник искусственного интеллекта Роуэн Чунг получил ранний доступ и поделился в Твиттере, как его демо обнаружило динамичную сцену спортивного соревнования и свело это событие в краткое изложение, как показано во встроенном твите выше.
Тем не менее, Google отметил, что некоторые первоначальные пользователи, такие как United Wholesale Mortgage, TBS и Replit, вместо этого выбирают бизнес-приложения. Эти компании сосредоточены на таких областях, как одобрение ипотечных кредитов, автоматическая маркировка данных, а также разработка, интерпретация и пересмотр кодексов.
Смотрите также
- OnePlus 15 против Oppo Find X9 Pro: Флагманы в сравнении
- Huawei Watch GT 6 Pro против GT 5 Pro: Что нового в этом носимом устройстве?
- Лучшие фильмы о зомби (октябрь 2025)
- Объявлен актерский состав предстоящей киноверсии «До рассвета»
- Обзор Lenovo ThinkPad X1 Carbon поколения 13 в версии Aura Edition
- 7 лучших чехлов для Apple iPhone 16 Pro Max 2024 года
- Обзор RingConn Gen 2: умное кольцо, экономящее деньги
- Лучшие бесплатные приложения для международных звонков в 2024 году
- Обзор LG OLED55G5
- Stranger Things 5 сезон: объяснение реткона с возрастом Холли Уилер.
2024-04-10 03:39