

С новым обновлением Gemini Pro 1.5 чат-боты с искусственным интеллектом больше не могут просто обрабатывать визуальные данные с помощью изображений и видео. Они также оснащены возможностью «прослушивания» аудиофайлов и преобразования звуков в письменный текст.
"Рынок красный? Это просто сезон скидок для умных инвесторов." - так говорят, чтобы не плакать. У нас — аналитика, которая помогает плакать реже.
Найти недооцененные активыКомпания выпустила общедоступную предварительную версию LLM на своей платформе Vertex AI для более широкого экспериментирования со стороны бизнес-пользователей. После частного представления избранным разработчикам и корпоративным клиентам в феврале эта функция теперь открыта для более широкой аудитории. Первоначально он был доступен исключительно ограниченной группе.
<р>1. Разбор + понимание длинного видео
Я загрузил всю информацию о вчерашнем соревновании по данкам в НБА и спросил, какой из данков набрал больше всего очков.
«Gemini 1.5 продемонстрировал замечательные возможности извлечения точного 50-секундного сегмента и сложных деталей из длинного контекстного видео».
— Роуэн Чунг (@rowancheung), 18 февраля 2024 г.
На продолжающейся конференции Cloud Next в Лас-Вегасе Google раскрыла информацию об обновлении мощного чат-бота Gemini Advanced, Gemini Ultra LLM, который они теперь называют Gemini 1.5 Pro. Эта последняя версия рекламируется как самая совершенная генеративная модель в семействе Google Gemini, обладающая улучшенными возможностями обучения, требующими минимальных настроек.
Программное обеспечение Gemini 1.5 Pro универсально и способно конвертировать различные типы аудио в текст. Он обрабатывает телешоу, фильмы, радиопрограммы и конференц-связь. Кроме того, он поддерживает несколько языков, что делает его ценным инструментом для многоязычных пользователей. Более того, по данным TechCrunch, хотя программа может генерировать расшифровки видео, ее точность может быть нестабильной.
Первоначально Google описал метод обработки данных Gemini 1.5 Pro как использование системы токенов. Грубо говоря, один миллион токенов соответствует примерно 700 000 слов или 30 000 строк кода. С точки зрения медиаконтента это соответствует часовому видео или примерно 11 часам аудио.
Некоторым людям был предоставлен эксклюзивный предварительный просмотр частных демонстраций Gemini 1.5 Pro, демонстрирующих способность языковой модели (LLM) идентифицировать точные моменты в расшифровках видео. Например, сторонник искусственного интеллекта Роуэн Чунг получил ранний доступ и поделился в Твиттере, как его демо обнаружило динамичную сцену спортивного соревнования и свело это событие в краткое изложение, как показано во встроенном твите выше.
Тем не менее, Google отметил, что некоторые первоначальные пользователи, такие как United Wholesale Mortgage, TBS и Replit, вместо этого выбирают бизнес-приложения. Эти компании сосредоточены на таких областях, как одобрение ипотечных кредитов, автоматическая маркировка данных, а также разработка, интерпретация и пересмотр кодексов.
Смотрите также
- Безопасно ли использовать менеджер паролей Bitwarden?
- OnePlus 15 против Oppo Find X9 Pro: Флагманы в сравнении
- Apple iPhone 16 против iPhone 14: действительно ли вам нужно обновляться?
- Кэри Элвис из фильма «Принцесса-невеста» публикует трогательное признание в любви Робу Райнеру: «Жизнь — это боль без тебя».
- Оригинальный аниме-фильм Netflix 2026 года Cosmic Princess Kaguya становится кассовым хитом.
- «Пошнурый и отвратительный памятник жадности». Премьера All’s Fair с участием Ким Кардашьян получила 0% на Rotten Tomatoes, поскольку критики сетуют на «ужасную» юридическую драму.
- Дафне Кин отвечает на просьбы фанатов заменить Хью Джекмана в роли Росомахи киновселенной Marvel (MCU).
- Роб Лоу не имел ни малейшего представления, что пол станет настолько популярным, но я не могу насытиться им.
- OM Система Tough TG-7
- Протестирован невыпущенный четырехслотовый прототип RTX 4090: впечатляющий кулер и кошмар, который нужно разобрать
2024-04-10 03:39