Google наносит ответный удар OpenAI прототипом ИИ-агента Project Astra

Как технический энтузиаст, который следит за последними разработками в области искусственного интеллекта и машинного обучения, я в полном восторге от объявления Google о проекте Astra. Потенциальные применения этой технологии безграничны, и она может значительно улучшить нашу повседневную жизнь, предоставляя помощь в режиме реального времени и понимание нашего окружения.

🧐

Купил акции по совету друга? А друг уже продал. Здесь мы учимся думать своей головой и читать отчётность, а не слушать советы.

Прочитать отчет 10-K

Через день после того, как OpenAI представила GPT-4 с заявленной способностью воспринимать и обсуждать видеоконтент, Google представила Project Astra во время основного доклада конференции Google I/O в Маунтин-Вью во вторник. Демис Хассабис, генеральный директор Google DeepMind, сделал это заявление, отметив, что этот исследовательский прототип имеет схожие возможности понимания видео.

Хассабис назвал Астру «универсальным помощником, необходимым для повседневной жизни». В презентации исследовательский прототип продемонстрировал свои способности, обнаруживая издающие звук объекты, генерируя образные аллитерации, расшифровывая код на экране и находя неуместные предметы. Помощник с искусственным интеллектом также продемонстрировал свои возможности в области носимых технологий, включая умные очки, где он может анализировать диаграммы, предлагать улучшения и придумывать умные ответы на визуальные сигналы.

Astra, по данным Google, использует камеру и микрофон на устройстве пользователя, чтобы предлагать помощь в повседневной жизни. Непрерывно обрабатывая и кодируя видеокадры и речевой ввод, Astra создает временную шкалу событий и сохраняет данные для быстрого поиска. Эта функция позволяет ИИ распознавать объекты, отвечать на запросы и вызывать информацию, которая больше не находится в поле зрения камеры.

https://www.youtube.com/watch?v=nXVvvRhiGjI

Хотя проект Astra все еще находится в зачаточном состоянии и не объявлены даты выпуска, Google указал, что определенные функции могут быть включены в такие предложения, как приложение Gemini, к концу этого года. По словам генерального директора Google Сундара Пичаи, эта разработка представляет собой существенный прогресс в создании сложных помощников ИИ, способных «предвидеть потребности, рассуждать и разрабатывать планы».

Еще в Google AI: 2 миллиона токенов

На конференции Google I/O технологический гигант представил множество разработок, ориентированных на искусственный интеллект, некоторые из которых будут подробно рассмотрены в следующих статьях. А пока давайте предоставим краткое изложение.

Во время открытия своей программной речи Пичаи анонсировал расширенную версию февральской версии Gemini 1.5 Pro, которая скоро будет доступна и будет иметь тот же номер версии. Эта обновленная модель может похвастаться значительно большим контекстным окном на 2 миллиона токенов. Проще говоря, эта расширенная мощность позволяет ИИ одновременно обрабатывать большие объемы текстовых документов или расширенные последовательности закодированных видео. Каждый токен представляет собой фрагмент данных, используемый ИИ для обработки информации. В настоящее время 1.5 Pro может обрабатывать только до 1 миллиона токенов; GPT-4 Turbo от OpenAI имеет более обширное контекстное окно из 128 000 токенов для сравнения.

Я заметил, как исследователь искусственного интеллекта Саймон Уиллисон, который не работал в Google, но был отмечен в основном докладе, поделился своими мыслями о контекстном объявлении в окне во время мероприятия посредством текстового сообщения. Он выразил энтузиазм по поводу емкости в два миллиона токенов, заявив: «Два миллиона токенов — это здорово». Однако он также предупредил: «Однако важно помнить, что за каждое приглашение взимается плата в размере 7 долларов за миллион токенов. Это означает потенциальную стоимость одного приглашения в 14 долларов!» Google взимает эту цену за входы, превышающие 150 тысяч токенов через свой API.

Что касается токенов, Google сделал объявление: расширенное контекстное окно с 1 миллионом токенов для Gemini 1.5 Pro, которое было представлено ранее, но доступно только через API, теперь предлагается пользователям Gemini Advanced.

Как энтузиаст, я воодушевлен последним объявлением Google относительно их новой модели искусственного интеллекта под названием Gemini 1.5 Flash. По данным Google, эта модель представляет собой модернизированный, более быстрый и экономичный вариант существующего Gemini 1.5. По их собственным словам: «Gemini 1.5 Flash — это новейший член нашего семейства моделей Gemini и самая быстрая модель Gemini, предлагаемая через наш API. Она специально разработана для достижения успеха в крупномасштабных и высокочастотных задачах».

Я заметил, как Уиллисон сделал замечание о последней модели Gemini Flash в отношении Flash. Он упомянул, что это выглядит многообещающе и предназначено для предложения до 2 миллионов токенов по сниженной цене по сравнению со стандартной ценой Flash. В частности, Flash взимает 0,35 доллара США за миллион токенов за запросы размером до 128 000, а более длинные запросы стоят 0,70 доллара США за миллион токенов. Эта цена значительно ниже, чем 3,60 доллара США за миллион токенов, взимаемые в версии 1.5 Pro.

«35 центов за миллион токенов! Это самая большая новость дня, ИМХО», — сказал нам Уиллисон.

Google представила Gems, которые можно рассматривать как версию GPTS OpenAI от Google. Это настраиваемые роли для чат-бота Google Gemini, которые позволяют пользователям назначать определенные функции, что обеспечивает более персонализированный опыт. Примеры потенциального использования Gems: партнер по фитнесу, кулинарный помощник, партнер по программированию или руководство по творческому письму.

Новые модели генеративного ИИ

На программном докладе Google I/O во вторник компания Google представила ряд новых моделей генеративного искусственного интеллекта для создания изображений, аудио и видео. Третья версия Imagen — это самое последнее дополнение к моделям синтеза изображений Google, которые, по утверждению технологического гиганта, являются «самой продвинутой моделью преобразования текста в изображение». Он может генерировать изображения с превосходной детализацией, более аутентичным освещением и меньшим количеством мешающих артефактов по сравнению с предыдущими моделями.

Во время недавнего мероприятия у меня была возможность стать свидетелем того, как Google представила свою песочницу Music AI Sandbox. По словам Google, эта коллекция инструментов искусственного интеллекта призвана произвести революцию в производстве музыки. Объединив свой проект YouTube Music и музыкальный генератор Lyria AI, он предоставляет музыкантам новые мощные ресурсы в их распоряжении.

Как аналитик, я наткнулся на анонс новейшего инструмента Google для преобразования текста в видео под названием Google Veo. Эта инновационная технология генерирует видео высокой четкости 1080P на основе текстовых подсказок, качество которых сравнимо с Sora от OpenAI. Компания сотрудничала с актером Дональдом Гловером для создания демонстрационного фильма с использованием этой технологии, основанной на искусственном интеллекте. Хотя Google ранее разрабатывал видеогенераторы с искусственным интеллектом, Google Veo, похоже, является их самым продвинутым творением на сегодняшний день.

В представленном видео от Google сцена описывается следующим образом: Одинокий ковбой путешествует верхом на лошади по обширной равнине на закате, отбрасывая нежное сияние и насыщенные оттенки.

Начиная с сегодняшнего дня избранная группа авторов имеет возможность опробовать новые инновационные творческие инструменты искусственного интеллекта от Google во время закрытого предварительного просмотра. Однако, если вы заинтересованы в присоединении к этой эксклюзивной группе, вы можете подписаться в список ожидания прямо сейчас.

Смотрите также

2024-05-14 22:56