До начала Google I/O 2024 многие ожидали, что ИИ станет важной темой для обсуждения. Мероприятие началось весьма оживленно. Сенсация YouTube Марк Ребилле задал тон, торжественно появившись в халате, выйдя из большой чашки.
Как технический энтузиаст, я бы сказал это так: сенсация в социальных сетях открыла мероприятие захватывающим образом, предложив аудитории поделиться нестандартными музыкальными идеями. Эти концепции затем были воплощены в жизнь с помощью передового программного обеспечения AI DJ от Google. О более захватывающем начале ведущий и мечтать не мог! Следуя указаниям генерального директора Сундара Пичаи, руководители Google подчеркнули силу искусственного интеллекта, упомянув этот термин в общей сложности 121 раз в своих презентациях.
После окончания мероприятия мне пришлось размышлять над двумя наводящими на размышления вопросами. Во-первых: решает ли настойчивость Google в предложении мороженого Gemini своим пользователям несуществующие проблемы обычного человека? Во-вторых: может ли нишевый рынок дорогостоящего оборудования искусственного интеллекта процветать, когда искусственный интеллект на смартфонах продолжает развиваться и приобретать впечатляющие возможности?
Статус ИИ-брелоков
На сегодняшний день мы представили очаровательные оранжевые устройства искусственного интеллекта, такие как Rabbit R1 и изысканный значок Humane AI Pin, а еще один бренд планирует создать подвеску с искусственным интеллектом. Некоторые гаджеты просто слушают, в то время как другие участвуют в разговоре, снимают видео, совершают звонки, взаимодействуют с чат-ботами и даже пытаются понять свое окружение.
Я видел немало неэффективных гаджетов в мире технологий, и два недавних дополнения к этому несчастному клубу — это Rabbit R1 и Humane AI Pin. Джо Маринг из отдела мобильных технологий Digital Trends поделился разочарованием по поводу первого, назвав его одним из худших устройств, с которыми он когда-либо сталкивался. У последнего была не лучшая история. Имейте в виду, это гаджеты первого поколения, поэтому давайте снисходительно относиться к их ранним спотыканиям.
Проще говоря, перспективы их будущего не являются многообещающими с точки зрения доступности, удобства или общей привлекательности. Всего за два дня OpenAI и Google решительно намекнули на эту реальность.
ИИ теперь знает мир
Мы начнем со зрения — способности, которая позволяет ИИ наблюдать за миром через объектив камеры и обсуждать то, что он воспринимает. На выставке I/O 2024 Google представила Gemini Live. За день до этого события OpenAI представила GPT-4o, где «o» означает омнимодальность. Это означает, что ваш AI-компаньон может управлять текстом, звуком и визуальными эффектами как на входе, так и на выходе. Тем не менее, их конечные цели одни и те же.
Активировав выбранный искусственный интеллект, наведите камеру на любой объект, а затем задайте контекстные вопросы. ИИ предоставит соответствующие ответы. Включите фронтальную камеру и попросите ее комментировать, пока вы играете в «Камень, ножницы, бумага» с другом. Он также может оценить ваш наряд и определить, не идеальна ли ваша розовая рубашка для собеседования.
Это устройство способно идентифицировать и описывать объекты на португальском языке, действовать как знающий гид по зданиям, распознавать особые случаи по конфетти, интерпретировать коды и даже запоминать, куда вы положили ключи от машины при сканировании.
На этом этапе важно отметить, что, хотя ChatGPT и Gemini Live имеют некоторые общие фундаментальные возможности, их конкретные возможности могут значительно различаться. ChatGPT, более продвинутый в технологии GPT-4, предлагает другой опыт искусственного интеллекта, чем Gemini Live, основанный на технологии Google Astra. Это различие становится все более заметным, когда мы сравниваем функции искусственного интеллекта на мобильных телефонах с функциями специального оборудования.
Аппаратная загадка
Rabbit R1 и Humane AI Pin оснащены камерами с разрешением 8 и 12 мегапикселей соответственно. Хотя они могут воспринимать и интерпретировать окружающий мир, их визуальные возможности уступают передовым оптически стабилизированным камерам высокой четкости, установленным в современных смартфонах высшего класса.
С моей точки зрения, стандартный смартфон передает большее количество четких визуальных данных в механизм искусственного интеллекта, будь то локальный или облачный. Это приводит к улучшению понимания и интерпретации информации. Рассмотрим такую аналогию: представьте, что вы смотрите видеоблог, записанный на бюджетный и флагманский телефон в сложных условиях освещения, а затем просите друзей описать каждую деталь, которую они наблюдают. Более четкие и четкие кадры с флагманского телефона дадут гораздо более подробные описания, в то время как размытый или переэкспонированный клип с бюджетного телефона не будет таким полезным.
Проще говоря, когда речь идет об гаджетах с искусственным интеллектом, которые будут популярны в 2024 году, в их основе лежат чипы среднего класса от MediaTek и Qualcomm. Эти устройства не несут на себе всю тяжесть операционной системы и могут выполнять задачи искусственного интеллекта намного быстрее, чем старые модели, такие как R1 или Humane’s Pin, даже превосходя возможности приличного смартфона.
Я разочарован тем, что моему устройству с искусственным интеллектом требуется 15 секунд для обработки запроса, в то время как Siri обеспечивает более быстрые результаты. Хотя Siri, возможно, не лучшее сравнение, давайте посмотрим, как вычислительная мощность влияет на эту ситуацию. Генеративные технологии искусственного интеллекта приносят инновации двумя основными способами: большинство решений отправляют запросы на удаленные серверы, что требует подключения к Интернету.
Альтернативное выражение: второй вариант предполагает обработку в автономном режиме, аналогично тому, как модель Google Gemini Nano работает на устройствах Pixel 8 и некоторых телефонах Samsung. Этот метод предлагает главное преимущество: не требуется подключение к Интернету. В настоящее время ни одно существующее устройство искусственного интеллекта не способно функционировать без подключения к сети.
Искусственный интеллект на устройстве — настоящая находка
Используя обработку на устройстве, приложение Recorder на телефонах Google Pixel может расшифровывать и суммировать аудиозаписи. Magic Compose улучшит качество обмена текстовыми сообщениями, не требуя Wi-Fi или сотовой связи. Эта возможность также применима к переводам и транскрипции. По правде говоря, Google заложил основу для надежных офлайн-переводов еще в 2018 году с помощью своей технологии нейронного машинного перевода.
Как технический энтузиаст, я рад сообщить, что предстоящий релиз Google, Gemini Nano, выводит инновации на новый уровень. Это устройство не только произведет революцию в обработке визуальных и слуховых сигналов, но и обеспечит функциональность в автономном режиме! Это верно; вам не потребуется подключение к Интернету, чтобы Gemini Live творил чудеса. Благодаря этой передовой технологии камера, экран и микрофон вашего телефона позволят Gemini Live воспринимать, понимать и давать контекстуально релевантные ответы без какой-либо онлайн-помощи. Разве это не удивительно?
Как исследователь, я рад сообщить, что Google расширяет функцию специальных возможностей TalkBack с помощью нового компонента под названием Gemini. Это обновление значительно принесет пользу людям, сталкивающимся с проблемами речи и зрения, которым требуется надежный помощник TalkBack с мультимодальными возможностями, но которым не хватает постоянного доступа к Интернету.
Кроме того, я хотел бы отметить, что локальная обработка ИИ дает несколько преимуществ: она быстрее, поскольку обработка происходит на самом устройстве, и более безопасна, поскольку никакие данные не передаются за пределы вашего телефона. Кроме того, это приводит к экономии средств за счет уменьшения потребности в обширных ресурсах облачных вычислений для создания функций искусственного интеллекта.
Стоимость для потребителей остается серьезной проблемой во время маркетингового ажиотажа вокруг новых телефонов, наполненного искусственным интеллектом. Однако искусственный интеллект на устройстве вносит уверенность в эту путаницу, поскольку он обеспечивает четкое понимание минимальных возможностей телефона, не беспокоясь о совместимости функций в долгосрочной перспективе.
Близнецы все делают правильно
В конце концов мы приходим к основному вопросу, касающемуся взаимодействия. Я в значительной степени полагаюсь на Gmail, Документы, Диск, Карты, Фотографии и Поиск, а также на другие предложения Google. Google разработал помощников на базе Gemini, которых я называю Gems, для управления конкретными задачами, которые легко интегрируются с другими продуктами в их экосистеме.
Когда вы запрашиваете Gemini организовать для вас поездку, на первом этапе система проверяет вашу учетную запись Gmail на предмет организации билетов. Впоследствии он объединяет данные из вашей инструкции с соответствующими деталями, полученными через поиск Google, для создания комплексного маршрута путешествия.
Как преданный пользователь Gemini aAdvanced, я рад сообщить, что этот мощный инструмент предлагает дополнительные функции повышения производительности для тех, кто готов выполнить обновление. Благодаря возможности обрабатывать PDF-файлы, содержащие до 1500 страниц, 30 000 строк кода, часовое видео или комбинацию различных форматов файлов, это похоже на виртуального помощника, который легко управляет и обрабатывает сложные данные за вас.
Как наблюдатель, я могу сказать вам, что Близнецы способны обрабатывать огромные объемы информации и представлять вам ее сокращенные версии. Он выделит важные детали и даже будет выполнять функции наставника, как только усвоит все данные. Кроме того, он может преобразовать простые электронные таблицы в подробные финансовые отчеты, предоставляющие ценную информацию о прибыли.
ИИ способен прослушивать звонки и уведомлять пользователей, если звонящий оказывается мошенником. Более того, Gemini не требует переключения приложений; вместо этого он плавно функционирует в интерфейсе, выполняя свою задачу, а затем исчезает после завершения.
Трудно победить смартфон
Я намерен подчеркнуть, что искусственный интеллект (ИИ) должен функционировать как полезный помощник, но он должен обеспечивать идеальное сочетание адаптируемости и простоты использования. Этого можно достичь только в том случае, если будут известны данные, имеющие для меня значение как на личном, так и на профессиональном уровне. Более того, я хочу, чтобы эти расширенные возможности были реализованы оптимальным образом без какого-либо ненужного финансового бремени.
В настоящее время такие устройства, как Rabbit R1 или Humane AI Pin, не могут в полной мере использовать сложные связи между своими продуктами из-за ограниченных возможностей. Более того, само оборудование не позволяет ИИ полностью раскрыть свой потенциал. Трудно представить, чтобы Google предоставил лицензию на использование технологии Gemini Nano с такими устройствами, как Rabbit R1. Даже если такое сотрудничество произойдет, пользовательский опыт, скорее всего, будет ограничен аппаратными ограничениями.
Зачем тратить дополнительные деньги на худший опыт, если передовая технология искусственного интеллекта в вашем кармане может дать исключительные результаты? Будущее теперь за интеллектуальными телефонами. Тем временем глянцевые гаджеты с искусственным интеллектом устарели.
Смотрите также
- На фотографии iPhone 16 Pro Max видны удивительно тонкие рамки
- Концовка «Субстанции» объясняет: что происходит со Сью и Элизабет?
- Если вы скучаете по старым Windows Phone от Nokia, вам понравится HMD Skyline.
- Приложение Google Gemini AI получает более широкую версию. Ваш телефон есть в списке?
- Xiaomi Mix Fold 4 против Xiaomi Mix Flip: в чем разница?
- Что лучше: Dell Latitude или Inspiron?
- Эта функция Apple Watch сводила меня с ума. Вот как я это исправил
- 5 телефонов, которые стоит купить вместо Samsung Galaxy Z Flip 5
- Samsung может разработать тройной телефон к следующему году
- iOS 18.2: как использовать ChatGPT с Siri
2024-05-20 15:09