В течение последних нескольких месяцев Apple постоянно публиковала исследовательские статьи, описывающие текущие проекты в области генеративного искусственного интеллекта. Apple не раскрывает специфику своего исследования, но ходят слухи, что они могут вести переговоры с Google об использовании Gemini AI от Google на iPhone.
Было дано несколько намеков на то, что будет дальше, начиная с исследовательской работы Apple в феврале. В этом документе представлено MLLM-Guided Image Editing (MGIE), модель с открытым исходным кодом, которая позволяет редактировать мультимедиа на основе инструкций пользователей на естественном языке. Совсем недавно исследовательская работа по пользовательскому интерфейсу Ferret вызвала волнение в сообществе ИИ.
Цель состоит в том, чтобы интегрировать универсальную систему искусственного интеллекта (способную интерпретировать текст и мультимедийный контент) в понимание компонентов мобильного пользовательского интерфейса. Это очень важно, поскольку инженеры стремятся поднять полезность ИИ для обычного пользователя смартфона за пределы его нынешнего уровня новизны, уделяя особое внимание предоставлению ценных предложений.
Для повышения производительности и безопасности в этом направлении прилагаются значительные усилия по переносу возможностей генеративного искусственного интеллекта из облака на устройства. Благодаря этому задачи можно выполнять быстрее и без подключения к Интернету. Например, Gemini от Google, который работает локально на телефонах серии Google Pixel и Samsung Galaxy S24 (а вскоре и на телефонах OnePlus), способен выполнять такие функции, как обобщение и перевод, не полагаясь на облако.
Что такое пользовательский интерфейс Ferret от Apple?
Используя Ferret-UI, Apple намерена объединить iOS с интеллектом мультимодальной модели искусственного интеллекта. В настоящее время основные функции сосредоточены на более простых задачах, таких как определение значков, поиск текста и организация виджетов. Тем не менее, речь идет не только о понимании визуального контента на экране iPhone, но и о его логической интерпретации и предоставлении ответов на вопросы, заданные пользователями, на основе его способностей к рассуждению.
Пользовательский интерфейс Ferret можно рассматривать как сложную систему оптического распознавания символов на основе искусственного интеллекта для понимания пользовательских интерфейсов и взаимодействия с ними. Согласно исследованию, после обучения на тщательно отобранных наборах данных Ferret UI демонстрирует исключительную способность понимать экраны пользовательского интерфейса и выполнять сложные команды. Разработчики разработали пользовательский интерфейс Ferret, адаптирующийся к различным разрешениям экрана.
Просматривая App Store, у вас есть возможность задавать такие вопросы, как «Подходит ли это приложение для 12-летнего ребенка?» В таких случаях система искусственного интеллекта оценит возрастной рейтинг приложения и предоставит соответствующий ответ. Способ подачи ответа – в текстовом или звуковом виде – в тексте не указывается. Таким образом, ни о каком конкретном виртуальном помощнике, таком как Siri, не упоминается.
Apple не слишком далеко отошла от дерева GPT
Предложения гораздо шире и разумнее. Просто спросите: «Как отправить это приложение другу?» и ИИ укажет на символ «поделиться» на дисплее. Он не просто объяснит, что появляется на экране, но также логически обработает визуальный контент, например поля, кнопки, изображения, значки и т. д. Это значительный шаг вперед в плане доступности.
В исследовательской статье эти особенности обозначены как «разговор восприятия», «функциональный вывод» и «разговор взаимодействия». Проще говоря, Ferret UI — это начальная мультимодальная языковая модель, способная выполнять точные ссылки и задачи, связанные с пользовательскими интерфейсами, при этом понимая и реагируя на открытые языковые команды.
Пользовательский интерфейс Ferret имеет возможность анализировать и объяснять различные элементы на экране, например делать снимки экрана, объяснять функцию актива при нажатии и распознавать сенсорно-интерактивные компоненты. Этот инструмент не ограничивается внутренним использованием; вместо этого он использует передовую технологию OpenAI GPT-4, которая управляет ChatGPT и многими другими продуктами диалогового искусственного интеллекта.
В документе представлена гибкая версия, которая может поддерживать различные соотношения сторон. Более того, это исследование выходит за рамки простого анализа и логики на экране и демонстрирует некоторые впечатляющие расширенные функции. Например, на скриншоте ниже видно, что он способен с видимой легкостью читать и исправлять рукописный текст, даже если пользователь допустил ошибку.
Эта технология также может распознавать текст, обрезанный по краям, что исключает необходимость горизонтальной прокрутки. Тем не менее, это не является непогрешимым. Иногда он принимает кнопку за вкладку и испытывает трудности с интерпретацией объединенных блоков изображения и текста как отдельных объектов.
По сравнению с усовершенствованной моделью GPT-4V от OpenAI, пользовательский интерфейс Ferret продемонстрировал исключительное взаимодействие во время разговоров на основе экранного контента. На иллюстрации ниже показано, что пользовательский интерфейс Ferret предпочитает краткие и четкие ответы более длинным и сложным ответам, выдаваемым GPT-4V.
Когда дело доходит до покупки тапочек, отображаемых на экране, я бы предпочел, чтобы ИИ дал мне простой набор инструкций, используя минимально возможное количество слов. Пользовательский интерфейс Ferret преуспел в этой области, не только сохраняя краткость, но и обеспечивая точность. В нашем тесте на результаты взаимодействия при разговоре Ferret UI достиг замечательной точности 91,7%, а GPT-4V — немного выше 93,4%.
Вселенная интригующих возможностей
Пользовательский интерфейс Ferret знаменует собой впечатляющий дебют искусственного интеллекта, который может понимать действия на экране. Теперь, прежде чем мы будем слишком воодушевлены этими возможностями, мы не уверены, как именно Apple намерена интегрировать это с iOS, и будет ли это вообще реализовано по нескольким причинам. Bloomberg недавно сообщил, что Apple осознает, что отстает в гонке ИИ, и это совершенно очевидно по отсутствию собственных продуктов генеративного ИИ в экосистеме Apple.
Слухи о том, что Apple может сотрудничать с Google или OpenAI по поводу технологии Gemini, указывают на то, что собственные достижения Apple в области искусственного интеллекта не так продвинуты, как у их конкурентов. В этом случае для Apple, возможно, имеет больше смысла использовать прогресс Google в проекте Gemini (который направлен на то, чтобы превзойти Google Assistant на смартфонах) вместо того, чтобы выпускать частично разработанное решение искусственного интеллекта для iPhone и iPad.
Apple известна своими грандиозными планами и прогрессом в их реализации, о чем свидетельствуют исследовательские исследования, изложенные в многочисленных научных статьях. Тем не менее, если Apple успешно интегрирует пользовательский интерфейс Ferret в iOS, это будет представлять собой лишь поверхностное применение встроенного в устройство искусственного интеллекта с генеративными возможностями.
Несмотря на то, что функциональная интеграция ограничена внутренними приложениями, она способна дать впечатляющие результаты. Представьте себе такой сценарий: пока вы поглощены чтением электронного письма в своем почтовом приложении, ИИ тихо работает в фоновом режиме, оценивая содержимое электронного письма. С помощью простой голосовой команды вы можете поручить ИИ создать событие календаря из электронного письма и сохранить его в своем расписании, не выходя из приложения.
Вам не нужно проходить сложный процесс с использованием нескольких приложений. Например, если вы просматриваете панель знаний Google в ресторане, просто сказав «позвонить сюда», ИИ заставит ИИ прочитать отображаемый номер телефона, передать его на номеронабиратель вашего телефона и автоматически совершить звонок.
Например, если вы наткнетесь на твит, объявляющий о выходе фильма 6 апреля, и захотите купить билеты через Fandango, просто скажите ИИ, чтобы он установил ярлык, ведущий вас туда. Альтернативно, как только вы были очарованы публикацией, демонстрирующей захватывающий дух пляж во Вьетнаме, все, что вам нужно сказать, это «забронируйте мне билет на Кон-Дай», и ИИ без проблем направит вас на Skyscanner с предварительно заполненной необходимой информацией.
Хотя внедрение пользовательского интерфейса Ferret в приложения для iPhone может показаться простым, на самом деле все не так просто. В игру вступают несколько факторов, на некоторые из которых Apple не может напрямую повлиять. Например, если веб-страница содержит слишком много всплывающих окон и навязчивой рекламы, это может помешать работе пользовательского интерфейса Ferret. Однако есть и положительный момент: разработчики iOS обычно старательно следуют рекомендациям Apple по дизайну. В результате пользовательский интерфейс Ferret с большей вероятностью будет работать оптимально при интеграции с приложениями iPhone, которые соответствуют этим стандартам.
Победа в этом контексте была бы примечательной. Учитывая, что мы обсуждаем реализацию на устройстве, глубоко интегрированную в ОС, маловероятно, что Apple будет взимать дополнительную плату, в отличие от других продвинутых сервисов искусственного интеллекта, таких как ChatGPT Plus и Microsoft Copilot Pro. Может ли iOS 18 дать нам представление об улучшенной iOS, наделенной превосходными возможностями искусственного интеллекта? Чтобы получить ответ, нам придется следить за Всемирной конференцией разработчиков Apple 2024.
Смотрите также
- На фотографии iPhone 16 Pro Max видны удивительно тонкие рамки
- Что лучше: Dell Latitude или Inspiron?
- Концовка «Субстанции» объясняет: что происходит со Сью и Элизабет?
- Если вы скучаете по старым Windows Phone от Nokia, вам понравится HMD Skyline.
- Эта функция Apple Watch сводила меня с ума. Вот как я это исправил
- Приложение Google Gemini AI получает более широкую версию. Ваш телефон есть в списке?
- Xiaomi Mix Fold 4 против Xiaomi Mix Flip: в чем разница?
- Обзор Acer Predator Triton Neo 16: играть с большими мальчиками нелегко
- Huawei Watch GT 5 против GT 4: стоит ли обновлять свое носимое устройство?
- Insta360 Ace Pro 2 против DJI Osmo Action 5 Pro: как они сравниваются?
2024-04-15 18:09