NPU в вашем телефоне постоянно совершенствуется — почему это не делает AI лучше?

Недавние технологические достижения в значительной степени сосредоточены вокруг генеративного ИИ. Хотя многие из этих систем требуют мощных и дорогостоящих серверов, производители чипов также подчеркивают все более мощные нейронные процессоры (NPU), которые теперь можно найти в повседневных устройствах. Нам постоянно говорят, что каждый новый NPU значительно быстрее предыдущего, но часто неясно, какие практические преимущества дает эта улучшенная скорость.

💰

"Рынок красный? Это просто сезон скидок для умных инвесторов." - так говорят, чтобы не плакать. У нас — аналитика, которая помогает плакать реже.

Найти недооцененные активы

Многие эксперты предсказывают, что вскоре у нас появятся частные и безопасные AI-ассистенты, работающие непосредственно на наших устройствах. Но происходит ли это на самом деле с нынешним всплеском популярности AI? Хотя ‘edge AI’ – обработка AI, выполняемая локально на устройстве – звучит многообещающе, большинство мощных AI-инструментов по-прежнему полагаются на облачные вычисления. Это поднимает вопрос: что на самом деле делает AI-чип в вашем телефоне?

Что такое NPU?

Когда компании представляют новые продукты, они часто полагаются на преувеличенные заявления и неясный язык, не объясняя четко технические аспекты. Многие покупатели телефонов, например, не понимают, почему аппаратное обеспечение разработано для искусственного интеллекта, и преимущества этой технологии часто кажутся неясными или недоказанными.

Большинство мощных процессоров, которые можно найти в современных телефонах и компьютерах, теперь являются ‘системами на кристалле’, или SoC. Это означает, что они объединяют множество различных компонентов – такие как центральный процессор (CPU), графический процессор (GPU) и обработка изображений – все на одном чипе. Примеры включают Qualcomm Snapdragon и Google Tensor, используемые в мобильных устройствах, и Intel Core Ultra, которые можно найти в компьютерах.

Я изучаю нейронные процессоры, или NPU, которые относительно новы для компьютерных чипов. Но они не появились в одночасье; за их разработкой стоит история. Что делает NPU такими эффективными, так это их способность делать много вещей одновременно – тип обработки, называемый параллельными вычислениями – и это метод, который также оказывается полезным в других частях дизайна чипа.

Qualcomm часто выделяет свои процессоры Hexagon во время анонсов продуктов. Стоит отметить, что это название изначально использовалось для их цифровых сигнальных процессоров, и между двумя этими вещами есть логическая связь.

Я помню, когда Qualcomm впервые начал изучать ИИ, это было 15 или 20 лет назад. Мы начали с изучения обработки сигналов – это казалось естественной отправной точкой. Цифровые сигнальные процессоры, или DSP, и блоки нейронной обработки, или NPU, имеют схожую базовую структуру, но DSP проще. Они отлично справляются с такими вещами, как звук – подумайте о распознавании речи – и обработкой сигналов для модемов.

С ростом искусственного интеллекта инженеры начали использовать цифровые сигнальные процессоры (DSP) для различных видов параллельной обработки, включая долгую краткосрочную память (LSTM). По словам Сукумара, по мере того как свёрточные нейронные сети (CNN)—технология, лежащая в основе таких приложений, как компьютерное зрение—приобретали популярность, DSP переключили свое внимание на матричные функции, которые также имеют решающее значение для генеративного ИИ.

Хотя NPUs имеют общую историю с DSP, называть их просто модернизированными версиями неточно. По словам Марка Одани из MediaTek, хотя NPU *и* является технически цифровым сигнальным процессором, он значительно эволюционировал. Современные NPUs гораздо более эффективны при обработке параллельных вычислений, способе функционирования трансформаторов и управлении большими объемами данных, необходимыми для сложных расчетов.

Хотя блоки нейронной обработки (NPU) становятся обычным явлением в новых чипах, они не являются необходимыми для выполнения задач ИИ непосредственно на устройствах – так называемые «edge» вычисления, в отличие от полагания на облако. CPU могут справляться с более простыми задачами ИИ с разумным энергопотреблением, хотя они медленнее, чем NPU. GPU могут обрабатывать большой объем данных, иногда даже больше, чем NPU, но они потребляют больше энергии. Sukumar из Qualcomm отмечает, что есть ситуации, когда использование GPU имеет смысл – например, запуск ИИ вместе с требовательной игрой.

По словам Сукумара, достижение успеха в этом сценарии означает поддержание плавной частоты кадров без ущерба для качества изображения или возможности предлагать персонализированные рекомендации игроку. Он объясняет, что запуск этих процессов внутри графического движка является наиболее эффективным подходом, поскольку он позволяет избежать необходимости постоянного переключения между графическим процессором и специализированным AI-процессором.

Жизнь на грани — это тяжело.

Многие устройства имеют AI-процессоры, которые не используются в полной мере, даже когда не играют в игры. В настоящее время большинство AI-задач выполняются ‘в облаке’, а не непосредственно на устройствах, потому что именно там наиболее эффективно работают большие языковые модели. Эти AI-модели разрабатываются и улучшаются с использованием мощных серверов, и они продолжают лучше всего работать там.

ИИ-системы, работающие на серверах, такие как полные версии Gemini и ChatGPT, обладают гораздо большей вычислительной мощностью, чем модели, разработанные для телефонов. Например, новейшая модель Gemini Nano для телефонов может обрабатывать 32 000 токенов информации – значительное улучшение по сравнению с ее предыдущей версией. Но полные модели Gemini, работающие на серверах, могут обрабатывать до 1 миллиона токенов, что позволяет им работать с гораздо большими объемами данных.

Как поклонник технологий, я действительно рад тому, как улучшаются как облачный ИИ, так и новые ИИ-чипы, которые мы видим в устройствах (например, NPU). Однако я не думаю, что эти чипы, установленные в устройствах, полностью возьмут верх. Как сказал представитель команды Google Pixel, в облаке всегда будет гораздо больше вычислительной мощности, чем мы можем поместить в телефон или другое мобильное устройство.

По словам Одани, запуск очень мощных или сложных AI-моделей требует облачных вычислений. Однако многие распространенные приложения, такие как суммирование текста или использование голосовых помощников, на самом деле могут хорошо работать с меньшими моделями, содержащими около трех миллиардов параметров.

Запуск моделей ИИ напрямую на телефонах или ноутбуках требует внесения некоторых компромиссов, часто путем упрощения самой модели. По словам Одани, модели ИИ, размещенные в облаке, используют сотни миллиардов ‘параметров’ – чисел, которые контролируют, как ИИ понимает и реагирует на информацию. Современные телефоны и ноутбуки недостаточно мощные, чтобы справиться с таким количеством параметров, поэтому разработчикам приходится значительно уменьшать размер модели для этих устройств. Новейший процессор MediaTek может управлять примерно 3 миллиардами параметров, что является существенным сокращением по сравнению с облачными моделями.

Телефоны и ноутбуки имеют ограниченную память, поэтому модели искусственного интеллекта, предназначенные для мобильных устройств, часто используют метод, называемый квантованием. Это снижает точность вычислений модели, чтобы уменьшить её размер. Например, запуск большой модели искусственного интеллекта, такой как Llama или Gemma 7b, обычно требует много памяти – около 13-14 гигабайт при использовании стандартного формата FP16 (полуточность). Однако, снизив точность ещё больше до FP4 (четвертная точность), использование памяти моделью может быть уменьшено всего до нескольких гигабайт.

По словам Сукумара, сжатие моделей до примерно трех или четырех гигабайт идеально подходит для использования в устройствах с ограниченной памятью, таких как смартфоны. Он также отметил, что Qualcomm и другие компании активно инвестируют в методы сжатия этих моделей с сохранением их производительности.

Создание универсального ИИ для телефонов – сложная задача из-за текущих ограничений, но телефоны – особенно смартфоны – собирают много данных. Эти данные можно использовать для обучения моделей ИИ, чтобы предоставлять полезные функции. Именно поэтому большинство ИИ на телефонах сосредоточены на конкретных задачах, таких как понимание изображений или помощь в планировании. Google отмечает, что его новейшие телефоны Pixel используют более 100 различных моделей ИИ, начиная от тех, которые создают контент, и заканчивая более традиционными типами.

Честно говоря, даже я, человек, который раньше немного сомневался в ИИ, вижу, что всё меняется *очень быстро*. Это безумие – к тому моменту, когда разработчики усердно работают над тем, чтобы ИИ работал плавно на телефонах или ноутбуках, в облаке появляется ещё *более* мощный ИИ, делая их работу почти мгновенно устаревшей! Именно поэтому вы пока не видели множества приложений, использующих специальные AI-процессоры в новых устройствах. Это трудное положение для разработчиков: они могут либо работать с тем, что уже есть на устройстве, что имеет ограничения и постоянно меняется, либо создавать *собственный* ИИ, что является огромным предприятием. Это просто не лучшая ситуация для них сейчас.

Вопрос доверия

Если облачные вычисления предлагают скорость и простоту, зачем усложнять себе жизнь и тратить энергию на оптимизацию для периферийных устройств и NPU? Опора на облако также означает доверие операторам центров обработки данных ИИ, что не всегда идеально или уместно.

Как аналитик, я слежу за подходом Qualcomm к ИИ на устройстве, и конфиденциальность явно является ключевым фактором с самого начала. Их команда, возглавляемая Сукумаром, подчеркивает, что действительно эффективный ИИ не подходит для всех. Он должен быть адаптирован к индивидуальным пользователям – их интересам и текущим ситуациям. Достижение такого уровня персонализации требует доступа к личным данным, и Qualcomm считает, что хранение и обработка этих данных непосредственно на устройстве – самый безопасный способ их обработки.

Только потому, что компании заявляют о защите вашей конфиденциальности при использовании их облачных сервисов, не означает, что ваша информация действительно в безопасности. Чат-боты разработаны, чтобы быть полезными и часто побуждают людей делиться личными данными, и если эти чат-боты работают в облаке, ваши данные тоже там оказываются. Недавние юридические баталии, такие как между OpenAI и The New York Times, вызывают опасения, что личные разговоры могут быть переданы издателям. Поскольку генеративный AI растет так быстро, а законодательство не успевает за ним, трудно предсказать, как будут использоваться ваши данные.

Odani отметил, что многие люди относятся к генеративным ИИ-помощникам, как к терапевтам. Это вызывает опасения по поводу конфиденциальности этих личных бесед, поскольку существует риск того, что конфиденциальная информация может стать общедоступной в сети.

Некоторые люди не беспокоятся о конфиденциальности данных ИИ. Зак из Google утверждает, что они создали высокозащищенную облачную систему, которая позволяет им обрабатывать данные в наиболее эффективных местах. Он указывает на такие функции, как Video Boost и Pixel Studio, говоря, что облако Google необходимо для того, чтобы они работали быстро и хорошо. Google недавно представила новую систему под названием Private AI Compute, которая, по их словам, предлагает тот же уровень безопасности, что и обработка ИИ локально.

Даже если это так, обработка данных непосредственно на устройстве – известная как граничный ИИ (edge AI) – более надёжна, чем использование облачного сервиса. Как объяснил Одани, обработка на устройстве происходит быстро и не страдает от проблем с подключением. ‘Подумайте об использовании чего-то вроде ChatGPT,’ сказал он, ‘если у вас отключается интернет, он начинает тормозить или перестаёт работать’.

Я думал о том, насколько мы полагаемся на множество различных онлайн-сервисов, когда используем инструменты искусственного интеллекта, такие как ChatGPT. Дело не только в самом ИИ, но и во всей сети вещей, таких как системы доставки контента, DNS-провайдеры и хостинговые сервисы, которые должны работать вместе. Недавно, когда у Cloudflare возникла проблема, многие пользователи ChatGPT обнаружили, что не могут получить доступ к чат-боту. Это заставило меня задуматься – запуск ИИ локально на вашем собственном устройстве позволяет избежать этой проблемы. Если один из этих внешних сервисов выходит из строя, ваш локальный ИИ все еще работает.

Облачное доминирование

Большинство экспертов полагают, что лучшие функции AI требуют сочетания обработки на устройстве и отправки данных в облако – то, что компании, такие как Google и Apple, уже делают. Однако, эта сосредоточенность на плавном пользовательском опыте иногда может скрывать, как на самом деле используются ваши данные. Часто, даже если ваш телефон *мог бы* безопасно обрабатывать задачи AI самостоятельно, функции полагаются на отправку ваших данных в другое место.

Новый OnePlus 15 оснащен новейшим процессором Snapdragon 8 Elite Gen 5, который отличается на 37% более быстрым блоком обработки искусственного интеллекта. Однако, несмотря на эту мощную возможность обработки искусственного интеллекта непосредственно на устройстве, OnePlus по-прежнему полагается на облачную обработку для таких функций, как AI Writer и AI Recorder. OnePlus утверждает, что эта система, которая отправляет ваши данные на их серверы, безопасна и защищает вашу конфиденциальность.

Motorola также запустила новую серию складных телефонов Razr этим летом, и они оснащены функциями искусственного интеллекта от различных компаний. Эти телефоны могут использовать ИИ для быстрой сводки ваших уведомлений, но важно знать, что большая часть этой обработки происходит в сети, если вы не прочитаете мелкий шрифт. С высококлассным Razr Ultra, суммирование выполняется непосредственно на телефоне. Однако более доступные модели, которые имеют меньше памяти и вычислительной мощности, полагаются на облачные сервисы для обработки ваших уведомлений. Motorola заверяет пользователей, что эта система безопасна, но было бы надежнее оптимизировать ИИ для работы непосредственно на менее мощных телефонах.

Как аналитик, я внимательно изучаю, как производители телефонов используют новые блоки нейронных вычислений (NPU). Хотя аппаратное обеспечение и есть, фактические результаты часто разочаровывают. Возьмите, например, Google’s Daily Hub и Samsung’s Now Brief. Эти функции предназначены для анализа всех данных на вашем телефоне и проактивного предложения полезных предложений или действий, но, по моему опыту, они в основном просто отображают ваш календарь. Показательно, что Google фактически приостановила работу Daily Hub на телефонах Pixel, потому что она не обеспечивала достаточной ценности, особенно учитывая, что Google является лидером в области локального ИИ с Gemini Nano. Интересно, что мы даже видели, как Google недавно перенесла часть своей мобильной обработки ИИ с устройства в облако.

Похоже, что более простые и прямые модели ИИ в настоящее время показывают лучшие результаты. Кроме того, компании получают выгоду от сбора большего количества данных каждый раз, когда люди используют их облачные сервисы, что, вероятно, способствует этому успеху.

Может быть, стоит брать то, что дают?

Хотя многие люди в восторге от идеи искусственного интеллекта, работающего непосредственно на наших устройствах, мы пока не видели, чтобы это стало реальностью. В настоящее время большинство прорывов в области ИИ полагаются на мощные облачные вычисления и большие, сложные ИИ-модели. Эксперты работают над тем, чтобы сделать эти модели меньше и способными работать на телефонах и ноутбуках, но потребуется время, прежде чем мы увидим значительные улучшения в персональном ИИ.

В настоящее время некоторые телефоны могут обрабатывать задачи искусственного интеллекта непосредственно на устройстве, хотя это и не распространено. Google использует свой чип Tensor для защиты ваших данных для таких функций, как Magic Cue, а Samsung эффективно использует ИИ-чипы Qualcomm. Хотя функция Now Brief от Samsung не очень полезна, Samsung понимает опасения по поводу отправки данных в облако. Они предлагают настройку, которая позволяет держать всю обработку ИИ на вашем телефоне, даже если это означает меньше функций или снижение производительности. Преимущество – полная конфиденциальность данных – ни одна другая компания, производящая смартфоны, не предлагает такого уровня контроля.

Samsung фокусирует свою работу в области искусственного интеллекта на улучшении пользовательского опыта, при этом позволяя пользователям оставаться в полном контроле, по словам представителя Элиза Сембах. Она объяснила, что возможность обработки задач искусственного интеллекта непосредственно на устройстве – функция в One UI от Samsung – обеспечивает более высокую производительность, лучшую конфиденциальность и непрерывную функциональность даже без доступа к интернету.

Как человек, который действительно увлекается технологиями, я думаю, что растущий ажиотаж вокруг edge AI – это позитивная вещь, даже если вы сейчас активно его не используете. Чем больше внимания он получает, тем больше это подталкивает аппаратные компании к созданию лучших устройств – таких как телефоны и датчики с большей памятью и вычислительной мощностью. Это потому, что они будут предвидеть необходимость запуска этих все более сложных AI моделей непосредственно на устройстве, что довольно круто!

Сукумар советует нашим партнёрам обновить их оперативную память. Это связано с тем, что такие компании, как Google и Samsung, уже увеличивают объём памяти для лучшей обработки искусственного интеллекта непосредственно на устройствах. Несмотря на то, что облачные вычисления доминируют, наличие большего объёма RAM по-прежнему является преимуществом.

Смотрите также

2025-12-04 19:28