Как заинтересованный поклонник искусственного интеллекта и его этического использования, я нахожу открытие Microsoft «Отмычки» одновременно интригующим и тревожным. Способность злоумышленников эффективно обходить защитные ограждения в моделях искусственного интеллекта не только представляет угрозу целостности этих систем, но и вызывает серьезные опасения относительно потенциального вреда, который может быть причинен.
Как страстный поклонник технологических достижений, я рад поделиться некоторыми интригующими сведениями о последнем открытии Microsoft, касающемся новой технологии джейлбрейка с использованием искусственного интеллекта под названием «Скелетный ключ». Этот метод предполагает быстрое внедрение и позволяет злоумышленникам обходить защитные ограждения, защищающие чат-ботов, таких как ChatGPT, от непреднамеренного или вредного поведения, аналогичного тому, что произошло с Тэем.
Skeleton Key представляет собой пример быстрого манипулирования или быстрого изменения. Это многоэтапный метод, предназначенный для того, чтобы заставить модель ИИ обойти встроенные меры безопасности, что потенциально может привести к тому, что система пренебрегает указаниями своих операторов, подвергается чрезмерному влиянию со стороны пользователя или выполняет вредоносные команды. (Марк Руссинович, технический директор Microsoft Azure, объяснил это в своем объявлении.)
Система может невольно предоставить инструкции по созданию вредных или опасных предметов, таких как самодельная взрывчатка или эффективные методы расчленения тела.
Этот метод включает в себя запрос модели расширить границы безопасности вместо их прямого изменения и выдачу предупреждений о запрещенных командах вместо прямого отказа. После подтверждения взлома система подтверждает измененные меры безопасности и приступает к созданию контента по любой заданной теме по команде пользователя. Исследовательская группа проверила эффективность этого эксплойта по нескольким темам, таким как взрывчатые вещества, биологическое оружие, политика, расизм, наркотики, членовредительство, изображения секса и насилие.
Злоумышленники могут манипулировать системой, заставляя ее выдавать неадекватные ответы, но Руссинович пояснил, что существуют ограничения на то, чего злоумышленники действительно могут достичь с помощью этого метода. «Эффект этого взлома можно охарактеризовать как уменьшение разрыва между тем, что модель может выполнять (на основе разрешений пользователя и т. д.) и тем, что она готова выполнять», — заявил он. «Поскольку это нападение нацелено на саму модель, оно не представляет других рисков для системы ИИ, таких как предоставление доступа к данным другого пользователя, захват контроля над системой или утечка информации».
В ходе своего исследования исследователи Microsoft изучили эффективность метода Skeleton Key на нескольких известных моделях искусственного интеллекта от различных разработчиков, таких как Llama3-70b-instruct от Meta, Gemini Pro от Google, GPT-3.5 Turbo и GPT-4 от OpenAI, Mistral Large. , Claude 3 Opus от Anthropic и Cohere Commander R Plus. Исследователи проинформировали этих разработчиков об обнаруженной уязвимости и внедрили Prompt Shields в свои модели искусственного интеллекта, управляемые Azure, включая Copilot, для выявления и предотвращения такого обхода.
Смотрите также
- 7 лучших чехлов для Apple iPhone 16 Pro Max 2024 года
- Разблокируйте DeepSeek: обойдите цензуру за 10 минут!
- Обзор MobLand (сериал — 2025) — Похоже, у нас развивается ситуация.
- 20 лучших циферблатов Samsung Galaxy Watch, которые вам стоит использовать
- Моторола Мото G75 5G
- Poco X7 Pro против Poco X6 Pro: что нового в обновлении 2025 года?
- LG OLED55G4
- Beyerdynamic M 70 Pro X
- Спойлеры к журнальному столику: какую тревожную сцену все постоянно упоминают?
- 6 лучших планшетов для рукописных заметок в 2024 году
2024-06-28 20:57