Как заинтересованный поклонник искусственного интеллекта и его этического использования, я нахожу открытие Microsoft «Отмычки» одновременно интригующим и тревожным. Способность злоумышленников эффективно обходить защитные ограждения в моделях искусственного интеллекта не только представляет угрозу целостности этих систем, но и вызывает серьезные опасения относительно потенциального вреда, который может быть причинен.
Купил акции по совету друга? А друг уже продал. Здесь мы учимся думать своей головой и читать отчётность, а не слушать советы.
Прочитать отчет 10-KКак страстный поклонник технологических достижений, я рад поделиться некоторыми интригующими сведениями о последнем открытии Microsoft, касающемся новой технологии джейлбрейка с использованием искусственного интеллекта под названием «Скелетный ключ». Этот метод предполагает быстрое внедрение и позволяет злоумышленникам обходить защитные ограждения, защищающие чат-ботов, таких как ChatGPT, от непреднамеренного или вредного поведения, аналогичного тому, что произошло с Тэем.
Skeleton Key представляет собой пример быстрого манипулирования или быстрого изменения. Это многоэтапный метод, предназначенный для того, чтобы заставить модель ИИ обойти встроенные меры безопасности, что потенциально может привести к тому, что система пренебрегает указаниями своих операторов, подвергается чрезмерному влиянию со стороны пользователя или выполняет вредоносные команды. (Марк Руссинович, технический директор Microsoft Azure, объяснил это в своем объявлении.)
Система может невольно предоставить инструкции по созданию вредных или опасных предметов, таких как самодельная взрывчатка или эффективные методы расчленения тела.
Этот метод включает в себя запрос модели расширить границы безопасности вместо их прямого изменения и выдачу предупреждений о запрещенных командах вместо прямого отказа. После подтверждения взлома система подтверждает измененные меры безопасности и приступает к созданию контента по любой заданной теме по команде пользователя. Исследовательская группа проверила эффективность этого эксплойта по нескольким темам, таким как взрывчатые вещества, биологическое оружие, политика, расизм, наркотики, членовредительство, изображения секса и насилие.
Злоумышленники могут манипулировать системой, заставляя ее выдавать неадекватные ответы, но Руссинович пояснил, что существуют ограничения на то, чего злоумышленники действительно могут достичь с помощью этого метода. «Эффект этого взлома можно охарактеризовать как уменьшение разрыва между тем, что модель может выполнять (на основе разрешений пользователя и т. д.) и тем, что она готова выполнять», — заявил он. «Поскольку это нападение нацелено на саму модель, оно не представляет других рисков для системы ИИ, таких как предоставление доступа к данным другого пользователя, захват контроля над системой или утечка информации».
В ходе своего исследования исследователи Microsoft изучили эффективность метода Skeleton Key на нескольких известных моделях искусственного интеллекта от различных разработчиков, таких как Llama3-70b-instruct от Meta, Gemini Pro от Google, GPT-3.5 Turbo и GPT-4 от OpenAI, Mistral Large. , Claude 3 Opus от Anthropic и Cohere Commander R Plus. Исследователи проинформировали этих разработчиков об обнаруженной уязвимости и внедрили Prompt Shields в свои модели искусственного интеллекта, управляемые Azure, включая Copilot, для выявления и предотвращения такого обхода.
Смотрите также
- Чужая Земля: Все типы инопланетных существ в новом шоу (Фото)
- 7 лучших чехлов для Apple iPhone 16 Pro Max 2024 года
- Лучшие недорогие принтеры на 2024 год
- Обзор Google Pixel 10 Pro XL
- TIA криптовалюта и прогнозы цен на TIA
- 5 лучших ноутбуков для архитекторов в 2024 году
- Сообщается, что Netflix находится в разработке «Под Парижем 2».
- AirPods Pro 3 от Apple наконец-то здесь — и они действительно стоят шумихи.
- Второй сезон «Уэнсдей» представил Мортишу с заметно изменившимся внешним видом (фото)
- Обзор PrivadoVPN: новый бюджетный VPN, которым можно пользоваться бесплатно
2024-06-28 20:57