«Сверхчеловеческие» ИИ Go по-прежнему испытывают проблемы с защитой от этих простых атак.

«Сверхчеловеческие» ИИ Go по-прежнему испытывают проблемы с защитой от этих простых атак.


«Сверхчеловеческие» ИИ Go по-прежнему испытывают проблемы с защитой от этих простых атак.

In the ancient Chinese game of Go, state-of-the-art artificial intelligence has generally been able to defeat the best human players since at least 2016. But in the last few years, researchers have discovered flaws in these top-level AI Go algorithms that give humans a fighting chance. By using unorthodox «cyclic» strategies—ones that even a beginning human player could detect and defeat—a crafty human can often exploit gaps in a top-level AI’s strategy and fool the algorithm into a loss.

Как аналитик с опытом работы в области искусственного интеллекта и кибербезопасности, я считаю работу исследователей искусственного интеллекта MIT и FAR по повышению устойчивости алгоритмов Go верхнего уровня против состязательных атак одновременно интересной и тревожной. Результаты показывают, что создание по-настоящему надежных и непригодных для использования систем искусственного интеллекта может оказаться более сложной задачей, чем мы первоначально думали, даже в таких четко определенных областях, как настольные игры.


Исследователи искусственного интеллекта из MIT и FAR стремились улучшить механизмы защиты алгоритмов Go верхнего уровня, таких как KataGo, от состязательных атак, которые в настоящее время работают исключительно хорошо, но уязвимы для определенных манипуляций. Они исследовали три метода повышения устойчивости KataGo. Результаты показали, что создание надежных ИИ может оказаться сложной задачей даже в регулируемых областях, таких как настольные игры.

Три неудачные стратегии

В предварительном исследовании под названием «Могут ли ИИ Go продемонстрировать состязательную устойчивость?» ученые стремятся разработать ИИ Go, который действительно «устойчив» к любым формам атак. Это подразумевает создание алгоритма, который не допускает ошибок, приводящих к проигрышам в игре, чего не допустил бы ни один человек, и вынуждает конкурирующие алгоритмы ИИ инвестировать значительные вычислительные ресурсы, чтобы превзойти его. Оптимальный устойчивый алгоритм также должен эффективно адаптироваться к новым ситуациям, используя дополнительные вычислительные ресурсы.

«Сверхчеловеческие» ИИ Go по-прежнему испытывают проблемы с защитой от этих простых атак.

Исследователи экспериментировали с тремя подходами, чтобы создать надежный алгоритм Go. В первоначальном подходе они доработали модель KataGo, предоставив ей дополнительные примеры нетрадиционных циклических стратегий, которые ранее превосходили ее. Они надеялись, что, подвергая KataGo большему количеству этих шаблонов, он научится эффективно распознавать их и противодействовать им.

Поначалу такой подход казался эффективным, позволяя KataGo обеспечить абсолютную победу над конкретным «злоумышленником». Однако после менее ресурсоемких улучшений производительность злоумышленника значительно возросла, в результате чего процент побед KataGo против этой усовершенствованной версии составил всего 9%.

В качестве второй линии защиты исследователи участвовали в непрерывном цикле разработки моделей, в ходе которого состязательные модели обнаруживали новые уязвимости, а защитные модели были направлены на исправление этих вновь выявленных слабых мест. После проведения этого процесса в течение десяти раундов окончательному защитному алгоритму удалось обеспечить победу всего в 19% противостояний с инновационным атакующим алгоритмом, обнаружившим ранее неизведанные варианты эксплойта. Несмотря на преимущество перед более ранними состязательными моделями, с которыми он сталкивался ранее, усовершенствованный алгоритм по-прежнему сталкивался с серьезными проблемами, связанными с этой новой угрозой.

«Сверхчеловеческие» ИИ Go по-прежнему испытывают проблемы с защитой от этих простых атак.

Я наблюдал, как исследователи делали последнюю попытку в своих экспериментах, внедряя новую технику обучения с использованием преобразователей зрения в качестве альтернативы сверточным нейронным сетям, которые ранее обучали KataGo, стремясь обойти потенциальные «плохие индуктивные искажения», обнаруженные в последних. К сожалению, этот подход также оказался неудачным, обеспечив победу только в 22 процентах случаев против модифицированной циклической атаки, которая может быть воспроизведена экспертами-людьми.

Будет ли что-нибудь работать?

В трех защитных поединках против КатаГо соперники не проявили беспрецедентных способностей в игре в Го. Вместо этого эти атакующие алгоритмы оттачивали обнаружение уязвимостей внутри надежного ИИ, эксплуатируя их, даже если эти базовые стратегии были бы превзойдены большинством игроков-людей.

Как заядлый поклонник систем искусственного интеллекта, я не могу переоценить важность оценки их производительности в «наихудшем случае», несмотря на их впечатляющие способности в «среднем случае», которые могут привести нас в трепет. KataGo, например, часто превосходит лучших игроков, использующих традиционные стратегии. Однако важно помнить, что бывают случаи, когда, казалось бы, более слабые оппоненты могут выявить уязвимости в системе, что в конечном итоге приведет к ее краху.

It’s easy to extend this kind of thinking to other types of generative AI systems. LLMs that can succeed at some complex creative and reference tasks might still utterly fail when confronted with trivial math problems (or even get «poisoned» by malicious prompts). Visual AI models that can describe and analyze complex photos may nonetheless fail horribly when presented with basic geometric shapes.
«Сверхчеловеческие» ИИ Go по-прежнему испытывают проблемы с защитой от этих простых атак.
Improving these kinds of «worst case» scenarios is key to avoiding embarrassing mistakes when rolling an AI system out to the public. But this new research shows that determined «adversaries» can often discover new holes in an AI algorithm’s performance much more quickly and easily than that algorithm can evolve to fix those problems.

В запутанном мире го, игры, известной своими строгими правилами, несмотря на свою сложность, обнаружение уязвимостей имеет большое значение. По словам Адама Глива, генерального директора FAR, это открытие имеет еще большее значение для искусственного интеллекта (ИИ). Он выразил свою обеспокоенность журналу Nature, заявив: «Основное значение для ИИ заключается в том, что искоренение этих слабостей станет огромной проблемой». Учитывая сложность Go, вполне вероятно, что борьба с подобными уязвимостями в менее регулируемых средах может оказаться еще более сложной задачей.

Несмотря на неудачу в том, что ни один из их подходов не предотвратил новые атаки в Go, исследователи сохраняют надежду. Им удалось предотвратить ранее выявленные «завершенные» эксплойты, применив определенные стратегии. Это означает, что полная защита Go AI может быть достигнута путем тщательного обучения против широкого спектра потенциальных атак. Исследователи предлагают провести дальнейшие исследования, чтобы воплотить это в жизнь.

Несмотря на последние результаты, повышение способности ИИ справляться с экстремальными ситуациями может оказаться столь же важным, как и сосредоточение внимания на развитии более продвинутых или подобных человеческим способностей.

Смотрите также

2024-07-12 23:54