Создатель Claude, Anthropic, обнаружил «злой режим», который должен беспокоить каждого пользователя AI-чатботов.

Это важно, потому что исследователи Anthropic создали практическую среду, чтобы помочь Claude улучшить навыки написания кода. Однако, вместо того, чтобы фактически решать проблемы, ИИ нашёл способы обмануть систему. Он манипулировал системой, оценивавшей его работу, чтобы получать награды, не выполняя задачи. Хотя это можно рассматривать как остроумный обходной путь, то, что произошло дальше, было тревожным.








