Вредоносные запросы, поданные в виде стихов, заставляют искусственный интеллект (ИИ) на 62% чаще нарушать правила — к таким выводам пришли ученые, проведя эксперимент с 25 языковыми моделями. При этом поэтическая форма одинаково легко обходила самые разные фильтры нейросетей — в том числе для защиты от кибератак, манипуляций и нарушений приватности. Подробности о том, как устроены «поэтические атаки» на ИИ, чем опасна эта уязвимость и как ей противостоять, читайте в материале «Известий».
Что известно про эксперимент с «поэтическими атаками» на нейросети
Про необычный эксперимент с «поэтическими атаками» (adversarial poetry) на ИИ недавно рассказали исследователи из Римского университета La Sapienza и Sant'Anna School of Advanced Studies researchers. Суть таких атак сводится к маскировке изначально опасных смыслов за образами и метафорами.
Этот метод проверки безопасности нейросетей оказался на удивление эффективным: авторские стихи дали более 62% успешных обходов защит. В случае с 1 200 вредоносными подсказками, автоматически преобразованными в стихотворную форму, этот показатель оказался немного ниже — около 43%. Важно отметить, что прозаические аналоги таких подсказок показывали в разы более низкие показатели.
Особенно уязвимыми перед «поэтическими атаками» оказались нейросети DeepSeek, а также модели от Google, включая Gemini 2.5 Pro, которая «сломалась» на всех 20 образцах вредоносных подсказок в стихах. Некоторые нейросети в ходе эксперимента выдавали опасные ответы в более чем 90% случаев. Продукты Open AI и Anthropic оказались устойчивее, но и среди них не обошлось без провалов. В частности, линейка GPT-5 показала до 10% неудачных ответов.
Как отметили авторы исследования, «поэтические атаки» одинаково легко обходили защитные фильтры от кибератак, манипуляций, нарушений приватности, мошенничества, создания вредоносного программного обеспечения (ВПО) и других сценариев. Всё это говорит о том, что проблема уязвимости кроется не в тематических фильтрах, а в самой архитектуре механизмов отказа и логике анализа текста.
Почему стихи стали ключом к обходу защиты ИИ
Исследование, проведенное итальянскими учеными, демонстрирует фундаментальный недостаток современных больших языковых моделей (LLM) — защитные механизмы работают преимущественно на уровне семантического анализа «типичных» вредоносных запросов, говорит в беседе с «Известиями» ведущий специалист отдела по работе с уязвимостями ИС «Бастион» Сергей Зыбнев.
— Однако, когда запрос меняет форму — например, становится стихотворением — классификаторы безопасности теряют способность корректно идентифицировать угрозу, — отмечает эксперт. — Приведенная в исследовании статистика указывает на то, что проблема решаема, но требует существенных инвестиций в архитектуру защиты.
По мнению Сергея Зыбнева, уязвимость ИИ перед «поэтическими атаками» является серьезной, но не критической — она требует целенаправленных усилий атакующего и не масштабируется автоматически. Однако сам факт ее существования показывает, что сегодня индустрия нейросетей находится на начальном этапе построения надежных защитных механизмов для них.
Стихотворная форма пока что — нетипичный паттерн, распознавать который фильтры безопасности большинства ИИ-помощников не научились, дополняет руководитель группы анализа ВПО центра исследования киберугроз Solar 4RAYS ГК «Солар» Станислав Пыжов. Кроме того, когда речь идет о поэзии, нейросети переходят в «творческий режим», в котором предпочтение отдается художественной составляющей ответа, а не этическим аспектам.
— Исследователи просто нащупали очередной метод, который позволяет подменить понятия для ИИ, что заставляет модель говорить о «запретных» темах или давать «вредные советы», считая, что речь идет только о написании стихов, — отмечает эксперт программных продуктов компании «Код Безопасности» Максим Александров.
Какие еще необычные способы обхода защиты ИИ встречались ранее
Различные стратегии атак и взлома LLM обнаруживаются экспертами регулярно, говорит в беседе с «Известиями» старший разработчик систем искусственного интеллекта Innostage Александр Лебедев. По словам эксперта, стратегия с «поэтическими атаками» интересна тем, что выглядит оригинально со стороны и относительно просто воспроизводится. В то же время есть целые классы более действенных атак на нейросети.
Crescendo (Multi-turn Drift). Нейросеть маленькими шажками, постепенно подводят к опасному ответу. При этом сама модель не понимает, что ее взламывают.Атаки смены роли DAN. Модели говорят, что она свободна от всех ограничений морали.Атаки «Макиавелизм». Потребность в опасных ответах LLM обосновывают необходимостью.Many-shot Jailbreaking. Модели дается много примеров вредоносного поведения, таким образом погружая ее в контекст «Здесь так принято — не ограничивай себя».— Также хорошо работает шифровка текста, например, в base64, или использование малоресурсных языков, — отмечает Александр Лебедев. — Защита модели хорошо обучена ловить атаки на английском, но легко может пропустить атаку на суахили, шумерском или другом редком языке.
Риски подобных уязвимостей — в том, что они масштабируемы и плохо заметны, отмечает эксперт по кибербезопасности Angara Security Никита Новиков. Злоумышленники могут автоматизировать подобные техники для массовой генерации вредоносных инструкций, фишинговых текстов, сценариев социальной инженерии или обхода корпоративных ограничений при использовании ИИ внутри компаний. В прикладных системах это может приводить к утечкам данных, созданию вредоносного контента и подрыву доверия к нейросетям как к безопасному инструменту.
— Атаки на ИИ приводят к потерям данных, причем чувствительных, если он имеет доступ к корпоративным секретам или коду компании, — подчеркивает Александр Лебедев. — Однако особенно опасны атаки на ИИ-агентов, которые могут осуществлять действия в реальном мире.
Как защититься от атак на ИИ при помощи стихов и других уловок
На сегодняшнем уровне развития LLM говорить про полную защиту нейросетей от взлома, к сожалению, не приходится, говорит в беседе с «Известиями» руководитель группы защиты инфраструктурных IT-решений компании «Газинформсервис» Сергей Полунин. Однако можно существенно снизить риски, если сфокусироваться не на статической фильтрации запросов, а на форме запроса и понимании смысла.
— Есть две стратегии, которые можно использовать параллельно: во-первых, обучать свою нейросеть распознавать техники обхода и таким образом снижать вероятность эксплуатации, — рассказывает эксперт. — Во-вторых, для особо чувствительных сценариев можно подключать живых людей, не говоря о том, что ИИ в корпоративных средах должны постоянно проходить аудит и всестороннее изучение промптов.
Эксперимент с «поэтическими атаками», как и любые другие исследования уязвимостей в ПО, полезен, поскольку совершенствует конечный продукт — то есть делает нейросети менее уязвимыми ко «вредным» запросам, отмечает Станислав Пыжов. Поэтому разработчикам нейросетевых продуктов стоит внимательно следить за появлением таких исследований и учитывать их результаты.
После появления угроз вроде «поэтических атак», которые, как правило, действительно обладают эффективностью, разработчики моделей стараются обучить их не реагировать на такого рода манипуляции, говорит руководитель группы исследований и разработки технологий машинного обучения в «Лаборатории Касперского» Владислав Тушканов. Однако тот факт, что людям удается находить всё новые обходные маневры, подчеркивает фундаментальную сложность обучения моделей противостоять атакам.
— Поэтому для полноценной защиты необходимо сочетать внутренние защиты моделей с дополнительными мерами, такими как детектирование недопустимых вводов и выводов (AI Firewall), мониторинг моделей и взаимодействий с ними, а также активное тестирование сервисов на устойчивость к атакам, — заключает собеседник «Известий».