Перейти к основному содержанию
Реклама
Прямой эфир
Происшествия
Пожар в торговом центре в Ангарске локализован на площади 3 тыс. кв. м
Мир
Трамп призвал взять под арест причастных к использованию при Байдене автопера
Мир
Фон дер Ляйен заявила о риске ухудшения отношений ЕС и США из-за пошлин
Мир
Экстренное совещание послов ЕС по Гренландии и тарифам США назначили на 18 января
Мир
Макрон пообещал США ответ Европы на «недопустимые» пошлины США из-за Гренландии
Армия
Силы ПВО за три часа уничтожили 34 украинских дрона над территорией России
Армия
Расчеты минометов «Тюльпан» уничтожили заглубленный штаб ВСУ под Купянском
Мир
В Молдавии назвали заявление Санду об объединении с Румынией капитуляцией
Мир
Tagesspiegel узнала о недовольстве Мерца частыми больничными немцев
Мир
Уолтц не увидел нарушений США международного права в ситуации с Гренландией
Спорт
ХК «Торпедо» обыграл «Спартак» со счетом 0:1 в матче КХЛ
Спорт
Сборная Нигерии завоевала бронзу Кубка африканских наций
Общество
В Херсонской области 450 населенных пунктов остались без света после обстрела
Общество
СК показал кадры последствий взрыва газа в придорожном кафе на Ставрополье
Мир
Власти Польши заявили о появлении «десятков объектов» в небе над страной
Общество
Правительство России утвердило время приезда скорой помощи за 20 минут
Мир
В Швейцарии допустили негативные последствия для ЕС в случае вступления Украины
Главный слайд
Начало статьи
EN
Озвучить текст
Выделить главное
Вкл
Выкл

Киберпреступники могут обходить защиты нейросетей, используя косвенные намеки — об этом предупредили эксперты. Опасная методика, получившая название Echo Chamber, позволяет незаметно склонять искусственный интеллект (ИИ) к генерации запрещенного или вредоносного контента, несмотря на встроенные ограничения и фильтры. Подробности о том, как устроен взлом нейросетей при помощи намеков, чем опасна эта механика и как защититься от нее, читайте в материале «Известий».

Что известно о взломе нейросетей при помощи намеков

О новой опасной методике обхода защит нейросетей, получившей название Echo Chamber, сообщили специалисты компании NeuralTrust. По данным экспертов, этот метод позволяет незаметно склонять крупные языковые модели (LLM), такие как ChatGPT и аналоги от Google, к генерации запрещенного или вредоносного контента, несмотря на встроенные ограничения и фильтры. При этом, как отмечают аналитики, Echo Chamber отличает использование косвенных намеков, управляемого контекста и многоэтапного логического наведения.

клавиатура
Фото: ИЗВЕСТИЯ/телеканал «78»

— Echo Chamber — это скрытая многошаговая техника indirect prompt injection, где злоумышленник не дает модели прямых команд, а постепенно подталкивает ее к нежелательному выводу через цепочку логических намеков, — говорит в беседе с «Известиями» ведущий специалист отдела ML & Data Science компании Positive Technologies Степан Кульчицкий.

По словам эксперта, первой ключевой особенностью техники Echo Chamber является то, что она вводит нейросетевую модель в лоно безобидного диалога — например, в обсуждение рецептов. Затем на каждом шаге добавляются тонкие семантические намеки, маскирующиеся под продолжение темы. Важный момент заключается в том, что подсказки внешне нейтральны; модель сама «скатывается» к вредоносному сценарию, создавая цепочку «эхо» ключевого намерения. В итоге нейросеть генерирует инструкции по запрещенным темам без единого прямого запроса.

Что отличает технику взлома нейросетей при помощи намеков

Разнообразные методы джейлбрейкинга (обхода ограничений на небезопасные запросы) нейросетей, основанные на создании контекста, в котором та или иная запретная тема является допустимой, существуют уже долгое время, говорит в беседе с «Известиями» руководитель группы исследований и разработки технологий машинного обучения «Лаборатории Касперского» Владислав Тушканов.

девушка за ноутбуком
Фото: Getty Images/NoSystem images

— Самый простой и широко известный пример — использование прошедшего времени, — рассказывает специалист. — Хотя LLM действительно отказываются от ответов на потенциально опасные вопросы, они могут предоставить информацию в рамках исторической справки, если сформулировать запрос в прошедшем времени.

Кроме того, достаточно известны и аналогичные по структуре подходы, в которых чат-бот аккуратно подводят к допустимости зловредного ответа в рамках нескольких раундов диалога. Это так называемые многошаговые (multi-turn) джейлбрейки, одним из примеров которых является метод Crescendo, обнаруженный и описанный компанией Microsoft.

Старые обходы применяли приемы, основанные на изменениях формы: меняли буквы (k1ll вместо kill), вставляли спецсимволы, просили модель «закодируй ответ в Base64» или «сыграй роль злого хакера» — такой шифр легко остановить с помощью регулярных выражений и списков стоп-слов, дополняет эксперт по кибербезопасности Angara Security Никита Новиков.

хакер за работой
Фото: Getty Images/Cavan Images/Edith Drentwett

— В отличие от прежних приемов техника Echo Chamber атакует смысл, — объясняет специалист. — На каждом шаге текст легален, в нем нет токсичных токенов, но вся последовательность мягко толкает модель к запрещенному результату.

Чем умнее и «разговорчивее» LLM, тем выше риск: она доверяет своей длинной цепочке рассуждений больше, чем политике безопасности. Поэтому блокировать нужно не символы, а логику всего диалога целиком, подчеркивает Никита Новиков.

Чем опасен взлом нейросетей при помощи намеков

Взлом нейросетей методом Echo Chamber открывает перед киберпреступниками, в том числе российскими, широкие возможности для генерации вредоносного контента, распространения дезинформации и проведения целенаправленных атак, говорит в беседе с «Известиями» интернет-аналитик и эксперт компании «Газинформсервис» Марина Пробетс. Это позволяет создавать убедительные фейковые новости, генерировать инструкции по созданию взрывных устройств или изготовлению наркотиков, а также обходить системы модерации социальных сетей и других онлайн-платформ.

телефон
Фото: ИЗВЕСТИЯ/Эдуард Корниенко

Опасность заключается в потенциальном увеличении масштабов дезинформации, росте киберпреступности, а также сложности обнаружения и предотвращения подобных атак, — отмечает специалист. — Чтобы эффективно бороться с ними, необходимы новые методы защиты, которые выходят за рамки традиционных мер безопасности.

Echo Chamber фактически превращает обычный чат-бот в бесплатный генератор вредного контента, рассказывает Никита Новиков. Достаточно пары намеков — и бот пишет фишинговое письмо, макрос-вирус или пошаговую инструкцию по изготовлению взрывчатки. В логах сервиса останутся только невинные вопросы, поэтому аккаунт не блокируется.

По словам специалиста, сегодня уже появились Telegram-каналы, продающие готовые цепочки Echo-подсказок за криптовалюту. Их можно подключить к облачной подписке ChatGPT и генерировать сотни ответов в минуту. Это резко снижает порог входа для киберфорумов: не нужно тренировать свою модель, достаточно купить скрипт.

— Кроме прямого вреда (взрывы, малварь) метод подходит для тихого распространения дезинформации, шантажа и социального инжиниринга внутри корпоративных чатов, — говорит Никита Новиков.

кибератака
Фото: Global Look Press/Julian Stratenschulte

В свою очередь, руководитель группы развития сервисов мониторинга и реагирования на киберугрозы компании BI.ZONE Александр Балабанов одной из самых очевидных угроз, связанных с Echo Chamber, называет репутационный ущерб. Злоумышленники могут воспользоваться публичным чат-ботом компании для генерации оскорбительного, ложного или опасного контента. Если же целью атаки становится не просто чат-бот, а агент-приложение, наделенное способностью выполнять действия в реальном мире через инструменты и API, последствия становятся несоизмеримо серьезнее, подчеркивает эксперт.

Как защититься от взлома нейросетей при помощи намеков

Атаки типа Echo Сhamber через косвенные намеки довольно трудно обнаружить и вовремя заблокировать. Кроме того, эту уязвимость проблематично устранить во время обучения модели, поскольку она проистекает из самой архитектуры и принципов работы современных нейросетей (системы безопасности LLM уязвимы для манипуляций с помощью рассуждений и логических выводов), говорит Александр Балабанов.

Чтобы минимизировать угрозу, компаниям — владельцам чат-бота или агента рекомендуется проверять диалоги пользователей с нейросетью и следить за сохранением уровня «легитимности» в нем, — рассказывает собеседник «Известий». — Помимо этого, частичную защиту может обеспечить проверка выходных данных от нейросети на соответствие политикам. Это не позволит модели ответить на запретную тему.

В свою очередь, Степан Кульчицкий отмечает, что для защиты от Echo Chamber необходима многоуровневая защита. Один из ключевых методов — разделение системного и пользовательского контекстов с использованием специальных токенов (System / User) и периодическое напоминание модели о границах допустимого поведения. Это снижает риск того, что модель «запутается» в длинной цепочке и начнет использовать собственные ответы как источник инструкций.

кибербезопасность
Фото: Getty Images/Westend61

По словам эксперта, в дополнение применяются обученные на примерах indirect prompt injection нейросетевые детекторы, которые отслеживают аномалии в логике запросов и выявляют признаки скрытой эскалации. При выявлении таких паттернов сессия автоматически блокируется или переводится на ручную модерацию. Также эффективно использовать adversarial training, инфраструктурные фильтры (AI-gateways) и постоянный аудит безопасности диалогов.

— Противостоять технике Echo Chamber можно путем обучения модели, чтобы она могла не терять нить разговора и блокировать попытки получить запрещенную информацию, — резюмирует эксперт программных продуктов компании «Код безопасности» Максим Александров.

Читайте также
Прямой эфир