Проверяя — доверяй | Мнения

Мировое использование нейросетей продемонстрировало двукратный рост за год — с 33 до 65%. А число интернет-пользователей в России, которые пробовали делать тексты с помощью искусственного интеллекта, достигло уже 30%. Технология продолжает стремительно развиваться и компании — создатели языковых моделей регулярно рассказывают о новых продвижениях в разработках. Однако до сих пор в большинстве случаев непонятно, как отличить тот или иной материал, созданный ИИ, от реального — например, текста, песни или стандартной иллюстрации.

Поэтому в Госдуме снова подняли вопрос о том, чтобы контролировать материалы от нейросетей. Член думского комитета по информполитике Антон Немкин не так давно сообщил, что уже разрабатывается концепция закона о маркировке контента от ИИ. Парламентарий заявил, что она должна осуществляться при помощи графических или водяных знаков. Также автор инициативы отметил, что при работе над документом изучается законодательный опыт других стран. Но насколько эта идея реальна?

К слову, власти других стран также задумываются над регулированием продуктов нейросети. Летом 2023 года Еврокомиссия предложила обязать сервисы помечать контент, созданный ИИ. По замыслу, отметка должна быть у всех материалов, будь то аудио, видео, текст или изображения. Маркировкой материалов от ИИ озаботились и IТ, и интернет-гиганты. Так, TikTok автоматически помечает видео, которые созданы искусственным интеллектом. YouTube также добавил похожий инструмент.

Google запустила бета-версию SynthID для нанесения водяных знаков и идентификации изображений, созданных искусственным интеллектом. Meta (признана экстремистской и запрещена в России) объявила, что будет маркировать изображения, созданные ИИ, которые публикуются в соцсетях компании. А в феврале 2024 года OpenAI сообщила, что начала отмечать все изображения, созданные в ChatGPT и их API.

Однако сейчас маркировка покрывает именно визуальный контент при том, что нейросети также генерируют текст и даже аудиоматериалы. И в этом пока больше проблем и вопросов, чем ответов.

Главный вопрос, который возникает при обсуждении инициативы, — как технически проводить маркировку. Если это изображение, то технология относительно понятна — это метаданные и специальные водяные знаки, что уже практикуется среди IТ-компаний. Но как быть с музыкой и текстом? Сегодня нет решений, которые могут надежно обеспечить их маркировку.

Если говорить про генерацию аудио, то сервисы, которые предлагают возможность создания композиций, подходят к использованию контента по-разному.

MusicLM представляет только демонстрационные примеры работы своей нейросети. Компания-разработчик, опасаясь проблем с авторскими правами, не выкладывает инструмент в общий доступ, так как ИИ обучается на существующих произведениях.

Другие игроки рынка ИИ возлагают ответственность за маркировку на пользователей. При этом непонятно, кто будет отвечать, если автор реальной композиции посчитает, что кто-то украл его мелодию, а окажется, что она сгенерирована нейросетью. Сегодня совершенно неочевидно, что делать с авторскими правами на музыкальные произведения, написанные ИИ. Суды, где оспаривается оригинальность и авторские права в музыке, написанной людьми, длятся годами. Музыка может быть похожей, а не полностью плагиатом, чтобы навести на мысль об известной композиции.

Нейросети пока не обучили говорить: «Я не знаю!» в ответ на запросы пользователей. Если в материалах, на которых обучалась нейросеть не было достаточно информации, то в ответ модель может начать выдумывать несуществующие факты, на сленге разработчиков — галлюцинировать.

Сейчас разработчики совершенствуют несколько технологий, которые позволят моделям запрашивать информацию во внешних источниках. Пока в полной мере такие процессы не внедрены, из-за чего нейросети выдают иногда фантастические ответы, которые, однако, выглядят пугающе реалистичными. Так, большую огласку получил случай, когда адвокаты не проверили за ИИ подборку прецедентов. Те в итоге оказались выдуманными, и юристы сами отправились под суд.

Надо помнить, что технология продолжает совершенствоваться и обучаться, а ее суть — глубокое языковое подражание. Результат текстовой генеративной сети — это корректно построенная конструкция, в которой элементы связаны друг с другом на большую глубину (не на три предложения, а на 50 и больше). К фактам и смыслу задача не имеет никого отношения.

Возможный выход — строить законодательное предложение от обратного: создать систему, в которой тексты в обязательном порядке будут проверены на достоверность. Когда человек понимает, что если он читает заметку в СМИ или справочнике и на нем стоит та самая маркировка, то этот контент полностью проверен и ему можно на 100% доверять. Мне кажется, что на данный момент это более реализуемый путь в случае текстовых и цифровых данных. Хотя это потребует серьезных вложений, недюжинных усилий.

Еще одним возможным способом остается контроль создаваемых нейросетей и наложение обязательств на разработчиков «воспитывать» модели в том духе, что они должны обнаруживать себя в любом случае. К сожалению, и тот вариант упирается в реалии мира, например в то, что разработчики находятся в различных юрисдикциях, а технологии — глобальны. Подчиняться или нет требованиям чужой страны — компания будет решать для себя сама.

Очевидно, что нам, пользователям, сейчас остается только один выход — всегда спрашивать себя дважды: «Что я вижу?», «Что я слышу?», «Что я читаю?». Возможно, распространение ИИ заставит нас, наконец, делать это почаще.

Автор — директор департамента разработки программного обеспечения «Рексофт»

Позиция автора может не совпадать с мнением редакции