Обучать нельзя запрещать: как адаптировать ИИ под российский культурный контекст

Эксперты и представители рынка — о важности доступа разработчиков к российским данным
Вячеслав Доронин
Фото: ИЗВЕСТИЯ/Анна Селина

Генеративные нейросети активно входят в обиход россиян. Эти инструменты на основе искусственного интеллекта помогают выполнять переводы, готовить тексты на различные темы, создавать изображения и генерировать идеи. Однако иногда контент, создаваемый отечественными нейросетями, может не учитывать российский культурный код. О причинах этого явления и способах его решения «Известиям» рассказали эксперты и представители рынка.

Какие данные — такой и результат

Принцип работы нейросетей основан на обработке больших объёмов данных и выявлении наиболее вероятных закономерностей — это могут быть сочетания слов, символов или элементов изображений. Проанализировав огромное количество контента и выделив множество таких закономерностей, нейросеть получает возможность самостоятельно создавать осмысленный с точки зрения пользователя результат — будь то текст или изображение.

По мнению Александра Горного, сооснователя AiAcademy и предпринимательского клуба ShareAI, именно недостаток русскоязычного контента для обучения — причина того, что отечественные нейросети могут выдавать результаты, не соответствующие российским культурным ценностям.

— Генеративные нейросети создают изображения и тексты на основе доступных для обучения материалов, преимущественно из открытых интернет-источников. При этом важно понимать, что англоязычного контента в интернете большинство, поэтому вполне естественно, что он может влиять на контент, генерируемый нейросетями, — пояснил эксперт.

Нехватку качественных русскоязычных данных для обучения нейросетей отмечают и другие участники рынка.

— Нейросеть не создаёт информацию самостоятельно — она анализирует уже существующие данные. Если по запросу «земляника» ИИ чаще создает изображение клубники, это значит, что в интернете такие изображения преобладают. Проблема не в ошибках обучения, а в недостатке качественного русскоязычного контента для обучения. В Рунете тоже есть дисбаланс — часть информации плохо оптимизирована и проиндексирована для ИИ-поиска, — заявили «Известиям» в пресс-службе VisionLabs, разработчика технологий на базе искусственного интеллекта.

Аналогичного мнения придерживается и «Яндекс».

— Нейросети учатся на большом объеме открытых данных, поэтому иногда могут ошибаться при генерации и обработке запросов. Мы постоянно совершенствуем модели, чтобы результаты становились точнее. Пользователи могут присылать примеры неточных генераций — это помогает улучшать процесс обучения, — заявили в компании.

Ограничение — не решение

По мнению экспертов и представителей рынка, ограничение использования зарубежных данных для обучения отечественных нейросетей только усугубит проблему.

— Качество ответов и эффективность нейросетей тем выше, чем больше данных для их обучения использовалось. Ограничение обучения только русскоязычными материалами приведет к ухудшению работы нейросетей, что заставит пользователей обращаться к зарубежным аналогам, где еще меньше учтен локальный контекст, — комментирует Горный.

Представители рынка считают, что решение проблемы заключается в увеличении объёма качественного русскоязычного контента для обучения нейросетей.

— Во-первых, необходимо увеличивать объём качественного русскоязычного контента — чтобы нейросети могли опираться на точные данные. Во-вторых, оптимизировать его для ИИ-поиска (AI Search Optimization) — правильно подписывать изображения, использовать метатеги и структурированные описания. В-третьих, дублировать ключевую информацию на английском — это поможет глобальным ИИ-системам корректнее работать с русскими терминами. Просто «перенастроить» нейросеть нельзя — это нарушит ее работу. Единственное решение — закрывать пробелы в данных — этим должен заниматься каждый ресурс самостоятельно, — прокомментировали в пресс-службе VisionLabs.

— Доминирование англоязычного контента создаёт асимметрию в возможностях больших языковых моделей. В этом плане западные модели получают преимущество — контента для обучения нейросетей, который бы учитывал их культурный код, попросту больше. Нам важно оцифровывать существующие российские данные и обеспечивать свободный доступ разработчиков к ним — это поможет обучить нейросети лучше понимать культурный контекст, — комментирует Горный.

По словам эксперта, это будет способствовать повышению конкурентоспособности русского языка в интернете и усилит позиции отечественных разработчиков в конкуренции с западными создателями нейросетей.