Генеративные нейросети активно входят в обиход россиян. Эти инструменты на основе искусственного интеллекта помогают выполнять переводы, готовить тексты на различные темы, создавать изображения и генерировать идеи. Однако иногда контент, создаваемый отечественными нейросетями, может не учитывать российский культурный код. О причинах этого явления и способах его решения «Известиям» рассказали эксперты и представители рынка.
Какие данные — такой и результат
Принцип работы нейросетей основан на обработке больших объёмов данных и выявлении наиболее вероятных закономерностей — это могут быть сочетания слов, символов или элементов изображений. Проанализировав огромное количество контента и выделив множество таких закономерностей, нейросеть получает возможность самостоятельно создавать осмысленный с точки зрения пользователя результат — будь то текст или изображение.
По мнению Александра Горного, сооснователя AiAcademy и предпринимательского клуба ShareAI, именно недостаток русскоязычного контента для обучения — причина того, что отечественные нейросети могут выдавать результаты, не соответствующие российским культурным ценностям.
— Генеративные нейросети создают изображения и тексты на основе доступных для обучения материалов, преимущественно из открытых интернет-источников. При этом важно понимать, что англоязычного контента в интернете большинство, поэтому вполне естественно, что он может влиять на контент, генерируемый нейросетями, — пояснил эксперт.
Нехватку качественных русскоязычных данных для обучения нейросетей отмечают и другие участники рынка.
— Нейросеть не создаёт информацию самостоятельно — она анализирует уже существующие данные. Если по запросу «земляника» ИИ чаще создает изображение клубники, это значит, что в интернете такие изображения преобладают. Проблема не в ошибках обучения, а в недостатке качественного русскоязычного контента для обучения. В Рунете тоже есть дисбаланс — часть информации плохо оптимизирована и проиндексирована для ИИ-поиска, — заявили «Известиям» в пресс-службе VisionLabs, разработчика технологий на базе искусственного интеллекта.
Аналогичного мнения придерживается и «Яндекс».
— Нейросети учатся на большом объеме открытых данных, поэтому иногда могут ошибаться при генерации и обработке запросов. Мы постоянно совершенствуем модели, чтобы результаты становились точнее. Пользователи могут присылать примеры неточных генераций — это помогает улучшать процесс обучения, — заявили в компании.
Ограничение — не решение
По мнению экспертов и представителей рынка, ограничение использования зарубежных данных для обучения отечественных нейросетей только усугубит проблему.
— Качество ответов и эффективность нейросетей тем выше, чем больше данных для их обучения использовалось. Ограничение обучения только русскоязычными материалами приведет к ухудшению работы нейросетей, что заставит пользователей обращаться к зарубежным аналогам, где еще меньше учтен локальный контекст, — комментирует Горный.
Представители рынка считают, что решение проблемы заключается в увеличении объёма качественного русскоязычного контента для обучения нейросетей.
— Во-первых, необходимо увеличивать объём качественного русскоязычного контента — чтобы нейросети могли опираться на точные данные. Во-вторых, оптимизировать его для ИИ-поиска (AI Search Optimization) — правильно подписывать изображения, использовать метатеги и структурированные описания. В-третьих, дублировать ключевую информацию на английском — это поможет глобальным ИИ-системам корректнее работать с русскими терминами. Просто «перенастроить» нейросеть нельзя — это нарушит ее работу. Единственное решение — закрывать пробелы в данных — этим должен заниматься каждый ресурс самостоятельно, — прокомментировали в пресс-службе VisionLabs.
— Доминирование англоязычного контента создаёт асимметрию в возможностях больших языковых моделей. В этом плане западные модели получают преимущество — контента для обучения нейросетей, который бы учитывал их культурный код, попросту больше. Нам важно оцифровывать существующие российские данные и обеспечивать свободный доступ разработчиков к ним — это поможет обучить нейросети лучше понимать культурный контекст, — комментирует Горный.
По словам эксперта, это будет способствовать повышению конкурентоспособности русского языка в интернете и усилит позиции отечественных разработчиков в конкуренции с западными создателями нейросетей.