Следствие ввели: «ИИ-детектив» разберется со сложной задачей при нехватке данных | Статьи

Российские специалисты разработали метод, который позволяет системам искусственного интеллекта делать выводы и принимать решения при недостатке данных. Предложенный учеными из Казани способ помогает максимально быстро извлекать из массива уникальную информацию. В частности, этот метод уже применили для оценки качества питьевой воды по небольшой выборке результатов анализа крови детей. По словам специалистов, это позволило принять меры для улучшения качества воды. О том, как работает российская новация, — в нашем материале.

Почему ИИ ошибается при недостатке данных

При недостатке информации вычислительные модели на основе искусственного интеллекта часто выдают недостоверные результаты. Это происходит потому, что они «мыслят» не критически, а ищут статистически наиболее вероятные ответы. Когда данных не хватает, нейросети пасуют.

Фото: ИЗВЕСТИЯ/Сергей Коньков

Решая эту задачу, ученые из Казанского национального исследовательского технического университета им. А.Н. Туполева — КАИ разработали новый способ построения таких моделей, который основан на внедрении «детективных» методов в работу ИИ.

— На практике есть задачи, где получение сведений связано с ограничениями физического, юридического и иного рода. Например, это относится к персональным данным, — рассказала один из разработчиков, профессор кафедры прикладной математики и информатики КНИТУ-КАИ Светлана Новикова. — Также некоторые материалы тяжело получить в силу их труднодоступности. В частности, с глубин океана или с поверхности других планет. Кроме того, зачастую построение моделей затрудняет слабое понимание взаимосвязей, нехватка подробностей или измерений.

В таких случаях, пояснила она, ИИ заполняет пробелы, генерируя новые данные на основе тех, которые есть в наличии. Чем их меньше, тем выше вероятность искажения итоговых выводов. Поэтому при дефиците информации предложенный подход ориентирован на то, чтобы заставить систему действовать подобно сыщику, который задает вопросы и строит логические цепочки, выявляя скрытые связи.

123

Фото: КНИТУ-КАИ

По словам ученого, принцип работы модели построен на идее резонанса. Когда в систему поступают сведения, она сравнивает их с шаблонами, которые хранятся в памяти. Если они похожи, то возникает «созвучие», и поступившие данные относят к тому же классу. Если сходства нет, то новая информация сама становится шаблоном. Улучшение, которое внесли специалисты КНИТУ-КАИ, заключается в способе оценки уникальности данных.

— Как правило, расширение выборки желательно и полезно для повышения точности модели. Однако в случае с редкими сведениями добавление в набор новой информации нужно тщательно взвешивать, поскольку даже единичное измерение может привести к разбалансировке модели. Решение о том, следует ли их включать в систему, принимается путем дополнительной экспертной оценки, — сообщила Светлана Новикова.

Для этих целей, пояснила ученый, система, распределяя информацию по классам, использует одновременно множество признаков, которым присвоены разные «веса». Если нужный «вес» не набирается, это значит, что «новичок» выбивается из занесенных в память модели шаблонов.

Предложенный подход позволяет не только повысить точность модели, но и дает возможность человеку проследить процесс принятия ИИ-решений. Это важно для повышения доверия к подобным системам.

Нейросетевые игры: бизнес столкнулся с нехваткой специалистов по ИИ

Почему вложения компаний в искусственный интеллект не решают вопроса с дефицитом кадров

Какой следующий шаг в развитии искусственного интеллекта

— Новые алгоритмы продемонстрировали эффективность при решении практических задач. К примеру, их применили для анализа содержания цинксодержащих соединений в крови детей в возрасте от года до 14 лет в Казани. Цель исследования заключалась в том, чтобы установить взаимосвязь между местом проживания, качеством питьевой воды и возможными угрозами для здоровья, — сообщила Светлана Новикова.

Фото: ИЗВЕСТИЯ/Юлия Майорова

Она уточнила, что в системы водоснабжения цинк может попадать из-за загрязнения источников питьевой воды стоками промпредприятий или при длительном контакте воды со старыми оцинкованными трубами. Содержание металла выше допустимых норм представляет опасность здоровью людей.

По словам специалиста, всего было исследовано 240 проб с обезличенными данными. При этом, несмотря на маленькую выборку, предложенный метод позволил построить точные модели и выявить взаимосвязи содержания цинка в организме детей и местом их проживания.

— Проблема дефицита данных — одна из самых острых в современной прикладной аналитике. Есть области, в которых далеко не всегда есть «миллионы наблюдений». Например, медицинские исследования, экология, промышленность, космос, редкие события, персональные данные, — рассказала «Известиям» руководитель Центра искусственного интеллекта Сибирского федерального университета Анна Пятаева. — Как только выборка становится разреженной, классические подходы машинного обучения «сыпятся». И это видно в любой отрасли. В частности, такой пробел характерен и для популярных чат-ботов с искусственным интеллектом.

Фото: ИЗВЕСТИЯ/Андрей Эрштрем

Она добавила, что сейчас с ограниченными наборами данных работают в основном исследовательские лаборатории и специализированные команды. Внедрение таких инструментов в широкий доступ ускорит развитие алгоритмов искусственного интеллекта. По сути, это следующий шаг — переход от «моделей для всего» к моделям, которые способны работать там, где данных объективно мало. И рынок для таких решений уже формируется.

В свою очередь, научный директор Института искусственного интеллекта МФТИ Юрий Визильтер отметил, что глубокие нейронные сети начинают устойчиво обучаться и работать там, где есть хотя бы десятки тысяч примеров. Лучше, конечно, еще больше — сотни тысяч и миллионы примеров. Поэтому в области малого числа примеров имеется практически важный пробел, который должны заполнить специальные методы.

Искусство интеллекта: Путин поручил создать штаб по развитию ИИ

Какие разработки на основе новых технологий показали президенту и публике на конференции AI Journey 2025

— Достоверность моделей сильно зависит от качества исходных данных и корректности самих моделей. На малых выборках возрастает риск переобучения — когда ИИ сконцентрирован не на анализе и обобщении информации, а на «запоминании». Также малые выборки зачастую недостаточно репрезентативны, — сообщил старший научный сотрудник группы «Мультимодальные архитектуры ИИ» лаборатории «Сильный ИИ в медицине» Института AIRI Александр Нестеров.

По его словам, ИИ-инструменты для анализа небольших выборок особенно востребованы при работе с корпоративными данными.