Российские ученые создали систему, «думающую» на ассоциативном уровне
В систему «Текстерра», созданную учеными Института системного программирования (ИСП РАН), заложены новые методы компьютерной лингвистики. С ее помощью можно в автоматическом режиме проводить лингвистический анализ текстов на русском и английском языках, осуществлять информационный поиск, а также анализировать мнения, представленные в текстах. Недавно система была принята в единый реестр российских программ для электронных вычислительных машин и баз данных как уникальный продукт, созданный в России.
Многозадачность языка — одна из основных проблем автоматического анализа любого текста. Например, у слова «платформа» в зависимости от контекста может быть несколько значений: аппаратная, железнодорожная, политическая. Для автоматического определения значений, терминов и названий, упоминающихся в тексте, ученые из ИСП РАН разработали компьютерную программу «Текстерра». Система способна обрабатывать неформальные сообщения из социальных сетей и анализировать их. Технологию могут использовать компании для мониторинга оценки своих продуктов в социальных сетях или для конкурентной разведки.
Как рассказал «Известиям» заведующий отделом информационных систем в ИСП РАН Денис Турдаков, на сегодняшний день программа уже знает более 7 млн понятий.
— Для сравнения: словарь Британской энциклопедии состоит из 65 тыс. понятий, а Большая российская энциклопедия содержит описание 80 тыс. понятий, — рассказал Денис Турдаков. — База знаний «Текстерры» пополняется автоматически на основе информации из интернет-энциклопедии Википедия и таких ресурсов, как MediaWiki и LinkedData.
«Текстерра» состоит из трех основных модулей: модуля лингвистического анализа, модуля извлечения информации, а также модуля анализа мнений.
Первый модуль содержит базовые алгоритмы анализа текста, которые могут быть полезны исследователям-лингвистам. К базовым алгоритмам относятся: определение языка текста, разбиение текста на предложения, синтаксический разбор, исправление орфографических ошибок и опечаток.
Второй модуль ориентирован на извлечение фактической информации из текстов. Например, с помощью этого модуля можно выбрать конкретного человека из нескольких однофамильцев, даже если в тексте указана только фамилия. Функция выделения «ключевой сущности», к которой может относиться конкретный человек или определенное место, позволяет выбрать из множества найденных значений те, которые являются наиболее существенными для данного текста.
Третий модуль включает алгоритмы анализа эмоциональной окраски текста в целом. Модуль нужен для работы с социальными сетями и обычно применяется к коротким или развернутым комментариям, отзывам и даже хэштегам. Например, если нужно собрать максимум информации о публичной персоне и формируется запрос с ее именем, «Текстерра» анализирует массив документов, выделяя только упоминания нужного человека. Причем технология «заметит» все упоминания, даже если в документе нет фамилии интересующей персоны, но указана его должность или о нем сказано иносказательно, на языке сленга.
По мнению директора ИСП РАН Арутюна Аветисяна, система является одним из самых быстрых решений в области автоматического анализа текста.
— «Текстерра» — это инновационная технология извлечения семантики из естественного языка, основанная на фундаментальных научных результатах, — отметил Арутюн Аветисян. — Отличительными особенностями системы являются высокая скорость обработки, апробированная процедура добавления новых языков и адаптивность к сленгу.
Сейчас технология используется как основа для обработки текстовой информации в прикладных решениях ИСП РАН, применяемых для мониторинга социальных медиа, поиска утечек информации, поддержки научных исследований в области лингвистики и психологии.
По мнению научного сотрудника Университета Мангейма (Германия) Дмитрия Усталова, технология предназначена для разработчиков корпоративного программного обеспечения, оперирующего большими объемами текстовой информации, а также исследователей в области компьютерной лингвистики.
— Благодаря коллективу ученых из ИСП РАН передовые методы интеллектуального анализа данных наконец-то стали доступны широкой публике, — рассказал Дмитрий Усталов. — Система учитывает специфику русского языка и автоматически понимает смысл текстов, написанных людьми: определяет эмоциональную окраску сообщений, обрабатывает слова-неологизмы, узнает людей по упоминаниям и многое другое.
Система, основанная на похожем алгоритме, разрабатывается в Стэнфордском университете, однако она не рассчитана на анализ русскоязычных текстов. На сегодняшний день «Текстерра» остается единственной в России автоматической системой лингвистического анализа текста, которая может не просто читать буквы, а «вдумываться» в смысл написанного.