Перейти к основному содержанию
Реклама
Прямой эфир
Мир
Захарова указала на желание США оказать максимальную помощь ВСУ до прихода Трампа
Экономика
Счетная палата увидела риски для госзакупок из-за высокой ключевой ставки
Мир
В Австралии детям до 16 лет ограничили доступ к социальным сетям
Мир
Аварийные отключения электричества ввели в двух областях Украины
Происшествия
Число отравившихся в Канске школьников увеличилось до 30 человек
Мир
Президент Никарагуа осудил политику США и заявил о поддержке России
Политика
Песков сообщил о подготовке к проведению прямой линии Путина в декабре
Мир
Захарова указала на желание НАТО превратить Молдавию в базу для снабжения ВСУ
Мир
Сенат США отклонил резолюции о запрете продажи оружия Израилю
Наука и техника
В России создают уникальный иммуноинженерный препарат от рака
Экономика
Путин заявил о высоких стандартах ФНС России в оказании госуслуг
Общество
Синоптик предупредил москвичей о метели 21 ноября
Общество
В ГД приняли обращение к правительству по вопросу незаконной миграции
Мир
КНДР и Россия подписали документ о торговом и техническом сотрудничестве
Экономика
Стоимость биткоина впервые в истории превысила $97 тыс.
Происшествия
Двоих юношей задержали в Подмосковье за поджог мотодрезины на железной дороге
Интернет и технологии
Минюст США через суд потребовал от Google продать Chrome
Армия
Военные РФ уничтожили понтонную переправу ВСУ через реку Северный Донец

Российские ученые создали систему, «думающую» на ассоциативном уровне

Программа понимает, что имя Владимир и город Владимир — это разные смысловые сущности
0
Фото: ИЗВЕСТИЯ/Алексей Майшев
Озвучить текст
Выделить главное
Вкл
Выкл

В систему «Текстерра», созданную учеными Института системного программирования (ИСП РАН), заложены новые методы компьютерной лингвистики. С ее помощью можно в автоматическом режиме проводить лингвистический анализ текстов на русском и английском языках, осуществлять информационный поиск, а также анализировать мнения, представленные в текстах. Недавно система была принята в единый реестр российских программ для электронных вычислительных машин и баз данных как уникальный продукт, созданный в России. 

Многозадачность языка — одна из основных проблем автоматического анализа любого текста. Например, у слова «платформа» в зависимости от контекста может быть несколько значений: аппаратная, железнодорожная, политическая. Для автоматического определения значений, терминов и названий, упоминающихся в тексте, ученые из ИСП РАН разработали компьютерную программу «Текстерра». Система способна обрабатывать неформальные сообщения из социальных сетей и анализировать их. Технологию могут использовать компании для мониторинга оценки своих продуктов в социальных сетях или для конкурентной разведки.

Как рассказал «Известиям» заведующий отделом информационных систем в ИСП РАН Денис Турдаков, на сегодняшний день программа уже знает более 7 млн понятий.

— Для сравнения: словарь Британской энциклопедии состоит из 65 тыс. понятий, а Большая российская энциклопедия содержит описание 80 тыс. понятий, — рассказал Денис Турдаков. — База знаний «Текстерры» пополняется автоматически на основе информации из интернет-энциклопедии Википедия и таких ресурсов, как MediaWiki и LinkedData.

«Текстерра» состоит из трех основных модулей: модуля лингвистического анализа, модуля извлечения информации, а также модуля анализа мнений.

Первый модуль содержит базовые алгоритмы анализа текста, которые могут быть полезны исследователям-лингвистам. К базовым алгоритмам относятся: определение языка текста, разбиение текста на предложения, синтаксический разбор, исправление орфографических ошибок и опечаток. 

Второй модуль ориентирован на извлечение фактической информации из текстов. Например, с помощью этого модуля можно выбрать конкретного человека из нескольких однофамильцев, даже если в тексте указана только фамилия. Функция выделения «ключевой сущности», к которой может относиться конкретный человек или определенное место, позволяет выбрать из множества найденных значений те, которые являются наиболее существенными для данного текста.

Третий модуль включает алгоритмы анализа эмоциональной окраски текста в целом. Модуль нужен для работы с социальными сетями и обычно применяется к коротким или развернутым комментариям, отзывам и даже хэштегам. Например, если нужно собрать максимум информации о публичной персоне и формируется запрос с ее именем, «Текстерра» анализирует массив документов, выделяя только упоминания нужного человека. Причем технология «заметит» все упоминания, даже если в документе нет фамилии интересующей персоны, но указана его должность или о нем сказано иносказательно, на языке сленга.

По мнению директора ИСП РАН Арутюна Аветисяна, система является одним из самых быстрых решений в области автоматического анализа текста.

— «Текстерра» — это инновационная технология извлечения семантики из естественного языка, основанная на фундаментальных научных результатах, — отметил Арутюн Аветисян. — Отличительными особенностями системы являются высокая скорость обработки, апробированная процедура добавления новых языков и адаптивность к сленгу.

Сейчас технология используется как основа для обработки текстовой информации в прикладных решениях ИСП РАН, применяемых для мониторинга социальных медиа, поиска утечек информации, поддержки научных исследований в области лингвистики и психологии. 

По мнению научного сотрудника Университета Мангейма (Германия) Дмитрия Усталова, технология предназначена для разработчиков корпоративного программного обеспечения, оперирующего большими объемами текстовой информации, а также исследователей в области компьютерной лингвистики.

— Благодаря коллективу ученых из ИСП РАН передовые методы интеллектуального анализа данных наконец-то стали доступны широкой публике, — рассказал Дмитрий Усталов. — Система учитывает специфику русского языка и автоматически понимает смысл текстов, написанных людьми: определяет эмоциональную окраску сообщений, обрабатывает слова-неологизмы, узнает людей по упоминаниям и многое другое.

Система, основанная на похожем алгоритме, разрабатывается в Стэнфордском университете, однако она не рассчитана на анализ русскоязычных текстов. На сегодняшний день «Текстерра» остается единственной в России автоматической системой лингвистического анализа текста, которая может не просто читать буквы, а «вдумываться» в смысл написанного.

 

Читайте также
Прямой эфир