Перейти к основному содержанию
Реклама
Прямой эфир
Спорт
The Times узнала о подготовке иска пловцов к WADA за допуск китайцев на ОИ
Общество
В Москве отключение отопления начнется 27 апреля
Мир
В Бразилии начали проверку после сообщений о минировании посольства России
Мир
МИД Турции подтвердил перенос визита Эрдогана в США
Экономика
Путин передал 100% акций «дочек» Ariston и BSH Hausgerate структуре «Газпрома»
Общество
Синоптики предупредили москвичей о грозе 27 апреля
Мир
В украинском городе Ровно демонтировали памятник советским солдатам
Мир
ВКС РФ уничтожили два пункта базирования боевиков в Сирии
Мир
Крымский мост назван одной из главных целей возможных ударов ракетами ATACMS
Мир
Московский зоопарк подарит КНДР животных более 40 видов
Общество
Работающим россиянам хотят разрешить отдавать пенсионные баллы родителям
Общество
В отношении депутата Вишневского возбудили дело
Мир
Бельгия может поставить Украине истребители F-16 до конца 2024 года
Общество
Желтая африканская пыль из Сахары добралась до Москвы
Мир
МИД Польши раскритиковал Дуду за заявление о ядерном оружии
Общество
Фигурант дела о взятке замминистра обороны Иванову Бородин обжаловал арест

Российские ученые создали систему, «думающую» на ассоциативном уровне

Программа понимает, что имя Владимир и город Владимир — это разные смысловые сущности
0
Фото: ИЗВЕСТИЯ/Алексей Майшев
Озвучить текст
Выделить главное
вкл
выкл

В систему «Текстерра», созданную учеными Института системного программирования (ИСП РАН), заложены новые методы компьютерной лингвистики. С ее помощью можно в автоматическом режиме проводить лингвистический анализ текстов на русском и английском языках, осуществлять информационный поиск, а также анализировать мнения, представленные в текстах. Недавно система была принята в единый реестр российских программ для электронных вычислительных машин и баз данных как уникальный продукт, созданный в России. 

Многозадачность языка — одна из основных проблем автоматического анализа любого текста. Например, у слова «платформа» в зависимости от контекста может быть несколько значений: аппаратная, железнодорожная, политическая. Для автоматического определения значений, терминов и названий, упоминающихся в тексте, ученые из ИСП РАН разработали компьютерную программу «Текстерра». Система способна обрабатывать неформальные сообщения из социальных сетей и анализировать их. Технологию могут использовать компании для мониторинга оценки своих продуктов в социальных сетях или для конкурентной разведки.

Как рассказал «Известиям» заведующий отделом информационных систем в ИСП РАН Денис Турдаков, на сегодняшний день программа уже знает более 7 млн понятий.

— Для сравнения: словарь Британской энциклопедии состоит из 65 тыс. понятий, а Большая российская энциклопедия содержит описание 80 тыс. понятий, — рассказал Денис Турдаков. — База знаний «Текстерры» пополняется автоматически на основе информации из интернет-энциклопедии Википедия и таких ресурсов, как MediaWiki и LinkedData.

«Текстерра» состоит из трех основных модулей: модуля лингвистического анализа, модуля извлечения информации, а также модуля анализа мнений.

Первый модуль содержит базовые алгоритмы анализа текста, которые могут быть полезны исследователям-лингвистам. К базовым алгоритмам относятся: определение языка текста, разбиение текста на предложения, синтаксический разбор, исправление орфографических ошибок и опечаток. 

Второй модуль ориентирован на извлечение фактической информации из текстов. Например, с помощью этого модуля можно выбрать конкретного человека из нескольких однофамильцев, даже если в тексте указана только фамилия. Функция выделения «ключевой сущности», к которой может относиться конкретный человек или определенное место, позволяет выбрать из множества найденных значений те, которые являются наиболее существенными для данного текста.

Третий модуль включает алгоритмы анализа эмоциональной окраски текста в целом. Модуль нужен для работы с социальными сетями и обычно применяется к коротким или развернутым комментариям, отзывам и даже хэштегам. Например, если нужно собрать максимум информации о публичной персоне и формируется запрос с ее именем, «Текстерра» анализирует массив документов, выделяя только упоминания нужного человека. Причем технология «заметит» все упоминания, даже если в документе нет фамилии интересующей персоны, но указана его должность или о нем сказано иносказательно, на языке сленга.

По мнению директора ИСП РАН Арутюна Аветисяна, система является одним из самых быстрых решений в области автоматического анализа текста.

— «Текстерра» — это инновационная технология извлечения семантики из естественного языка, основанная на фундаментальных научных результатах, — отметил Арутюн Аветисян. — Отличительными особенностями системы являются высокая скорость обработки, апробированная процедура добавления новых языков и адаптивность к сленгу.

Сейчас технология используется как основа для обработки текстовой информации в прикладных решениях ИСП РАН, применяемых для мониторинга социальных медиа, поиска утечек информации, поддержки научных исследований в области лингвистики и психологии. 

По мнению научного сотрудника Университета Мангейма (Германия) Дмитрия Усталова, технология предназначена для разработчиков корпоративного программного обеспечения, оперирующего большими объемами текстовой информации, а также исследователей в области компьютерной лингвистики.

— Благодаря коллективу ученых из ИСП РАН передовые методы интеллектуального анализа данных наконец-то стали доступны широкой публике, — рассказал Дмитрий Усталов. — Система учитывает специфику русского языка и автоматически понимает смысл текстов, написанных людьми: определяет эмоциональную окраску сообщений, обрабатывает слова-неологизмы, узнает людей по упоминаниям и многое другое.

Система, основанная на похожем алгоритме, разрабатывается в Стэнфордском университете, однако она не рассчитана на анализ русскоязычных текстов. На сегодняшний день «Текстерра» остается единственной в России автоматической системой лингвистического анализа текста, которая может не просто читать буквы, а «вдумываться» в смысл написанного.

 

Прямой эфир