Перейти к основному содержанию
Реклама
Прямой эфир
Мир
СМИ узнали о требовании США к компаниям Франции отказаться от политики инклюзивности
Общество
Семь человек задержали по делу вирусной программы Mamont
Мир
Замминистра обороны РФ Фомин обсудил военное сотрудничество с руководством Мьянмы
Мир
СМИ указали на необходимость ЕС отказаться от плана по вводу войск на Украину
Мир
Число погибших в результате землетрясения в Мьянме превысило 1 тыс. человек
Мир
Президент Бразилии подтвердил планы приехать на празднование Дня Победы в Москве
Мир
Глава Пентагона подвергся критике за присутствие жены на секретных встречах
Армия
ВС России освободили Пантелеймоновку в ДНР и Щербаки в Запорожской области
Мир
Две россиянки находятся в больнице после крушения батискафа в Египте
Мир
Премьер Саксонии выразил надежду на восстановление ФРГ сотрудничества с Россией
Мир
Землетрясение магнитудой 5,1 зафиксировано рядом со столицей Мьянмы
Мир
WSJ назвала геополитическую неактуальность причиной нелюбви Трампа к Европе
Мир
Блок «Победа» сообщил о намерении стороны защиты оспорить продление ареста Гуцул
Мир
В Дании заявили о планах закупить сотни морских мин для усиления обороноспособности
Армия
ВС РФ освободили Малые Щербаки в Запорожской области и Мирное в ДНР
Мир
Экс-посол Украины заявил о проигрыше Киева и Вашингтона на переговорах в Эр-Рияде
Общество
ВСУ потеряли за сутки более 190 военных в Курской области
Мир
СМИ узнали о требовании США к компаниям Франции отказаться от политики инклюзивности
Общество
Семь человек задержали по делу вирусной программы Mamont
Мир
Замминистра обороны РФ Фомин обсудил военное сотрудничество с руководством Мьянмы
Мир
СМИ указали на необходимость ЕС отказаться от плана по вводу войск на Украину
Мир
Число погибших в результате землетрясения в Мьянме превысило 1 тыс. человек
Мир
Президент Бразилии подтвердил планы приехать на празднование Дня Победы в Москве
Мир
Глава Пентагона подвергся критике за присутствие жены на секретных встречах
Армия
ВС России освободили Пантелеймоновку в ДНР и Щербаки в Запорожской области
Мир
Две россиянки находятся в больнице после крушения батискафа в Египте
Мир
Премьер Саксонии выразил надежду на восстановление ФРГ сотрудничества с Россией
Мир
Землетрясение магнитудой 5,1 зафиксировано рядом со столицей Мьянмы
Мир
WSJ назвала геополитическую неактуальность причиной нелюбви Трампа к Европе
Мир
Блок «Победа» сообщил о намерении стороны защиты оспорить продление ареста Гуцул
Мир
В Дании заявили о планах закупить сотни морских мин для усиления обороноспособности
Армия
ВС РФ освободили Малые Щербаки в Запорожской области и Мирное в ДНР
Мир
Экс-посол Украины заявил о проигрыше Киева и Вашингтона на переговорах в Эр-Рияде
Общество
ВСУ потеряли за сутки более 190 военных в Курской области

Российские ученые создали систему, «думающую» на ассоциативном уровне

Программа понимает, что имя Владимир и город Владимир — это разные смысловые сущности
207
Фото: ИЗВЕСТИЯ/Алексей Майшев
Выделить главное
Вкл
Выкл

В систему «Текстерра», созданную учеными Института системного программирования (ИСП РАН), заложены новые методы компьютерной лингвистики. С ее помощью можно в автоматическом режиме проводить лингвистический анализ текстов на русском и английском языках, осуществлять информационный поиск, а также анализировать мнения, представленные в текстах. Недавно система была принята в единый реестр российских программ для электронных вычислительных машин и баз данных как уникальный продукт, созданный в России. 

Многозадачность языка — одна из основных проблем автоматического анализа любого текста. Например, у слова «платформа» в зависимости от контекста может быть несколько значений: аппаратная, железнодорожная, политическая. Для автоматического определения значений, терминов и названий, упоминающихся в тексте, ученые из ИСП РАН разработали компьютерную программу «Текстерра». Система способна обрабатывать неформальные сообщения из социальных сетей и анализировать их. Технологию могут использовать компании для мониторинга оценки своих продуктов в социальных сетях или для конкурентной разведки.

Как рассказал «Известиям» заведующий отделом информационных систем в ИСП РАН Денис Турдаков, на сегодняшний день программа уже знает более 7 млн понятий.

— Для сравнения: словарь Британской энциклопедии состоит из 65 тыс. понятий, а Большая российская энциклопедия содержит описание 80 тыс. понятий, — рассказал Денис Турдаков. — База знаний «Текстерры» пополняется автоматически на основе информации из интернет-энциклопедии Википедия и таких ресурсов, как MediaWiki и LinkedData.

«Текстерра» состоит из трех основных модулей: модуля лингвистического анализа, модуля извлечения информации, а также модуля анализа мнений.

Первый модуль содержит базовые алгоритмы анализа текста, которые могут быть полезны исследователям-лингвистам. К базовым алгоритмам относятся: определение языка текста, разбиение текста на предложения, синтаксический разбор, исправление орфографических ошибок и опечаток. 

Второй модуль ориентирован на извлечение фактической информации из текстов. Например, с помощью этого модуля можно выбрать конкретного человека из нескольких однофамильцев, даже если в тексте указана только фамилия. Функция выделения «ключевой сущности», к которой может относиться конкретный человек или определенное место, позволяет выбрать из множества найденных значений те, которые являются наиболее существенными для данного текста.

Третий модуль включает алгоритмы анализа эмоциональной окраски текста в целом. Модуль нужен для работы с социальными сетями и обычно применяется к коротким или развернутым комментариям, отзывам и даже хэштегам. Например, если нужно собрать максимум информации о публичной персоне и формируется запрос с ее именем, «Текстерра» анализирует массив документов, выделяя только упоминания нужного человека. Причем технология «заметит» все упоминания, даже если в документе нет фамилии интересующей персоны, но указана его должность или о нем сказано иносказательно, на языке сленга.

По мнению директора ИСП РАН Арутюна Аветисяна, система является одним из самых быстрых решений в области автоматического анализа текста.

— «Текстерра» — это инновационная технология извлечения семантики из естественного языка, основанная на фундаментальных научных результатах, — отметил Арутюн Аветисян. — Отличительными особенностями системы являются высокая скорость обработки, апробированная процедура добавления новых языков и адаптивность к сленгу.

Сейчас технология используется как основа для обработки текстовой информации в прикладных решениях ИСП РАН, применяемых для мониторинга социальных медиа, поиска утечек информации, поддержки научных исследований в области лингвистики и психологии. 

По мнению научного сотрудника Университета Мангейма (Германия) Дмитрия Усталова, технология предназначена для разработчиков корпоративного программного обеспечения, оперирующего большими объемами текстовой информации, а также исследователей в области компьютерной лингвистики.

— Благодаря коллективу ученых из ИСП РАН передовые методы интеллектуального анализа данных наконец-то стали доступны широкой публике, — рассказал Дмитрий Усталов. — Система учитывает специфику русского языка и автоматически понимает смысл текстов, написанных людьми: определяет эмоциональную окраску сообщений, обрабатывает слова-неологизмы, узнает людей по упоминаниям и многое другое.

Система, основанная на похожем алгоритме, разрабатывается в Стэнфордском университете, однако она не рассчитана на анализ русскоязычных текстов. На сегодняшний день «Текстерра» остается единственной в России автоматической системой лингвистического анализа текста, которая может не просто читать буквы, а «вдумываться» в смысл написанного.

 

Читайте также
Прямой эфир
Следующая новость
На нашем сайте используются cookie-файлы. Продолжая пользоваться данным сайтом, вы подтверждаете свое согласие на использование файлов cookie в соответствии с настоящим уведомлением и Пользовательским соглашением