Перейти к основному содержанию
Реклама
Прямой эфир
Мир
В ЕП предупредили о последствиях для ЕС из-за ответа Трампу на пошлины
Спорт
«Лацио» потерпел поражение от «Комо» со счетом 0:3
Экономика
В РАН назвали главные угрозы внедрения ИИ в финансовой сфере
Общество
Правительство не поддержало законопроект об увеличении стоимости подарков учителям
Мир
Евродепутат от Болгарии оценил шансы партии президента страны на выборах
Общество
«Шанинка» обратилась в суд с иском об отмене приостановки лицензии
Общество
В ЛДПР предложили ограничить рост тарифов ЖКХ уровнем инфляции
Мир
Туск прокомментировал приглашение Польши в «Совет мира» по Газе
Мир
Офис Орбана обвинил Брюссель в подготовке к ядерной войне
Наука и техника
Ученые восстановили историю растительности Камчатки за 5 тыс. лет
Мир
Силы ПВО за три часа уничтожили 47 БПЛА ВСУ над регионами России
Общество
В КПРФ предложили повысить до 45% налоговую ставку на доходы свыше 50 млн рублей
Мир
Президент Сирии Шараа и Трамп обсудили развитие событий в Сирии по телефону
Мир
Политолог Колташов назвал Гренландию платой ЕС за обман США
Общество
Янина назвала Валентино Гаравани последним императором высокой моды
Экономика
В России было ликвидировано 35,4 тыс. предприятий общепита за 2025 год
Мир
Додон назвал выход Молдавии из СНГ противоречащим интересам народа

Российские ученые создали систему, «думающую» на ассоциативном уровне

Программа понимает, что имя Владимир и город Владимир — это разные смысловые сущности
0
Фото: ИЗВЕСТИЯ/Алексей Майшев
Озвучить текст
Выделить главное
Вкл
Выкл

В систему «Текстерра», созданную учеными Института системного программирования (ИСП РАН), заложены новые методы компьютерной лингвистики. С ее помощью можно в автоматическом режиме проводить лингвистический анализ текстов на русском и английском языках, осуществлять информационный поиск, а также анализировать мнения, представленные в текстах. Недавно система была принята в единый реестр российских программ для электронных вычислительных машин и баз данных как уникальный продукт, созданный в России. 

Многозадачность языка — одна из основных проблем автоматического анализа любого текста. Например, у слова «платформа» в зависимости от контекста может быть несколько значений: аппаратная, железнодорожная, политическая. Для автоматического определения значений, терминов и названий, упоминающихся в тексте, ученые из ИСП РАН разработали компьютерную программу «Текстерра». Система способна обрабатывать неформальные сообщения из социальных сетей и анализировать их. Технологию могут использовать компании для мониторинга оценки своих продуктов в социальных сетях или для конкурентной разведки.

Как рассказал «Известиям» заведующий отделом информационных систем в ИСП РАН Денис Турдаков, на сегодняшний день программа уже знает более 7 млн понятий.

— Для сравнения: словарь Британской энциклопедии состоит из 65 тыс. понятий, а Большая российская энциклопедия содержит описание 80 тыс. понятий, — рассказал Денис Турдаков. — База знаний «Текстерры» пополняется автоматически на основе информации из интернет-энциклопедии Википедия и таких ресурсов, как MediaWiki и LinkedData.

«Текстерра» состоит из трех основных модулей: модуля лингвистического анализа, модуля извлечения информации, а также модуля анализа мнений.

Первый модуль содержит базовые алгоритмы анализа текста, которые могут быть полезны исследователям-лингвистам. К базовым алгоритмам относятся: определение языка текста, разбиение текста на предложения, синтаксический разбор, исправление орфографических ошибок и опечаток. 

Второй модуль ориентирован на извлечение фактической информации из текстов. Например, с помощью этого модуля можно выбрать конкретного человека из нескольких однофамильцев, даже если в тексте указана только фамилия. Функция выделения «ключевой сущности», к которой может относиться конкретный человек или определенное место, позволяет выбрать из множества найденных значений те, которые являются наиболее существенными для данного текста.

Третий модуль включает алгоритмы анализа эмоциональной окраски текста в целом. Модуль нужен для работы с социальными сетями и обычно применяется к коротким или развернутым комментариям, отзывам и даже хэштегам. Например, если нужно собрать максимум информации о публичной персоне и формируется запрос с ее именем, «Текстерра» анализирует массив документов, выделяя только упоминания нужного человека. Причем технология «заметит» все упоминания, даже если в документе нет фамилии интересующей персоны, но указана его должность или о нем сказано иносказательно, на языке сленга.

По мнению директора ИСП РАН Арутюна Аветисяна, система является одним из самых быстрых решений в области автоматического анализа текста.

— «Текстерра» — это инновационная технология извлечения семантики из естественного языка, основанная на фундаментальных научных результатах, — отметил Арутюн Аветисян. — Отличительными особенностями системы являются высокая скорость обработки, апробированная процедура добавления новых языков и адаптивность к сленгу.

Сейчас технология используется как основа для обработки текстовой информации в прикладных решениях ИСП РАН, применяемых для мониторинга социальных медиа, поиска утечек информации, поддержки научных исследований в области лингвистики и психологии. 

По мнению научного сотрудника Университета Мангейма (Германия) Дмитрия Усталова, технология предназначена для разработчиков корпоративного программного обеспечения, оперирующего большими объемами текстовой информации, а также исследователей в области компьютерной лингвистики.

— Благодаря коллективу ученых из ИСП РАН передовые методы интеллектуального анализа данных наконец-то стали доступны широкой публике, — рассказал Дмитрий Усталов. — Система учитывает специфику русского языка и автоматически понимает смысл текстов, написанных людьми: определяет эмоциональную окраску сообщений, обрабатывает слова-неологизмы, узнает людей по упоминаниям и многое другое.

Система, основанная на похожем алгоритме, разрабатывается в Стэнфордском университете, однако она не рассчитана на анализ русскоязычных текстов. На сегодняшний день «Текстерра» остается единственной в России автоматической системой лингвистического анализа текста, которая может не просто читать буквы, а «вдумываться» в смысл написанного.

 

Читайте также
Прямой эфир