Перейти к основному содержанию
Реклама
Прямой эфир
Мир
Госдолг США вырос на $2,25 трлн и превысил отметку в $38,5 трлн
Происшествия
В шести районах Ростовской области были перехвачены БПЛА ВСУ
Наука и техника
Магнитная буря вызвала полярное сияние по всей территории России
Спорт
Российский хоккеист «Колорадо» Ничушкин попал в аварию
Общество
Диетологи указали на способность диеты DASH снижать давление
Мир
Британия обеспокоилась приглашением Трампа Путина в «Совет мира»
Общество
Эксперт рассказал о последствиях принятия законопроектов о медосмотре иностранцев
Общество
Сенатор Глушкова предупредила о скрытых уловках банков для обмана вкладчиков
Мир
Более полумиллиона человек пострадали в результате наводнения в Мозамбике
Общество
Ученые сообщили о новом регуляторе старения мозга
Мир
Ким Чен Ын снял с поста вице-премьера КНДР Ян Сын Хо на публичной церемонии
Общество
Шацкая рассказала об угрозе цифровой репутации и доначислений НДФЛ ИП
Общество
Камчатка попросит федеральную помощь для ликвидации последствий циклона
Общество
В РПЦ сообщили о массовом отказе частных клиник от проведения абортов
Общество
УК могут оштрафовать до 300 тыс. рублей за несвоевременную уборку снега
Общество
В Совфеде рассказали о влиянии декрета на пенсию
Общество
Синоптики спрогнозировали гололедицу и до –4 градусов в Москве 20 января

Какие наши буквы: ученые узнают возраст по постам в соцсетях

В Курчатовском институте разработали методику определения демографических характеристик авторов текстов в интернете
0
Фото: Depositphotos
Озвучить текст
Выделить главное
Вкл
Выкл

Интеллектуальную компьютерную модель для анализа текстов, публикуемых в социальных сетях, создали в Курчатовском институте. Изучение написанного таким способом позволяет достаточно точно определить истинный возраст автора, даже если он пытается его скрыть. Эта работа является частью широкого спектра исследований, ведущихся в Курчатовском комплексе НБИКС-природоподобных технологий. Ранее ученые уже разработали механизм определения пола автора текста. Теперь они научились определять и возраст. На очереди — другие составляющие авторского профиля — такие как образование и профессия.

Строгий профиль

В мировой науке сейчас активно развивается междисциплинарное направление под названием authorship profiling, «автороведение». Его представители — специалисты по анализу данных, лингвисты, психологи — пытаются с той или иной мерой достоверности вычислить индивидуально-личностные характеристики автора текста. Для этого ученые строят математические модели на основе корреляций между численными значениями различных параметров текста и характеристик автора. Создать подобные модели позволяет машинный анализ огромного массива текстов из интернета, снабженных открытыми авторскими профилями. Однако для русскоязычных текстов это научное направление только начинает создаваться.

— Наша задача — это разработка методики диагностирования возраста участника интернет-коммуникации на основе анализа количественных параметров его текстов, — пояснил ведущий научный сотрудник Курчатовского комплекса НБИКС-природоподобных технологий Александр Сбоев. — Эти исследования идут в рамках гранта Российского научного фонда.

Разработки ученых в рамках проекта позволят с высокой степенью достоверности определить демографические характеристики пишущего, если он задумает подделать свою письменную речь, чтобы скрыть истинный возраст.

— Процесс развития интернет-коммуникаций неизбежно сопровождается увеличением уровня киберпреступности, — отметил начальник группы нейроморфных алгоритмов Курчатовского комплекса НБИКС-природоподобных технологий Роман Рыбка. — Интернет в качестве средства для поиска новых жертв и установления контакта с ними используют и мошенники, и люди с расстройствами психики, и вербовщики из террористических организаций. 

Естественно, киберпреступники не заинтересованы в распространении данных, которые бы помогли их идентифицировать, поэтому в своих персональных профилях и переписке они искажают сведения о себе, поэтому очень важным ключом к информации о них становится анализ текстов.

На сколько выглядишь

В Курчатовском институте был разработан и проанализирован широкий круг математических моделей, построенных на множестве комбинаций признаков и использующих различные варианты обучения. Созданные в результате алгоритмы позволяют с точностью около 80% определить возрастную группу автора, который пытается выглядеть старше или моложе своих лет.

— Решение задачи определения возраста автора текста становится всё более актуальным с ростом трафика текстовых сообщений в социальных сетях и на форумах, — считает Александр Сбоев. — Системы на основе таких методов смогут решить многие проблемы социального мониторинга, проводить анализ активности различных возрастных групп граждан по остросоциальным темам в Сети.

Полученные учеными результаты послужат основой работы над более фундаментальной проблемой — оценкой вероятности возникновения различных социально опасных событий, например, терактов.

ЖЖ в «лаборатории»

Исследования в Курчатовском комплексе НБИКС-природоподобных технологий ведутся совместно с лингвистами Воронежского государственного педагогического университета. Заведующая университетской лабораторией теоретической и прикладной идиолектологии Татьяна Литвинова рассказала «Известиям», что базовым лингвистическим материалом для исследования послужил корпус блогов «Живого журнала».

— Этот ресурс был выбран нами потому, что посты в ЖЖ, как правило, имеют больший объем в сравнении с другими электронными жанрами — такими, как твиты или посты в Facebook, — а также из-за того, что в ЖЖ пишут люди всех возможных возрастов, от школьников до пенсионеров.

Для составления корпуса текстов ученые отбирали тех авторов, которые указывали свой возраст в профиле. Конечно, кто-то из них может и исказить свой возраст, но мировые стандарты исследований в области диагностирования личности автора текста, по словам Татьяны Литвиновой, исходят из того, что подавляющее большинство авторов указывает свой возраст в профиле все-таки верно.

Разработанные в ходе проведенных исследований методы и инструменты применимы также и в системах анализа профиля автора текста при судебно-лингвистической экспертизе или формировании портрета автора анонимных писем. Они могут использоваться в качестве системы определения намеренного искажения данных в социальных профилях пользователей или дополнительного инструмента при формировании психологического профиля автора. По мнению Александра Сбоева, предлагаемые подходы могут найти применение и в системах таргетированной рекламы — для более точного определения возрастных групп пользователей.

 

Читайте также
Прямой эфир