Перейти к основному содержанию
Реклама
Прямой эфир
Мир
На пляже в Стамбуле обнаружили гидроцикл с Украины со взрывчаткой
Общество
В Костроме возбудили дело об организации незаконной миграции
Общество
Суд в Москве арестовал гендиректора ВСК Андрея Белкова
Мир
Небензя посоветовал Киеву изучить мирную инициативу Путина
Общество
Роспотребнадзор начал проверку после отравления детей в лагере Петербурга
Общество
Экс-министру открытого правительства Абызову вызвали «скорую» в суд
Мир
СМИ спрогнозировали рост состояния Харрис из-за президентской гонки
Авто
GAC GS3 возглавил китайский рейтинг качества автомобилей
Мир
Лавров призвал сообща с КНР бороться с вмешательством в дела Юго-Восточной Азии
Происшествия
При тушении судна в Архангельске погиб начальник службы пожаротушения
Политика
Политолог назвал маловероятным создание блока наподобие НАТО на Ближнем Востоке
Недвижимость
Инвесторы стали чаще интересоваться недвижимостью в Дагестане
Авто
Сервисы кикшеринга выписали 211 тыс. штрафов с начала сезона
Мир
Уехавший из Польши судья Шмидт заявил об отсутствии в ЕС демократии
Политика
Путин включил врио глав Тульской и Самарской областей в президиум Госсовета
Общество
Вильфанд сообщил о понижении температуры в Москве с 29 июля
Мир
СМИ узнали о плане Трампа поместить снимок после покушения на обложку фотокниги
Культура
Селин Дион и Леди Гага могут выступить на церемонии открытия Олимпиады в Париже

Какие наши буквы: ученые узнают возраст по постам в соцсетях

В Курчатовском институте разработали методику определения демографических характеристик авторов текстов в интернете
0
Фото: Depositphotos
Озвучить текст
Выделить главное
вкл
выкл

Интеллектуальную компьютерную модель для анализа текстов, публикуемых в социальных сетях, создали в Курчатовском институте. Изучение написанного таким способом позволяет достаточно точно определить истинный возраст автора, даже если он пытается его скрыть. Эта работа является частью широкого спектра исследований, ведущихся в Курчатовском комплексе НБИКС-природоподобных технологий. Ранее ученые уже разработали механизм определения пола автора текста. Теперь они научились определять и возраст. На очереди — другие составляющие авторского профиля — такие как образование и профессия.

Строгий профиль

В мировой науке сейчас активно развивается междисциплинарное направление под названием authorship profiling, «автороведение». Его представители — специалисты по анализу данных, лингвисты, психологи — пытаются с той или иной мерой достоверности вычислить индивидуально-личностные характеристики автора текста. Для этого ученые строят математические модели на основе корреляций между численными значениями различных параметров текста и характеристик автора. Создать подобные модели позволяет машинный анализ огромного массива текстов из интернета, снабженных открытыми авторскими профилями. Однако для русскоязычных текстов это научное направление только начинает создаваться.

— Наша задача — это разработка методики диагностирования возраста участника интернет-коммуникации на основе анализа количественных параметров его текстов, — пояснил ведущий научный сотрудник Курчатовского комплекса НБИКС-природоподобных технологий Александр Сбоев. — Эти исследования идут в рамках гранта Российского научного фонда.

Разработки ученых в рамках проекта позволят с высокой степенью достоверности определить демографические характеристики пишущего, если он задумает подделать свою письменную речь, чтобы скрыть истинный возраст.

— Процесс развития интернет-коммуникаций неизбежно сопровождается увеличением уровня киберпреступности, — отметил начальник группы нейроморфных алгоритмов Курчатовского комплекса НБИКС-природоподобных технологий Роман Рыбка. — Интернет в качестве средства для поиска новых жертв и установления контакта с ними используют и мошенники, и люди с расстройствами психики, и вербовщики из террористических организаций. 

Естественно, киберпреступники не заинтересованы в распространении данных, которые бы помогли их идентифицировать, поэтому в своих персональных профилях и переписке они искажают сведения о себе, поэтому очень важным ключом к информации о них становится анализ текстов.

На сколько выглядишь

В Курчатовском институте был разработан и проанализирован широкий круг математических моделей, построенных на множестве комбинаций признаков и использующих различные варианты обучения. Созданные в результате алгоритмы позволяют с точностью около 80% определить возрастную группу автора, который пытается выглядеть старше или моложе своих лет.

— Решение задачи определения возраста автора текста становится всё более актуальным с ростом трафика текстовых сообщений в социальных сетях и на форумах, — считает Александр Сбоев. — Системы на основе таких методов смогут решить многие проблемы социального мониторинга, проводить анализ активности различных возрастных групп граждан по остросоциальным темам в Сети.

Полученные учеными результаты послужат основой работы над более фундаментальной проблемой — оценкой вероятности возникновения различных социально опасных событий, например, терактов.

ЖЖ в «лаборатории»

Исследования в Курчатовском комплексе НБИКС-природоподобных технологий ведутся совместно с лингвистами Воронежского государственного педагогического университета. Заведующая университетской лабораторией теоретической и прикладной идиолектологии Татьяна Литвинова рассказала «Известиям», что базовым лингвистическим материалом для исследования послужил корпус блогов «Живого журнала».

— Этот ресурс был выбран нами потому, что посты в ЖЖ, как правило, имеют больший объем в сравнении с другими электронными жанрами — такими, как твиты или посты в Facebook, — а также из-за того, что в ЖЖ пишут люди всех возможных возрастов, от школьников до пенсионеров.

Для составления корпуса текстов ученые отбирали тех авторов, которые указывали свой возраст в профиле. Конечно, кто-то из них может и исказить свой возраст, но мировые стандарты исследований в области диагностирования личности автора текста, по словам Татьяны Литвиновой, исходят из того, что подавляющее большинство авторов указывает свой возраст в профиле все-таки верно.

Разработанные в ходе проведенных исследований методы и инструменты применимы также и в системах анализа профиля автора текста при судебно-лингвистической экспертизе или формировании портрета автора анонимных писем. Они могут использоваться в качестве системы определения намеренного искажения данных в социальных профилях пользователей или дополнительного инструмента при формировании психологического профиля автора. По мнению Александра Сбоева, предлагаемые подходы могут найти применение и в системах таргетированной рекламы — для более точного определения возрастных групп пользователей.

 

Прямой эфир