Губной врач: нейросеть восстановит речь по артикуляции

Новое мобильное приложение, разработанное российскими учеными, поможет улучшить речевые навыки пациентов. С его помощью они смогут самостоятельно проводить логопедические занятия, контролируя при этом как произношение, так и артикуляцию. Такие возможности программы обеспечат нейросети, настроенные на распознавание звука и изображений. Технологию предлагают использовать для реабилитации людей после инсульта, коррекции произношения звуков у детей. Дальнейшее ее развитие может привести к созданию систем видеоаналитики, которые смогут читать по губам. Это может пригодиться, например, при расшифровке разговоров с камер видеонаблюдения.

Идеальное сравнение

Правильное произношение различных звуков зависит от артикуляции, которая определяется положением губ и языка человека. Проследить за ней сейчас может только логопед, который контролирует данные параметры при работе с людьми с нарушениями речи. Российские ученые разработали программу анализа артикуляции и соединили ее с решением для распознавания звука с помощью нейросетей.

Губной врач: нейросеть восстановит речь по артикуляции

Фото: Depositphotos

Ручная забота: роботы расшифруют документы, заполненные письменно

Отечественная разработка способна оцифровать бумаги с рукописным текстом всего за несколько минут

— Создаваемая нами программа будет оценивать изображение с видеокамеры, определяя, каким образом пациент устанавливает губы и язык при произношении какого-либо звука или слога, — рассказал декан факультета педагогики и психологии Педагогического института ВятГУ Вячеслав Утёмов. — Одновременно с этим она будет записывать и распознавать получившийся звук и сопоставлять его с заранее определенным идеальным образцом, оценивая качество речи.

По словам ученого, изначально программа будет настроена на контроль 12 проблемных звуков. Точность ее работы составит около 90%. Таких результатов разработчикам удалось добиться за счет использования нейросетей. Причем если для анализа звука подобных систем существует уже довольно много, то для контроля артикуляции разработчикам пришлось задействовать нестандартное решение.

— Для определения правильности положения губ и языка пациента мы используем нейронную сеть, которая изначально прошла обучение на большом массиве изображений из открытой базы и способна их классифицировать, — пояснил Вячеслав Утёмов. — Далее мы провели специализированное обучение системы на фотографиях, связанных с артикуляцией. Это позволило ее доработать под наши цели и добиться высокой точности.

Фото: Depositphotos

Шестое чувство: кроме зрения и слуха роботы получат радиодальномеры

Восприятие машин улучшится с помощью встроенных локаторов, способных оценивать форму предметов и расстояние до них

Таким образом, в условиях реального применения новая система искусственного интеллекта будет способна самостоятельно выбирать время для производства снимка, а после фиксации изображения проанализирует его, оценив правильность артикуляции.

Выводы о точности использованных нейросетей были сделаны после их тестирования на 8000 образцов, созданных с помощью алгоритмической обработки 300 реальных записей пациентов.

Спросить у зеркала

В реальной практике система будет показывать человеку правильную артикуляцию и проводить занятие по заранее составленной программе. После ее завершения она сможет составить аналитический отчет и отразить в нем все речевые проблемы пациента. Это позволит логопедам корректировать программу занятий для ускорения прогресса в лечении.

Предпоследний звонок: через пять лет операторов заменят роботы

Пандемия ускорит процесс цифровизации колл-центров

По мнению разработчиков, данный подход даст возможность значительно ускорить прогресс в исправлении звукопроизношения за счет проведения самостоятельных занятий с помощью смартфона или другого устройства, на которое может быть установлена программа.

Новую программу оценили специалисты Кировской областной клинической психиатрической больницы им. В.М. Бехтерева, которые собирали данные для обучения задействованных нейросетей.

— Данная разработка, конечно, не сможет полностью заменить логопеда, особенно на стадии первичной диагностики, когда от специалиста требуется проявить индивидуальный подход к пациенту, чтобы назначить правильное лечение, — подчеркнула логопед больницы Валерия Караваева. — Однако она будет весьма полезна на этапе выполнения пациентом самостоятельной работы.

Фото: Depositphotos

Также эксперт подчеркнула, что на сегодняшний день создаваемая система является единственным русскоязычным решением, которое учитывает параметры артикуляции человека. Среди иностранных аналогов можно выделить китайское приложение, но его вряд ли можно адаптировать под европейские языки.

Состарит, разденет и прокатит: что может искусственный интеллект

Эксперты — о восстании машин, отчислении студентов и перспективных областях

— Разработка действительно уникальна для России, однако нужно учитывать, что сейчас самостоятельные занятия пациенты проводят, глядя в зеркало, что позволяет им отслеживать свою артикуляцию, — отметила заведующая кафедрой логопедии Московского государственного областного университета Елена Шилова. — Поэтому телефон во время выполнения упражнений должен, помимо прочего, также показывать лицо. Именно визуальный самоконтроль способствует эффективной выработке правильных речевых рефлексов.

Ожидается, что представленная система пройдет клинические испытания на базе одной из больниц города Кирова уже в 2021 году.

Разработчики не исключают и других направлений возможного развития используемых в программе нейросетей. В частности, в будущем новая система искусственного интеллекта сможет распознавать речь человека по его артикуляции, записанной на видео, что может пригодиться, например, при расшифровке разговоров, полученных с камер наблюдения.