Перейти к основному содержанию
Реклама
Прямой эфир
Мир
В ЕП предупредили о последствиях для ЕС из-за ответа Трампу на пошлины
Спорт
«Лацио» потерпел поражение от «Комо» со счетом 0:3
Экономика
В РАН назвали главные угрозы внедрения ИИ в финансовой сфере
Общество
Правительство не поддержало законопроект об увеличении стоимости подарков учителям
Мир
Евродепутат от Болгарии оценил шансы партии президента страны на выборах
Общество
«Шанинка» обратилась в суд с иском об отмене приостановки лицензии
Общество
В ЛДПР предложили ограничить рост тарифов ЖКХ уровнем инфляции
Мир
Туск прокомментировал приглашение Польши в «Совет мира» по Газе
Мир
Офис Орбана обвинил Брюссель в подготовке к ядерной войне
Наука и техника
Ученые восстановили историю растительности Камчатки за 5 тыс. лет
Мир
Силы ПВО за три часа уничтожили 47 БПЛА ВСУ над регионами России
Общество
В КПРФ предложили повысить до 45% налоговую ставку на доходы свыше 50 млн рублей
Мир
Президент Сирии Шараа и Трамп обсудили развитие событий в Сирии по телефону
Мир
Политолог Колташов назвал Гренландию платой ЕС за обман США
Общество
Янина назвала Валентино Гаравани последним императором высокой моды
Экономика
В России было ликвидировано 35,4 тыс. предприятий общепита за 2025 год
Мир
Додон назвал выход Молдавии из СНГ противоречащим интересам народа
Главный слайд
Начало статьи
Озвучить текст
Выделить главное
Вкл
Выкл

Российские ученые создали первую компьютерную программу, способную распознавать речь по движению губ пользователя. Ее можно устанавливать даже на обычный смартфон с видеокамерой. Технология разработана для применения в различных цифровых ассистентах с голосовым управлением. Она позволяет пользоваться ими в условиях шума. Благодаря ей точность распознавания команд повышается до 90%, показали испытания. По мнению экспертов, если заявленная правильность чтения по губам достигается даже в условиях сильной вибрации и шума, неизбежных при практическом использовании, то ноу-хау можно признать успешным.

Считать с губ

Специалисты Санкт-Петербургского федерального исследовательского центра РАН разработали компьютерную программу на основе нейросети, которая с помощью видеокамеры может распознавать речь по движению губ пользователя, сообщили «Известиям» в Минобрнауки. Это первый искусственный интеллект, который понимает таким образом именно русский язык. Технология предназначена для использования в различных цифровых ассистентах с голосовым управлением, которые должны надежно работать в условиях шума. Они необходимы, например, в людных местах, пилотам авиации, водителям большегрузного транспорта и так далее. Программа может работать как приложение на обычном смартфоне.

разработчик
Фото: ИЗВЕСТИЯ/Дмитрий Коротаев

— Мы разработали приложение для смартфона, которое распознает звучащую речь и считывает по губам слова пользователя, анализируя видеосигнал с камеры гаджета. Программа совмещает и изучает информацию из двух источников для улучшения точности распознавания. Эксперименты показали, что такая гибридная система значительно эффективнее распознает команды человека в сложных и шумных условиях, — рассказал старший научный сотрудник лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН Денис Иванько.

Основная задача разработчиков — не просто точное чтения по губам, а в целом более высокая способность системы понимать человека, используя как визуальные, так и акустические сигналы. Для создания программы использовался метод машинного обучения, которое проводилось по видеозаписям со звуком. Таким образом искусственный интеллект выучил несколько сотен наиболее распространенных команд. Он также способен самостоятельно принимать решение, какой источник — видео или звук — в данном случае даст максимальную точность.

И диктору, и водителю

Разработка успешно прошла испытания в реальных условиях. Ей воспользовались водители большегрузных автомобилей нескольких российских логистических компаний. Программу установили на смартфоны участников эксперимента. Точность распознавания команд только по визуальным сигналам составила 60–80%, а в комбинации со звуковыми — более 90%. Также нейросеть заняла первое место на международном конкурсе по точности чтения речи по губам диктора.

водители
Фото: ТАСС/Петр Ковалев

— Участники обучали свои нейросети на открытой базе англоязычных данных, состоящей из 500 тыс. видеозаписей, и тестировали их на наборе 25 тыс. записей. Точность нашей модели оказалась близка к 90% распознавания только на основе движений губ дикторов, — сказал Денис Иванько.

По словам создателей программы, успеха удалось достичь благодаря тому, что российская разработка лучше других «засекает», когда человек проявляет голосовую активность как по видео, так и по аудио. Также специалисты более точно определили наиболее информативные визуальные признаки речи, как, например, некоторые движения губ.

Еще одна проблема, которую пришлось решить разработчикам, — отсутствие достаточного объема данных для обучения нейросети на русском языке. Поэтому они искусственно изменяли некоторые характеристики видеозаписей, после чего машина воспринимала их как новые примеры.

Опасные вибрации

Точность распознавания команд только по визуальным эффектам составила 60–80%, а в комбинации со звуковым сигналом — более 90%. Однако для более объективной оценки интересно узнать, какова была правильность распознавания только по звуку, подчеркнул ведущий научный сотрудник лаборатории цифровых систем специального назначения ФРКТ МФТИ Андрей Леус.

распознавание
Фото: Global Look Press/dpa/Wolfgang Kumm

— Одна из подзадач данной технологии — детектирование объекта, за которым необходимо следить в кадре. Если это камера телефона, то нужно на изображении найти лицо, найти его часть, которую оценивают для чтения по губам, а потом уже по данной части изображения с учетом изменений во времени делать предсказания, — сказал Андрей Леус.

По его словам, из-за этих особенностей в результат работы системы могут вноситься помехи, обусловленные внешним движением, например тряской, поскольку речь идет о применении такого распознавания образов в транспортных средствах. Если эта проблема решена, то технология кажется очень перспективной, резюмировал эксперт.

— Идея считывания по губам не нова, так как на таком принципе разрабатывается множество различных устройств для людей с нарушениями слуха. Не нова и идея объединения разнородных данных для повышения качества работы моделей. Ведь увеличение количества информации приводит к повышению качества распознавания речи, — сказал доцент кафедры автоматики и процессов управления СПбГЭТУ «ЛЭТИ» Дмитрий Каплун.

По его словам, для объективной оценки изобретения открытым остается вопрос об условиях тестирования: уровне и природе шумов, возрастном составе испытуемых, освещенности в момент испытаний, расстоянии до источника звука, моделях используемых смартфонов и других деталей.

Читайте также
Прямой эфир