Перейти к основному содержанию
Реклама
Прямой эфир
Происшествия
Гоночная машина на скорости влетела в толпу людей на «Кубке Ленобласти по ралли»
Спорт
В «Динамо» заявили о продлении контракта с тренером Марцелом Личкой
Мир
Десятки рейсов отменили в аэропорту Мюнхена из-за митинга экоактивистов
Мир
Совершившего покушение на премьера Словакии заключили под стражу
Мир
Reuters сообщило о росте числа «отказников» в моргах Канады
Мир
Трамп потребовал проверить Байдена на наркотики перед дебатами в июне
Мир
Подозреваемый в покушении на премьера Словакии признал вину
Политика
Путин провел телефонный разговор с Токаевым
Политика
Пушков связал санкции против российских СМИ с неудачами Киева
Политика
Лавров указал на открытость РФ к диалогу по безопасности с Западом на равных
Общество
Актриса Наталия Кудрявцева умерла на 92-м году жизни
Происшествия
В Хабаровском крае обезьяна сбежала от хозяев и покусала местных жителей
Спорт
Футболист Георгий Джикия покинет московский «Спартак» в конце сезона
Армия
ПВО уничтожила четыре авиабомбы и две ракеты над Белгородской областью
Мир
Фуры перекрыли трассу на Украине в знак протеста против закона о мобилизации
Общество
В Намском районе Якутии затопило девять сел из-за паводка на реке Лена
Общество
В Москве возникли серьезные пробки из-за велопробега
Главный слайд
Начало статьи
Озвучить текст
Выделить главное
вкл
выкл

Российские ученые создали первую компьютерную программу, способную распознавать речь по движению губ пользователя. Ее можно устанавливать даже на обычный смартфон с видеокамерой. Технология разработана для применения в различных цифровых ассистентах с голосовым управлением. Она позволяет пользоваться ими в условиях шума. Благодаря ей точность распознавания команд повышается до 90%, показали испытания. По мнению экспертов, если заявленная правильность чтения по губам достигается даже в условиях сильной вибрации и шума, неизбежных при практическом использовании, то ноу-хау можно признать успешным.

Считать с губ

Специалисты Санкт-Петербургского федерального исследовательского центра РАН разработали компьютерную программу на основе нейросети, которая с помощью видеокамеры может распознавать речь по движению губ пользователя, сообщили «Известиям» в Минобрнауки. Это первый искусственный интеллект, который понимает таким образом именно русский язык. Технология предназначена для использования в различных цифровых ассистентах с голосовым управлением, которые должны надежно работать в условиях шума. Они необходимы, например, в людных местах, пилотам авиации, водителям большегрузного транспорта и так далее. Программа может работать как приложение на обычном смартфоне.

разработчик
Фото: ИЗВЕСТИЯ/Дмитрий Коротаев

— Мы разработали приложение для смартфона, которое распознает звучащую речь и считывает по губам слова пользователя, анализируя видеосигнал с камеры гаджета. Программа совмещает и изучает информацию из двух источников для улучшения точности распознавания. Эксперименты показали, что такая гибридная система значительно эффективнее распознает команды человека в сложных и шумных условиях, — рассказал старший научный сотрудник лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН Денис Иванько.

Основная задача разработчиков — не просто точное чтения по губам, а в целом более высокая способность системы понимать человека, используя как визуальные, так и акустические сигналы. Для создания программы использовался метод машинного обучения, которое проводилось по видеозаписям со звуком. Таким образом искусственный интеллект выучил несколько сотен наиболее распространенных команд. Он также способен самостоятельно принимать решение, какой источник — видео или звук — в данном случае даст максимальную точность.

И диктору, и водителю

Разработка успешно прошла испытания в реальных условиях. Ей воспользовались водители большегрузных автомобилей нескольких российских логистических компаний. Программу установили на смартфоны участников эксперимента. Точность распознавания команд только по визуальным сигналам составила 60–80%, а в комбинации со звуковыми — более 90%. Также нейросеть заняла первое место на международном конкурсе по точности чтения речи по губам диктора.

водители
Фото: ТАСС/Петр Ковалев

— Участники обучали свои нейросети на открытой базе англоязычных данных, состоящей из 500 тыс. видеозаписей, и тестировали их на наборе 25 тыс. записей. Точность нашей модели оказалась близка к 90% распознавания только на основе движений губ дикторов, — сказал Денис Иванько.

По словам создателей программы, успеха удалось достичь благодаря тому, что российская разработка лучше других «засекает», когда человек проявляет голосовую активность как по видео, так и по аудио. Также специалисты более точно определили наиболее информативные визуальные признаки речи, как, например, некоторые движения губ.

Еще одна проблема, которую пришлось решить разработчикам, — отсутствие достаточного объема данных для обучения нейросети на русском языке. Поэтому они искусственно изменяли некоторые характеристики видеозаписей, после чего машина воспринимала их как новые примеры.

Опасные вибрации

Точность распознавания команд только по визуальным эффектам составила 60–80%, а в комбинации со звуковым сигналом — более 90%. Однако для более объективной оценки интересно узнать, какова была правильность распознавания только по звуку, подчеркнул ведущий научный сотрудник лаборатории цифровых систем специального назначения ФРКТ МФТИ Андрей Леус.

распознавание
Фото: Global Look Press/dpa/Wolfgang Kumm

— Одна из подзадач данной технологии — детектирование объекта, за которым необходимо следить в кадре. Если это камера телефона, то нужно на изображении найти лицо, найти его часть, которую оценивают для чтения по губам, а потом уже по данной части изображения с учетом изменений во времени делать предсказания, — сказал Андрей Леус.

По его словам, из-за этих особенностей в результат работы системы могут вноситься помехи, обусловленные внешним движением, например тряской, поскольку речь идет о применении такого распознавания образов в транспортных средствах. Если эта проблема решена, то технология кажется очень перспективной, резюмировал эксперт.

— Идея считывания по губам не нова, так как на таком принципе разрабатывается множество различных устройств для людей с нарушениями слуха. Не нова и идея объединения разнородных данных для повышения качества работы моделей. Ведь увеличение количества информации приводит к повышению качества распознавания речи, — сказал доцент кафедры автоматики и процессов управления СПбГЭТУ «ЛЭТИ» Дмитрий Каплун.

По его словам, для объективной оценки изобретения открытым остается вопрос об условиях тестирования: уровне и природе шумов, возрастном составе испытуемых, освещенности в момент испытаний, расстоянии до источника звука, моделях используемых смартфонов и других деталей.

Прямой эфир