Перейти к основному содержанию
Реклама
Прямой эфир
Политика
Путин выразил соболезнования лидеру Вьетнама в связи со смертью генсека ЦК Компартии
Мир
Нетаньяху отверг заключение суда ООН об оккупации палестинских территорий
Мир
Захарова прокомментировала видео с обливаемым кровью халатом врача «Охматдета»
Мир
Байден заявил о планах возобновить избирательную кампанию на следующей неделе
Общество
SHAMAN выступил на митинге-концерте возле американского посольства
Мир
В Белом доме сообщили об улучшении состояния заболевшего ковидом Байдена
Мир
В Белом доме заявили о возможном введении новых санкций против Китая
Мир
МО Великобритании допустило удары по России переданным Украине оружием Запада
Мир
Зеленский заявил о планах лично встретиться с Трампом
Мир
СМИ узнали о переговорах Харрис со спонсорами демократов
Мир
Белый дом допустил смену позиции по ударам ВСУ вглубь России
Мир
Маск предложил установить предельный возраст для кандидатов в президенты США
Мир
Lockheed Martin начала поставки истребителей F-35 пятого поколения
Мир
СМИ узнали о подготовке союзников Харрис к замене ею Байдена
Мир
Трамп поговорил по телефону с Зеленским
Наука и техника
В России начали применять новый препарат для лечения миодистрофии Дюшенна
Мир
Пентагон заказал девять самолетов для США и Японии на сумму более $1,4 млрд
Стиль
Создатели Hello Kitty назвали своего персонажа девочкой, а не кошкой

RealSpeaker читает по губам

Сотрудники казанского стартапа неожиданно подошли к решению проблемы распознавания речи – их программа обрабатывает не только речь, но и мимику пользователя
0
RealSpeaker читает по губам
Фото: ИТАР-ТАСС/Григорий Сысоев
Озвучить текст
Выделить главное
вкл
выкл

Может ли ПО существовать, не обновляясь годами? Вопрос, на первый взгляд, абсурдный: конечно же нет. Но только не в сегменте программ для распознавания родной речи. Со времен последних версий «Горыныча», «Комбата», «Диктографа» и «Перпетуум-Мобиле» (всё перечисленное ПО — образца конца 1990-х) на рынке не появилось ни одной новой программы по машинному переводу речи в текст. Фактически он стагнирует более 10 лет. Тем удивительнее было услышать о небольшой казанской компании ООО «РеалСпикер Лаб», задавшейся целью создать коммерческий распознаватель речи для разных платформ.

Проект RealSpeaker заявлен для потенциальных инвесторов как видеорасширение для увеличения точности программ аудиораспознавания речи за счет дополнительной обработки движения губ пользователя. Иначе говоря, помимо обработки звука программа «читает» по губам пользователя, что, по заявлению разработчиков, позволяет улучшить технологию трансформации речи в текст до 20% по сравнению с алгоритмами Dragon NaturallySpeaking (в версии для Mac OS — Dragon Dictate). Учитывая, что за прошедшие годы Dragon пережил 12 версий, оставаясь лидером среди программ по переводу речи (прежде всего английской) в текст, RealSpeaker выступает в роли Давида в поединке с Голиафом.

Разработчики заявляют об интеграции своего продукта в Google Voice Search и поддержке семи языков: русского, английского (американского и британского диалектов), французского, немецкого, китайского, корейского и японского.

По словам генерального директора ООО «РеалСпикер Лаб» Виктора Осетрова, помимо рабочей десктоп-версии под Windows 7 и 8 началась разработка Android-приложения. Кроме того, утверждает он, тестирование видеофильтра RealSpeaker вывело его детище в лидеры по точности распознавания речи среди подробных программ, поэтому в планах компании привлечь стратегического инвестора, способного вывести готовый продукт на международный рынок.

«Скачай бесплатно RealSpeaker, и ты сможешь вводить текст любой длины с помощью голоса в любой текстовый редактор (блокнот, MS Word, Skype, VKontakte и т.д.) на любом из семи языков», — указано на сайте проекта. При этом системные требования RealSpeaker заявлены вполне демократичные: компьютер с фронтальной камерой и микрофоном, наличие доступа в интернет, ОС Windows 7 или 8.

Мы опробовали работу с платной версией RealSpeaker PRO (1 тыс. рублей, среди дополнительных возможностей — использование команд) на двух устройствах — десктопе и ноутбуке. А заодно сравнили его работу с отечественным «Горынычем» (распознавание русской речи) и Dragon NaturallySpeaking (английская речь).

Инсталляция на десктоп с установленной веб-камерой Logitech Webcam 200 оказалась довольной легкой и заняла всего пару минут. В качестве аудиоустройства выступала гарнитура SVEN AP600 — вполне средняя система. Установка RealSpeaker на ноутбук Lenovo G780 также прошла без шероховатостей.

Выставление нужных параметров распознавания текста сводится, по сути, к двум кликам: выбору языка и микрофона — и в окошке программы появляется «Старт». Зеленый цвет окошка и пара рамок, очерчивающих голову и губы пользователя, cвидетельствуют об успешном начале работы видеофильтра.

А вот подстройка под работу приложения таит в себе массу неожиданностей: голову приходится держать ровно — поворот более чем на 3/4 приводит к потере программой лица пользователя. Оптимальное размещение головы диктующего — центр рабочего окна программы, на расстоянии около 40 см от дисплея. Всё бы ничего, но в случае чтения с листа процесс взаимодействия с программой значительно усложняется.

Технический директор ООО «РеалСпикер Лаб» Алексей Степин для повышения чувствительности видеофильтра посоветовал также избегать затемнения помещения и работы на фоне белой стены, а также убрать источники света позади пользователя.

Итог нескольких часов тестирования не столь однозначен. RealSpeaker безошибочно обрабатывает около 2/3 произнесенных слов. При этом практически не реагирует на союзы, иногда «сглатывает» целые куски фраз (при равномерном надиктовывании) и категорически отказывается понимать некоторые слова — например, «кот» так и не дался программе. Субъективно чуть лучше  программа работает с английским и немецким языками. Впрочем, эта странность объясняется довольно просто: словарная база русского языка в отличие от распространенных европейских развита средне, и в следующих версиях RealSpeaker — есть надежда — картина изменится к лучшему.

Сравнение RealSpeaker с «Горынычем» завершилось не в пользу популярной в свое время программы распознавания. Большой плюс «Горыныча» — настройка под голос конкретного пользователя — одновременно является и большим минусом. По сути, для более-менее хороших результатов распознавания пользователю придется самостоятельно начитать «Горынычу» целый словарь (базовый включает лишь тестовый набор из нескольких сотен слов). В противном случае результаты будут довольно неутешительными. Дополнительный минус — архаичный интерфейс. В свое время такие визуальные идеи смотрелись свежо, а сегодня отпугивают неудобством использования.

Dragon NaturallySpeaking также требует подстройки под пользователя, но весь процесс происходит в довольно ненавязчивой, а местами даже игровой форме. Чувствуется и полнота английской лексической базы — там, где RealSpeaker пробуксовывал, Dragon легко справлялся с распознаванием. Сложно оценить преимущество одной программы над другой в цифровых показателях, но более «опытный» NaturallySpeaking, давно избавившийся от детских болезней, вышел в явные лидеры.

Казанские стартаперы представили пока первую версию своей программы. По словам технического директора Степина, в следующей версии, к примеру, будет обязательно реализовано автоматическое настраивание уровня чувствительности микрофона, что позволит улучшить распознавание.

Комментарии
Прямой эфир