Перейти к основному содержанию
Реклама
Прямой эфир
Общество
Более 80% россиян заявили о доверии Путину
Общество
В Санкт-Петербурге уволили начальника экономической полиции
Армия
Минобороны сообщило о 32 сдавшихся в плен украинских военнослужащих за неделю
Общество
Синоптик предупредила о буре в Москве 5 июля
Политика
Путин попросил Орбана ознакомить его с позицией Венгрии и ЕС по ситуации на Украине
Экономика
Украина стала вторым крупнейшим заемщиком МВФ
Общество
В РФ заявили о необходимости работы единого контентного центра судебной системы
Политика
Политолог указал на финансовую выгоду для Зеленского от продолжения конфликта
Армия
MWM указал на испорченную репутацию танков Abrams из-за их уничтожения военными РФ
Мир
Орбан назвал целью визита в Москву продолжение «мирной миссии»
Происшествия
В Волновахе из-за обстрелов со стороны ВСУ погибли два человека и 10 пострадали
Мир
Спикер парламента Армении сообщил о планах Еревана сменить посла в РФ
Мир
Лидер лейбористов Стармер вступил в должность премьер-министра Великобритании
Авто
За минувшие сутки в России произошло 319 ДТП
Общество
29 тыс. жителей Приморско-Ахтарска остались без света из-за атаки ВСУ
Политика
В МИД РФ поприветствовали посредничество других стран в украинском урегулировании
Общество
Бойцам СВО вручили госнаграды в госпитале им. Вишневского

RealSpeaker читает по губам

Сотрудники казанского стартапа неожиданно подошли к решению проблемы распознавания речи – их программа обрабатывает не только речь, но и мимику пользователя
0
RealSpeaker читает по губам
Фото: ИТАР-ТАСС/Григорий Сысоев
Озвучить текст
Выделить главное
вкл
выкл

Может ли ПО существовать, не обновляясь годами? Вопрос, на первый взгляд, абсурдный: конечно же нет. Но только не в сегменте программ для распознавания родной речи. Со времен последних версий «Горыныча», «Комбата», «Диктографа» и «Перпетуум-Мобиле» (всё перечисленное ПО — образца конца 1990-х) на рынке не появилось ни одной новой программы по машинному переводу речи в текст. Фактически он стагнирует более 10 лет. Тем удивительнее было услышать о небольшой казанской компании ООО «РеалСпикер Лаб», задавшейся целью создать коммерческий распознаватель речи для разных платформ.

Проект RealSpeaker заявлен для потенциальных инвесторов как видеорасширение для увеличения точности программ аудиораспознавания речи за счет дополнительной обработки движения губ пользователя. Иначе говоря, помимо обработки звука программа «читает» по губам пользователя, что, по заявлению разработчиков, позволяет улучшить технологию трансформации речи в текст до 20% по сравнению с алгоритмами Dragon NaturallySpeaking (в версии для Mac OS — Dragon Dictate). Учитывая, что за прошедшие годы Dragon пережил 12 версий, оставаясь лидером среди программ по переводу речи (прежде всего английской) в текст, RealSpeaker выступает в роли Давида в поединке с Голиафом.

Разработчики заявляют об интеграции своего продукта в Google Voice Search и поддержке семи языков: русского, английского (американского и британского диалектов), французского, немецкого, китайского, корейского и японского.

По словам генерального директора ООО «РеалСпикер Лаб» Виктора Осетрова, помимо рабочей десктоп-версии под Windows 7 и 8 началась разработка Android-приложения. Кроме того, утверждает он, тестирование видеофильтра RealSpeaker вывело его детище в лидеры по точности распознавания речи среди подробных программ, поэтому в планах компании привлечь стратегического инвестора, способного вывести готовый продукт на международный рынок.

«Скачай бесплатно RealSpeaker, и ты сможешь вводить текст любой длины с помощью голоса в любой текстовый редактор (блокнот, MS Word, Skype, VKontakte и т.д.) на любом из семи языков», — указано на сайте проекта. При этом системные требования RealSpeaker заявлены вполне демократичные: компьютер с фронтальной камерой и микрофоном, наличие доступа в интернет, ОС Windows 7 или 8.

Мы опробовали работу с платной версией RealSpeaker PRO (1 тыс. рублей, среди дополнительных возможностей — использование команд) на двух устройствах — десктопе и ноутбуке. А заодно сравнили его работу с отечественным «Горынычем» (распознавание русской речи) и Dragon NaturallySpeaking (английская речь).

Инсталляция на десктоп с установленной веб-камерой Logitech Webcam 200 оказалась довольной легкой и заняла всего пару минут. В качестве аудиоустройства выступала гарнитура SVEN AP600 — вполне средняя система. Установка RealSpeaker на ноутбук Lenovo G780 также прошла без шероховатостей.

Выставление нужных параметров распознавания текста сводится, по сути, к двум кликам: выбору языка и микрофона — и в окошке программы появляется «Старт». Зеленый цвет окошка и пара рамок, очерчивающих голову и губы пользователя, cвидетельствуют об успешном начале работы видеофильтра.

А вот подстройка под работу приложения таит в себе массу неожиданностей: голову приходится держать ровно — поворот более чем на 3/4 приводит к потере программой лица пользователя. Оптимальное размещение головы диктующего — центр рабочего окна программы, на расстоянии около 40 см от дисплея. Всё бы ничего, но в случае чтения с листа процесс взаимодействия с программой значительно усложняется.

Технический директор ООО «РеалСпикер Лаб» Алексей Степин для повышения чувствительности видеофильтра посоветовал также избегать затемнения помещения и работы на фоне белой стены, а также убрать источники света позади пользователя.

Итог нескольких часов тестирования не столь однозначен. RealSpeaker безошибочно обрабатывает около 2/3 произнесенных слов. При этом практически не реагирует на союзы, иногда «сглатывает» целые куски фраз (при равномерном надиктовывании) и категорически отказывается понимать некоторые слова — например, «кот» так и не дался программе. Субъективно чуть лучше  программа работает с английским и немецким языками. Впрочем, эта странность объясняется довольно просто: словарная база русского языка в отличие от распространенных европейских развита средне, и в следующих версиях RealSpeaker — есть надежда — картина изменится к лучшему.

Сравнение RealSpeaker с «Горынычем» завершилось не в пользу популярной в свое время программы распознавания. Большой плюс «Горыныча» — настройка под голос конкретного пользователя — одновременно является и большим минусом. По сути, для более-менее хороших результатов распознавания пользователю придется самостоятельно начитать «Горынычу» целый словарь (базовый включает лишь тестовый набор из нескольких сотен слов). В противном случае результаты будут довольно неутешительными. Дополнительный минус — архаичный интерфейс. В свое время такие визуальные идеи смотрелись свежо, а сегодня отпугивают неудобством использования.

Dragon NaturallySpeaking также требует подстройки под пользователя, но весь процесс происходит в довольно ненавязчивой, а местами даже игровой форме. Чувствуется и полнота английской лексической базы — там, где RealSpeaker пробуксовывал, Dragon легко справлялся с распознаванием. Сложно оценить преимущество одной программы над другой в цифровых показателях, но более «опытный» NaturallySpeaking, давно избавившийся от детских болезней, вышел в явные лидеры.

Казанские стартаперы представили пока первую версию своей программы. По словам технического директора Степина, в следующей версии, к примеру, будет обязательно реализовано автоматическое настраивание уровня чувствительности микрофона, что позволит улучшить распознавание.

Комментарии
Прямой эфир