Перейти к основному содержанию
Реклама
Прямой эфир
Общество
Авдеев заявил о постепенной нормализации ситуации в Киржачском районе
Мир
Трамп назвал слова Зеленского про отказ признать Крым мешающими урегулированию
Происшествия
В Новгородской области подросток получил ножевое ранение в драке на стадионе
Мир
СМИ сообщили о намерении Трампа повысить налоги для миллионеров
Общество
Замглавы Россельхознадзора Кармазин освобожден от должности по своему желанию
Мир
Песков сообщил о схожести взглядов Путина и Трампа на подход к переговорам
Мир
В Белом доме указали на ошибочную стратегию Зеленского в мирных переговорах
Происшествия
В Кабардино-Балкарии госпитализировали двоих подростков после драки с поножовщиной
Армия
Силы ПВО уничтожили четыре украинских БПЛА над Черным морем и Курской областью
Мир
На похоронах папы римского Россию представит министр культуры Любимова
Происшествия
Мужчина погиб в результате детонации взрывного устройства в Белгородской области
Мир
Песков заявил об отсутствии у РФ территориальных претензий к странам Балтии
Мир
Посол России в Лондоне заявил о понимании США недоговороспособности Киева
Мир
В Италии допустили участие страны в миссии ООН на Украине при согласии РФ
Мир
Белый дом исключил одностороннее снижение пошлин на китайские товары
Происшествия
Восемь детей госпитализированы после ДТП с автобусом в Севастополе
Общество
Россиян предупредили о штрафах от 5 тыс. рублей за установку мангала на балконе

RealSpeaker читает по губам

Сотрудники казанского стартапа неожиданно подошли к решению проблемы распознавания речи – их программа обрабатывает не только речь, но и мимику пользователя
0
RealSpeaker читает по губам
Фото: ИТАР-ТАСС/Григорий Сысоев
Выделить главное
Вкл
Выкл

Может ли ПО существовать, не обновляясь годами? Вопрос, на первый взгляд, абсурдный: конечно же нет. Но только не в сегменте программ для распознавания родной речи. Со времен последних версий «Горыныча», «Комбата», «Диктографа» и «Перпетуум-Мобиле» (всё перечисленное ПО — образца конца 1990-х) на рынке не появилось ни одной новой программы по машинному переводу речи в текст. Фактически он стагнирует более 10 лет. Тем удивительнее было услышать о небольшой казанской компании ООО «РеалСпикер Лаб», задавшейся целью создать коммерческий распознаватель речи для разных платформ.

Проект RealSpeaker заявлен для потенциальных инвесторов как видеорасширение для увеличения точности программ аудиораспознавания речи за счет дополнительной обработки движения губ пользователя. Иначе говоря, помимо обработки звука программа «читает» по губам пользователя, что, по заявлению разработчиков, позволяет улучшить технологию трансформации речи в текст до 20% по сравнению с алгоритмами Dragon NaturallySpeaking (в версии для Mac OS — Dragon Dictate). Учитывая, что за прошедшие годы Dragon пережил 12 версий, оставаясь лидером среди программ по переводу речи (прежде всего английской) в текст, RealSpeaker выступает в роли Давида в поединке с Голиафом.

Разработчики заявляют об интеграции своего продукта в Google Voice Search и поддержке семи языков: русского, английского (американского и британского диалектов), французского, немецкого, китайского, корейского и японского.

По словам генерального директора ООО «РеалСпикер Лаб» Виктора Осетрова, помимо рабочей десктоп-версии под Windows 7 и 8 началась разработка Android-приложения. Кроме того, утверждает он, тестирование видеофильтра RealSpeaker вывело его детище в лидеры по точности распознавания речи среди подробных программ, поэтому в планах компании привлечь стратегического инвестора, способного вывести готовый продукт на международный рынок.

«Скачай бесплатно RealSpeaker, и ты сможешь вводить текст любой длины с помощью голоса в любой текстовый редактор (блокнот, MS Word, Skype, VKontakte и т.д.) на любом из семи языков», — указано на сайте проекта. При этом системные требования RealSpeaker заявлены вполне демократичные: компьютер с фронтальной камерой и микрофоном, наличие доступа в интернет, ОС Windows 7 или 8.

Мы опробовали работу с платной версией RealSpeaker PRO (1 тыс. рублей, среди дополнительных возможностей — использование команд) на двух устройствах — десктопе и ноутбуке. А заодно сравнили его работу с отечественным «Горынычем» (распознавание русской речи) и Dragon NaturallySpeaking (английская речь).

Инсталляция на десктоп с установленной веб-камерой Logitech Webcam 200 оказалась довольной легкой и заняла всего пару минут. В качестве аудиоустройства выступала гарнитура SVEN AP600 — вполне средняя система. Установка RealSpeaker на ноутбук Lenovo G780 также прошла без шероховатостей.

Выставление нужных параметров распознавания текста сводится, по сути, к двум кликам: выбору языка и микрофона — и в окошке программы появляется «Старт». Зеленый цвет окошка и пара рамок, очерчивающих голову и губы пользователя, cвидетельствуют об успешном начале работы видеофильтра.

А вот подстройка под работу приложения таит в себе массу неожиданностей: голову приходится держать ровно — поворот более чем на 3/4 приводит к потере программой лица пользователя. Оптимальное размещение головы диктующего — центр рабочего окна программы, на расстоянии около 40 см от дисплея. Всё бы ничего, но в случае чтения с листа процесс взаимодействия с программой значительно усложняется.

Технический директор ООО «РеалСпикер Лаб» Алексей Степин для повышения чувствительности видеофильтра посоветовал также избегать затемнения помещения и работы на фоне белой стены, а также убрать источники света позади пользователя.

Итог нескольких часов тестирования не столь однозначен. RealSpeaker безошибочно обрабатывает около 2/3 произнесенных слов. При этом практически не реагирует на союзы, иногда «сглатывает» целые куски фраз (при равномерном надиктовывании) и категорически отказывается понимать некоторые слова — например, «кот» так и не дался программе. Субъективно чуть лучше  программа работает с английским и немецким языками. Впрочем, эта странность объясняется довольно просто: словарная база русского языка в отличие от распространенных европейских развита средне, и в следующих версиях RealSpeaker — есть надежда — картина изменится к лучшему.

Сравнение RealSpeaker с «Горынычем» завершилось не в пользу популярной в свое время программы распознавания. Большой плюс «Горыныча» — настройка под голос конкретного пользователя — одновременно является и большим минусом. По сути, для более-менее хороших результатов распознавания пользователю придется самостоятельно начитать «Горынычу» целый словарь (базовый включает лишь тестовый набор из нескольких сотен слов). В противном случае результаты будут довольно неутешительными. Дополнительный минус — архаичный интерфейс. В свое время такие визуальные идеи смотрелись свежо, а сегодня отпугивают неудобством использования.

Dragon NaturallySpeaking также требует подстройки под пользователя, но весь процесс происходит в довольно ненавязчивой, а местами даже игровой форме. Чувствуется и полнота английской лексической базы — там, где RealSpeaker пробуксовывал, Dragon легко справлялся с распознаванием. Сложно оценить преимущество одной программы над другой в цифровых показателях, но более «опытный» NaturallySpeaking, давно избавившийся от детских болезней, вышел в явные лидеры.

Казанские стартаперы представили пока первую версию своей программы. По словам технического директора Степина, в следующей версии, к примеру, будет обязательно реализовано автоматическое настраивание уровня чувствительности микрофона, что позволит улучшить распознавание.

Читайте также
Комментарии
Прямой эфир
Следующая новость
На нашем сайте используются cookie-файлы. Продолжая пользоваться данным сайтом, вы подтверждаете свое согласие на использование файлов cookie в соответствии с настоящим уведомлением и Пользовательским соглашением