Программы распознавания речи. Что понимает искусственный интеллект?

Искусственный интеллект неуклонно наступает на местами стройные, местами разрозненные ряды узких и широких специалистов разных мастей и профилей. У кого-то это вызывает беспокойство, кто-то относится к такому наступлению весьма скептически. Но факт заключается в том, что ареал обитания искусственного интеллекта постоянно расширяется. Переводческая отрасль — не исключение.

Письменные переводчики уже довольно давно ощущают давление машинного перевода в своей деятельности. Машинный перевод то и дело упоминается в различных источниках. Разработчики программного обеспечения придумывают разные движки, «скармливают» им библиотеки параллельных текстов, пугают все новыми понятиями, такими как «адаптивный машинный перевод», «нейронный машинный перевод» и т. п. На этом фоне устные переводчики чувствуют себя относительно вольготно. Эту работу без преувеличения можно назвать самой тяжелой в сфере лингвистики, ведь она требует не только профессиональной подготовки и владения языком на высоком уровне, но и специфического склада ума и невероятной стрессоустойчивости. Положение этой отрасли в рамках индустрии на данный момент настолько стабильно, что целые агентства базируют свою бизнес-стратегию на предоставлении услуг устного перевода.

Но долог ли будет век этой стабильности? Искусственный интеллект не стоит на месте и вряд ли обойдет вниманием и эту сферу. Вопрос в том, как скоро машины смогут соперничать с человеком в переводе устной речи. Чтобы иметь возможность строить предположения на этот счет, необходимо разобраться, что же может искусственный интеллект на данном этапе.

Когда речь идет об устном переводе, задача перевода разбивается на две подзадачи: собственно перевод и распознавание речи. О собственно переводе уже написано и будет написано довольно много. А в каком состоянии сейчас находятся технологии распознавания речи? Насколько они способны соперничать с человеком? Ответам именно на эти вопросы и посвящено данное исследование.

Средства распознавания речи можно разбить на две группы. В первую группу входит автономное программное обеспечение для ПК и мобильных устройств. Это классические инструменты, которые ориентированы в первую очередь на диктовку. Другими словами, большинство из таких программ предназначены для того, чтобы преобразовывать голос одного конкретного человека в текст или команды. Соответственно, для повышения качества распознавания голоса их требуется обучать на конкретных примерах, что, разумеется, не способствует повышению качества распознавания речи в общем случае (например, при работе с аудио- и видеозаписями), так как людей множество, и их речь сильно различается. Вторую группу составляют различные интернет-сервисы, количество которых постоянно растет. Анализ показал, что, несмотря на их обилие, число «движков», на базе которых они реализованы, как и в случае машинного перевода, не так уж велико.

Ниже каждая из названных групп будет рассмотрена более подробно.

АВТОНОМНОЕ ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ

Dragon NaturallySpeaking

Говоря о программах распознавания речи, в первую очередь необходимо упомянуть о Dragon NaturallySpeaking от компании Nuance Communications, Inc. Это одна из старейших программ распознавания речи, которая многими до сих пор считается лидером в данной области. Она предназначена прежде всего для диктовки, но также включает в себя функцию распознавания речи из звуковых файлов. Качество распознавания зависит от настроек и выбранного профиля (эталона речи). При этом поддерживается обучение, то есть «натаскивая» программу на определенную речь, можно постепенно улучшать качество распознавания текста. Обучение проводится путем исправления результатов работы — в ходе этого программа самостоятельно корректирует свою модель распознавания.

Работа программы исследовалась на примере небольшого видеоролика на английском языке. Данный видеоролик представляет собой короткий фильм, в котором автор ведет речь на фоне музыки. В конце фильма о его теме высказывают свое мнение еще несколько человек. Таким образом, видеоролик является довольно сложным для распознавания: в нем есть шум, фоновая музыка и многоголосая речь (хотя голоса в ней звучат не одновременно).

Следует отметить, что Dragon NaturallySpeaking поддерживает исключительно аудиофайлы с монозвуком. Напрямую с видеофайлами программа работать не умеет. Таким образом, при необходимости распознавания речи в видеозаписи требуется извлечь из последней звуковую дорожку в требуемом формате. Это, несомненно, осложняет работу, так как большинство файлов, с которым приходиться иметь дело на практике, не удовлетворяют требованиям Dragon NaturallySpeaking. Однако в Интернете есть много сервисов, которые способны бесплатно подготовить файл в нужном формате. Поэтому данное ограничение не является непреодолимым препятствием.

Результаты

Результат работы программы представлен ниже.

Him about 1500 km² century England created Britain is a small country with a large population nearly 59 million people live shot last the population of over 22 million visitors the magazine need to the pool not far from the peak district we see what industry can do to the environment and in the mid-on the new industrial revolution changed the face of the British countryside to his create money they also bring is been a problem in Britain since the 19th century London became famous a mixture smoke smoke continued to be a big problem in the 20th century to in 1952. Some people when the smoke lasted for several the government has introduced North to control pollution for example people onto lots of uncounted towns threats to the environment and 27 million called ancillaries on the roads in Britain for families to come on average the British East and trains one Jenny to take action to free environment has become an important part which is not in such a crowded country it’s essential to protect the countryside to the people can enjoy and you come to the district areas around Hensley’s wall in his name to also lay around she can say and a sister necessary for families to come it’s absolutely beautiful and in certain parts that I come to quite often variations releases lakes Russia is a good office on what one of the country signed so I left comfortable and I like to wildlife any such inability places to say and nice walks today when they are very friendly and I just so much to do in the area denies having the it’s really just

Распознавание нельзя признать идеальным (см. почти идеальный вариант в разделе, посвященном сервису Go Transcribe). Не все распознается правильно, есть пропуски. Однако в целом результат можно признать удовлетворительным: текст передается плавно, без вырезанных кусков (что имеет место в других программах, о чем будет сказано ниже). При этом процент правильно распознанных слов достаточно велик. Кроме того, программу можно обучать прямо в процессе распознавания. Например, добавление в приведенный фрагмент только одного слова «national», которое присутствует в видеоролике, уже позволило улучшить качество распознавания — в тексте появилась отсутствовавшая до этого связка «Manchester and Sheffield». Таким образом, в случае длительных видеозаписей можно добиваться очень хорошего качество распознавания за счет обучения программы на первых 5-10 минутах записи.

Влияние фоновой музыки и шума на качество распознавания

Как отмечалось выше, в анализируемом звуковом файле присутствовали фоновая музыка и шум. В связи с этим возник вопрос: а можно ли повысить качество распознавания речи за счет удаления фона? Чтобы выяснить это, была произведена обработка исходной аудиозаписи в программе Adobe Audition CC 2017, в ходе которой фоновая музыка и шум были полностью удалены из файла. При этом результат распознавания оказался абсолютно таким же, как с фоновой музыкой и шумом. Таким образом, Dragon NaturallySpeaking самостоятельно выделяет фон, и никаких дополнительных манипуляций для подготовки звуковых файлов не требуется. На качество распознавания они не влияют.

Выводы

Программа проста в работе, и разобраться в ее возможностях не составляет труда. С этой точки зрения нареканий нет. Однако качество распознавания без обучения (а на обучение требуется время) все-таки оставляет желать лучшего. И это при том, что на многих форумах и во многих обзорах ПО для распознавания речи Dragon NaturallySpeaking признается лучшей программой в своем классе. Также существенным недостатком является отсутствие поддержки русского языка. Компания Nuance реализовала такую поддержку только для мобильных устройств Apple. Пользователям других платформ остается только смириться с такой дискриминацией.

Достоинства:

Удобство в работе
Поддержка распознавания аудиофайлов (но ограниченная!)
Возможность повышения качества работы за счет обучения в процессе распознавания

Недостатки:

Невысокое качество распознавания без обучения
Отсутствие поддержки русского языка

Braina

Еще одна популярная программа для распознавания речи. В отличие от Dragon NaturallySpeaking, она поддерживает множество языков, включая русский, однако предназначена исключительно для диктовки, и поддержки распознавания звуковых файлов в ней нет. Впрочем, такое распознавание становится возможным при использовании так называемого «виртуального кабеля», который имитирует связь микрофона с динамиками. Это позволяет подавать звук из любого приложения, предназначенного для воспроизведения аудио- и видеофайлов, на вход программно реализованного микрофона. В данном исследовании в качестве такого инструмента была выбрана программа Voicemeeter.

Результаты

Местами Braina распознает лучше, чем Dragon NaturallySpeaking. Например, она «услышала» «Manchester and Sheffield» сразу, без какого-либо обучения. Кроме того, ей удалось распознать «Peak District National Park» в самом начале аудиозаписи, что никак не получалось у Dragon NaturallySpeaking. Однако у Braina есть один очень существенный недостаток: если в речи присутствуют большие паузы, она пропускает значительные куски текста, что является неприемлемым. Алгоритм таких пропусков понять не удалось. Просто иногда программа как бы уходит в себя и все. Обучение при этом не поддерживается. Из-за указанных пропусков среднее качество распознавания получается хуже, чем у Dragon NaturallySpeaking. Русский язык, несмотря на его поддержку, распознается из рук вон плохо.

Выводы

Интерфейс Braina еще проще, чем Dragon NaturallySpeaking. Программа поддерживает русский язык (хоть и номинально), имеет лестные отзывы на форумах и в обзорах. Тем не менее, она предназначена только для диктовки и не умеет работать со звуковыми файлами. Чтобы заставить ее работать с файлами, приходится пользоваться сторонними средствами. Обучение не поддерживается. При этом среднее качество распознавания в общем случае довольно низкое, хотя местами программа выдает очень неплохие результаты. Если речь равномерна, не прерывается и не слишком быстра, качество распознавания существенно повышается. Вообще говоря, результаты работы Braina очень похожи на результаты работы сервисов на основе технологии распознавания Google, что наводит на мысли об их родстве.

Достоинства:

Простота
Поддержка множества языков, в том числе русского

Недостатки:

Нестабильное качество распознавания, которое в среднем является неприемлемо низким
Невозможность непосредственной работы с аудиофайлами
Не поддерживается обучение

Программы для работы с русским языком

Как следует из вышесказанного, зарубежное программное обеспечение либо совсем не поддерживает распознавание русскоязычной речи, либо такая поддержка является чисто номинальной. Соответственно, можно предположить, что с такой задачей лучше всего справляются отечественные программы. А так ли на самом деле?

Voco Professional

Voco Professional представляет собой отечественную программу с поддержкой распознавания звуковых файлов. Основная ее специализация, как и у большинства других программ, — диктовка. При этом она работает исключительно с русским языком.

Для работы с аудиофайлами Voco Professional не требуется никаких сторонних средств, однако реализована такая работа весьма своеобразно. В MS Word добавляется специальная надстройка, которая и отвечает за распознавание речи в файлах. При этом необходимо отметить, что MS Word должен иметь версию выше 2007, иначе надстройка не установится.

Данная программа исследовалась на примере видеозаписи с русской многоголосой речью без фоновой музыки.

Результаты

Распознавание в Voco Professional — процесс крайне медленный. При этом в отличие от других программ Voco Professional выдает результат только после завершения анализа всего файла. А до этого «счастливого» момента приходится довольствоваться лишь индикатором хода процесса. Сам результат не просто разочаровал, а вообще поставил под сомнение способность программы что-нибудь распознать. Полученный текст не имел ничего общего с исходной аудиозаписью. Понять, к чему относится тот или иной фрагмент, совершенно невозможно. Можно было лишь посмеяться над фразами типа «покойный на лыжных ботинках». Скорее всего, программа понимает исключительно очень качественную диктовку, в которой проговаривается каждое слово. Для работы с аудиозаписями с обычной речью Voco Professional абсолютно непригодна.

Выводы

Крайне низкое качество распознавания не позволяет использовать программу для работы с аудио- и видеозаписями.

Достоинства:

Пренебрежимо малы в связи с крайне низким качеством распознавания

Недостатки:

Крайне низкое качество распознавания речи

Real Speaker

Real Speaker — еще один отечественный продукт, предназначенный для распознавания речи. Эта программа, как и многие другие, ориентирована в первую очередь на диктовку. Однако на сайте анонсирована новая версия продукта, которая способна работать и с файлами. Кроме того, там заявлено качество распознавания на уровне 99–100 %. Такое заявление впечатляет. Однако найти Real Speaker живьем пока нельзя. В наличии есть только демо-режим. И в этом режиме поддерживается лишь диктовка. Впрочем, «виртуальный кабель» позволяет обойти данное ограничение и получить представление о возможностях продукта.

Результаты

Качество распознавания Real Speaker в демо-режиме сравнимо с Braina. Никаких выдающих способностей этот продукт не продемонстрировал. Остается надеяться, что в демо-режиме работает еще прежняя версия Real Speaker. А новая версия с качеством распознавания на уровне 99–100 % еще только на подходе и вскоре порадует нас действительно новым уровнем.

Выводы

В текущем состоянии Real Speaker непригоден для распознавания звуковых файлов, но ожидается новая улучшенная версия. Ждем с нетерпением!

ИНТЕРНЕТ-СЕРВИСЫ

В интернете существует очень большое количество как платных, так и бесплатных сервисов, которые предлагают свои услуги в области распознавания речи. Однако, как оказалось, несмотря на такое изобилие, выбор не так уж и велик.

Поскольку подавляющее большинство интернет-сервисов для распознавания речи не сильно различаются по своим возможностям, нет смысла описывать все исследованные сервисы (а их было исследовано более десятка). Остановимся лишь на отдельных характерных представителях.

Сервисы на основе технологии распознавания речи Google

Сервисов на базе «движка» Google очень много. В качестве примеров можно привести Speechlogger и Speechpad. Все они поддерживают множество языков, включая русский, и не поддерживают работу с файлами напрямую. Таким образом, если речь идет не о диктовке, требуется обязательно использовать «виртуальный кабель». При этом работать с файлами можно лишь в одном браузере — Google Chrome.

Результаты

Характер распознавания у сервисов на основе технологии Google различается, однако в среднем качество примерно одинаково. Причем оно практически идентично качеству работы программа Braina: местами очень неплохо, но пропускаются большие куски. Как и у Braina, если речь равномерна, не прерывается и не слишком быстра, качество распознавания приемлемо.

Выводы

Основным достоинством сервисов на основе технологии Google является их доступность (по большей части они бесплатны) и простота. Качество распознавания не слишком высокое, но и низким назвать его нельзя (среднее для своего класса). Для распознавания речи в аудиофайлах, как правило, требуется «виртуальный кабель» и браузер Google Chrome.

Достоинства:

Доступность

Недостатки:

Невысокое качество распознавания речи
Необходимость использования сторонних средств («виртуального кабеля»)

Технология распознавания речи Microsoft

У технологии распознавания речи Google есть прямой конкурент — технология распознавания речи Microsoft. Однако возможности данной технологии по всем обзорам и оценкам, которые можно найти в интернете, ниже, чем у Google и других, поэтому в данном исследовании она не участвовала.

Сервис Go Transcribe

После многочисленных исследований и испытаний создалось впечатление, что технология распознавания речи стоит на месте. Кто-то лучше, кто-то хуже, но прорывов в целом нет. И тут на горизонте возник очередной (но, как оказалось, не совсем очередной) сервис Go Transcribe.

Go Transcribe — платный интернет-сервис. Однако стоимость его услуг (см. ниже) не так уже велика, поскольку качество, забегая вперед, превосходит ожидания. Примерно за 100 долл. США можно распознать целых 10 часов речи. Причем первые 10 мин. можно обработать бесплатно.

Сервис Go Transcribe исследовался на тех же файлах, что и все прочие продукты. Но результаты оказались совершенно другими.

Результаты

Качество распознавания впечатляет и удивляет. Ниже представлен результат распознавания для того же фрагмента, который ранее приводился при описании Dragon NaturallySpeaking.

This is the Peak District National Park. It covers an area of about 1500 square kilometres in the centre of England. The government created national parks in 1949.

To protect the environment. Britain is a small country with a large population nearly fifty nine million people live. Seventy five percent in towns and cities.

The Peak District lies between Manchester and Sheffield and this several other large towns and cities. A third of the population of Britain can get here in less than an hour. In fact there are over 22 million visitors. Every year.

On the River Mersey near Liverpool not far from the Peak District we see what industry can do to the environment. Here in the Midlands and the North of England the industrial revolution changed the face of the British countryside. Factories create money and employment but they also bring problems. Pollution has been a problem in Britain since the 19th century. At that time London became famous for its smog a mixture of smoke and fog. Smog continued to be a big problem in the twentieth century too. In 1952 4000 people died when the smog lasted for several days. Since then the government has introduced laws to control pollution for example people aren’t allowed to burn coal in towns and cities. New threats to the environment have appeared. There are now 27 million cars vans and lorries on the roads in Britain. A quarter of families have two or more cars. On average the British use buses and trains for only one out of 10 journeys.

Many cities have taken action to deal with increasing traffic. This is the High Street in Oxford. Only buses taxis and bicycle. Can use this street during the day. Many other British cities now have traffic free areas.

Making after the environment has become an important part of British life in such a crowded country. It’s essential to protect the countryside so that people can enjoy it. Why do you come to the Peak District. As lovely areas around here and there’s loads of walks in nature walks when they’re out and you can see. And.

It’s just an accessory for families to come. It’s absolutely beautiful. I love walking. Here.

Certain parts that I come to quite often come along in variations as valleys as water streams and rivers lakes. Russia would have a good start when you’ve been there.

I love the countryside so I love to come for a walk and I like to know the wildlife there is such lovely places to see and nice walks to do and the people are very friendly. It’s just so much to do in the area. It’s very nice. And. When the weather’s good it’s really beautiful isn’t it.

Как можно видеть, английская речь распознается практически идеально (лучше даже представить трудно). Причем даже на фоне шума или музыкального сопровождения. Русский язык распознается хуже, но качество распознавания все равно на голову выше, чем у конкурентов. К тому же, Go Transcribe поддерживает не только все форматы звуковых файлов, но и видеофайлы.

Выводы

Сервис Go Transcribe очень прост в работе. Необходимо всего лишь загрузить нужный файл. Распознавание запускается автоматически сразу после загрузки файла. Результат можно редактировать, однако чаще всего это не требуется. На данный момент Go Trinscribe является несомненным лидером по качеству и, возможно, обеспечивает лучшее качество распознавания речи. Едва ли найдется что-то, что может его существенно превзойти.

Достоинства:

Качество, качество и еще раз качество

Недостатки:

Платный (98 долл. США за 10 часов речи), но качество превосходит стоимость

ЗАКЛЮЧЕНИЕ

В данном обзоре представлены результаты исследования программного обеспечения для распознавания речи, которое может стать посредником между человеком и машинным переводом. Пока таким продуктам еще очень далеко до людей. Однако есть среди них лидеры, которые ушли далеко вперед. Например, сервис Go Transcribe уже умеет распознавать речь на уровне, очень близком к уровню человека. Причем практически в любых условиях. Исключение составляет лишь многоголосая одновременная речь. Распознавать одновременную речь нескольких человек пока не способна ни одна программа. Это исключительная прерогатива человека. Но все развивается… И возможно, скоро устные и письменные переводчики окажутся в равных условиях.

(5 голосов, оценка: 5,00 из 5)

Загрузка...

Программы распознавания речи. Что понимает искусственный интеллект?

Рубрики: Софт и технологии, Статьи, Это интересно

Рубрики

Поиск по блогу

Архив

Авторы

Хотите стать автором?

Наши партнеры и коллеги