2014-06-18 05:27:20

Гибридные технологии машинного перевода: практическая оценка современного состояния на примере PROMPT DeepHybrid

Девятов М.А.

Угаров П.А.

Введение

К настоящему моменту машинный перевод (МП) стал значимым направлением в секторе IT — над созданием соответствующего программного обеспечения работают крупные компании, а результаты его находят широкое практическое применение. Конечно, многими еще владеют штампы тех времен, когда технологии МП делали первые шаги и программы МП позволяли скорее не решать конкретные практические задачи, а поднимать себе настроение разнообразными смешными моментами. Но теперь многое изменилось, и просто высокомерно отмахнуться от МП будет недальновидно и легкомысленно. Даже если вы не планируете использовать МП, как минимум нужно представлять, в каких областях и каким образом он может конкурировать с живым переводчиком.

Варианты техпроцесса

И так, наши основные «действующие лица» — машина, переводчик, редактор и конечный пользователь. Чтобы не было путаницы, определим основные варианты технологического процесса с использованием МП.

1. С предредактированием: человек подготавливает исходный текст таким образом, чтобы он был «понятнее» машине. В сущности, главное здесь — определенным образом упростить или унифицировать материал.

2. С постредактированием: здесь все понятно, правим результат работы компьютера.

3. Всевозможные комбинированные варианты: редактировать и до и после, вмешиваться в работу компьютера по ходу процесса и т. д.

Очевидно, что большинству пользователей приемлем лишь второй вариант — переработка исходного текста слишком трудозатратна, и здесь скорее имеет смысл говорить о написании текстов согласно некоторым правилам, которые упростят МП (это уже применяется некоторыми крупными компаниями при подготовке документации).

А что внутри?

О собственно алгоритмах машинного перевода говорить подробно не будем, скорее для нас это «черный ящик» — слишком большая область, чтобы раскрыть ее в данной статье. Отметим лишь, что существует два подхода — основанный на правилах (то есть анализируем предложение по правилам языка и составляем его заново из слов, которые берутся из словарей) и статистический (есть двуязычные массивы текстов, и из них выбираются те переводы, которые являются наиболее правильными с вероятностной точки зрения). Первый является традиционным и реализован в том же Promt, а второй находит применение в сервисах машинного перевода компаний Yandexи Google. Имеют право на жизнь и комбинированные методы.

Какой бы ни была технология, не приходится рассчитывать на сколь-нибудь приемлемый результат перевода художественной литературы, однако в отношении технических текстов с высоким уровнем формализации, особенно при условии предварительной настройки (или «обучения») системы с использованием специализированных словарей и ранее переведенных материалов все может быть не так плохо. И так, к делу.

Гибридная технология Promt

Компания Promtдавно известна пользователям в России и занимает центральное место на нашем рынке. Мы не будет здесь подробно рассматривать ее путь и весь спектр предлагаемых решений, а остановимся на одной из «прорывных» технологий — гибридной — PROMT DeepHybrid.

Согласно заявлению компании, PROMT DeepHybrid использует RBMT-технологию (это как раз методы, основанные на правилах) и статистические методы для:

• автоматического построения словарных баз на основе корпусов параллельных текстов,

• формирования нескольких вариантов перевода — на уровне лексики и структуры предложения,

• постредактирования в автоматическом режиме,

• выбора лучшего (наиболее вероятного) перевода на основе языковой модели.

Такой подход позволяет:

• сохранить преимущества технологии rule-based (формирование синтаксически связанного и грамматически правильного текста, однородность терминологии),

• получить преимущества статистического МП (быстрая обучаемость, получение данных из параллельных корпусов в автоматическом режиме, гладкость текста).

Компания Промт отмечает, что если статистический машинный перевод требует колоссальных объемов параллельных текстов, то при гибридной технологии можно обойтись сравнительно небольшими объемами.

Главные преимущества PROMT DeepHybrid, опять же по информации компании:

• быстрая автоматическая настройка на основе Translation Memory заказчика,

• терминологическая точность и единство стиля,

• получение дополнительных полезных данных – глоссариев, двуязычных терминологических словарей.

Сама гибридная технология Промт подразумевает два этапа — обучение системы и собственно ее эксплуатацию, то есть перевод реальных текстов в интересах заказчика. Для пользователя процесс прост — он загружает имеющиеся корпуса параллельных текстов (например, полученные при выполнении переводов для данного заказчика) в формате *tmx, система обучается по этим данным, после чего она готова к переводу новых текстов.

Более подробную информацию о технологии можно найти на сайте компании, в заключение прокомментируем некоторые заявленные достижения Promt:

1. Обеспечивается терминологическая точность перевода, а также единство стиля (не указаны критерии проверки точности; например, что дает автоматическая проверка терминологии с помощью программ технического контроля качества?).

2. Как «побочный» продукт получаются дополнительные полезные данные — двуязычные терминологические словари (здесь следует отметить, что автоматическое выделение терминологии не всегда дает удовлетворительный результат, так как получаемая выжимка содержит скорее не самые важные термины, а самые частотные сочетания; примером программы, делающей эту работу, является Rainbowиз комплекта OkapiTools).

3. Разница в качестве между гибридным машинным переводом и переводом выполненным переводчиком, составляет 25-40 %; это показатель определяется объемом постредактирования (очень условный критерий, так как необходимое постредактирование каждого сегмента субъективно и зависит как от предпочтений редактора, так и от назначения перевода).

Методология оценки качества машинного перевода

Процесс принятия решений, особенно деловых, полезно основывать на формальных численных показателях. Ничуть не умаляя ценность эмоционального подхода, мы попробуем все-таки сформулировать некоторые критерии.

И так, объективно можно посчитать ошибки (смысловые, орфографические, грамматические и стилистические), а также объем постредактирования. Что касается постредактирования, можно использовать разные критерии: долю сегментов (или объема текста в словах) с постредактированием, время, а также сравнение с текстом, переведенным переводчиком.

При подсчете ошибок каждому типу ставится в соответствие вес в баллах, и можно получить однозначную оценку качества, однако положение осложняется тем, что если орфографические и грамматические (с натяжкой) ошибки определяются автоматически, для выявления стилистических и, особенно, смысловых ошибок нужен человек. Поэтому невозможно создать полностью автоматический инструмент проверки качества машинного перевода.

Тем не менее, кое-что формализовать можно и нужно. В этом смысле полезно рассмотреть методики, которая применяет компания Промт. Всего их две, и обе они основаны на автоматизированном сравнении машинного перевода с эталонным «человеческим» переводом из памяти, которая использовалась для обучения системы. Безусловно, формальное сравнение не всегда отражает качество перевода, но зато это объективный показатель. Исторически одним из первых здесь был метод BLEU.

Другая объективная цифра — скорость постредактирования. По опыту Промт, постредактирование правильно настроенного машинного перевода — это на 20-40 % быстрее, чем перевод с нуля (например, если переводчик переводит 500 слов/час, то настроенный машинный перевод он сможет постредактировать («превращать» в человеческий) со скоростью 600-700 слов/час).

Подведем промежуточный итог:

1) BLEU по сути отражает «похожесть» машинного перевода на человеческий (0% - совершенно не похож, 100% - полностью совпадает с эталоном). Чем он больше, тем качественнее считается перевод.

2) Редакционное расстояние (относительное) отражает процент слов, которые нужно исправить, чтобы машинный перевод стал похож на человеческий (0% — ничего не нужно исправить, 100% — все переписывать). Чем оно меньше, тем качественнее считается перевод.

Объем выполненных практических исследований

Мы решили исследовать возможности машинного перевода в сфере, которая находится на стыке точного машиностроения и IT — оборудовании для электронной промышленности. Для данного заказчика нас уже была накоплена достаточная база переводов объемом более 200 тыс. сегментов (минимальное требование со стороны Промт — 50 тыс. сегментов), так что исходные данные для обучения системы имелись.

И так, мы подписали двухстороннее соглашение о неразглашении и предоставили компании Промт базу в формате TMX объемом 215 тыс. сегментов.

Со своей стороны специалисты компании Промт выполнили следующие заявленные работы:

а) подобрали релевантные спец. словари (из отраслевой коллекции «Машиностроение»),

б) установили подходящие для данного типа текстов правила перевода,

в) автоматически выделили из ТМХ частотные термины и именные группы и импортировали их в словарь системы PROMT,

г) построили статистическую модель, используя технологию PROMT DeepHybrid.

Для оценки результатов специалисты компании Промт до начала настройки случайным образом выделили тестовую часть из 2000 сегментов, которые были исключены из процесса настройки (чтобы сымитировать ситуацию появления новых текстов).

После настройки специалисты компании Промт посчитали оценку BLEU и редакционное расстояние на тестовой части.

В результате мы получили файл в формате Excel, который содержал как наглядное представление перевода тестовой части посредством универсального переводчика Промт и системы, настроенной по нашей базе, так и расчетные значения численных показателей.

Чтобы мы могли проверить перевод на других текстах, похожих на тренировочные, компания Промт предоставила нам удаленный доступ к своему демонстрационному серверу с установленной системой.

Результаты исследований

Анализ экспертами Промт

Рассмотрим сначала результаты работы специалистов компании Промт. Далее — заключение экспертов Промт.

Дополнительно мы провели экспертную оценку на случайной выборке. Мы сравнили переводы 50 случайных сегментов, и по нашим оценкам выходит, что DH+ лучше. Во-первых, он лучше переводит терминологию заказчика. А настройка для конкретного клиента как раз и должна включать настройку перевода терминологии.

Пример1:

(Source)Enter the terminal names between which the impedance is to be measured.

(TrainedRBMT)Введите терминальные имена, между которыми должен быть измерен импеданс.

(DH+)Введите наименования выводов, между которыми должен измеряться импеданс.

(Reference)Введите наименования выводов, между которыми измеряется импеданс.

Во-вторых, в гибриде лучше обстоят дела с предлогами.

Пример2:

(Source)Refer to Recovering from an overtemperature condition.

(TrainedRBMT)Обратитесь к Восстановлению с состояния перегрева.

(DH+)Обратитесь к Восстановлению из состояния перегрева.

(Reference)Смотрите описание процедуры восстановления из состояния перегрева.

Если перевод нужен Вам для постредактирования, то намного проще поправить окончания слов, чем править полностью перевод целых слов (терминов).

Полный тест, выполненный экспертами Промт, дает схожие результаты. Действительно, настройка системы по нашим данным существенно улучшает единство и, главное, соответствие применяемой терминологии.

Далее численные значения критериев, полученные Промт:

	BLEU Score	Редакционное расстояние
Перевод без настройки	5,9	83,2
Перевод со словарями «Машиностроение»	7,2	80,8
Перевод со словарями «Машиностроение», словарем из ТМХ клиента и правилами перевода	9,1	77
Перевод с гибридной настройкой	19	66,5

Оценка качества специалистами компании «Прима Виста»

Благодаря выполненной Промт работе мы получили доступ к демонстрационному серверу с возможностью перевода любых файлов, причем оказались доступны два профиля — универсальный и специально настроенный под нашу тематику и заказчика (он назывался профиль «Прима Виста»). Мы перевели несколько документов, здесь остановимся на одном из них. Это было руководство по эксплуатации робота, который наносит на печатные платы паяльную пасту по заранее определенной программе.

Выполненный по гибридной технологии перевод выглядит заметно лучше того машинного перевода, над которым мы любим посмеяться. Конечно, и тут не обходится без юмора. Рассмотрим пару примеров.

Пример1:

(Source)Keep away from any moving parts while the robot is running.

(UniversalProfile)Держитесь подальше от любых движущихся частей, в то время как робот бежит.

(PrimaVistaProfile)Держитесь подальше от движущихся частей, во время работы робота.

(Reference)Держитесь подальше от движущихся частей во время работы робота.

Данный пример показывает, что перевод с универсальным профилем довольно веселый, а при использовании настроек, выполненных по нашей базе переводов, перевод практически соответствует эталонному. В документе рассматривается манипулятор, работающий с печатными платами, так что бежать он не может.

Пример2:

(Source)If possible, do not discard the packing material as these items may be needed if the robot is shipped or moved in the future.

(UniversalProfile)Если возможно, не отказывайтесь от упаковочного материала, поскольку эти пункты могут быть необходимы, если робот отправлен или перемещен в будущее.

(PrimaVistaProfile)По возможности не не роняйте упаковочный материал, поскольку эти элементы могут быть необходимы, если робот поставляется или перемещен в Полученные воспроизводимые результаты.

(Reference)По возможности не выбрасывайте упаковочный материал, так как он может понадобиться в случае транспортировки или перемещения робота в будущем.

Что мы видим здесь? Универсальный профиль отправляет робота в будущее. Если же воспользоваться нашими настройками, робот во времени не путешествует, однако перевод стал не сильно лучше. Действительно, что такое «Полученные воспроизводимые результаты»? Мы предполагаем, что такой эффект могло иметь построение терминологического словаря, в котором было что-то навроде «Futureresults». Промт отдал предпочтение переводу по словарю, а не переводу на базе статистики (или ее просто в данном случае не было).

Данные примеры показывают, что гибридная технология в некоторых случаях повышает качество перевода, а в некоторых не дает особого эффекта. Тем не менее, общее (конечно же, субъективное) впечатление от перевода с нашим профилем выше. Текст понятнее, термины более или менее соответствуют тематике.

Перейдем к численному анализу. Мы выполнили исследование схожего объема текста (относительно исследования Промт), оценивая редакционное состояние каждого сегмента, причем за 100% принималось максимальное приближение к эталонному («ручному» переводу), а 0% — минимальное качество.

При проверке перевода, выполненного с «универсальным» профилем оценка находилась на уровне 55 %. Настройка с профилем «Прима Виста» дала оценку около 70 %.

Что означают эти цифры? Да, текст на 70 % «похож» на нужный нам, однако времени на его правку понадобиться отнюдь не в три раза меньше, чем на перевод с «нуля». Ведь переводчик (ну или редактор машинного перевода) в любом случае должен прочесть исходное предложение, понять его смысл, перевести «в уме», а потом сверить свой вариант с тем, что «написал» компьютер. Только после этой сверки можно будет внести необходимые правки. Кроме того, не нужно забывать, что с этого переводчика-редактора никто не снимал обязанности следить за терминологией, то есть ему придется еще и сверяться с глоссариями, а возможно и памятью переводов, открытой для справки. Все это существенно тормозит процесс редактирования.

Мы попробовали засечь время, которое уходит на выполнение работы в целом. Понятно, что здесь очень много субъективных факторов, таких как квалификация переводчика, сложность текста, наличие объемной базы, по которой проводилась настройка сервера Промт, а также релевантность текущего перевода базе обучения. Тем не менее, наш случай можно считать более-менее показательным. Действительно, база для настройки была большой, то есть «корма» для модуля обучения Промт было достаточно; текущий текст весьма близок к этой базе как в плане терминологии, так и по стилистике (это мы можем заявить однозначно, так как до этого переводили данный текст сами). И так, что же мы получили на выходе?

Вручную скорость перевода данного текста составляла 520 слов в час. При условии полного доведения до уровня «ручного» перевода скорость работы составляет 570 слов в час. При этом переводчик быстрее устает и постоянно испытывает напряжение.

Тут еще есть важный момент — действительно грамотные переводчики не слишком любят заниматься правой машинного перевода, даже при условии аналогичной оплаты (а за правку машинного перевода платят меньше). Так что в этом случае автоматически уменьшается «спектр» доступных переводчиков, и снижается средний уровень квалификации по доступной выборке.

Ситуация меняется, если нужно «по-быстрому» довести перевод до более или менее приличного уровня, исправив лишь основные смысловые ошибки. В этом случае скорость возрастает до 950 слов в час, то есть выигрыш почти в два раза. Однако нужно понимать, что это далеко не тот перевод, какой ожидают многие клиенты. Так что, принимая во внимание все вышесказанное, можно заключить, что если мы стремимся к идеальному качеству, выигрыш по времени будет совсем небольшим, да и тот нужно сопоставлять с возникающими осложнениями; если же качеством можно поступиться, и главное — скорость, МП вполне приемлем.

Еще один важный практический момент — накопление памяти переводов. При машинном переводе ее качество будет со временем падать, а при ручном если и не расти, то не ухудшаться столь стремительно.

Отношение к машинному переводу со стороны бюро переводов и заказчиков

Большинство бюро переводов позиционируют себя как компании, принципиально отказывающиеся от машинного перевода (опять же по заявлению). По всей видимости, они опасаются отрицательных последствий для своего имиджа, да и денег пришлось бы брать меньше, если признаваться в использовании МП. Как же выглядит ситуация со стороны заказчика? Определенно, заказчик хочет платить меньше, но отношение к МП тоже, как минимум, настороженное. Однако имеется категория заказчиков (на это указывает частота запросов в поисковых системах), которые осознанно ищут бюро, занимающееся редактированием машинного перевода. Такие заказчики рассчитывают «за недорого» поправить МП, выполненный своими силами.

Машинный перевод действительно имеет сейчас свою нишу, которая все больше увеличивается. Он хорошо подходит для первичного ознакомления с документами, на базе которого заказчик может определить, какие из них требуют внимания переводчика-специалиста. Как правило, крупный заказчик, даже если сам того не знает, имеет далеко не одну категорию текстов даже в рамках письменного перевода. Ведь одни материалы требуют выверенного перевода и тщательного редактирования, так носят не только технический, но и маркетинговый характер и будут не просто опубликованы, но должны послужить делу привлечения новых клиентов, другие нужны для внутреннего использования специалистами и могут не иметь идеального стиля, хотя, конечно, и должны быть технически достоверными, третьи переводятся «в стол», просто «чтоб было» (например, по требованию контрольных органов), а четвертые нужны лишь для однократного беглого просмотра. Соответственно, в каждом случае требуется разное качество, и цена такого перевода может и должна быть разной.

Заключение

1. Машинный перевод шагнул вперед, его уже можно рассматривать как конкурента ручному переводу, но при соблюдении двух условий — предварительной настройки на большом объеме двуязычных текстов и последующей редакторской правки.

2. По данным Промт выигрыш по времени (и соответственно по деньгам) составляет 20-40 % (по сути это означает, что редактор выполняет правку машинного перевода в полтора раза быстрее, чем переводчик делает перевод «с нуля»). При этом подразумевается, что получается аналогичное качество.

3. По нашим данным выигрыш по времени (если требуется качество «ручного» перевода) не так велик — около 10 %. При этом переводчик быстрее устает и постоянно испытывает напряжение.

4. Ситуация меняется, если нужно «по-быстрому» довести перевод до более или менее приличного уровня, исправив лишь основные смысловые ошибки. В этом случае имеем выигрыш почти в два раза. Однако нужно понимать, что это далеко не тот перевод, какой ожидают многие клиенты.

5. Работа редактора машинного перевода больше напрягает, чем работа переводчика. Пожалуй, не всякий переводчик возьмется за нее за те же деньги (имеется в виду, что за свой рабочий час он будет получать столько же, сколько при переводе).

6. Машинный перевод наиболее эффективен при условии применения гибридного подхода, то есть желательно обучать переводчик на большом объеме баз, специфичных для данного клиента. Из этого можно сделать два вывода. Во-первых, машинный перевод больше оправдан для крупных клиентов или хотя бы тематик. Во-вторых, при наличии обширных баз можно эффективно работать и с традиционной технологией TranslationMemory, то есть тут уже придется делать выбор. Более того, при многократном применении МП качество баз со временем будет скорее падать, а при традиционном подходе с памятью переводов — расти.

Другие материалы

Система машинного сурдоперевода на базе Microsoft Kinect
	Разработчики технологии Kinect от Microsoft, способной считывать движения рук и всего тела, включили в список… Читать далее

Переводчик в кармане
	Торопливо листать разговорник, пытаясь что-то объяснить иностранцу? Это уходит в прошлое — наступает… Читать далее

Серверные решения Translation Memory: SDL и все-все-все
	Работу современного переводчика сложно представить без средств автоматизации, к которым относятся не… Читать далее