2011-04-19 14:39:23

Обзор онлайн-переводчиков. Часть 1

Прогрессивное развитие информационных и компьютерных технологий и непрерывное расширение границ информационного мира открывают перед нами безбрежный океан возможностей, о которых человечество не задумывалось семьдесят или всего двадцать лет назад.

В продолжение темы онлайн-переводчиков:

Обзор онлайн-переводчиков . Часть 2. ТОП-10 онлайн-переводчиков
Обзор онлайн-переводчиков. Часть 3. Сравнительный анализ и тестирование
Обзор онлайн-переводчиков. Часть 4. Выводы и рекомендации

Интернет стал неотъемлемой частью нашей жизни, открыв перспективы многоязычного информационного обмена, который сегодня осуществим также в интерактивном режиме. Глобальная Сеть изобилует разнообразной информацией, доступной на самых различных языках, но часто на пути пользователей Интернета возникают непреодолимые языковые барьеры, обусловленные незнанием иностранных языков. В процессе обработки иноязычной информации часто возникает необходимость выполнения срочного перевода того или иного текста или веб-сайта, и для решения подобных задач многие пользователи прибегают к помощи сервисов онлайн-перевода, которые пользуются сегодня довольно большой популярностью. Однако, несмотря на свою распространенность, данные онлайн-сервисы перевода вызывают к себе неоднозначное отношение у различных групп пользователей. В данной статье мы проведем обзор современных онлайн-переводчиков, пользующихся наибольшей популярностью среди пользователей Глобальной Сети, рассмотрим исторические предпосылки развития индустрии машинного перевода и попробуем сравнить и проанализировать качество переводов, предоставляемых данными сервисами онлайн-переводов.

1. Онлайн-переводчики: за и против

В условиях непрерывного прогресса человечества с каждым днем увеличивается объем мировой коммуникации. Сегодня межкультурное общение является неотъемлемой частью как повседневной, так и профессиональной деятельности многих людей, что обосновывает необходимость владения хотя бы одним иностранным языком. Перевести электронное письмо, полученное от зарубежного друга или компаньона, техническое руководство или всего лишь пару незнакомых иностранных слов – вот перечень наиболее актуальных задач, с которыми приходится сталкиваться современным пользователям сети Интернет. Онлайн-переводчик: плюсы и минусы Современный среднестатистический человек владеет одним иностранным языком; даже несовершенное знание двух или трех языков дает право считать себя полиглотом. А ведь многим специалистам в той или иной области часто приходится работать с информацией, предоставленной на иностранном языке. Учитывая высокое развитие современной индустрии информационных технологий, позволяющее достаточно быстро и эффективно получать необходимую информацию, вполне понятно желание некоторых пользователей обратиться к ней и за переводом соответствующей информации с одного языка на другой. Ведь не всегда человек, нуждающийся в срочном переводе небольшого текста или одного предложения, может обратиться в бюро переводов за профессиональным переводом, а использование печатных и даже электронных словарей мало чем поможет тому, кто не владеет грамматикой иностранного языка, с которого или на который требуется выполнить перевод. Возможно, в силу этих причин, сегодня популярностью пользуются онлайн-переводчики, позволяющие быстро и, как правило, бесплатно перевести тексты, файлы и веб-сайты с одного языка на другой. Сегодня Интернет предлагает более 100 онлайн-сервисов по переводу, отличающихся по своим функциональным возможностям и качеству предоставляемых услуг. Стоит отметить, что многие пользователи часто путают понятия «онлайн-переводчик» и «онлайн-словарь», однако эти системы машинного перевода отличаются по своему функциональному применению. Любой бумажный или электронный словарь предназначен для перевода отдельных слов или словосочетаний. Безусловно, если вы владеете языком и нуждаетесь в переводе всего одной пары иностранных слов, удобней будет прибегнуть к помощи словаря. При поверхностном же знании иностранного языка словарь мало чем поможет понять истинную суть исходного текста. Онлайн-переводчики, напротив, представляют собой системы машинного перевода, позволяющие пользователю переводить объемные тексты или веб-сайты всего одним нажатием на клавишу и предоставляющие на выходе не набор отдельных, не согласованных между собой слов, а более или менее связный текст. Чтобы прибегнуть к помощи того или иного переводчика, действующего в режиме онлайн, как правило, требуется выполнить 3 несложных действия: ввести исходный текст в соответствующее окно онлайн-переводчика, указать необходимую языковую пару и тематику (при наличии такой опции) и нажать на кнопку «Перевести/Translate». В течение нескольких секунд программа предоставит готовый перевод введенного текста.

Безусловно, высокая скорость перевода относится к положительным характеристикам онлайн-переводчиков, с их помощью пользователи могут моментально перевести контент новостей и блогов, опубликованных на иностранном языке или информации, размещенной на иноязычных веб-сайтах. Готовый перевод появляется непосредственно в окне браузера, а значит, это избавляет пользователя от необходимости устанавливать специальные программные средства. Но обратной стороной медали такой характеристики, как высокая скорость работы является низкое качество полученного перевода, поэтому вряд ли можно с уверенностью говорить о том, что смысл переведенного текста будет понятен сразу, без последующего редактирования. Такая неоднозначная ситуация уже в течение нескольких десятилетий вызывает горячие дискуссии среди различных групп пользователей данного сервиса по поводу того, можно ли рассматривать онлайн-переводчиков как достойных соперников живым, образованным переводчикам и способны ли они вообще свести на нет функции последних. Программисты и разработчики подобных программ и сервисов говорят о наступлении времен, когда будут главенствовать машинные переводы, тогда как лингвисты и переводчики твердят о постепенном ухудшении качества предоставляемых переводов, объясняя это именно массовым применением программ машинного перевода.

Зачастую программы машинного перевода понимаются как какое-то уникальное средство, которое способно вытеснить живых, мыслящих переводчиков. Некоторые пользователи полагают, что, если с помощью компьютера сегодня можно добыть любые сведения из многочисленных информационных источников, от него можно ожидать соответствующей компетентности также в вопросах качественной трансформации этих сведений в любой возможный языковой формат.

Однако ни для кого не секрет, что такое преставление крайне ошибочное. Машинный перевод Знающие специалисты, равно как и производители подобных программ, понимают, что в действительности ситуация выглядит иначе. Конечно, рекламируя свои программные продукты, производители честно признаются, что качество машинного перевода не далеко от идеального и что получение адекватного перевода возможно только при вмешательстве человека, однако не всегда раскрывается тот факт, что человек, которому предстоит обработать такой перевод, должен быть квалифицированным переводчиком и ему придется потратить массу времени на придание машинному тексту качества, достойного профессионального перевода.

И, как бы ни пытались производители приукрасить достоинств своей продукции, пользователи многочисленных онлайн-переводчиков всегда имеют возможность убедиться в том, что виртуальные «толмачи» не всегда способны достойно справляться с поставленными перед ними задачами. Доказательством этому служат многочисленные шутки, переходящие с сайта на сайт и высмеивающие недостаточную компетентность онлайн-переводчиков в вопросах качественного перевода. К числу любимых развлечений скептически настроенных пользователей онлайн-переводчиков относится перевод коротких предложений или текстов песен в различных направлениях и сравнение полученного результата с исходным вариантом. К избитым примерам относится перевод предложения "Мама мыла раму" на английский язык, который звучит как “Mum washed the frame”. Если затем снова перевести полученное предложение на русский язык, то разные переводчики выдают свои результаты: "мама вымыла структуру" (перевод Translate.ru – компания PROMT) или "мама помыла рамку" (вариант Babelfish.yahoo.com). Всем известен также пример с переводом предложения “My cat has given birth to four kittens, two yellow, one white and one black”, выполненным онлайн-переводчиком компании PROMT, которое в русскоязычном исполнении звучит как «Моя кошка родила четырех котят, два желтых цвета, одно белое и одного афроамериканца». Нужно отметить, что разработчики поработали над усовершенствованием своего продукта, так как раньше данное предложение начиналось с абсурдного «Мой кот родил…», однако радует, что данный переводчик компетентен в вопросе политкорректности. К числу подобных примеров относятся также переводы различных песен и литературных произведений, доставляющие немало веселья экспериментаторам.

В нашей практике на каждом шагу встречаются многочисленные примеры абсурдных переводов, выполненных посредством онлайн-переводчиков. Зарубежные клиенты, желающие сделать запрос на перевод, или коллеги, предлагающие свое сотрудничество в сфере переводов, часто прибегают к помощи онлайн-переводчиков, столкнувшись с необходимостью перевода электронных сообщений на русский язык. Например, однажды мы получили электронное сообщение следующего содержания:
Привет Уважаемые! Пожалуйста, как вы! Надеюсь, ты штраф и в отличном состоянии health. I пошел через ваш профиль сегодня на www.multitran.ru и я прочитал его и принял в ней интереса, пожалуйста, если вы не возражаете, я хотел, чтобы вы напишите мне по этому ID (***@yahoo.com) надеются услышать от вас в ближайшее время, и я буду Жду ваших почту, потому что я что-то очень важно, чтобы рассказать вам. Много любви Грейс.

Автор сообщения сопроводил данное обращение исходным текстом на английском языке:
Hi Dear! Please how are you! hope you are fine and in perfect condition of health.I went through your profile today at www.multitran.ru and i read it and took interest in it,please if you don't mind i will like you to write me on this ID (***@yahoo.com ) hope to hear from you soon,and I will be waiting for your mail because i have something VERY important to tell you. Lots of love Grace.

Не нужно долго гадать, чтобы понять, что сообщение на русском языке является результатом работы онлайн-переводчика. Кстати, путем несложного эксперимента мы установили, что автором данного перевода был онлайн-переводчик Google. Это сообщение является ярким подтверждением тому, что данный онлайн-переводчик не особо преуспел в своем деле и вряд ли может бросить достойный вызов профессиональному переводчику. Не вдаваясь в глубокий анализ, можно отметить, что основным недостатком онлайн-переводчика является незнание грамматических правил (в основном это касается согласования частей речи и членов предложений), а также неумение распознавать и корректно переводить некоторые лексические единицы, употребленные в рамках заданного контекста, и устойчивые выражения, в результате чего, вместо «надеюсь, у Вас все хорошо», переводчик выдал нелепое и искажающее смысл предложения выражение «надеюсь, ты штраф» (слово «fine» было употреблено в значении «штраф»). Истинная причина получения таких низкосортных переводов кроется в том, что программы машинного перевода не способны учитывать экстралингвистические факторы. Именно поэтому многие переводчики дословно переводят те или иные термины и, кроме того, не всегда отличают имена собственные от знаменательных слов. Ярким примером этому может послужить перевод статьи, посвященной Лоре Буш, супруге бывшего президента Америки, выполненный с помощью программы-переводчика. Ее полное имя зазвучало на французском языке как «le buisson de Laura», то есть «кустарник Лоры». Программа не распознала фамилию «Bush» как имя собственное и дословно перевела ее на французский как «кустарник». Но вся нелепость этой ситуации заключается в том, что на французском сленге слово "buisson" имеет сексуальную коннотацию.

Данные примеры свидетельствуют о том, что научить самый современный компьютер языковой логике значительно сложнее, чем математическим алгоритмам и логике статистического анализа. Чтобы создать в той или иной степени связный машинный текст, программа может лишь использовать ограниченный набор определенных лингвистических алгоритмов, заложенных в ее базу. Сначала система подвергает анализу структурные элементы исходного предложения, затем изменяет его в соответствии правилами языка и выдает конечный вариант. Однако как бы ни пытались производители программ машинного перевода усовершенствовать свои разработки, еще ни одна технология не выдерживала сравнения с теми алгоритмами перевода и многочисленными трансформациями, которым учат живых переводчиков в школах и вузах. Безусловно, для получения связного текста программу можно снабдить богатой словарной базой, включающей устойчивые выражения, а также подключить специализированные словари, чтобы переводчик смог перевести тематические тексты. Но, как показывает реальный опыт работы с онлайн-переводчиками, это лишь малая часть того, что необходимо для обеспечения приемлемого качества. Основной проблемой таких переводчиков, равно как и других систем машинного перевода, является отсутствие фоновых знаний. Компьютер знает только языковые соответствия, а ведь переводчику очень часто приходится выходить за рамки формального текста и обращаться не к языковым знаниям, а к экстралингвистическим факторам, включающим знания о реальном мире, культуре, истории, технике. Профессиональные переводчики, особенно технические, – это очень образованные люди, и все их знания непосредственно задействованы в процессе перевода. Только в таком случае может быть гарантировано действительно первоклассное качество переводов. Поэтому если разработчики сервисов онлайн-перевода стремятся к предоставлению адекватных, качественных переводов, они должны снабдить своих машинных переводчиков такими же фоновыми знаниями и, главное, научить их правильно обращаться с заложенным багажом знаний. Проще говоря, программа должна понять, что возникла какая-то проблема, для решения которой необходимо прибегнуть к дополнительным знаниям, и правильно сформулировать запрос к имеющейся базе. Показательным примером служит перевод на западноевропейские языки предложений, в которых упоминаются известные правители или их дети. В таких предложениях артикль, категория которого характерна для языков данной языковой семьи, должен ставиться в зависимости от общего количества детей. Например, при переводе выражения «сын царя Федора» артикль необходимо выбирать в зависимости от того, сколько сыновей было у царя Федора. [Мосты журнал переводчиков, 53] В качестве аналогичного примера можно привести перевод надписи на постаменте памятника, открытого во Франции в честь Анны Ярославны, дочери князя Киевского Ярослава Мудрого. Перевод надписи на французском языке звучал как "Anne de Kiev la reine de la France", и все бы ничего, если бы не лишний артикль. В случае с Францией "la France" звучит как "единая Франция", что не искажает смысл. Что же касается дочери князя, "la reine" означает, что она единственная за всю историю королева Франции. Переводчик, знакомый со всеми нюансами французской грамматики, не допустил бы такую нелепую ошибку, а вот для электронного переводчика – это довольно типичная ошибка.

Итак, мы рассмотрели основы машинного перевода, предоставляемого в режиме онлайн, и отметили основные преимущества и недостатки данного сервиса. Однако прежде чем приступить к обзору конкретных онлайн-переводчиков и провести анализ и оценку качества предоставляемых ими услуг, было бы целесообразно сделать небольшой экскурс в историю появления и развития машинного перевода и узнать, когда в умах людей зародилась идея создания машинных переводчиков и как она воплощалась в жизнь.

2. История становления машинного перевода

Точно не установлено, кто первым задумался о создании машинного перевода. Уже в древние времена представители различных народов начали заниматься решением проблемы кодирования своих языков в целях обеспечения их доступности иноземцам. Этот вопрос был актуальным у древних египтян, вавилонян, индийцев и китайцев. В течение многих столетий люди не оставляли попыток создать единый язык, который был бы понятен всем и использовал бы в своей письменности определенные универсальные пиктограммы. Но еще ни один язык, созданный искусственным путем, не смог прийти на замену естественным языкам, которые очень сложно подвергнуть кодированию. Впервые идея применения специальных машин для перевода слов с одного языка на другой была предложена в XVII в. знаменитыми математиками, естествоиспытателями и философами Готфридом Вильгельмом Лейбницем и Рене Декартом. Однако уровень развития науки того времени не позволил ученым даже по-настоящему сформулировать задачу.

Впервые к решению данной проблемы с действительно научной точки зрения приступил Чарльз Бэббидж, который спроектировал в 1836–1848 гг. первую цифровую вычислительную машину, умевшую выполнять аналитические операции. Идея Бэббиджа заключалась в использовании памяти объемом в тысячу 50-разрядных десятичных чисел для хранения словарных баз. Эта идея была приведена как основание для запроса у правительства Англии финансовых средств, необходимых для реализации задуманного проекта и создания такой аналитической машины [1]. К сожалению, проекту по созданию прототипа системы Бэббиджа так и не было суждено завершиться, да и вряд ли его воплощение принесло бы какие-то значимые результаты.

Рождение машинного перевода как самостоятельного научного направления приходится на март 1947 г., когда криптограф Уоррен Уивер, руководивший отделением естественных наук Рокфеллеровского фонда, обратился с письмом к Норберту Винеру, в котором высказал мысль о рассмотрении задачи перевода с одного языка на другой как новую область использования технологий декодирования. Уивер уверял, что перевести текст с одного иностранного языка на другой – не такая уж сложная задача. Стоит лишь представить, что исходный текст написан на родном языке, но закодирован с помощью специальных знаков, поэтому, чтобы понять смысл информации, заложенной в данный текст, достаточно взломать этот код. Сравнение технологии перевода и дешифрования казалось вполне естественным в условиях послевоенного времени, особенно с учетом блестящих успехов, которые были достигнуты в области криптографии во время второй мировой войны.

Это письмо вызвало большой резонанс, и в 1949 г., после многочисленных дискуссий, Уоррен Уивер опубликовал специальный меморандум, теоретически обосновывавший возможность реализации предложенной им идеи машинного перевода. Мысли, высказанные в этом меморандуме, вызвали очень активный интерес международных ученых и инженеров и легли в основу «концепции «interlingva», согласно которой процесс перевода делился на два этапа: 1) перевод исходного текста на промежуточный язык (в основе которого лежал упрощенный вариант английского языка), 2) оформление промежуточного перевода средствами конечного языка. В 1952 г. была проведена первая конференция, организатором которой стал известный математик Бар-Хиллел, посвященная вопросу о выработке различных способов семантического описания, синтаксических языковых правил, морфологических структур и структуры словарей, необходимых для систем автоматического перевода.

Большую роль в развитии машинного перевода также сыграл факт, что популярный в те времена «тест на разумность», который был предложен в 1950 г. Алан Тьюрингом, английским математиком, практически сменил вопрос «обладает ли машина способностью мыслить?» вопросом «способна ли машина общаться с человеком посредством естественного языка таким образом, чтобы человек не смог отличить ее от живого человека?». В центр исследований встал вопрос о компьютерной обработке языковых сообщений на естественном языке, а между программистами и лингвистами установилось невиданное доселе взаимопонимание. Органы государственной власти стали проявлять активный интерес к идее машинного перевода и начали выделять огромные суммы денежных средств на финансирование данного проекта.

Первый успех в сфере автоматизации переводов связан с "Джорджтаунским экспериментом", который был осуществлены 1954 г. на машине IBM-701. Программно-языковое обеспечение данного эксперимента было очень скромным: словарная база состояла лишь из 250 слов, а грамматика была представлена 6 синтаксическими правилами, вся же система могла перевести всего 49 предварительно отобранных предложений. Эксперимент положил начало настоящему исследовательскому буму, в течение следующего десятилетия правительство США потратило на исследования в области машинного перевода примерно 40 млн. долл. Следует отметить, что перевод выполнялся с русского языка на английский, что, возможно, в какой-то мере объясняет последующую резкую активизацию разработок в этой области также в СССР. К концу 1955 г. во многих академических центрах СССР были созданы и протестированы программы машинного перевода, в основу которых легла имевшаяся в то время вычислительная база (БЭСМ и "Стрела").

Первые успехи вызвали настоящую эйфорию среди специалистов. Сразу же после достижения положительных результатов было создано несколько глобальных проектов, направленных на решение проблемы машинного перевода для современных языков, а также большое количество мелких проектов для отдельных направлений. Особое внимание стало уделяться вопросам моделирования языка и языковых аспектов, языковой и мыслительной деятельности, изучению языковой формы. В 50-х гг. прошлого века во многих странах мира были созданы отделения машинного перевода и прикладной лингвистики.

Но, к сожалению, реализация идеи машинного перевода оказалось не таким уж легким делом, как казалось поначалу. Изучение данной проблемы за свою историю переживало триумфы и падения. В середине 60-х гг. был завершен первый этап исследований систем машинного перевода, и первоначальное воодушевление сменилось скептическим настроением, чему в значительной степени поспособствовала публикация доклада специального комитета по прикладной лингвистике (ALPAC) Национальной академии наук США, так называемая «черная книги машинного перевода». Авторы данного доклада утверждали, что системы автоматического перевода не смогут обеспечивать приемлемое качество переводов в будущем. В результате этого было прекращено финансирование подобных исследований и, соответственно, остановлены все начатые работы.

Но, несмотря на то, что машинный перевод был признан бесперспективным, данная проблема всегда вызывала высокий интерес, и лишь на заре 80-х гг. тема машинного перевода снова приобрела актуальность - наряду с изучением систем информационного поиска и искусственного интеллекта началось восстановление незаконченных разработок в области автоматизации переводов. В течение этого времени были выработаны способы морфологического анализа (автоматического) для основных языков Европы, сформулированы основные требования к семантическим элементам таких систем и разработаны методы автоматического анализа синтаксических структур. В условиях международного терминологического обмена были составлены крупные электронные словари, оснащенные богатым словарным запасом и терминологической базой по различным научно-техническим отраслям. За это время были созданы крупные международные проекты с солидными бюджетами, к числу которых относятся EU ROTRA (Европейское экономическое сообщество), METAL (США и Германия), ARIANE (Франция), KANT (США) и пр. Но, как и раньше, ни один из этих проектов не смог предложить уникальное решение, применимое в рамках массового использования.

Глобальные проекты были посвящены решению общих задач машинного перевода и ориентированы на разработку способов описания слов, входящих в терминологическую базу словаря, и, отдельно, на создание алгоритмов перевода. Наряду с этими разработками, проводились отдельные исследования, посвященные описанию, например, способов выражения прямого дополнения для глаголов говорения». К сожалению, все эти системы сопровождались скромным уточнением «прототип» или «экспериментальная», а реальную коммерческую систему так никто и не мог предложить. Объяснением всему был тот факт, что все разработанные методы описания перевода, при их переносе в естественную среду, противоречили с методами, применяемыми при составлении словарных статей. Локальные же проекты занимались решением узких задач. В рамках таких проектов словарное описание и описание алгоритмов трактовались как стороны одного вопроса, но поиск решения осуществлялся в ограничении грамматического или семантического аспекта. Это ограниченное количество грамматических алгоритмов можно было применить для описания определенной части предложений естественных языков, но на его основе невозможно было правильно анализировать и переводить реальные тексты. Несмотря на то, что эти подходы не привели к созданию практически применимых коммерческих систем, проведенные работы позволили понять всю сложность стоявшей перед разработчиками задачи и сузить сферу исследований в подобных проектах. Как это ни парадоксально, однако именно такие локальные проекты легли в основу систем машинного перевода, которые сегодня предлагаются пользователям. К их числу относятся системы Power Translator (производство Globalink), TRANSEND (компания Intergraph), а также Language Assistant (MicroTac).

Однако реальная сложность задач, с которыми столкнулись создатели систем машинного перевода, была выше, чем уровень развития имевшегося в то время аппаратно-программного обеспечения. Количество одних только грамматических и орфографических правил, необходимых для создания таких систем, доходило до десятков тысяч. Объемы памяти и скорость работы имевшихся в то время компьютеров не были в состоянии справиться с реальными массивами данных. В результате этого, «вторая волна» разработок и исследований в области систем машинного перевода тоже сошла на нет.

Зато 90-е годы, в течение которых индустрия информационных и коммуникационных технологий пережила бурный прогресс, стали эпохой возрождения машинного перевода: создание персональных компьютеров, внедрение Интернета и локальных сетей обусловили стремительный рост интереса к машинному переводу. Созданные программы машинного перевода стали перспективной сферой для капиталовложений для частных предпринимателей и государственных структур. В условиях такого расцвета совершенствование систем машинного перевода казалось более реальной задачей, а достигнутые результаты – пользующимися еще большим спросом.

В целом, история становления машинного перевода насчитывает чуть больше 50 лет. За все это время одни системы машинного перевода сменялись другими – начиная с программ, основанных на ресурсах первых прототипов современных компьютеров и заканчивая коммерческими системами, предлагаемыми конечным пользователям и использующими мощные ресурсы онлайн-серверов и персональных компьютеров. В ходе устранения технических недостатков, становилось очевидным, что перевод текстов с одних языков на другие не ограничивается примитивной перекодировкой слов. Основные трудности, возникающие в процессе перевода, должны устраняться путем автоматизированного представления смыслового содержания текста, а также фоновых знаний о понятиях той предметной области, к которой относится исходный текст.

Статья подготовлена в бюро переводов "Прима Виста" Москва. Продожение здесь.

Обзор онлайн-переводчиков. Часть 1

В продолжение темы онлайн-переводчиков:

1. Онлайн-переводчики: за и против

2. История становления машинного перевода

Другие материалы