2011-04-19 14:39:23

История машинного перевода

50-е годы XX века считаются отправной точкой в истории машинного перевода, хотя есть данные и о более ранних разработках. Эксперимент, проведенный в Джорджтауне в 1954 году, включал в себя перевод 60 предложений с русского на английский язык.

Материал подготовлен в бюро профессиональных переводов Prima Vista, Москва

Эксперимент имел большой успех и предвещал эру значительных инвестиций в исследования, связанные с машинным переводом. Разработчики утверждали, что по истечении 3-5 лет проблема машинного перевода будет решена. [1]

Однако реальное движение вперед проходило медленнее, чем ожидалось, и после отчета комиссии ALPAC, сделанного в 1966 году, которая признала, что десятилетние исследования не смогли оправдать ожиданий, финансирование проекта значительным образом сократилось. Начиная с конца 80-х годов, когда вычислительные возможности возросли и стали менее дорогими, больший интерес стал проявляться к статистическим моделям машинного перевода.

На сегодняшний день до сих пор нет системы, способной предоставить столь желанный «полный автоматический высококачественный перевод текстов без ограничений» (FAHQUT). BabelFish.

Начало

История машинного перевода берет начало в XVII веке, когда такими философами, как Лейбниц и Декарт было выдвинуто предположение о существовании некоего кода, соединяющего между собой слова разных языков. Все предположения носили гипотетический характер, и никому не удавалось в действительности создать машину для перевода.

Первые заявления на получение патента на «переводческую машину» были поданы в середине 30-х годов ХХ века. Одно заявление было подано французским изобретателем Ж. Арцруни, просто создавшим автоматический двуязычный словарь на перфоленте. Другое было сделано советским ученым Петром Троянским, чье изобретение было более детальным. Оно включало в себя, как двуязычный словарь, так и способы работы с грамматическими ролями между двумя языками на основе Эсперанто. Данная система представляла собой три этапа: первый заключался в следующем – редактор, носитель языка, должен был связать слова исходного языка (ИЯ) в логические формы в соответствии с синтаксическими функциями; на втором этапе машина должна была «перевести» все эти формы на язык перевода (ПЯ); а на третьем этапе носитель языка перевода занимался редактированием полученного результата. Его схема оставалась неизвестной до конца 50-х годов, когда появились ЭВМ.

Ранние годы

Первый план по созданию машин для перевода на базе компьютеров был предложен Уорреном Уивером, исследователем Фонда Рокфеллера, в его меморандуме от июля 1949года. [5] Данные предложения базировались на теории информации, получившей успех во время Второй Мировой войны в связи с криптографией и распространения идеи об универсальных принципах естественных языков.

Несколько лет спустя, во всех университетах США началась исследовательская деятельность, связанная с машинным переводом. 7 января 1954 года фирма IBM совместно с Джорджтаунским университетом (США) успешно осуществили первую демонстрацию новой системы машинного перевода, которая проходила в Нью-Йорке в головном офисе IBM. Результаты демонстрации были освещены в печати и привлекли большой общественный интерес. Система сама по себе была не более чем, по сегодняшним меркам, игрушечной, поскольку она использовала словарь из 250 слов и осуществила перевод с русского на английский 49 заранее отобранных предложений, имеющих химическую тематику. Однако демонстрация стимулировала распространение идеи о неотвратимости появления машинного перевода, а в частности привлечение финансирования в исследовательские институты не только на территории США, но и по всему миру. [6]

Ранние системы использовали большие двуязычные словари и запрограммированные вручную правила, по выстраиванию на выходе слов в правильном порядке. В конечном итоге, такой способ был признан ограниченным, и развитие лингвистических наук, например, генеративной лингвистики или трансформационной грамматики, было нацелено на улучшение качества перевода.

В это время устанавливались операционные системы. Военно-воздушные силы США пользовались программой, разработанной компанией IBM и Вашингтонским университетом, в то время как комиссия по атомной энергии США и Евроатом в Италии пользовались системой, разработанной Джорджтаунским университетом. И хотя качество выхода было низким, система пользовалась популярностью среди потребителей, в связи с увеличением скорости перевода.

В конце 50-х годов, Й.Бар-Хиллелом по просьбе Американского правительства были приведены доказательства невозможности предоставления машинным переводом «Полностью Автоматического Высококачественного Перевода». Доказательство основывалось на двусмысленности высказываний. Рассмотрим следующее предложение:

Little John was looking for his toy box. Finally he found it. The box was in the pen.

Слово pen может иметь 2 значения: первое – нечто, чем мы пользуемся для письма, второе – помещение определенного рода. Человеку смысл очевиден, но исследователь заявил, что без «универсального справочника» машина не сможет решить поставленную задачу. Сейчас, такой вид семантической неточности может быть решен с помощью написания исходного текста для машинного перевода на контролируемом языке, который включает в себя слова, имеющие только одно точное значение.

60-е годы, отчет комиссии ALPAC и 70-е годы

Исследования, которые проходили в 60х годах в СССР и США, в основном были сосредоточены на языковой паре русский-английский. В основном предметом перевода были научные и технические документы, например статьи из научных журналов. Шероховатости перевода не мешали общему представлению о том, что говорится в статье. Если в статье обсуждались вопросы, связанные с интересами безопасности, тогда статья отправлялась переводчику для более детального перевода; если нет, выбрасывалась за ненадобностью.

Большой удар был нанесен по исследованиям в области машинного перевода после публикации отчета ALPAC в 1966 году. Отчет был составлен правительственной комиссией США и представлен Специальным комитетом по прикладной лингвистике (ALPAC) Национальной академии наук США. В него входили семь ученых, собранных правительством США в 1964 году. Правительство США было озабочено тем, что прогресс был несоразмерен со значительными затратами на разработку проекта. В результате было установлено, что машинный перевод дороже, медленнее и менее точный в сравнении с переводом, выполненным человеком, и несмотря на большие капиталовложения, в ближайшее время машинный перевод не достигнет того же качества, что и перевод, выполненный человеком.

Однако отчет советовал развитие вспомогательных программ для переводчиков – например, автоматических словарей – и поддержку исследований в области компьютерной лингвистики.

Публикация отчета в большей степени повлияла на исследования машинного перевода в США и в гораздо меньшей в СССР и Великобритании. По крайней мере, в США такого рода исследования были остановлены на целое десятилетие. В Канаде, Франции и Германии исследования все-таки продолжались. В США главными исключениями стали основатели компаний Systran (Питер Тома) и [7]

Если в 60е годы упор был на определенные языковые пары и ввод, то требованием в 70е годы стали малые затраты на системы, способные переводить ряд текстов технической и коммерческой направленности. Спрос был спровоцирован ростом глобализации и спрос на перевод в Канаде, Европе и Японии.

80-е начало 90-х годов

К 80-м годам разнообразие и число программ для машинного перевода увеличилось. Использовались такие переводческие системы, основывающиеся на технологии универсальной вычислительной машины, как Metal.

В результате увеличения пригодности микрокомпьютеров, появился рынок бюджетных программ машинного перевода. Многие компании Европы, Японии и США воспользовались данной возможностью. Системы были представлены на рынке Китая, Восточной Европы, Кореи и СССР.

В 80-е годы в Японии был большой ажиотаж, связанный с машинным переводом. С появлением компьютеров пятого поколения Япония планировала прыгнуть выше всех в области техники и программирования, проект, связанный с созданием программ для перевода с/на английский, заинтересовал многие компании (Fujitsu, Toshiba, NTT, Brother, Catena, Matsushita, Mitsubishi, Sharp, Sanyo, Hitachi, NEC, Panasonic, Kodensha, Nova, Oki).

Исследования 80-х годов основывались на переводе лингвистических единиц при помощи морфологического, синтаксического и семантического анализа.

В конце 80-х годов произошел рост числа методов, используемых при машинном переводе. Система, разработанная компанией IBM, базировалась на статистическом методе. Другие группы использовали методы, основывающиеся на большом числе примеров переводов, такая техника называется машинный перевод на основе примеров. Определяющая черта обоих подходов стал недостаток семантических и синтаксических правил и опора на манипуляции с корпусами текстов.

В 90-х годах после успеха программ по распознаванию речи и ее синтеза и с развитием Verbmobil, начались разработки по переводу речи.

В результате появления бюджетных и более мощных компьютеров вырос спрос на программы машинного перевода. Именно в начале 90х годов перевод стал осуществляться не громоздкими ЭВМ, а персональными компьютерами и дисплейными терминалами. Двумя компаниями, которые стояли во главе рынка ПК на тот момент были Systran).

Недавние исследования

За последние несколько лет машинный перевод пережил значительные изменения. В настоящий момент большое количество исследований ведется в области статистического машинного перевода и машинного перевода на базе примеров перевода. Сегодня немногие компании используют статистический машинный перевод в коммерческих целях, например, Microsoft (использует свою собственную патентованную статистическую программу МП для перевода статей базы). Возобновился интерес к гибридизации, исследователи совмещают синтаксические и морфологические (т. е. лингвистические) знания в статистических системах с уже существующими правилами.

Литература:

Hutchins, J. (2005)
Melby, Alan. The Possibility of Language (Amsterdam:Benjamins, 1995, 27-41)
Wooten, Adam. "A Simple Model Outlining Translation Technology" T&I Business (February 14, 2006)
Appendix III of 'The present status of automatic translation of languages', Advances in Computers, vol.1 (1960), p.158-163. Reprinted in Y.Bar-Hillel: Language and information (Reading, Mass.: Addison-Wesley, 1964), p.174-179.
Weaver memorandum (March 1949)
Hutchins, J. (2005)
PROCUREMENT PROCESS by Canadian International Trade Tribunal, 30th July, 2002, consulted 2007-02-10
Van Slype, G. (1983)

История машинного перевода

Другие материалы