Бюро переводов «Прима Виста»
входит в ТОП-20 переводческих
компаний России.
English version

Машинная верстка — период застоя или скрытое развитие?

Комментариев 1   Просмотров 4168

В последнее время искусственный интеллект развивается бурными темпами, покоряя все новые и новые рубежи. Перед ним уже пали шахматисты и игроки в го, трепещут таксисты и дальнобойщики, и становится не по себе бухгалтерам, банковским работникам и представителям многих других профессий. Переводчики также не являются исключением.

Тема машинного перевода весьма актуальна. То и дело возникают эксперты, предсказывающие скорую гибель переводчика как профессии. Пусть с теми или иными оговорками, но все же. В такой нервной обстановке хотелось бы обратиться к деятельности, которая находится под гнетом искусственного разума уже весьма продолжительное время. Эта деятельность — верстка. Казалось бы, дело не такое уж интеллектуальное. Нужно всего лишь взять текст, представленный в нередактируемом или неудобном для редактирования виде, и преобразовать его в текст, удобный для редактирования, с сохранением всех особенностей исходного форматирования. Задача ставится четко и осложняется лишь разнообразием форматов, в которых может быть представлен текст. Однако на практике чаще всего приходится иметь дело лишь с двумя форматами: pdf и doc (docx). И верстка сводится к преобразованию первого формата во второй.

К сожалению, особенности формата pdf не позволяют решить указанную задачу нахрапом. Как правило, приходится «попотеть», ведь необходимо оценить структуру исходного документа, выявить особенности представления его содержимого, создать макет и перенести текст и другие объекты из одного файла в другой с сохранением форматирования. Причем все это должно производиться так, чтобы с новым документом было удобно работать в дальнейшем. Редактирование текста и прочих объектов в таком документе не должно приводить к его «гибели», то есть к необходимости внесения кардинальных изменений в верстку. Более того, если полученный продукт подлежит переводу, требуется также держать в уме возможные искажения после перевода, обусловленные в первую очередь «уползанием» текста из-за несоответствия языков. Также верстка не должна осложнять процесс перевода. В настоящее время правилом хорошего тона является выполнение перевода в специализированных программах автоматизированного перевода, так называемых CAT-системах. И многие переводчики, которые с ними работают, не понаслышке знают, что некачественная верстка влечет образование огромного количества тегов в переводимых файлах, заставляющее вспомнить верстальщика недобрым словом.

Итак, верстка — не самое простое занятие. Работа эта зачастую крайне однообразна, требует внимания, трудолюбия и усидчивости. Творческий подход здесь применим далеко не всегда, и душе поэта порой разгуляться негде. При этом набор решений обычно ограничен. Достаточно лишь правильно их выбрать и скрупулезно и добросовестно реализовать. А не это ли лучше всего умеет искусственный интеллект с его педантичностью, высочайшей производительностью и неумением уставать и халтурить? Вроде бы верстка просто создана для того, чтобы ее выполняли машины. Что же мы имеем в действительности?

Машинная верстка — понятие весьма почтенное. Программы начали покушаться на ремесло верстальщиков уже очень давно. И, как казалось, должны были естественным образом целиком и полностью захватить это поле деятельности. Вспоминается, с каким энтузиазмом воспринималось когда-то появление новых возможностей. Поначалу программы машинной верстки непрерывно развивались и учились чему-то новому: распознавать таблицы, строить списки, формировать колонтитулы… А затем вдруг наступила стагнация, хотя до вершины было еще очень далеко. Будто искусственный интеллект нашел себе занятия поинтеллектуальнее и оказался выше всей этой черновой работы. Да, машины научились неплохо воссоздавать исходную структуру документов. Но «неплохо» лишь в том случае, если дальнейшая работа с документом не предполагалась. Работать с таким продуктом, как правило, не представлялось возможным. Одно неосторожное движение… и вот уже текст разлетался по всему документу, вводя в паническое состояние.

Постепенно отраслевой фокус внимания сместился, и проблема верстки отошла на второй или даже более дальний план. При этом профессия верстальщика не умерла и по-прежнему актуальна. Но может быть существуют прорывы, которые просто неизвестны? Чтобы выяснить это, было решено исследовать текущее состояние вопроса.

Лучшие из лучших

Далее под версткой будет пониматься исключительно преобразование формата pdf в формат doc (docx), поскольку эта задача наиболее распространена на практике. Для ее решения существует огромное количество средств: от  небольших утилит и веб-сервисов до мощных десктопных программных комплексов. Разумеется, при таком богатстве выбора охватить все практически невозможно. Тем не менее на основании отзывов, обзоров, рекомендаций и обсуждений, которые можно встретить на просторах Интернета, можно выделить наиболее популярные и эффективные средства.

1. Adobe Acrobat

Кто же может знать формат pdf лучше, чем его создатель — компания Adobe Systems? Для работы с этим форматом компания выпускает отдельный продукт — программу Adobe Acrobat, которая помимо прочего позволяет сохранять файлы pdf в формате MS Word. Собственно, это и есть машинная верстка. Если судить по отзывам в сети, многие считают, что Adobe Acrobat справляется с задачей верстки лучше всех. Нам остается лишь проверить это.

2. Microsoft Word

Опять-таки, кто же может знать свой формат лучше, чем его создатель? Однако опыт показывает, что если дело касается компании Microsoft, однозначный ответ на такой вопрос существует не всегда. Не раз приходилось сталкиваться с ситуацией, когда сторонние программы (например, LibreOffice) справлялись с файлами в форматах от Microsoft, в то время как собственные продукты компании просто отказывались с ними работать. Но тем не менее. Microsoft является разработчиком все еще самого популярного текстового редактора Microsoft Word. И в своих последних версиях он дает возможность открывать файлы pdf, преобразуя их в свой формат docx. Не исследовать такую возможность было бы неблагоразумно.

3. ABBYY FineReader

На протяжении многих лет этот продукт компании ABBYY остается лидером в области распознавания текста (OCR). Помимо прочего он позволяет конвертировать формат pdf в формат doc (docx), причем одновременно с этим обеспечивает превосходное распознавание нередактируемого текста на растровых изображениях. Многие признают ABBYY FineReader лучшим решением для верстки наряду с Adobe Acrobat. Поэтому данная программа была выбрана для исследования как представитель серьезных сторонних (не относящихся к Adobe и Microsoft) декстопных продуктов.

4. SDL Trados Studio и MemoQ

Данное исследование ориентировано в первую очередь на верстку для перевода. А перевод в современных условиях выполняется в CAT-системах. CAT-системы непрерывно совершенствуются и уже достаточно давно умеют работать с файлами pdf. Причем такие файлы в процессе открытия преобразуются именно в формат docx. Например, в SDL Trados Studio с этой целью используется далеко не самое последнее программное обеспечение от компании Solid Documents. Разумно предположить, что такие монстры как SDL и Kilgray держат руку на пульсе технологий верстки. А поэтому целесообразно включить их в настоящее исследование.

5. Прочее программное обеспечение

Как уже было сказано, инструментов для верстки чрезвычайно много. Ради интереса в ходе данного исследования был также изучен ряд программ и облачных сервисов помимо перечисленных выше. В частности анализировались результаты работы такой мощной программы как Nuance Power PDF и различных бесплатных онлайн-конвертеров типа ConvertOnlineFree.com. Все они были объединены в одну категорию, так как не имеют значительного числа сторонников и упоминаются не так часто, как перечисленные выше средства. Забегая вперед, скажем, что ничего выдающегося они не продемонстрировали. Однако не исключено, что в этом море был пропущен некий «бриллиант», о котором мало кто знает. И возможно, он неожиданно обнаружится в комментариях к данной статье.

Набор контрольных файлов и версии программного обеспечения

Чтобы охватить все возможные аспекты верстки, для исследования был сформирован набор из 7 файлов разной степени сложности: два больших руководства объемом более 200 страниц каждое с обширным оглавлением, колонтитулами, множеством глав, рисунков и таблиц; типичный стандарт ASTM с двухколоночным непрерывным представлением текста; две презентационных брошюры и два небольших файла общего характера с относительно простым форматированием (текст, заголовки, простые колонтитулы).

Практически все программное обеспечение исследовалось в самых последних версиях, а именно Adobe Acrobat DC, ABBYY FineReader 14, SDL Trados Studio 2017 SR1 и MemoQ 8.2. Исключение составил лишь редактор MS Word, который исследовался в версии MS Word 2013. Учитывая, что компания Microsoft крайне редко вносит революционные изменения в свои продукты с точки зрения качества, а также то, что прочие средства продемонстрировали совсем незначительный прогресс по сравнению со своими предыдущими версиями (например, Adobe Acrobat XI и ABBYY FineReader 12), можно предположить, что не самая актуальная версия MS Word все же отражает современный уровень качества машинной верстки, характерный для программ Microsoft.

Полученные результаты

Итак, что могут предложить современные средства машинной верстки и способны ли они в какой-то мере заменить верстальщика?

Adobe Acrobat

Adobe Acrobat как в последней версии DC, так и в предыдущей версии XI предлагает два варианта для преобразования: «Сохранить обтекание текстом» и «Сохранить макет страницы». Во втором случае весь текст, включая таблицы, представляется в виде надписей (см. рисунок ниже). Это может быть удобно, когда требуется работать с рисунками, так как нет необходимости создавать и вставлять надписи вручную. Но оптимальной в целом такую верстку, конечно же, назвать нельзя. Каждая надпись представляет собой отдельный блок, поэтому невозможно единым образом изменять параметры текста, редактировать содержимое документа и т. п.

Машинная верстка — период застоя или скрытое развитие?

Рисунок 1. Представление всего текста в виде надписей в режиме «Сохранить макет страницы»

Вариант «Сохранить обтекание текстом» предлагается по умолчанию, более универсален и гораздо ближе к тому, что понимается под версткой документов. Что же умеет Adobe Acrobat  в данном режиме?

  1. Программа умеет создавать колонтитулы и пользоваться автонумерацией страниц. Это несомненно можно отнести к плюсам. Однако и номера страниц, и текст в колонтитулах представляются в виде надписей. То есть имеет место усложнение форматирования, так как надпись — дополнительный элемент, повышающий степень сложности верстки и тем самым снижающий надежность документа и увеличивающий размер файла. Что мешает программе вставлять текст в колонтитулы непосредственно, то есть без использования надписей, понять тяжело. Кроме того, границы колонтитулов изображаются в виде графических линий. Линии относятся к автофигурам и также являются дополнительными объектами, которые усложняют верстку. Такое решение характерно практически для всех программ машинной верстки. Следует отметить, что границы абзацев являются более простым и надежным элементом, но почему-то абсолютно не применяются.
  2. Программа умеет весьма качественно распознавать таблицы. При этом используется режим строки «Минимум», а не «Точно», то есть текст не будет «уползать» при переводе за границы ячейки и исчезать из поля зрения. Это также можно отнести к плюсам.
  3. Программа довольно корректно воссоздает списки, причем как маркированные, так и нумерованные и многоуровневые.
  4. Программа умеет назначать тексту стили. Например, заголовкам автоматически назначаются стили «Heading 1», «Heading 2» и т. д. Это не соответствует принятым в русскоязычной версии MS Word стилям заголовков «Заголовок 1», «Заголовок 2» и т. д., но без особого труда корректируется и может оказаться довольно полезным.
  5. Весьма неплохо формируются рисунки, состоящие из различных автофигур. На рисование таких объектов вручную человеку может потребоваться очень много времени, а тут одна кнопка — и готово.
  6. Предложения не разбиваются на части и переносятся в сверстанный документ вполне корректно. Необходимости устранять переносы на новую строку по всему документу нет.

Теперь о недостатках.

  1. Классическая проблема всех программ машинной верстки — произвольное изменение масштаба шрифта. Adobe Acrobat то и дело что-либо подгоняет с помощью этого атрибута, задавая для него различные экзотические значения: 95 %, 103 % и др. Такая вариативность делает тест неединообразным и потенциально несет в себе проблему лишних тегов. При этом стоит признать, что разрежения и уплотнения текста — еще одна неприятная особенность средств машинной верстки — отсутствуют.
  2. Еще одна классическая проблема — «хитрые» регулярно меняющиеся межстрочные интервалы. То «Множитель 0,68», то «Одинарный», то «Точно 7,2 пт». Интервалы «гуляют» совершенно непредсказуемым образом, прямо выдавая принадлежность документа к продукту машинной верстки. Все это требуется корректировать.
  3. С автооглавлением проблемы. Автоматизировать процесс составления оглавления Adobe Acrobat не умеет. Что странно, ведь с назначением стилей здесь все в порядке.
  4. Текст на рисунках размещается несистематизированно: то в виде надписи, то в виде смещенного текста. Такой разнобой делает работу с подобными рисунками практически невозможной. Правда, выше упоминался режим «Сохранить макет страницы», где надписи вставляются корректно. Но получается, что для корректной отработки изображений с текстом требуется сначала сохранить исходный pdf в двух режимах, а потом объединить результаты. Удобным такой подход не назвать.

Резюмируя вышесказанное, следует отметить, Adobe Acrobat не способен заменить верстальщика. Исключение составляют лишь совсем простые документы, содержащие только текст и простые таблицы. Искусственный интеллект в данном случае явно проигрывает человеческому. Однако как средство помощи при верстке данную программу использовать целесообразно.

Microsoft Word

Не так давно текстовый редактор MS Word научился открывать файлы в формате pdf. Насколько же он в этом преуспел?

Сразу же оговоримся, что полученные результаты сильно уступают результатам работы Adobe Acrobat. Поэтому сначала обратимся к недостаткам.

  1. Презентационные брошюры явно не по зубам MS Word. Программа просто не в состоянии понять, что к чему. Текст произвольно разбивается на блоки, причем одно предложение может состоять из нескольких блоков. Исходная структура нарушается даже без перевода. Текст и разные объекты накладываются друг на друга (см. рисунок ниже), переносятся на следующие страницы. Таблицы и рисунки оказываются не в тех местах. И так далее.Машинная верстка — период застоя или скрытое развитие?Рисунок 2. Дефекты верстки в MS Word

     

  2. Никакого представления о стилях. MS Word не умеет назначать стили и, соответственно, формировать автооглавления.

В принципе, недостатки на этом не заканчиваются, но даже первого пункта достаточно, чтобы признать производимую верстку некачественной и неудовлетворительной. Однако есть моменты, в которых MS Word удивил.

  1. MS Word — одна из немногих программ, которая умеет воссоздавать сноски.
  2. MS Word умеет создавать колонтитулы и иногда у него это получается даже лучше, чем у Adobe Acrobat. Он не создает ненужных надписей.
  3. MS Word корректно воссоздает параметры шрифта. Масштаб стабильно составляет 100 % (снова преимущество по отношению к Adobe Acrobat), уплотнения/разрежения также полностью отсутствуют. Про межстрочные интервалы такого сказать нельзя. «Гуляют» и еще как!
  4. Таблицы воссоздаются корректно. Как и в Adobe Acrobat, используется режим строки «Минимум», а не «Точно».

В целом, редактор MS Word как инструмент автоматической верстки подойдет только очень непритязательным пользователям. Со сложной версткой он не справляется. Более того, при попытке открыть самый большой файл pdf (более 300 страниц) из нашего набора пришлось непрерывно лицезреть лишь крутящееся колесо. Дождаться окончания этого процесса не удалось. Таким образом, в MS Word есть еще и ограничения по размеру файла. Впрочем, с относительно простыми документами без картинок MS Word справляется, поэтому в таких случаях его можно рекомендовать, так как это самый доступный вариант (не нужно никаких дополнительных средств).

ABBYY FineReader

ABBYY FineReader — мощнейшее средство для распознавания текста. Многие считают ABBYY FineReader лучшей программой такого рода. При этом в последней версии ABBYY FineReader 14 заявлено улучшение характеристик по сравнению с прежней версией ABBYY FineReader 12, в связи с чем было решено изучить работу обеих версий.

Сразу же отметим, что никаких качественных различий между указанными версиями выявить не удалось. Возможно, анализ был слишком поверхностным или улучшения коснулись каких-то аспектов, которые не были охвачены, но можно утверждать, что с практической точки зрения верстка в обеих версиях ABBYY FineReader производится одинаково. Соответственно, все, что изложено ниже, в равной степени относится и к ABBYY FineReader 14, и к ABBYY FineReader 12. Кроме того, у компании ABBYY есть еще одна программа для автоматизированной верстки — ABBYY PDF Transformer. Но в ней используются те же алгоритмы, что и в ABBYY FineReader (см. https://www.abbyy.com/media/13363/comparison_fr14_pdft.pdf), а значит отдельного рассмотрения этот инструмент не требует.

Достоинства

  1. ABBYY FineReader умеет создавать автооглавление. Правда, при попытке обновить автооглавление в одном из документов мы получили совсем не то, что было прежде. И связано это с тем, что заголовкам были назначены какие-то странные стили типа «Основной текст (N)». Разумеется, правильную работу автооглавления в таких условиях обеспечить невозможно. Но все же. Есть хотя бы заготовка.
  2. Колонтитулы и автонумерация поддерживаются. Хотя, как и в Adobe Acrobat, в виде надписей. Обменяться бы им опытом в этом вопросе с Microsoft как-нибудь? Реально могло бы качественное улучшение получиться.
  3. Масштабы и интервалы (уплотненный/разреженный) шрифтов неизменны. В этом аспекте все в порядке.
  4. ABBYY FineReader, как и MS Word, умеет создавать сноски.

Недостатки

  1. Исходная структура воспроизводится правильно далеко не всегда. Нередки искажения даже без какого-либо перевода. Adobe Acrobat в этом отношении явно впереди.
  2. ABBYY FineReader — лидер по количеству создаваемых стилей. Чуть ли не каждый абзац представляется в своем собственном стиле. Такое обилие стилей не позволяет единым образом работать с текстом и не может не сказаться на надежности документа. Такой подход MS Word зачастую не прощает. При этом нужные стили, например стили заголовков, не создаются.
  3. Явная проблема всех версий ABBYY FineReader — режим строки «Точно» в таблицах. Это означает, что текст будет «уползать» за границы ячейки и исчезать из поля зрения при увеличении его количества (см. рисунок ниже).

Машинная верстка — период застоя или скрытое развитие?

Рисунок 3. «Уползание» текста за границы ячейки в режиме строки «Точно»

Качество автоматической верстки в ABBYY FineReader в среднем хуже, чем в Adobe Acrobat. Есть отдельные моменты, которые реализованы лучше, но их не так много. Вместе с тем ABBYY FineReader бывает незаменим, когда в процессе верстки требуется еще и распознавать текст. С этой задачей он справляется лучше остальных.

CAT-системы

Не так давно CAT-системы получили возможность самостоятельно обрабатывать файлы pdf, преобразуя их в формат MS Word. Для анализа этой возможности были отобраны две самых распространенных на сегодняшний день CAT-программы: SDL Trados Studio и MemoQ. Можно ли доверять им файлы pdf для перевода?

  • SDL Trados Studio
    Качество автоматической верстки в SDL Trados Studio, пожалуй, можно признать худшим в сравнении со всеми вышеперечисленным программам. Вроде бы SDL Trados Studio обладает теми же возможностями, что и остальные: умеет создавать таблицы, колонтитулы, добавлять надписи на рисунки и даже распознавать нередактируемый текст  (такая возможность была добавлена в последней версии). Но все как-то «коряво» и через раз. Например, даже если текст двухколоночный, это не означает, что он всегда будет таким. Внезапно он может стать одноколоночным, а затем вернуться в прежнее состояние. Предложения могут быть как цельными, так и разбитыми на части. Да и не только предложения. На части могут разбиваться даже слова, когда в исходном тексте встречаются переносы. Масштабы и интервалы шрифтов не меняются, однако отчего-то меняются сами шрифты и их размеры. Причем абсолютно невпопад. Все эти дефекты распределяются по файлам чуть ли не случайным образом и устранению в большинстве случаев не подлежат.
    Таким образом, использовать результаты верстки от SDL Trados Studio не рекомендуется. Данная функция подходит исключительно для подсчета объема текста. На большее можно рассчитывать только в случае очень простых файлов. И то, если есть возможность, лучше подстраховаться и предварительно сверстать документ в чем-нибудь другом.
  • MemoQ
    MemoQ является основным конкурентом SDL Trados Studio в переводческой отрасли. В MemoQ есть немало функций, которые реализованы лучше, чем в SDL Trados Studio. Однако в плане работы с pdf эта программа серьезно проигрывает своему конкуренту и является худшей в нашем исследовании. По большому счету она не умеет ничего. Структура нарушается кардинально. Все «гуляет», «уползает», «уплывает», «убегает». Колонтитулов нет. Таблицы либо пропадают, либо воссоздаются крайне некорректно. В общем, недостатки можно перечислять долго. Таким образом, поддержка формата pdf в MemoQ с точки зрения верстки является чисто номинальной. Но не все настолько плачевно. Совсем недавно в MemoQ была интегрирована возможность работы с файлами pdf на базе сервиса TransPDF. Данный сервис позволяет переводить файлы pdf напрямую, то есть без преобразования в формат MS Word. И делает это очень и очень хорошо. При необходимости можно скорректировать верстку после перевода непосредственно в формате pdf с помощью редактора InFix, о котором подробнее будет сказано ниже. Такая возможность в какой-то мере компенсирует неумение MemoQ самостоятельно верстать файлы pdf.

Прочее программное обеспечение

В ходе исследования также были изучены возможности нескольких программ и сервисов помимо вышеперечисленных. В частности, анализировалась работа довольно мощной программы Nuance Power PDF и ряда онлайн-конвертеров. Чудес не произошло, и никаких прорывов замечено не было. Преобразовывать файлы pdf в doc или docx все они умеют, но без изысков. В целом, все они уступают лидерам нашего исследования Adobe Acrobat и ABBYY FineReader.

Итоги и выводы

В настоящее время верстальщики могут спать спокойно. Никто на их ремесло не покушается. Что удивительно, между прочим. Нейронные сети, разнообразные алгоритмы обучения и прочие хитромудрые виды вооружения современного искусственного интеллекта сосредоточены на других задачах. Машины позволяют лишь облегчить верстку, но исключить оттуда человека они пока не в состоянии.

Лучшим средством для преобразования формата pdf в формат doc (docx) в большинстве случаев является Adobe Acrobat. Он наиболее сбалансирован и в своем текущем состоянии справляется с данной задачей весьма эффективно. Разумеется, с учетом сказанного выше. Все прочие средства отстают, хотя в чем-то могут и опережать. Впрочем, ABBY FineReader и даже сам MS Word в последних версиях также являются полезными инструментами, которые способны облегчить процесс верстки. Выбор за верстальщиком!

В заключение хотелось бы отдельно упомянуть про такой инструмент, как InFix. Нередко заказчики перевода, предоставляя файлы в нередактируемом формате, говорят, что верстка им не нужна. Однако фактически это означает, что расходы на верстку просто перекладываются на плечи исполнителя. Даже при минимальных требованиях к форматированию переведенного текста, как правило, нельзя подготовить документ для перевода мгновенно, когда речь идет о преобразовании форматов. Для этого требуются усилия и время. Именно в таких ситуациях может пригодиться программа InFix, которая позволяет работать с файлами pdf непосредственно, без каких-либо преобразований. То есть получив файл pdf, исполнитель имеет возможность выполнить перевод целиком в InFix и сдать его в том же формате, в котором он был получен. Причем даже с привлечением той или иной CAT-системы. Однако это уже совершенно другая тема.

Машинная верстка — период застоя или скрытое развитие?Машинная верстка — период застоя или скрытое развитие?Машинная верстка — период застоя или скрытое развитие?Машинная верстка — период застоя или скрытое развитие?Машинная верстка — период застоя или скрытое развитие? (2 голосов, оценка: 5,00 из 5)
Машинная верстка — период застоя или скрытое развитие? Загрузка...

×
Мы перезвоним

Укажите номер телефона, и наш специалист перезвонит в течение 15 минут. Во внерабочее время мы позвоним на следующий рабочий день

Нажимая на кнопку, вы даёте согласие на обработку своих персональных данных

Жду звонка

×
Выберите удобный для Вас способ связи