Бюро переводов «Прима Виста»
входит в ТОП-20 переводческих
компаний России.
English version

Импортозамещение или краш-тест облачной системы SmartCAT

Комментариев 4   Просмотров 6779

Вступление

Над переводчиками нависает машинный перевод. Нависает довольно давно. Поначалу над этим посмеивались, это казалось забавным. Да и сейчас многие продолжают посмеиваться. Но кто-то уже ощущает, как ему в спину настойчиво дышит «искусственный разум». Впрочем, над человеком всегда что-то нависало, и пока не настала чудесная пора, когда роботы-переводчики будут переводить документы, написанные роботами-писателями, для роботов-пользователей, а роботы-лирики спорить с роботами-физиками о том, чей труд важнее, сосредоточимся на более актуальных и насущных вещах. А такими в настоящее время являются различные помощники или, говоря более наукообразно, средства автоматизации. Переводчик уже не может обложиться словарями и спокойно предаться переводу. Он должен постоянно быть в тонусе, следить за последними технологическими веяниями, иначе можно отстать от «паровоза». Ведь когда тебе никто не помогает, а другим активно помогают, законы конкуренции делают свое дело. Поэтому отвергать помощь неразумно. Вместе с тем помощников становится все больше, и ориентироваться в этом многообразии все труднее. Обзоров очень мало, да и многие из них – просто реклама. Полезную информацию также можно найти на форумах. Но она несистематизирована, что затрудняет ее использование. Таким образом, нужны новые «маяки», и данное исследование призвано слегка развеять сгустившийся туман и стать таким маяком.

Сложные отношения с кибернетикой в СССР, а в дальнейшем и сложные отношения со всем остальным в том, что осталось от СССР, привели к тому, что в нашей стране долгое время практически не было сколь-нибудь нормального прикладного программного обеспечения. Ни в одной из областей. И это при том, что программисты были всегда, и даже весьма неплохие. Теперь этот досадный пробел очень медленно, но все же устраняется. И одним из примеров является появление отечественного продукта — облачной среды для автоматизации переводов SmartCAT от компании ABBYY. Продукт вышел на рынок довольно поздно, когда все ниши уже по сути уже были заняты. Но почему бы не подвинуть «мастодонтов»?

Ну а кто же «мастодонты»? В первую очередь, это, конечно же, настольные системы, такие как SDL Trados, MemoQ, Deja Vu, Wordfast и др. Большинство из них на рынке уже весьма давно, и при этом они продолжают развиваться и совершенствоваться. Впрочем, и облачных средств достаточно. Правда, большинство из них, например, Wordbee, XTM Cloud, Lingotek, слишком громоздки и ориентированы в первую очередь на управление переводческими проектами. Однако есть и такие как Memsource, которые по своему функционалу практически идентичны новому продукту ABBYY. Ниже мы попробуем выяснить, насколько разработчикам удалось приблизиться, а может даже превзойти то, что уже есть и работает. И оптимизма в этом вопросе добавляет то, что опыт обгона конкурентов у компании ABBYY уже имеется. В частности, их решение для автоматизированного создания баз переводов ABBYY Aligner является одним из лучших, хоть и появилось позже своих аналогов. Настолько легко и удобно создавать базы переводов на основе имеющихся одноязычных файлов не позволяет, пожалуй, ни одна другая программа. Также стоит упомянуть прекрасную программу распознавания текста ABBYY FineReader и довольно качественно сделанный словарь ABBYY Lingvo. Таким образом, творческий потенциал у разработчиков есть, и ожидать от них можно многого.

Знакомство

Итак, обратимся непосредственно к облаку SmartCAT. В сети можно встретить некоторое количество весьма поверхностных обзоров данного решения, лейтмотивом которых является мысль «в целом неплохо». Однако нам хочется, чтобы новая среда давала нечто большее, чем другие более привычные системы, и именно в этом ключе мы попытались исследовать возможности программы. За долгое время у нас накопилось большое количество файлов, которые так или иначе создавали трудности традиционным средствам автоматизации перевода (так называемым CAT-программам). Их мы и попытаемся предложить облаку SmartCAT, чтобы выяснить, а как оно справится с ними.

Следует отметить, что SmartCAT является бесплатной средой, и это можно отнести к несомненным плюсам данного решения. Правда, бесплатность эта условна, так как сразу при создании нового проекта система предложила ознакомиться с платными услугами, представив ссылку «Услуга платная. Подробности в разделе Услуги». При этом переход по ссылке подготовил первый неприятный сюрприз. Открылась главная страница веб-сайта, где про платные услуги ничего не говорилось. Повторный переход привел к тому же результату. Через некоторое время страница с описанием платных услуг все же открылась. Но сам факт сбоя дал повод подумать, что еще далеко не все гладко в королевстве. При этом платными услугами являются распознавание текста и машинный перевод. Обе услуги сомнительны для тех, кто профессионально занимается переводами, и ниже будет объяснено, почему. Поэтому можно сказать, что их отсутствие не дает повода сильно огорчаться.

Испытание первое – формат PDF

Первым файлом, который было решено доверить SmartCAT, стал один проблемный PDF. К счастью, система позволила его обработать бесплатно. Проблемным он является потому, что SDL Trados ни в каких версиях вплоть до 2015 не справляется с ним вообще. Просто «висит» на этапе обработке много-много часов и все. Учитывая, что у ABBYY есть FineReader, и этот же файл не представляет абсолютно никаких проблем для MemoQ, существовала надежда, что облако все-таки сможет «проглотить» данный файл. И тут нас поджидал неприятный сюрприз №2 — в процессе обработки вдруг пропала регистрация. Опять мелкий досадный сбой. Потребовалось регистрироваться повторно. Дальше в течение некоторого времени пришлось лицезреть «крутящееся колесо», в процессе прокрутки которого порой возникают разные «панические» мысли, а никакой другой индикации не предлагается. Все это продолжалось около получаса, и когда уже стало казаться, что SmartCAT не станет позорить SDL Trados, он вдруг завершил обработку, чем приятно удивил. SmartCAT действительно умеет работать с очень сложными pdf’ами. Впрочем, у нас был еще один PDF, с которым не справляется даже MemoQ. К сожалению, обработать данный файл не получилось, так как мы исчерпали лимит «бесплатного сыра». Но здесь возникает вопрос целесообразности.

Файлы в формате PDF представляют неразрешимую проблему для программ машинной верстки уже очень длительное время. И SmartCAT ни в коей мере не стал исключением. Плоды его труда представлены ниже.

Импортозамещение или краш-тест облачной системы SmartCAT Импортозамещение или краш-тест облачной системы SmartCAT

Разумеется, такая верстка совершенно непригодна для дальнейшей работы. Вообще, SmartCAT представляет практически весь текст в виде обычных надписей (даже нет колонтитулов). Это решение надежнее, чем уйма разрывов разделов на одной странице с разным количеством колонок, беспорядочно разбросанными отступами, выступами и т.д., что характерно для многих других программ. Но такой документ все равно нельзя нормально использовать. Это не верстка. Таким образом, сама функция верстки PDF весьма сомнительна. Возможно, она пригодится в случае небольших файлов с простым форматированием текста, но такие файлы нормально верстает даже непосредственно Adobe Acrobat. Обрабатывать PDF в CAT-системах, как правило, имеет смысл лишь для того, чтобы предварительно оценить его трудоемкость, то есть определить объем текста, число повторов и т.п. Но стоит ли ради этого оплачивать дополнительную услугу, когда даже нет гарантии, что соответствующий заказ все-таки будет получен? Скорее всего, лучше поискать какой-либо другой инструмент для анализа PDF.

В данном контексте также целесообразно упомянуть о статистике, которую формирует SmartCAT. Для рассматриваемого файла PDF она оказалась заметно заниженной по всем показателям: по словам, знакам, количеству уникального текста и т.д. Сравнение производилось с результатами MemoQ и PractiCount & Invoice. Следовательно, если использовать дополнительную услугу SmartCAT только для оценки объема текста, возможно, что-нибудь будет упущено (требуется дополнительный анализ).

Испытание второе – форматы DOC и DOCX

Далее SmartCAT проверялся в работе с наиболее распространенным форматом файлов — DOC (DOCX). Для этого было выбрано несколько файлов. Все они отличались наличием рисунков, таблиц и прочих относительно сложных элементов форматирования. Некоторые из них создавали и продолжают создавать трудности даже для SDL Trados. Другие просто имели большой объем, но прекрасно обрабатывались всеми средствами автоматизированного перевода. Учитывая широту использования данного формата, хотелось бы, чтобы SmartCAT «усваивал» его по крайней мере не хуже, чем прочие CAT-системы.

К сожалению, полученные результаты не порадовали.

Прежде всего, к нашему удивлению, ни один из файлов не был обработан корректно. Все они получили вот такой статус:

Импортозамещение или краш-тест облачной системы SmartCAT

Впрочем, внутри SmartCAT ничего необычного, несмотря не наличие такого неприятного сообщения, выявить не удалось. Все файлы открывались для перевода, все сегменты в них были доступны, сохранялись в базе переводов, кнопки работали и т.д. Оставалось предположить, что проблемы возникнут в процессе получения переведенного файла или собственно в этом файле. Частично эти предположения подтвердились, хотя следует отметить, что все файлы были успешно преобразованы обратно.

1)      Во всех файлах с автоматическим оглавлением такое оглавление было «убито». Вместо него появился просто текст с гиперссылками, к тому же искаженный и потерявший исходное форматирование (см. рисунки ниже). Вообще говоря, это не такая уж большая проблема. Всегда можно вставить поле TOC из исходного документа и выполнить обновление оглавления. Однако с автооглавлением в настоящее время справляются все CAT-программы без исключения, а SDL Trados, например, вообще не включает его в двуязычные файлы. Поэтому такое поведение SmartCAT, присутствующего на рынке уже далеко не в тестовой версии, иначе как досадным не назовешь. Остается надеяться, что разработчики в скором времени устранят этот недостаток.

Импортозамещение или краш-тест облачной системы SmartCAT

Автоматическое оглавление в исходном документе

Импортозамещение или краш-тест облачной системы SmartCAT

Автоматическое оглавление в переведенном документе

Импортозамещение или краш-тест облачной системы SmartCAT

Искажение форматирования в автоматическом оглавлении

2)      Скрытый текст полностью загружается в файлы. Соответственно, как сделать, чтобы какой-нибудь фрагмент текста не попал в файл для перевода, выяснить не удалось. А это зачастую необходимо, например, когда в файле присутствуют таблицы с большим количеством цифр, или переводятся двуязычные таблицы.

3)      В одном из файлов для упрощения оформления колонтитулов использовалось поле STYLEREF:

Импортозамещение или краш-тест облачной системы SmartCAT

После перевода файла в SmartCAT это поле стало выглядеть вот так:

Импортозамещение или краш-тест облачной системы SmartCAT

Таким образом, где-то в облаке потерялся целый стиль. Учитывая, что файл вмещает более 200 страниц и содержит массу заголовков, работа по восстановлению этого элемента окажется весьма трудоемкой. При этом все прочие CAT-программы обходятся с такими документами вполне корректно и ничего не искажают. Возможно, такая ошибка в SmartCAT обусловлена встроенной функцией очистки тегов. Если это так, функция определенно нуждается в доработке.

4)      В файлах с чередованием многоколоночных и одноколоночных разделов надписи «улетают» с рисунков, даже когда документ еще не переведен (см. ниже). После перевода есть вероятность их больше не найти (в SDL Trados именно так и происходит).

Импортозамещение или краш-тест облачной системы SmartCAT

5)      Если в файле есть встроенные таблицы Excel, SmartCAT их не увидит. В принципе, их не видит и SDL Trados, но вот MemoQ и Deja Vu не только видят такие элементы, но и прекрасно справляются с их переводом.

6)      Для одного из файлов с нередактируемым текстом на рисунках, поверх которого при верстке были вставлены соответствующие надписи, появилось сообщение о нехватке средств для обработки файла (то есть для распознавания того, что уже распознано). Можно предположить, что при наличии таких средств они были бы потрачены без какой-либо пользы. Хотя вполне возможно, SmartCAT в таких случаях выдает соответствующий запрос. Если нет, такой запрос непременно следует ввести.

В целом, можно заключить, что работа с самым распространенным форматом документов от Microsoft в SmartCAT не является надежной. В случае простого форматирования и небольшого объема, скорее всего, проблем не возникнет. Но по мере увеличения степени сложности файлов и их объемов вероятность натолкнуться на какую-нибудь неприятность повышается.

Испытание третье – форматы XLS и XLSX

Форматы Excel являются, пожалуй, одними из самых сложных для перевода. Не раз приходилось сталкиваться с ситуациями, когда традиционные CAT-программы испытывали сложности с такими файлами и либо оказывались не в состоянии обработать их «с налета», либо что-нибудь упускали в процессе обработки.

SmartCAT, в целом, неплохо справился с данным типом файлов. Для файлов в формате XLSX предоставляется возможность указать, что следует включить в двуязычный файл для перевода, то есть можно заранее исключить то, что переводить не требуется. Однако вышеупомянутого сообщения о неуспешном завершении некоторых процессов обработки не удалось избежать и здесь. Чуть выше сложность, как тут же находятся такие процессы.

Файлы с макросами XLSM, которые нередко вызывают затруднения, в системе не поддерживаются вообще. Это, конечно же, исключает проблемы с ними в SmartCAT, но вынуждает искать иные средства.

Наконец, мы попытались обработать несколько очень больших файлов (содержащих более 100 тыс. строк). Такие файлы пусть и с трудом, но все-таки обрабатываются и в SDL Trados, и в MemoQ. SmartCAT тоже справился с их обработкой. Правда, продолжалась она очень-очень долго. Впрочем, у облачного решения в этом смысле есть преимущество — не нужно «до упора» ждать, пока процесс завершится. Можно просто закрыть браузер после загрузки файла в облако и зайти туда позже, когда уже все закончится.

То, что не все процессы для такого файла завершатся успешно, даже не вызывало сомнений, учитывая прошлый опыт. В итоге уже привычный восклицательный знак, конечно же, появился. Но самое неприятное то, что обработанный файл так и не удалось открыть. Около часа «висело» вот такое сообщение:

Импортозамещение или краш-тест облачной системы SmartCAT

И все. Дождаться загрузки сегментов для перевода так и не удалось. А если бы и удалось, можно предположить, что работать с ними оказалось бы невозможным.

Испытание четвертое – формат XML

В SDL Trados есть очень удобные многофункциональные фильтры для работы с файлами XML, которые к тому же доступны для настройки пользователем. Возможности SmartCAT в этом смысле далеко не так широки. Особых настроек нет. Файл просто загружается в облако, а потом остается ждать результата.

Несколько небольших xml были обработаны весьма корректно, без каких-либо сообщений и восклицательных знаков. Это внушило оптимизм. Однако затем появилось вот что:

Импортозамещение или краш-тест облачной системы SmartCATЭто же сообщение выдавалось для целого ряда xml-файлов из той же партии, куда входили небольшие корректно обработанные файлы. Таким образом, правило «чем больше размер, тем выше вероятность сбоя» сработало и в данном случае.

Испытание пятое – формат SDLXLIFF

Раз уж мы часто обращались для сравнения к SDL Trados, уместно разобраться, а как SmartCAT взаимодействует с форматом файлов из этой среды. Ведь наше исследование показало, что в ряде случаев от SDL Trados или какого-либо другого подобного средства отказаться никак не получается.

Анализировался всего один файл sdlxliff. Без восклицательного знака и сообщения о неуспешно завершенных процессах не обошлось и в этом случае. Файл уже содержал предварительно переведенные в SDL Trados сегменты. Однако эти уже подтвержденные сегменты оказались в SmartCAT неподтвержденными. При этом подтвердить сразу несколько сегментов SmartCAT не позволяет (или такая возможность не была найдена). Как следствие, приходится выполнять лишнюю работу. Если же этого не сделать, в итоговом файле на местах таких сегментов окажутся лишь теги и табуляции, но с исходным статусом Translated. То есть текст теряется.

Статистика для одного и того же sdlxliff в SDL Trados и SmartCAT не совпадает. Например, для исследованного файла разница в статистике составила 800 слов примерно на 50 тыс. слов в пользу SDL Trados и 1012 новых слов примерно на 40 тыс. новых слов в пользу SmartCAT. В знаках ситуация аналогична. Таким образом, алгоритмы подсчета статистики в этих средах совершенно разные. SDL Trados находит больше слов в целом, а SmartCAT находит больше новых слов (и, соответственно, меньше повторов). Хотя разницу нельзя назвать критичной, ее необходимо учитывать.

Выводы и общие впечатления

Мы исследовали, конечно же, не все возможные форматы и ситуации. Например, совсем не был охвачен популярный формат IDML. Однако общую картину это вряд ли изменит. И можно заключить, что облачный сервис SmartCAT оставил двойственные впечатления.

С одной стороны, это бесплатная и достаточно удобная среда для переводов. При работе с ней никаких сложностей не возникало. Все операции понятны, реакции предсказуемы. Доступна справка, где можно найти информацию по различным вопросам. По удобству работы в браузере SmartCAT ничем не лучше и не хуже, например, чем аналогичный сервис Memsource. Однако последний является платным, и в этом преимущество у SmartCAT. Вместе с тем, в Memsource меньше проблем. Кроме того, данный сервис предлагает компактную настольную версию, с которой намного удобнее работать, чем с веб-версией, а также плагин для SDL Trados. А практика показала, что это очень полезно. Все-таки зависимость от браузера зачастую не добавляет положительных эмоций. В этом мы убедились в свое время еще при работе с Memsource. Каковы бы ни были Интернет-канал, браузер и аппаратура, с «зависаниями» приходилось сталкиваться неоднократно. SmartCAT в этом плане не оказался исключением. Он порой сильно «задумывается» не только при работе с проектами или построении статистики, но и при переводе. Не раз приходилось видеть следующее сообщение:

Импортозамещение или краш-тест облачной системы SmartCATОдин раз появилось сообщение о том, что соединение прервано и производится его восстановление. Не всегда сразу подтверждаются сегменты при переходе от одного из них к другому — зачастую колесо индикации процесса подтверждения крутится слишком долго. Все это сильно портит впечатление и заставляет испытывать негативные эмоции. А значит небольшая настольная программа как у Memsource сервису SmartCAT точно бы не помешала.

Все вышесказанное усиливается тем больше, чем больше размер переводимого файла. При этом есть и разного рода мелкие неудобства, например, при копировании в ячейку перевода названия пункта «1.» с помощью соответствующей команды он всегда копируется как «1,», и требуется вручную изменять запятую на точку (во всех известных нам CAT-программах команда «Copy Source to Target» вызывает копирование исходного содержимого без каких-либо изменений). Экран с переводом иногда прокручивается вниз намного ниже последнего сегмента (как в Excel), что тоже создает неудобства. Ну а главное, SmartCAT нельзя назвать надежным решением. Есть файлы, с которыми он не справляется, а есть файлы, которые обрабатываются некорректно. И их довольно много. Другими словами, SmartCAT на данный момент не является универсальным, это всего лишь одно из средств, которое придется использовать вместе с другими. Полностью он их не заменит.

Итак, облачная среда SmartCAT еще далека от совершенства. В данном исследовании не были затронуты ее возможности, связанные с управлением проектами, так как мы считаем, что надежность именно процесса перевода имеет первостепенное значение. Впрочем, надеемся, что разработчики SmartCAT уже в ближайшее время устранят большинство недочетов, и данный сервис станет более удобным и дружелюбным. Направления для развития есть. Ну а дополнительные возможности SmartCAT — предмет отдельного исследования.

Импортозамещение или краш-тест облачной системы SmartCATИмпортозамещение или краш-тест облачной системы SmartCATИмпортозамещение или краш-тест облачной системы SmartCATИмпортозамещение или краш-тест облачной системы SmartCATИмпортозамещение или краш-тест облачной системы SmartCAT (5 голосов, оценка: 4,20 из 5)
Импортозамещение или краш-тест облачной системы SmartCAT Загрузка...

×
Мы перезвоним

Укажите номер телефона, и наш специалист перезвонит в течение 15 минут. Во внерабочее время мы позвоним на следующий рабочий день

Нажимая на кнопку, вы даёте согласие на обработку своих персональных данных

Жду звонка

×
Выберите удобный для Вас способ связи