В пору глобализации мировой экономики одной из проблем, стоящих перед любой компанией, становится локализация ее продукции. Дело в том, что, с одной стороны, большинство стран, стремясь сохранить языковую независимость, требуют от производителей, чтобы вся сопроводительная документация, надписи на упаковке и прочее были на национальном языке, а с другой — бизнес заставляет производителей проникать на все новые и новые местные рынки. Особенно это актуально для высокотехнологичного оборудования и программного обеспечения, поскольку наличие или отсутствие документации на родном языке зачастую и определяет коммерческий успех.

Другой важной тенденцией, оказывающей влияние на рынок переводческих услуг, стали интеграционные процессы в Европе. Так, равноправие государств единой Европы заставляет в межправительственных органах переводить все политические документы на национальные языки. По-видимому, это и стало причиной бурного роста рынка услуг по переводу, объем которых в Европе достиг астрономической суммы в несколько сотен миллиардов долларов.

Традиционный, т. е. без применения средств автоматизации, перевод уже перестал устраивать участников, поскольку требует больших затрат и неоперативен.

Какие, собственно, средства автоматизации работы с текстами появились благодаря возможностям компьютера? Прежде всего, это текстовый редактор, сокративший издержки на постредактирование, и многочисленные электронные словари, позволившие быстро и без труда находить требуемое значение любого слова или сочетания и вставлять его в результат перевода. Применение лишь этих средств обеспечило рост эффективности процесса перевода на 20—30% по сравнению с ручной работой.

Следующим шагом в автоматизации стало применение систем Translation Memory (TM) и технологий машинного перевода (МП). Принцип работы систем TM построен на сравнении текста, подлежащего переводу, с внутренней базой, хранящей разбитый на предложения параллельный текст на исходном языке и его перевод, полученный традиционным способом. При загрузке нового документа в TM-систему происходит его разделение на сегменты и сопоставление с текстами из базы. Часть этих сегментов оказывается уже переведенной ранее, и система визуализирует их как уже известные, другие - как частично совпадающие с БД, а некоторые - как требующие перевода. Таким образом, переводчику не нужно тратить усилия на то, что он уже сделал прежде. Подобные системы оказываются весьма эффективными при переводе аналогичных документов, например повторяющейся технической документации. При этом ее можно перевести один раз, а для последующих выпусков достаточно переводить лишь изменения в первоисточнике.

Наиболее известными системами TM в настоящее время являются Trados TWB (компания Trados, Германия) и Transit (компания Star AG, Швейцария). Эти продукты стали стандартом и используются в большинстве переводческих бюро мира. В России они пока не получили широкого распространения в силу относительно высокой стоимости. Однако международные компании, экспортирующие наукоемкую продукцию в Россию, традиционно пользуются этими системами.

Технологии МП также нашли определенное место при автоматизации процесса переводов. Несмотря на споры, начавшиеся с появлением первых систем машинного перевода вокруг полезности этих технологий, им тяжело найти альтернативу, и они шаг за шагом завоевывают свое место на рынке. Многие крупные корпорации мира используют эти средства для промышленного перевода технической документации.

И все-таки обеспечивает наибольшую эффективность комплексное решение, опирающееся на все имеющиеся в настоящий момент лингвистические программные продукты. Подобные технологические решения были опробованы в Центре переводов компании ПРОМТ фирмами SAP AG и Lucent Technologies.

Если представить процесс перевода в виде этапов, получим следующее:

  1. Подготовка документа к переводу:
    • изучение документа для выявления терминологии (в первую очередь новой);
    • поиск переводов для новой терминологии;
    • фиксация терминологии.
  2. Собственно перевод с учетом и уточнением выявленной терминологии.
  3. Постредактирование.

Компания ПРОМТ разработала и реализовала технологию полностью автоматизированного процесса перевода, которая учитывает все этапы обработки текстов (см. рисунок).

Технологическая цепочка процесса перевода с использованием средств автоматизации

Так, на первом этапе (обработка терминологии) применяется подсистема для автоматического извлечения терминологии и управления ею — PROMT Terminology Manager (PROMT TerM). На втором и третьем этапах в работу включаются подсистема Translation Memory (для поиска уже переведенных сегментов) и подсистемы PROMT (для перевода совершенно новых сегментов и постредактирования). Взаимодействие этих подсистем обеспечивается специальной программой PROMT4Trados.

Первоначально программа PROMT TerM разрабатывалась исключительно для создания специализированных словарей, используемых в подсистеме PROMT, для облегчения процесса выявления и перевода терминологии из отдельных областей знаний, а также для сокращения объема ручной работы (поиска и определения переводных эквивалентов).

На рынке лингвистического программного обеспечения не существовало такого терминологического продукта, который совмещал бы необходимые функции: автоматическое извлечение терминологии и ее сравнение с существующими в электронной форме словарными базами по данной тематике (в качестве которых можно рассматривать, например, словари для систем TM и МП).

Первый прототип подобной программы под названием Frequency Counter, выпущенный компанией ПРОМТ, оказался востребованным пользователями, поэтому компания продолжила работу над ней. В 2000 г. ПРОМТ выпустила новый продукт для автоматического извлечения и обработки терминологии, который получил название PROMT Terminology Manager (PROMT TerM).

Из существенных функций и настроек программы следует выделить такие:

  • настройка (например, программа может различать слова, набранные в разных регистрах; можно указывать слова, которые должны быть проигнорированы в процессе анализа: предлоги, союзы и т. п., или только те слова или словосочетания, которые будут учитываться в процессе анализа);
  • поиск перевода в словарях системы PROMT (как пользовательских, так и специализированных) на соответствие словарным фильтрам, а также извлечение информации для сбора статистики по словарям и получение машинного перевода терминологического кандидата (ТК);
  • выбор параметров для формирования словосочетаний (например, первого и последнего слова словосочетания); минимального и максимального количества слов, присутствующих в словосочетании; указания количества слов, встречающихся в тексте, для того, чтобы было сформировано словосочетание;
  • выбор TM и соответствующего терминологического словаря; обработка результирующего списка ТК, который может быть отсортирован по частоте нахождения ТК в документах, по алфавиту, в обратном порядке, по ключевому слову.

Следовательно, при использовании сочетания систем PROMT и Trados TWB может быть с впечатляющей скоростью получена полная терминологическая картина по всем обрабатываемым документам и словарям. Таким образом, проблема извлечения и анализа новой терминологии, а также унификации всей терминологии определенной области может быть решена раз и навсегда.

На втором и третьем этапах автоматизированного перевода применяются системы TM — TRADOS Translator?s Workbench (TWB) и машинного перевода PROMT2000, взаимно дополняющие друг друга, а за интеграцию этих продуктов отвечает специальная программа PROMT4- Trados (P4T).

Применение P4T позволяет совмещать следующие этапы автоматизированного перевода:

  • поиск в системе TRADOS уже переведенных сегментов;
  • перевод в системе PROMT не найденных в TM сегментов (Unknown Segments);
  • пополнение TM переведенными в PROMT сегментами с возможностью постредактирования.

Поясним это небольшим примером. Допустим, что документ, который следует перевести, уже ранее обрабатывался, поэтому ему соответствует определенная TM.

Однако, если этот документ претерпел некоторые изменения, то для отдельных новых сегментов в TM вообще нет переводов. Поэтому целесообразно отправить такие сегменты для получения машинного перевода в систему PROMT. Для этого запускают программу P4T. При этом выбирается соответствующая документу база TM.

Далее среди опций меню настройки отмечается файл для записи результатов статистической обработки файлов в системе TRADOS (это особенно важно при коллективной работе нескольких переводчиков). Установим границу, определяющую, после какого процента совпадений сегменты должны быть переданы в PROMT для машинного перевода как Unknown Segments (например, все совпадения меньше 85%), и, наконец, выберем файл для записи результатов машинного перевода для просмотра перед пополнением TM, что позволит произвести дополнительную настройку системы PROMT.

Для гарантированного получения машинного перевода высокого качества в системе PROMT рекомендуется использовать «Тематики для перевода», включающие наборы специализированных и пользовательских словарей и специальные настройки.

Теперь можно запускать полностью автоматизированный перевод. В результате работы программы P4T сегменты, не найденные в выбранной TM, сначала отправляются на перевод в систему PROMT2000, а затем автоматически пополняют базу TM и становятся доступными для коррекции. Если необходимо, результаты машинного перевода могут быть отредактированы пользователем непосредственно в редакторе Microsoft Word, входящем в систему TRADOS.

Что в результате дает применение подобного интегрированного решения для автоматизации перевода? Прежде всего, это увеличение скорости всего цикла перевода и редактирования (на 50%), причем за счет уменьшения объема печатной и ручной работы. Значительное (почти на 80%) уменьшение времени и объема ручной обработки терминологии приводит к более последовательной ее унификации, не говоря уже об обеспечении единообразия терминологии и стиля при коллективной работе. Немаловажно также, что общая стоимость переводческого проекта снижается как минимум на 60%.

Так что создание правильного технологического цикла обеспечивает значительный рост эффективности процесса промышленного перевода. А насколько важно быть понятым и в бизнесе, и в политике, объяснять, похоже, нет нужды.

ОБ АВТОРЕ

Михаил Каничев — коммерческий директор компании ПРОМТ.

1300