Как измерить качество
Как подсчитать объем правки
Как прокомментировать результаты
Результаты тестирования


Потому что все оттенки смысла Умное число передает.

Николай Гумилев

Можно до бесконечности спорить о том, хорошо или плохо переводит Stylus или Socrat, какая система переводит лучше, а какая хуже: мы не добьемся истины до тех пор, пока не выработаем способа количественной оценки качества перевода.

Идея сравнить между собой системы машинного перевода Stylus и Socrat на первый взгляд не выдерживает критики - ведь это программные продукты разных "весовых категорий", находящиеся в существенно разном положении: понятно, что фирма "ПроМТ", специально занимающаяся машинным переводом, уделяет Stylus больше внимания, чем "Арсеналъ" системе Socrat, для которого это всего лишь одна из программ "Русского офиса", причем, видимо, не самая важная.

Системы Stylus переводят со многих языков и обрабатывают документы большинства распространенных форматов, число специализированных словарей составляет несколько десятков. В интерфейсе программы "изюминок" больше, чем в творожном сырке времен моего детства, - за подробностями отсылаю читателя к статье Евгения Козловского в этом номере журнала. А какое сопровождение! Конечно, не исключено, что с журналистами сотрудники "ПроМТ" особо предупредительны, и все же быстрота реагирования поражает воображение: послав в "ПроМТ" образец HTML-файла, имевшего особенность, из-за которой Stylus не мог его загрузить, я на следующий же день получила ответ с "заплатой".

Что касается системы Socrat, то у "Арсенала", судя по всему, хватает сил лишь на minimum minimorum: перевод - русско-английский и англо-русский, формат - текстовый без разбивки на строки, из специализированных словарей - компьютерный и словарь по бизнесу. Для усовершенствования интерфейса (имеющего множество недостатков) при переходе от версии 1 к версии 2 не было сделано практически ничего. Так что пополнять и редактировать словарь в предназначенном для этой цели диалоговом окне можно, только находясь в интерактивном режиме перевода и извлекая нужные слова из текста оригинала. Поработать в двух окнах удается лишь непосредственно после того, как текст переведен в окне (я не нашла способа загрузить в окно перевода что бы то ни было), и оригинал, в отличие от редактора Stylus, не прокручивается (в Stylus используется специальный формат двуязычного документа, в котором фиксируются пофразные связи, а в Socrat связь между оригиналом и переводом не сохраняется).

Используя популярный в американской компьютерной прессе образ, можно сказать, что прямое сравнение Stylus и Socrat более всего походило бы на гонки, один участник которых едет на автомобиле, а другой - на велосипеде. Понятно, что такие гонки не вызвали бы интереса - их результат был бы предрешен.

Но что если лишить обоих "транспортного средства" и заставить "бежать своими ногами": отвлекшись от интерфейсных и тому подобных особенностей, взглянуть собственно на переводы? Здесь результат уже не очевиден.

Как измерить качество

Редакторам часто приходится оценивать качество текстов. Оно считается обратно пропорциональным объему внесенной правки: чем меньше правки, тем лучше выполнил свою работу автор или переводчик. Этот подход вполне можно применять и к переводам, выполненным машиной.

Понятно, что такой критерий ориентирован на "профессиональное" использование машинного перевода, при котором пользователь, получив с помощью программы "сырой" перевод, редактирует его и выпускает во внешний мир (например, передает в какое-то издание для публикации). В ряде случаев этого не происходит: пользователь лишь прочитывает текст, выданный программой, чтобы в общих чертах понять содержание оригинала, но не правит его. Как представляется, применить критерий "необходимой правки" можно и здесь: текст тем понятнее "на глаз", чем меньше исправлений он потребует, если придется его "доводить".

В тестировании участвовали четыре программы: Socrat 1.0, Socrat 2.0, Stylus 2.5 и Stylus 3.0. Более ранние версии были подключены для того, чтобы определить, насколько улучшается (и улучшается ли вообще) качество перевода от версии к версии. Во всех программах тестировалась только подсистема англо-русского перевода. Чтобы поставить участников в равные условия, я взяла простой текст без разметки (к сожалению, пришлось ограничиться небольшим объемом - 3012 байт и 509 слов), остановив свой выбор на отрывке из статьи Скотта Спэнбауэра "The War of the Windows" (ее "ручной" - сделанный без применения МП - перевод вы можете прочитать в этом номере см. с.86). Естественно, текст переводился с подключением специализированного компьютерного словаря, благо таковые имеются и для Stylus, и для Socrat.

Все программы позволяют задать список слов и словосочетаний, которые следует оставить без перевода. Я указала в нем Win NT, NT Workstation, Win 95 и Plug & Play (то, что Windows не следует переводить как "Окна", было зафиксировано в словарях и Stylus, и Socrat). Изменения в словари не вносились.

Переведя выбранный фрагмент каждой из четырех программ, я получила четыре варианта "сырого" перевода, которые затем отредактировала до приемлемого вида - такого, в каком бы я (редактор) хотела получать тексты от переводчика-человека. Получилось четыре не вполне безупречных стилистически, но грамматически правильных и передающих смысл оригинала русских текста. (Я, конечно, вносила и стилистическую правку - просто не ставила задачу довести эту работу до конца.)

Отредактированные варианты не полностью совпали. Дело в том, что для объективности сравнения я старалась минимизировать объем правки и в той степени, в какой это было возможно, "шла на поводу" у программы-переводчика. Например, слово "competition" Socrat переводит как "конкуренция", а Stylus - как "соревнование"; соответствующие переводы были сохранены. Выражение "without wiping out hard disk" Socrat перевел "не стирая жесткий диск", а Stylus 2.5 - "без того, чтобы вытирать снаружи жесткий диск". Я ничего не изменила в переводе Socrat, а в переводе Stylus поправила "вытирать снаружи" на "стирать", но не тронула "без того, чтобы". Оригинал, а также нередактированные и редактированные тексты приложены к электронному варианту этой статьи (http://www.pcworld.ru/1997/01/index.htm).

Далее я сравнила каждый из "сырых" переводов с соответствующим обработанным, отметила в исходных текстах все удаленные символы, а в отредактированных - добавленные и переставленные символы, а также такие, у которых был изменен регистр, и приступила к подсчету объема правки.

Как подсчитать объем правки

Расчеты делались в предположении, что перевод редактируется в программе с набором команд того же типа, что в WinWord, и что мышь при редактировании не используется: ею пренебрегают очень многие, поскольку неудобно постоянно переносить руку с клавиатуры на мышь и обратно. В действительности более высокая эффективность такого способа работы не доказана, и мышь игнорируется здесь для простоты: нажатие клавиши является удобным "общим знаменателем", а в "мышиных" операциях не на что опереться.

За единицу правки принималось условное нажатие (и отпускание) одной клавиши на клавиатуре (1 унк), одновременное нажатие двух клавиш (например, +а для получения заглавной буквы А) считалось равным 1,5 унк: это явно быстрее, чем нажать две клавиши последовательно, но медленнее, чем просто нажать и отпустить клавишу.

Добавление одного символа - всегда 1 унк. Это несколько заниженная оценка: она не учитывает, что ввод символов верхнего регистра (заглавных букв и ряда знаков препинания) соответствует 1,5 унк, а чтобы напечатать что-либо в латинице, необходимо сначала перейти на латинскую клавиатуру, а затем вернуться к русской (обычно каждая из этих операций производится одновременным нажатием двух клавиш, т. е. временный переход в латиницу - это 3 унк).

Операция удаления считалась применяющейся к группам символов (под "словами" в соответствующей строке таблицы понимаются не только целые слова, но и последовательности символов, представляющие собой часть слова), и удаление одной группы приравнивалось к 2 унк. На удаление слова либо начала или конца слова нужно всего лишь 1,5 унк (+, + ), на удаление начала или конца строки - 2,5 унк (+ либо + и затем ), однако следовало учесть, что, если удаляется часть слова и при этом остается больше символов, чем убирается (типичная ситуация при удалении окончаний), символы эффективнее удалять по одному.

Для изменения регистра в WinWord служит специальная команда +, следовательно, это 1,5 унк.

Перемещение слова приравнивалось к 4,5 унк: слово выделяется (++<стрелка>), выделенный блок вырезается (+x), и слово из Буфера обмена вставляется на новое место (+v). Операция выделения требует одновременного нажатия не двух, а трех клавиш и, видимо, должна происходить чуть медленнее, однако я решила пренебречь этим эффектом, как и тем, что иногда удается выделить более одного слова. Считалось, что слова из трех символов (и меньше) не перемещаются, а удаляются и вводятся заново в нужном месте.

Результаты тестирования приведены в таблице. Как видим, на первом месте оказался Socrat 1.0, следом за ним идут Stylus 3.0 и Socrat 2.0, а на последнем месте с большим отрывом - Stylus 2.5.

Как прокомментировать результаты

В системах машинного перевода все компоненты настолько тесно переплетены и связаны друг с другом, что попытки усовершенствования дают непредсказуемый результат. Напрашивается аналогия с плохо структурированной программой - тем, что в специальной литературе называется bowl of spaghetti (обычно этот термин переводят как "блюдо спагетти", но мне больше нравится "миска макарон"), однако здесь отсутствие структурированности непреодолимо. Во всяком случае, преодолеть его пока еще никому не удалось - очевидно, из-за недостаточности наших знаний о естественном языке.

Не так давно мне казалось, что программы-переводчики достигли предела своих возможностей, и всякая попытка что-то усовершенствовать будет сведена на нет эффектом "голову вытащишь - хвост увязнет". Тестирование показало, что это не так: разрыв между результатами для Stylus 2.5 и Stylus 3.0 не может быть обусловлен чисто случайными причинами - качество, несомненно, улучшилось, причем улучшилось заметно.

Правда, обнаружилось, что Socrat переводит не хуже Stylus 3 (и соответственно заметно лучше Stylus 2). Это объяснимо - ведь Socrat создавался тогда, когда Stylus уже не только существовал, но и был широко известен, и разработчики могли "отталкиваться" от более старой системы, учитывать ошибки предшественников и стараться их не повторить. О заложенном в Socrat потенциале совершенствования сказать что-либо трудно. Исправление ошибок при переходе от версии 1 к версии 2 заведомо не повысило качество перевода - на тестовом отрывке оно даже снизилось из-за того, что Socrat "разучился" правильно интерпретировать список зарезервированных (оставляемых без перевода) слов и упорно переводил Win как "Выигрыш" (или "выиграть").

Из таблицы видно, что объем правки составил почти половину объема текста (для Stylus 2.5 - больше половины). Похоже, что близко к этой "половине" лежит граница эффективности применения автоматизированных систем для профессионального перевода. В 1995 г., тестируя Stylus 2.0, я пришла к выводу, что скорость работы одного и того же человека-переводчика с использованием и без использования программы перевода остается приблизительно постоянной. Объем правки тогда не измерялся, однако, вероятнее всего, он оказался бы как у Stylus 2.5 или даже выше. При более низких объемах правки (которые мы наблюдаем в Stylus 3.0 и в Socrat) программа-переводчик, видимо, поможет человеку-переводчику зарабатывать больше денег в единицу времени. Однако разница будет исчисляться в лучшем случае десятками, а скорее - единицами процентов.

Определенного (даже довольно значительного) повышения эффективности работы можно было бы добиться с помощью специальных средств редактирования. Для перестановок, скажем, очень пригодился бы специальный буфер, в который текущее слово перемещается сразу (без предварительного выделения) и не стирает предыдущее слово, а становится вслед за ним. (Такой буфер есть в текстовом редакторе "МикроМир", разработанном в свое время на мехмате МГУ, - я уже много лет работаю в этом редакторе, отказываясь переходить на Word.) Другая идея - реализовать отсечение окончаний, чтобы не удалять их посимвольно; поскольку программа перевода сама присоединила их к словам, она должна "понимать", сколько символов следует отсекать в каждом случае. Дальнейшее фантазирование предоставляю читателям и разработчикам систем машинного перевода.


Суханова Мария Сергеевна - научный редактор "Мира ПК". E-mail: masu@osp.ru.

Результаты тестирования

Вид правки
Socrat 1.0
Socrat 2.0
Stylus 2.5
Stylus 3.0
Добавление (символы)
1029
1062
1165
1035
Удаление (символы/слова)
859/183
947/207
1068/235
836/189
Перемещение (символы/слова)
152/36
90/18
175/31
130/27
Смена регистра (символы)
11
21
67
39
Итого
1573,5
1615,5
1875,0
1593,5
Исходный текст (символов/слов)
3354/451
3407/446
3459/462
2423/463
Редактированный текст (символов/слов)
3586/480
3594/482
3604/489
3581/488
934