Прочие сервисы данного интернет-гиганта, конечно, также имеют весьма обширную пользовательскую базу… Однако если и было что-то, к чему Google до сих пор оставался непричастен, так это технологии машинного перевода. Что же, для столь быстро развивающейся компании, сделавшей хлебом своим насущным масштабную обработку текстовой информации, вторжение на рынок компьютерной лингвистики было лишь вопросом времени.

Вполне естественно, что все произошло в характерном для Google духе — тихо и незаметно. Просто в один прекрасный день в списке сервисов появился переводчик, а результаты поиска стало возможно просматривать на любом языке независимо от оригинального языка запроса и языка найденных страниц.

Онлайновые сервисы перевода сейчас никому не в новинку. Их основной недостаток для российских пользователей заключался в том, что большинство этих сервисов были зарубежными, вследствие чего языковых пар с русским языком не было предусмотрено. Из прочих же, пригодных для носителей «великого и могучего», качеством своей работы всегда выделялся сервис www.translate.ru компании ПРОМТ. Наверное, именно с ним и придется конкурировать новичку, представленному Google.

Так в чем же состоят различия между нынешним лидером в области онлайнового (и не только) перевода и новинкой поискового гиганта?

ПРАВОВАЯ РАЗМИНКА

Начнем с различий правового порядка. Дело в том, что политика компании ПРОМТ не предусматривает возможность для разработчиков стороннего ПО задействовать свой переводной сервис. Напомним, что Александр Иванов, автор популярного расширения TranslateBar для браузера Mozilla Firefox, был вынужден прекратить свою разработку по требованию ПРОМТ. Компания обвинила независимого разработчика в нарушении авторских прав и внесла в работу сервиса изменения, препятствующие корректному функционированию расширения TranslateBar. Google избрала прямо противоположный подход. К услугам независимых разработчиков великолепная документация. Все функции сервиса доступны любому желающему, которому дозволяется легально применять переводчик Google на своей веб-странице или в своем приложении. Сделать это просто, чем не преминули воспользоваться очень многие.

Так, кросс-платформенный словарь с открытым исходным текстом Stardict уже успел наряду с основной функцией обзавестись и возможностью перевода текста с помощью Google Translator. Точно так же дело обстоит и с TranslateIt, замечательной программой-словарем для платформы Macintosh. Естественно, что и авторы веб-страниц не остались в стороне — буквально через несколько дней после старта сервиса на некоторых сайтах (особенно тех, что ранее сотрудничали с Google) появились различные функции, связанные с новым переводчиком. Справедливости ради следует отметить, что ПРОМТ также предлагает веб-мастерам разместить на своем сайте кнопку «Перевести», однако эта примитивная возможность не идет ни в какое сравнение с богатейшим ассортиментом лингвистических функций Google, доступных каждому желающему вместе с прекрасной документацией и примерами использования.

Если вы желаете снабдить свое детище разнообразными языковыми «фичами», то наряду с помощью Google вам понадобятся лишь знание азов JavaScript и терпение, чтобы разобраться в предоставленных инструментах. Однако самое время оценить возможности и потенциал новинки, ведь никому не нужен переводчик, прекрасный во всех отношениях, кроме выполнения самого перевода. Качество его работы, удобство и наличие тех или иных функций мы будем сравнивать с основным конкурентом — онлайновым переводным сервисом компании ПРОМТ (www.translate.ru).

ПОСТАВИМ ЗАДАЧУ

В первую очередь определим языковые пары. Поскольку основным языком Интернета служит английский, а мы намерены получить максимум информации на русском, то проведем большую часть тестов в рамках данной пары языков. Справедливости ради отметим, что такой выбор более выгоден для переводчика Google вследствие различий технологий перевода между ним и «классическими» системами, такими как ПРОМТ. В большинстве систем машинного перевода исходный текст обрабатывается в соответствии со сложной системой правил, а переводные аналоги для каждого слова берутся из словарей. В качестве вспомогательного инструмента в дорогих профессиональных системах наподобие PROMT Translation Suite задействована так называемая технология Translation Memory, позволяющая запоминать фрагменты переведенного текста и повторно употреблять их при следующих переводах.

Технология, используемая Google, во многом схожа с Translation Memory: в «закромах» поискового гиганта хранится колоссальный объем проиндексированной информации, нередко представленной идентичными текстами на нескольких языках. О такой базе готовых переводов и мечтать не могут даже крупнейшие компании, специализирующиеся на языковых технологиях! В случае Google для успешного старта собственной системы машинного перевода требовалась лишь сущая безделица: разработать алгоритмы обработки этой самой базы на основе статистического анализа с возможностью самообучения, и «вуаля» — время и ежесекундно пополняемые массивы проиндексированной информации выведут новорожденный переводчик на финишную прямую к светлому будущему… если, конечно, позволят вычислительные ресурсы.

Тем не менее очевидно, что «статистический» перевод имеет и свою слабую сторону: его качество напрямую определяется объемом проиндексированных текстов для конкретной языковой пары. Именно поэтому выбор в качестве основных языков русского и английского дает продукту Google некоторую фору по сравнению с более «всеядным» ПРОМТ. Но число языковых пар в Google постоянно растет, и потому не станем чрезмерно строго судить новичка — у него все еще впереди. Кстати, применение «выгодной» языковой пары позволяет уже сейчас вынести достаточно объективное суждение о потенциале употребленной технологии, что подтвердило и наше тестирование, которое обсудим более детально.

Самая простая задача, ежедневно встающая перед онлайновым переводчиком, — обработка фрагмента текста (как правило, маленького, не превышающего десяти строк), чтобы быстро уяснить смысл написанного. Причем в таком случае не требуется получать предложения особо хорошего качества с литературной точки зрения. Кстати, многочисленные эксперименты с продуктами ПРОМТ показали, что сложнее всего переводить художественные тексты с длинными фразами, неоднозначно трактуемыми в рамках формального набора правил. Техническая документация также нередко содержит много терминов и фраз, требующих обширного набора дополнительных правил и словарей.

НАЧНЕМ СОРЕВНОВАНИЕ

Что же, сравним обе системы в действии. В качестве образца художественного текста возьмем отрывок из книги Хантера Томпсона «Ромовый дневник», а как пример технического — пару абзацев из документации к программе MythTV.

Сначала рассмотрим переводы текста Томпсона. Обе системы выдали не слишком-то «художественный» вариант, однако ошибки сделали совершенно разные. Налицо дефицит словарного запаса у переводчика Google, а вот детище ПРОМТ, напротив, берется за все слова, однако нередко феерически промахивается мимо контекста. Например, у сервиса Google получилась фраза: «Мы могли слышу скрип пружин, как она упала на кровать». Конечно, она корявая, но зато абсолютно ясная, к тому же все слова переведены в соответствии со смыслом, заложенным в изначальном варианте. У продукта ПРОМТ вышло так: «Мы могли услышать писк весен, поскольку она упала на кровать». Следует признать, что это никуда не годный перевод — вряд ли кто-то сможет хотя бы что-нибудь понять. Впрочем, ничуть не лучше порой выдает Google, к примеру: «All I Want Is питание». У ПРОМТ таких абсурдных ляпов не случалось уже давно. В общем, если сравнивать результаты использования обеих систем перевода не для получения идеального результата, вряд ли пока достижимого, а просто для понимания смысла текста, то следует признать, что они примерно одинаково полезны. Так, продукт ПРОМТ делает более благообразный перевод, а система, предложенная Google, как правило, ближе к тексту передает смысл оригинала.

А вот с техническим текстом оба онлайновых переводчика справились гораздо лучше  — перевод документации получился вполне понятным. Правда, translate.ru выдал несколько больше некорректных технических терминов, а у Google вышли типичные для него корявые сложные предложения.

Таким образом, за исключением отдельных деталей, свидетельствующих в пользу того или иного решения, наблюдается практически паритет между продуктами Google и ПРОМТ (в его онлайновой ипостаси).

ПЕРСПЕКТИВЫ

Придирчивый читатель может незамедлительно задать вопрос наподобие такого: «А зачем тогда нужен очередной велосипед, коли уже есть решение, работающее ничуть не хуже (а порой и лучше) нового?» И здесь есть что ответить. О несопоставимости «готовности» ПРОМТ и Google Translate, думаю, и говорить не приходится, ведь в нашем состязании участвовали версия 7 продукта и бета-версия. А вот условия применения обоих сервисов, возможно, известны не всем пользователям. Сервис Translate.ru входит в ассортимент платных услуг компании ПРОМТ, и употребление его для целей помимо сугубо личных весьма сурово регламентировано.

Переводной же сервис Google — прямая противоположность ему: и все рядовые пользователи, и авторы сторонних программ, и разработчики различных онлайновых сервисов могут широко использовать лингвистические наработки Google, причем безвозмездно. Значит, ассортимент прямо или косвенно связанных с сервисом услуг, а также качество его работы будут постоянно повышаться независимо от того, сколько пользователей пожелают приобрести несуществующую коробку с Google Desktop Translator. Как и прочие сервисы компании, переводчик уже стал частью инфраструктуры Интернета. И каждому, кто заинтересован в лингвистических сервисах, имеет смысл обратить на него самое пристальное внимание.

ПРИМЕРЫ ПРИМЕНЕНИЯ

Теперь представим несколько примеров применения языковых инструментов Google на собственной странице в Интернете.

API у сервиса translate.google.com крайне простой и весьма неплохо документированный на сайте Google для разработчиков. Но все же несколько примеров помогут сконцентрировать внимание на основных возможностях сервиса, а сайт, созданный как иллюстрация к материалу, послужит источником для представления кода и наглядной действующей модели.

Начнем с несложного. Как и ПРОМТ, Google предлагает разместить на любом сайте кнопку «Перевести», позволяющую иноязычному визитеру быстро познакомиться с содержимым страницы. Для этого надо лишь добавить в код страницы короткий фрагмент:

На странице появится симпатичный «гаджет» Google с ниспадающим перечнем тех языков, на которые возможен перевод. Исходный язык страницы задается в параметре “up_source_language” в приведенном коде. Например, up_source_language=en означает, что исходный текст английский, а up_source_language=ru — русский.

Если же вы хотите перевести не страницу целиком, а выбранный блок текста, то здесь коротким фрагментом кода не обойтись. Во врезке на с. 88 по шагам разобран процесс создания простого онлайнового переводчика на базе сервиса Google. На рисунке выше представлено, что получилось в результате творчества.

Как видно из приведенного листинга, основной задачей создания переводчика (причем несложной) является получение значений переменных для исходного и целевого языков и собственно для фрагмента текста для перевода. Далее эти данные в виде стандартных переменных передаются «ядру» перевода и… все готово! Остается лишь забрать из переменной результат перевода и вывести его.

Так же просто обращаться к сервису и из любого приложения, различаться будут лишь используемая среда разработки и язык программирования. Если, к примеру, вы хотите создать виджет-переводчик для Mac OS X, то разницы с написанием переводчика на сайте при работе в другой ОС и вовсе не заметите вследствие использования непосредственно JavaScript. А поскольку именно от легкости создания новых продуктов на базе любой технологии, открытой для широкой публики, и зависит ее успешное закрепление на рынке, то можно смело ожидать появления множества интересных решений, так или иначе основанных на Google Translate. t


Процесс создания простого онлайнового переводчика

xhtml1/DTD/xhtml1-strict.dtd”>



Переводчик







autocomplete=”off” value=”Введите текст для перевода”/>


>>






Результат:







Ромовый дневник

Оригинал

She stopped crying and took her hand away from her cheek. «Damn you», she sobbed. «Get in there», he said. She glared at him a moment longer, then turned and went inside. We could hear the squeak of springs as she fell on the bed, then the sobbing continued. Yeamon stood up. «Well», he said quietly, «sorry to subject you people to that sort of thing». He nodded thoughtfully, glancing at the hut. «I think I’ll go into town with you — anything happening tonight?» Sala shrugged. I could tell he was upset. «Nothing», he said. «All I want is food, anyway».

Google

Она прекратила плакать, и взял ее руку от ее щеке. «Черт вас» она sobbed. «Получить там», сказал он. Она glared на него момент больше, а затем повернулся и пошел внутрь. Мы могли слышу скрип пружин, как она упала на кровать, а затем рыдания родолжались.

Yeamon встал. «Ну, сказал он тихо», прости предмета для вас людей, которые рода вещи. «Он задумчиво кивнул, скользящее в хижине». Я думаю, я пойду в город с вами — все происходит вечером?»

Сала пожал плечами. Я мог бы сказать, он был расстроен. «Ничего», сказал он. «All I Want Is питание, в любом случае».

Translate.ru

Она прекратила кричать и убрала свою руку из ее щеки. «Прокляните Вас», она рыдала. «Войдите там», сказал он. Она впивалась взглядом в него момент дольше, затем превращенный и пошла внутри. Мы могли услышать писк весен, поскольку она упала на кровать, тогда рыдание продолжалось. Yeamon встал. «Хорошо», он сказал спокойно, «жаль подвергнуть Вас люди тому виду вещи.» Он кивал глубокомысленно, глядя на хижину. «Я думаю, что я войду в город с Вами — что-нибудь случающееся сегодня вечером?» Sala пожал плечами. Я мог сказать, что он был расстроен. «Ничто», не сказал он. «Все, что я хочу, является пищей, так или иначе.»

Документация MythTV

Оригинал
1.1 What is MythTV? MythTV is a GPL licensed suite of programs that allow you to build the mythical home media convergence box on your own using Open Source software and operating systems. MythTV is known to work on Linux and Mac OS X (PowerPC and Intel). It does not run on Windows. MythTV has a number of capabilities. The television portion allows you to do the following:

  • You may pause, fast-forward and rewind live Television.
  • You may install multiple video capture cards to record more than one program at a time.
  • You can have multiple servers (called «backends»), each with multiple capture cards in them. All scheduling is performed by the Master backend, which arbitrates which recording will be performed by each device. All recording requests are managed by the Master backend, so you can schedule a recording from any client.
  • You can have multiple clients (called «frontends» in MythTV parlance), each with a common view of all available programs. Any client can watch any program that was recorded by any of the servers, assuming that they have the hardware capabilities to view the content; a low-powered frontend will not be able to watch HDTV, for example. Clients can be diskless and controlled entirely by a remote control.
  • You may use any combination of standard analog capture card, MPEG-2, MJPEG, DVB, HDTV, USB and firewire capture devices. With appropriate hardware, MythTV can control set top boxes, often found in digital cable and satellite TV systems.
  • Program Guide Data in North America is downloaded from schedulesdirect.org, a non-profit organization which has licensed data from Tribune Media Services. This service provides almost two weeks of scheduling information. Program Guide Data in other countries is obtained using XMLTV. MythTV uses this information to create a schedule that maximizes the number of programs that can be recorded if you don’t have enough tuners.
  • MythTV implements a UPNP server, so a UPNP client should automatically see content from your MythTV system.

Google

1.1 Что такое MythTV?
MythTV является лицензией GPL набор программ, которые позволяют строить дома мифических конвергенции СМИ окна по своему усмотрению с помощью Open Source программного обеспечения и операционных систем. MythTV Известно, что работа по Linux и Mac OS X (PowerPC и Intel). Она не работает на Windows.

В MythTV ряд возможностей. Телевидение части позволяет делать следующее:

  • Вы можете пауза, быстрая перемотка вперед и перемотка жить телевидения.
  • Вы можете установить несколько видео-захвата для записи карт более чем одной программы одновременно.
  • Вы можете иметь несколько серверов (так называемый «архив»), каждый с несколькими картами захвата в них. Все расписания осуществляется Мастер бэкэнда, который arbitrates записи, которые будут выполняться на каждом устройстве. Все записи просит управляются Мастер бэкэнда, так что вы можете запланировать запись с любого клиента.
  • Вы можете иметь несколько клиентов (называемых «внешних» в MythTV манера), каждый с общей целью всех имеющихся программ. Любой клиент имеет возможность смотреть любые программа, которая была записана на любой из серверов, при условии, что они имеют аппаратные возможности для просмотра содержимого; маломощный интерфейс не смогут смотреть HDTV, например. Клиенты могут быть бездисковых и контролируется исключительно пульта дистанционного управления.
  • Вы можете использовать любую комбинацию стандартного аналогового захвата карты, MPEG-2, MJPEG, DVB, HDTV, USB и FireWire устройств захвата. Что соответствующих аппаратных средств, MythTV может контролировать Set Top коробки, которые нередко находят в цифровых кабельных и спутниковых телевизионных систем.
  • Программа Руководства Данным в Северной Америке, скачанные с schedulesdirect.org, некоммерческая организация, которая имеет лицензию данных из Трибуна Media Services. Эта услуга обеспечивает почти две недели графика информации. Программа руководства данными в других странах, полученных с использованием XMLTV. MythTV использует эту информацию для создания графика, что максимизирует число программ, которые могут быть записаны, если вам не хватает тюнеров.
  • MythTV реализует УПНП сервера, так УПНП клиент должен автоматически см. содержание MythTV из вашей системы.

Translate.ru

1.1 Каков MythTV? MythTV — лицензируемый набор GPL программ, которые позволяют, что Вы, чтобы построить мифическую домашнюю коробку конвергенции СМИ на Вашем собственном использовании Открываете Исходное программное обеспечение и операционные системы. MythTV, как известно, воздействует на Linux и Mac OS X (PowerPC и Интел). Это не бежит на Windows. У MythTV есть много способностей. Телевизионная часть позволяет Вам делать следующее: Вы можете сделать паузу, быстро-передовые и перемотать живое Телевидение. Вы можете установить многократные видео карты захвата, чтобы сделать запись больше чем одной программы за один раз. У Вас могут быть многократные серверы (названный «концами»), каждый с многократными картами захвата в них. Все планирование выполнено Основным концом, который выносит решение, какая регистрация будет выполнена каждым устройством. Всеми запросами регистрации управляет Основной конец, таким образом Вы можете наметить регистрацию от любого клиента. У Вас могут быть многократные клиенты (названный «frontends» в языке MythTV), каждый с общим представлением всех доступных программ. Любой клиент может наблюдать любую программу, которая была зарегистрирована любым из серверов, предполагая, что у них есть способности аппаратных средств рассмотреть содержание; маломощный frontend не будет в состоянии наблюдать HDTV, например. Клиенты могут быть diskless и управляемый полностью дистанционным управлением. Вы можете использовать любую комбинацию стандартной аналоговой карты захвата, MPEG-2, MJPEG, DVB, HDTV, USB и устройств захвата firewire. С соответствующими аппаратными средствами MythTV может управлять коробками вершины набора, часто находимыми в цифровом кабеле и системах спутникового телевидения. Данные Гида Программы в Северной Америке загружены от schedulesdirect.org, некоммерческая организация, которая лицензировала данные от Услуг СМИ Трибуны. Это обслуживание обеспечивает почти две недели планирования информации. Данные Гида Программы в других странах получены, используя XMLTV. MythTV использует эту информацию, чтобы создать список, который максимизирует число программ, которые могут быть зарегистрированы, если у Вас нет достаточно многих блоков настройки. MythTV осуществляет сервер UPNP, таким образом клиент UPNP должен автоматически видеть содержание от Вашей системы MythTV.