Медиа-сервер в сетях VoIP

Протокол MRCP обеспечивает доступ к службам медиа-сервисов через стандартизованный API.

Передача голоса по IP (Voice over IP, VoIP) представляет собой гибкую платформу для реализации интерактивных коммуникационных услуг. К ним относятся, к примеру, системы коммутации с управлением голосом, автоматизированные информационные службы или методы подтверждения личности при запросе важных данных. IETF создала для этого универсальный прикладной протокол — протокол управления медиа-ресурсами (Media Resource Control Protocol, MRCP). MRCP предоставляет голосовым приложениям в сетях VoIP доступ к службам медиа-серверов через независимый от производителя программ-ный интерфейс API.

Все ведущие мировые производители программных продуктов для телефонных приложений на базе ИТ выпускают решения на основе первой версии MRCP. В ноябре 2005 г. на сайте http://www.ietf.org в качестве проекта опубликована вторая версия протокола. На данный момент функциональные возможности MRCPv2 обеспечивают доступ к таким службам, как распознавание голоса, синтез речи и проверка подлинности голоса, в рамках частично или полностью автоматизированных телефонных приложений с диалоговыми системами. На Рисунке 1 изображена структура протокола MRCPv2.

ПОЛОЖИТЕЛЬНЫЕ СТОРОНЫ MRCPv2

Как открытый стандарт MRCPv2 предлагает простую и потому быст-рую интеграцию разнообразных программных продуктов для распознавания голоса, синтеза речи и проверки подлинности голоса. Протокол служит в качестве «переводчика» различных интерфейсов API на интерфейсе между клиентами с голосовыми приложениями и медиа-серверами. К важнейшим аспектам MRCPv2 относятся:

единообразие — производители придерживаются одинаковой методики разработки MRCPv2. Это облегчает разработку и интеграцию новых решений;
упрощение архитектуры - протокол определяет четкую сетевую структуру и разделение задач между клиентом и сервером;
мосты с Internet — MRCPv2 представляет собой протокол на базе Web и легко комбинируется с прочими медиа-протоколами, к примеру с простым протоколом доступа к объектам (Simple Object Access Protocol, SOAP) для доступа к базам данных и с потоковым протоколом реального времени (Real Time Streaming Protocol, RTSP) для передачи аудио- и видеопотоков;
независимость от производителя и возможности комбинирования — пользователи оказываются в выигрыше благодаря свободе выбора наиболее подходящего программного продукта для распознавания голоса, синтеза речи и проверки подлинности голоса. Кроме того, медиа-сервер позволяет параллельно эксплуатировать и по выбору использовать продукты разных производителей.

ТИПЫ ИНФОРМАЦИИ

Современная версия MRCPv2 поддерживает следующие типы информации:

механизм раcпознавания двухтонального многочастотного набора телефонного номера (Dual Tone Multi-Frequency, DTMF): распознавание набора тональных сигналов, которые вводятся с клавиатуры телефона — мобильного, программного или стационарного;
механизм распознавания голоса: анализ и интерпретация голосовых входных данных с составлением естественных языковых диалоговых процессов на основе свободно определяемых грамматик;
синтез речи: динамическое формирование голосовых фраз на основе записанного текста;
проверка подлинности голоса: проверка личности звонящего с учетом параметров его голоса — путем сравнения входящей голосовой информации с образцом голоса, хранящимся в базе данных;
запись голоса: запись аудиоданных на накопители.

ПРИМЕРЫ ИСПОЛЬЗОВАНИЯ

Следующие примеры показывают принцип функционирования MRCPv2 вместе с распознаванием голоса, синтезом речи и проверкой подлинности голоса. При этом из соображений наглядности протокольные процессы MRCPv2 с их запросами и ответами ASR/TTS/SV представлены в упрощенном виде. На Рисунке 2 изображена конфигурация сети с медиа-сервером в рамках сети VoIP. В качестве клиента медиа-сервера функционирует диалоговая система интерактивного голосового ответа (Interactive Voice Response, IVR), а в роли приложения выступает универсальная система обмена сообщениями (Unified Messaging System, UMS).

Пример распознавания голоса. Звонящий приложению UMS идентифицирует себя, вводя пароль, состоящий из шести цифр. Удостоверение личности происходит следующим образом (см. Рисунок 3):

UMS идентифицирует звонящего на основе его номера путем обращения к базе данных CRM и запрашивает у него пароль;
UMS подготавливает медиа-сервер к распознаванию цифр путем запроса ASR «Распознавание голоса — грамматика ввода цифр». Произносимые цифры пароля передаются непосредственно на медиа-сервер с помощью транспортного протокола реального времени (Real-Time Transport Protocol, RTP);
медиа-сервер на основе грамматики «Ввод чисел» анализирует, какую последовательность цифр ввел звонящий, и отправляет результат UMS в виде ответа ASR;
UMS проверяет, прошла ли проверка личности звонившего успешно, и, в зависимости от результата, предлагает продолжить выполнение его задач.

Пример синтеза речи. После удостоверения личности звонивший посредством голосовой команды требует от UMS проверить его почтовый ящик и прочитать сообщения, используя синтез речи. Это происходит следующим образом (см. Рисунок 4):

фраза «я хочу прослушать входящие сообщения электронной почты» по RTP передается на медиа-сервер в виде запроса ASR. В ответ ASR отправляет результат распознавания — «Прослушивание электронной почты»;
UMS инициализирует обращение к почтовому ящику, чтобы затребовать вновь поступившие сообщения;
почтовый сервер проверяет статус и в случае наличия новых сообщений отправляет их;
UMS отправляют медиа-серверу запрос MRCP TTS с требованием преобразовать текст сообщения при помощи синтезатора речи и передать его в виде потока RTP непосредственно позвонившему. При наличии нескольких сообщений UMS повторяет этот шаг до воспроизведения последнего письма.

Пример проверки личности по голосу. Он схематически показывает принцип работы MRCPv2 при проверке подлинности голоса звонящего на основе параметров его голоса с помощью системы определения. Процесс состоит из следующих шагов (см. Рисунок 5):

UMS идентифицирует звонящего на основе его номера с помощью обращения к базе данных CRM. В качестве ответа она передает данные о клиенте вместе с «отпечатками голоса»;
UMS просит пользователя произнести что-либо и сообщает об этом медиа-серверу при помощи запроса «Определение подлинности голоса»;
медиа-сервер сравнивает полученную по RTP голосовую информацию с параметрами отпечатка голоса и передает результат UMS;
UMS на основе возвращенных кодов статуса проверяет, успешно ли прошло определение подлинности звонящего, и, в зависимости от результата, позволяет ему продолжить диалог.

ЗАКЛЮЧЕНИЕ

MRCPv2 — это еще одно звено в цепочке открытых стандартов на базе Web. Единый интерфейс API для MRCPv2 упрощает разработку программного обеспечения. Пользователи в свою очередь получают больше степеней свободы при выборе подходящего продукта для решения своих специальных задач. Однако — как и в случае почти всех международных стандартов — во избежание проблем в конкретных случаях необходимо учитывать некоторые моменты:

гибкость при инновациях. Международные стандарты часто недостаточно гибки, когда речь заходит о новых технических тенденциях, и нередко производители вносят в них собственные специфические расширения, чтобы быстрее вывести инновационные продукты на рынок. Так что решение MRCPv2 должно иметь потенциал развития в этом отношении;
соответствие стандартам. Меж-дународные стандарты, как MRCPv2, не ограничивают свободу разработчиков в интерпретации и реализации. А значит, на практике необходимы обстоятельные проверки на совместимость;
производительность. При использовании решений MRCPv2 следует обращать внимание на то, чтобы они обеспечивали достаточно быструю реакцию для каждого приложения и быстрое время ответа даже в случае высоких нагрузок.

Лотар Витте — менеджер по работе с клиентами компании Telenet Kommunikationssysteme. С ним можно связаться по адресу: pf@lanline.awi.de.

? AWi Verlag