Компьютерная телефония все глубже проникает в повседневную жизнь современной организации. Еще в этом десятилетии новая технология может изменить информационную картину мира.


ОПРЕДЕЛЕНИЕ
КОМУ ЭТО НУЖНО?
НЕБЫВАЛОЕ ЕДИНЕНИЕ КОМПЬЮТЕРА И ТЕЛЕФОНА
У РОССИИ - СВОИ ОСОБЕННОСТИ
СИЯЮЩИЕ ВЕРШИНЫ
СИСТЕМЫ КОМПЬЮТЕРНОЙ ТЕЛЕФОНИИ ПОНИМАЮТ РУССКУЮ РЕЧЬ
Узнай меня по голосу
ОТЕЧЕСТВЕННЫЕ РАЗРАБОТКИ ПРИЛОЖЕНИЙ КОМПЬЮТЕРНОЙ ТЕЛЕФОНИИ
Навстречу новой технологии

Компьютерная телефония переживает сейчас что-то вроде бума. Взрывообразно растет и количество аппаратных средств, и количество программных средств разработки приложений, и число самих приложений. Рост числа приложений напоминает цепную реакцию - чем больше их установлено, тем более широкий круг потенциальных пользователей может с ними ознакомиться и, убедившись в выгодности новой технологии, принять решение о применении компьютерной телефонии в своей компании.

Говорят о том, что полномасштабное применение новой технологии полностью изменит привычную информационную картину мира. Рассуждают о возможных социальных и психологических последствиях тотального увлечения компьютерно-телефонной интеграцией. Даже термин появился - voice mail jail (наиболее точно это выражение, на наш взгляд, можно передать словами "дебри голосовой почты"), а ведь voice mail, или голосовая почта, - одно из наиболее распространенных сейчас приложений компьютерной телефонии.

ОПРЕДЕЛЕНИЕ

Журнал "Computer Telephony", одно из ведущих изданий по проблемам компьютерной телефонии, дает следующее определение новой технологии: "Компьютерной телефонией называется технология, в которой интеллектуальные компьютерные ресурсы (аппаратура и программное обеспечение) применяются для осуществления исходящих и приема входящих звонков, а также для управления телефонным соединением. <...> К отрасли компьютерной телефонии относятся самые разные технологии - компьютерно-телефонная интеграция, интерактивная обработка голоса, голосовая почта, автосекретарь, распознавание речи, преобразование текст-речь, обработка факсимильных сообщений, обработка звукового сигнала, видеоконференции, аудиотекст, "озвучивание данных", центры телефонного обслуживания, справочные столы, а также традиционная коммутация телефонных вызовов и управление соединением" (см. #2 за 1995 год).

Интерес к новой технологии отчасти сродни интересу к сети Internet. И в том, и в другом случаях мы имеем дело с техническими нововведениями, кардинальным образом изменяющими характер обмена информацией. Разница между Internet и компьютерной телефонией, помимо всего прочего, состоит в том, что Internet обеспечивает взаимодействие двух компьютеров, а компьютерная телефония напрямую связывает человека и удаленный компьютер, используя в качестве интерфейса обычный телефон. Это существенно повышает техническую сложность интерфейса, поскольку прямое взаимодействие с человеком гораздо труднее стандартизировать, чем общение с компьютером.

КОМУ ЭТО НУЖНО?

Начнем с простого. Компьютерная телефония весьма полезна для реализации разнообразных офисных приложений, существенно упрощающих работу сотрудников офиса и повышающих производительность труда. Во-первых, это разнообразные интеллектуальные автоответчики, интегрированные с системой голосовой почты. Они способны произнести так называемое "приветствие" и озвучить простое голосовое меню (что-то вроде "Спасибо за звонок в компанию АБВГД, занимающуюся транспортировкой антарктических айсбергов к берегам Камчатки. Если вам нужен отдел Антарктиды, наберите "1"; если вам нужен отдел Камчатки, наберите "2"; если вам нужен кто-либо из сотрудников, наберите его местный номер; если вам нужна помощь оператора, наберите "0"). Когда в систему компьютерной телефонии интегрирована голосовая почта, абонент может получить соединение с голосовым почтовым ящиком временно отсутствующего сотрудника. Произнесенное абонентом голосовое сообщение будет оцифровано, записано на диск и впоследствии воспроизведено адресату. Заметим, что подпункт голосового меню способен открывать доступ к следующему уровню меню и так далее.

Более сложная система может быть установлена в центре телефонного обслуживания, где определенное число телефонных агентов работают с большим потоком входных звонков. Задача состоит в том, чтобы спроектировать систему, которая позволила бы, с одной стороны, обойтись минимальным числом агентов, а с другой - минимизировать очереди входящих звонков. И с помощью средств компьютерной телефонии это возможно.

Дальше следуют системы интерактивного голосового взаимодействия (interactive voice response - IVR) - термин, предполагающий проведение поиска по базе данных в процессе подготовки ответа звонящему абоненту. Подчеркнем, что термин IVR подразумевает непременное наличие операции поиска по базе несмотря на то, что часто это понятие применяют для обозначения любого телефонного диалога между человеком и компьютером. Примером "настоящего" IVR служит банковская система, где пользователь может получить информацию о текущем состоянии своего счета, или справочно-информационные системы, в которых справка генерируется в результате поиска по базе.

Следует отметить, что данные приложения не обязательно должны существовать в "чистом" виде. Например, справочно-информационная система может быть частью центра телефонного обслуживания, или, наоборот, в процессе обслуживания клиента по телефону система может автоматически производить поиск информации о клиенте по базе данных. И так далее.

Вышеперечисленные приложения компьютерной телефонии, обращенные, так сказать, вовне - одно из направлений развития компьютерной телефонии; другое направление - unified messaging. На русский язык этот термин можно перевести либо скучным выражением "единая среда обмена сообщениями", либо более поэтично "информационное мультимедиа".

Идея тут в следующем. Обмен сообщениями стал одним из наиболее важных компонентов современного бизнеса. На современный офис обрушивается колоссальный поток разнородной информации - письма, факсимильные и голосовые сообщения, электронная почта. Серьезная проблема в работе с этим потоком - именно его неоднородность, сильно затрудняющая упорядочение сообщений, их учет и правильное реагирование на запросы. Технология unified messaging, или единая среда обмена сообщениями, позволяет осуществлять работу с сообщениями всех типов из одной программы. Вот почему мы предложили назвать ее информационным мультимедиа - оператор имеет возможность отправлять электронную почту, факсимильные и голосовые сообщения, работая при этом с одной программой. При этом все необходимые адреса и/или номера телефонов можно выбирать из заранее заготовленного списка, по ходу дела просматривая запросы и подыскивая наиболее правильную форму и носитель ответа.

В "LAN Magazine" уже были публикации о телекоммуникационном аспекте компьютерной телефонии и возможных офисных реализациях систем; там же говорилось и о базовых технических аспектах оцифровки речи и приводились некоторые подробности работы с оцифрованной речью. В этот раз мы сосредоточимся на другом - расскажем о том, как превратить обычный компьютер в телефонный сервер и какие проблемы поджидают мечтающих об установке компьютерно-телефонных систем в России.

НЕБЫВАЛОЕ ЕДИНЕНИЕ КОМПЬЮТЕРА И ТЕЛЕФОНА

Компьютерно-телефонный интерфейс обычно выглядит как набор встраиваемых в компьютер плат расширения, выполняющих разные функции. На базе этих плат можно строить различные приложения, "навешивая" на созданную аппаратную конфигурацию программу для поддержки всех необходимых функций. Существует около десятка разных компаний, выпускающих платы расширения для систем компьютерной телефонии. Промышленным стандартом де-факто является набор плат, выпускаемых американской компанией Dialogic. По данным экспертов, Dialogic контролирует до 70% всего рынка аппаратуры для компьютерной телефонии. Компания разработала открытый стандарт аппаратного обеспечения компьютерной телефонии и стандарт программного интерфейса (драйверов) для работы с платами. Многие другие поставщики в этом секторе рынка следуют стандарту Dialogic, имеется даже специальный термин Dialogic-compatible equipment, которым обозначается продукция этих компаний. Картина здесь напоминает ситуацию с IBM-совместимыми компьютерами, с той только разницей, что Dialogic по-прежнему производит подавляющее большинство плат. Среди других крупных производителей компьютерно-телефонных плат следует назвать компании Brooktrout, Natural Microsystems, Pika и Rhetorex. Некоторые компании поставляют только отдельные компоненты систем, например, Aerotel (Голон, Израиль) специализируется на выпуске плат преобразования сигналов набора номера из одного стандарта в другой (см. ниже), а Gammalink выпускает Dialogic-совместимые платы поддержки факсимильного обмена.

Основной элемент систем компьютерной телефонии - многоканальные голосовые платы (voice cards). Здесь существует широкий ассортимент продуктов (от двух до тридцати каналов, работа с индивидуальными аналоговыми линиями и цифровыми каналами типа E-1, подключение к телефонной сети напрямую или через интерфейсные платы), поэтому рассмотрим один конкретный пример - работу четырехканальной голосовой платы. Такую плату можно подключать к четырем аналоговым телефонным линиям - прямо в телефонную сеть. Современные модификации этих плат, как правило, оснащены специальными процессорами для цифровой обработки сигнала (digital signal processing - DSP). В результате голосовая плата может сама, не прибегая к "услугам" центрального процессора компьютера, оцифровывать и сжимать аналоговый голосовой сигнал, воспроизводить предварительно записанные голосовые сообщения и распознавать сигналы набора номера. Современные платы имеют также возможность выполнять анализ состояния соединения (call progress analysis). Под последним подразумевается распознавание служебных сигналов, передаваемых по телефонной линии, - для российских сетей это непрерывный гудок (сигнал готовности АТС), длинные гудки, короткие гудки, отсутствие сигнала (срыв соединения). Некоторые изделия отличают ответ человека от соединения с автоответчиком и факсимильным аппаратом.

Подчеркнем, что перечисленные нами функции выполняются платой самостоятельно; это позволяет свести к минимуму информационный поток между платой и центральным процессором - последний вступает в дело только при необходимости считать из файла или записать в файл голосовую информацию (учитывая, что сжатие информации также выполняется на плате, это не так много), или для выполнения других операций, связанных с поддержкой диалога в целом (переход от одного пункта голосового меню к другому, обращение к базе данных). В результате в качестве телефонного сервера для простых приложений можно использовать достаточно маломощные компьютеры (начиная от AT 286).

Следующий номер программы - платы поддержки факсимильного обмена. Несмотря на то что некоторые компании уже выпускают комбинированные голос-факсимильные платы (в качестве примера можно привести четырехканальную плату TR114 компании Brooktrout), мы все же выделяем эти продукты в отдельную категорию. Здесь также качество (и цена) изделия определяется тем набором функций, которые плата может осуществлять без обращения к центральному процессору. Существуют факсимильные платы, которым можно передавать просто ASCII-файлы, а плата сама сформирует битовую матрицу страницы (могут поддерживаться несколько шрифтов и команды форматирования документа), закодирует ее в соответствии со стандартами факсимильной передачи и передаст по телефонной линии. При работе на прием плата принимает кодированную информацию и преобразует ее в образ документа, который можно записывать на диск. Это действие удобно сочетать с программой оптического распознавания символов - в результате можно получать тексты факсимильных сообщений в ASCII-форме. Платы факсимильного обмена выполняются и в виде самостоятельных продуктов, вставляемых непосредственно в слоты расширения, или в виде плат-приставок (daughterboard) для голосовых плат.

Далее - платы распознавания речи. Это одно из наиболее интересных и интенсивно развивающихся сейчас направлений в компьютерной телефонии. Основная цель - избавить человека от необходимости пользоваться таким неудобным интерфейсом, как наборная панель (или, того хуже, диск) телефона. Распознавание речи производится в аппаратном режиме, без обращения к центральному процессору. Существуют два режима работы с распознаванием речи: с настройкой (speaker-dependent) и без настройки (speaker-independent) на голос определенного человека. В первом случае можно научить аппаратуру распознавать весьма широкий набор слов, однако при этом требуется обучение системы (настройка на голос). Это очень удобно для удаленного доступа к офисным системам в режиме unified messaging: можно по телефону соединиться с телефонным сервером и выяснить, есть ли новые сообщения, ознакомиться с содержанием голосовых сообщений, а также, если использовать технологию преобразования текст-речь (о ней еще будет сказано), прослушать содержание факсов и электронных писем. Технология speaker-dependent обеспечивает также и защиту данных - голос постороннего система просто не распознает. В режиме speaker-independent система "узнает" любой голос и может работать с довольно плохой линией связи.

При распознании слов используется так называемый "словарь", загружаемый в DSP-систему платы. Этот словарь содержит шаблоны распознаваемых слов. К сожалению, в словаре для работы без настройки на голос пользователя их не слишком много. Словари, как правило, разрабатываются фирмой-изготовителем оборудования; основной принцип разработки - усреднение речи. Именно наличием словаря, а не характеристиками платы определяется возможность распознавания речи на том или ином языке или допустимость использования определенного слова в качестве команды. В ходе диалога можно менять используемые словари, что позволяет увеличить "ассортимент" команд. Как правило, фирма-разработчик плат в первую очередь создает словарь с числительными и самыми простыми командами типа "да", "нет", "стоп". Для России технология распознавания речи (наряду с преобразованием пульс-тон) имеет особое значение, но об этом опять-таки чуть позже.

Немаловажно по своему значению "обратное преобразование" - текст-речь (text-to-speech - TTS). Эта технология, позволяющая озвучивать ASCII-тексты, - одна из ключевых технологий компьютерной телефонии. Когда она (наряду с распознаванием речи) будет реализована в полном объеме, компьютерная телефония выйдет на совершенно новый уровень. Технологию TTS не следует путать с генерацией голосовых сообщений по шаблону. Например, для озвучивания остатка на счете совершенно не обязательно пользоваться TTS, достаточно просто наговорить все необходимые слова и написать простую программу подбора шаблонов по числительным. В качестве аппаратного обеспечения для этой задачи сгодится любая голосовая плата. Платы TTS же получают произвольный ASCII-текст и по нему генерируют речь, не загружая этим центральный процессор.

Последнее, о чем необходимо рассказать, - это преобразование пульс-тон. Дело в том, что все голосовые платы умеют распознавать только сигналы так называемого тонового набора номера, которые используются в США, Израиле и еще некоторых странах. Весь остальной мир (в том числе и Россия) пользуется пульсовым набором, выполняемым как серия разрывов цепи между телефонной станцией и аппаратом у абонента. Разрывы цепи, соответствующие одной и той же цифре, разделены короткими интервалами; более длинный интервал соответствует переходу от одной цифры к другой. Основная проблема с пульсовым набором состоит в том, что коммутационное оборудование не передает разрывы цепи: в результате приходится заниматься распознаванием характерных щелчков в линии, что проще распознавания речи, но все равно достаточно сложно, особенно для младших цифр. Современные платы решают эту задачу, используя DSP-технологии.

Обмен информацией между различными платами, установленными в одном и том же шасси, производится в обход системной шины, поскольку ни одна системная шина не в состоянии обеспечить пропускную способность, необходимую для компьютерно-телефонных приложений (64 Кбит/с на канал). Есть несколько разных модификаций шины, конструктивно выполняемой как ленточный кабель, идущий от платы к плате. Разные поставщики используют разные стандарты шин. Во-первых, существует стандарт MVIP (Multivendor Integration Protocol), разработанный компанией Natural Microsystems. Во-вторых, существуют предлагаемые компанией Dialogic шины PEB (PCM Expansion Bus) и SCbus, являющаяся составной частью нового стандарта SCSA (Signal Computing System Architecture). Пропускная способность PEB эквивалентна 128 голосовым каналам, MVIP - 512 каналам, а SCbus-2048 каналам. Кроме того, стандарт SCSA поддерживает обмен информацией между разными машинами. Для полноты картины надо сказать, что часть Dialogic-совместимых плат обменивается информацией по аналоговой шине AEB с четырьмя голосовыми каналами.

На рисунках 1 и 2 приведены схемы конфигураций электронного офиса и центра его обслуживания. Эти системы построены с использованием плат производства компании Dialogic. В электронном офисе используются следующие платы: PTC-30A-четырехканальный преобразователь пульс-тон (Aerotel), D/41E - четырехканальная голосовая плата, FAX/40 - плата-приставка для обеспечения факсимильной связи, AMX/81 - плата коммутации для подключения внешних телефонных линий к местным телефонам, SA/102 - восьмиканальный телефонный адаптер.

Picture 1 (1x1)

Рисунок 1.
Офисная система компьютерной телефонии (на базе плат Dialogic) с восемью входными аналоговыми линиями.

Picture 2 (1x1)

Рисунок 2.
Центр обслуживания телефонных вызовов на 48 входных линий и на 24 агентских места (на базе плат Dialogic)

Центр обслуживания телефонных вызовов построен из других компонентов. Они обладают существенно более высокой пропускной способностью; в качестве входных линий в центре используются цифровые телефонные каналы T-1. Аппаратное обеспечение центра такое: D/240SC-T1 - 24-канальные цифровые голосовые платы, напрямую подключаемые к линии T-1, DMX - плата коммутации внутренних ресурсов системы (в данной конфигурации она увеличивает эффективную пропускную способность системы за счет использования четырех независимых шин PEB и обеспечивает подсоединение внешних линий к необходимым внутренним ресурсам системы), MSI -плата коммутации телефонных линий, обеспечивающая распределение входящих звонков по агентским телефонным линиям и позволяющая организовывать конференции. В качестве дополнительных плат могут использоваться, например, 12-канальная факсимильная плата FAX/120, 16-канальная плата распознавания речи VR/160 и 8-канальный преобразователь пульс-тон PTC-30D (Aerotel).

У РОССИИ - СВОИ ОСОБЕННОСТИ

Компьютерная телефония в России делает первые шаги; для ускорения ее развития следует "научить" приложения обходиться без тонового набора. Выход известен - применение либо распознавания голоса, либо распознавания сигналов пульсового набора. Тем не менее все известные нам российские системы приложений компьютерной телефонии рассчитаны на работу с тоновым набором. Дело здесь, по-видимому, как в относительной дороговизне плат распознавания речи и сигналов пульсового набора, так и в определенном консерватизме пользователей и разработчиков. Кроме того, российские системы компьютерной телефонии, предполагающие диалог с абонентом, рассчитаны в основном на банковских клиентов, и предполагается, что большинство из них имеют телефонные аппараты с возможностью тонового набора.

Между тем ничего уж такого из ряда вон выходящего в технологиях распознавания нет. Что касается дороговизны, то цены на эту продукцию не слишком высоки, да и надежность этих технологий вполне удовлетворительна. С распознаванием речи есть еще одна проблема. Дело в том, что эта технология существует в двух вариантах: один из них допускает сплошной поток речи ("сто тридцать пять"), а другой требует произнесения отдельных цифр ("один-три-пять"). Так вот, для русского языка допускается только раздельное произнесение. Когда речь идет о выборе пунктов меню, это незаметно, но при диктовке, скажем, номера банковского счета такое обстоятельство может смутить пользователя. Тем не менее сама возможность использования компьютерной телефонии кажется настолько привлекательной, что подобные частные трудности вряд ли смогут задержать ее развитие в России.

СИЯЮЩИЕ ВЕРШИНЫ

Журнал "Computer Telephony" называет компьютерную телефонию главным достижением вычислительной техники и телекоммуникаций в 90-х годах. Не стану подписываться под столь громким утверждением, но факт остается фактом - применение компьютерной телефонии позволило существенно повысить производительность труда в американских компаниях. Компьютерная телефония стала чем-то вроде визитной карточки любой уважающей себя фирмы. И чем дальше шагнет технология, чем шире станет ассортимент выпускаемых продуктов, тем глубже будет проникновение компьютерной телефонии в жизнь и тем сильнее будет ее влияние на информационную жизнь общества.


Александр Крейнес - научный сотрудник Института кристаллографии Российской Академии наук. С ним можно связаться по e-mail: kreines@cti.ru.

СИСТЕМЫ КОМПЬЮТЕРНОЙ ТЕЛЕФОНИИ ПОНИМАЮТ РУССКУЮ РЕЧЬ

Узнай меня по голосу

На российском рынке корпорацию Dialogic представляет компания CompTek International (Москва), имеющая статус мастер-дистрибьютора основного производителя аппаратных средств для компьютерной телефонии. Помимо прочего, CompTek International занимается адаптацией технических средств компьютерной телефонии к российским условиям и сравнительным анализом различных программных средств подготовки приложений. Главная задача, которую необходимо решить, чтобы обеспечить более широкое распространение новой технологии в нашей стране, заключена в проблеме совместимости голосовых плат с сигналами пульсового набора. CompTek International проанализировал работоспособность преобразователей пульс-тон и плат распознавания голоса в условиях Московской городской телефонной сети. Выяснилось, что распознавание сигналов пульсового набора практически всегда происходит правильно; недостаток этого пути решения проблемы для реальных приложений заключается в том, что пульсовый набор существенно медленнее тонового (время набора цифры совпадает со временем обратного вращения диска). Такое положение дел может оказаться нежелательным в целом ряде приложений.

Для проверки эффективности распознавания речи была построена гистограмма распознавания. Приложение, использованное для сбора информации, было написано на процедурном языке VOS, разработанном компанией Parity Software. Абонентам, звонившим в CompTek International, предлагалось произнести цифры от 0 до 9. Результаты преобразования запоминались, и собранная таким образом статистика использовалась для построения гистограммы. Столбцы приведенной гистограммы соответствуют произносимым цифрам, а их высота - частоте правильного распознавания. Процедура распознавания в языке VOS выдает два возможных варианта произнесенного ключевого слова (в данном случае цифры) - основной и альтернативный. Дело тут в том, что распознать любое произнесенное слово можно только с определенной вероятностью. Основной вариант соответствует максимальной вероятности распознавания, вероятность же правильности альтернативного распознавания несколько ниже.

Из приводимой гистограммы видно, что в условиях Московской городской телефонной сети технология распознавания речи работает достаточно надежно и вполне может быть использована для адаптации голосовых плат к работе в России.

Picture 3 (1x1)

Какая цифра, говорите?
Гистограмма распознавания речи по цифровому словарю в условиях Московской городской телефонной сети. Данные предоставлены компанией CompTek International (Москва).


ОТЕЧЕСТВЕННЫЕ РАЗРАБОТКИ ПРИЛОЖЕНИЙ КОМПЬЮТЕРНОЙ ТЕЛЕФОНИИ

Навстречу новой технологии

На российском рынке пока немного фирм, занятых разработкой приложений в области компьютерной телефонии. Интерес к этой области, однако, быстро растет, и уже формируется своеобразное сообщество компаний, заинтересованных в продвижении новой технологии в России. Все имеющиеся приложения ориентированы на использование аппаратной базы компании Dialogic. Вот некоторые из них.

Компания "Новые системы коммуникаций" (Москва) предлагает несколько приложений - банковскую систему, автосекретаря, систему голосовой почты и справочно-информационную систему на базе технологии fax-on-demand. При этом клиент, используя голосовое меню для формулирования запроса, получает информацию по факсу.

Разработка фирмы "Новые компьютерные технологии" (Москва) - это банковская система, позволяющая клиенту не только получать по телефону сообщение о текущем состоянии его банковского счета и запрашивать другую голосовую информацию о работе банка, но и осуществлять банковские операции по телефону.

Банковскими системами занимается также компания "Редкомгруп" из Владивостока. Это одна из немногих немосковских компаний, работающих в России с компьютерной телефонией.

Упомянем еще две московские компании - "Аркадия" и "Леско". Первая из них предлагает систему компьютерной телефонии для коммутации внутренних гостиничных линий на небольшое количество выделенных внешних линий; вторая занимается системами голосовой почты и поддержкой служб оповещения.

Службами оповещения и безопасности для "опасных" производств занимается СКТБ "Омега" (Новгород). Подобная система устанавливается и на предприятии СеверГазПром (Ухта). Система представляет собой некое подобие "черного ящика" - она обеспечивает запись телефонных переговоров. Расшифровка этих записей может помочь при выяснении причин возникновения аварийной ситуации.

Технология компьютерной телефонии применяется и в ОАО "Московский междугородный и международный телефон". Клиентам предлагаются депозитные карточки, которые позволяют выполнять междугородный звонок с любого телефона. Владелец карточки набирает городской номер и вводит свой личный код, после чего ему предоставляется возможность набрать любой междугородный или международный номер; плата за разговор будет "списана" с карточки.