Говорить в телефон пока нельзя

Если бы в жизни существовала хоть какая-то логика, компьютеры были бы созданы телефонной промышленностью. Вместо этого они появлялись где угодно, но только не там. Сначала их применяли военные, потом университеты, наконец компании и организации, решившие автоматизировать внутренние бизнес-процессы. Телефония и обработка информации развивались изолированно друг от друга, их технические перспективы и терминология стали существенно отличаться. Мало кто из инженеров понимал и то и другое одновременно.

В результате великие телекоммуникационные технологии пришли к тому, что им трудно... связываться друг с другом. .

В феврале 1991 года в журнале CIO появилась статья, где утверждалось, что разделяющая эти области стена вот-вот падет и наступит эпоха выполнения вычислений «в любое время, в любом месте». Наш оптимизм в значительной степени базировался на целой серии соглашений, достигнутых группами по стандартизации в промышленности. К примеру, эти соглашения связывали определенные функции с нажатием клавиш: клавишу 1 следует нажать, чтобы услышать; 2 — чтобы сохранить; 3 — чтобы стереть и т. д. Поставщики полагали, что подобная стандартизация упростит запоминание того, когда какую кнопку следует нажимать. Таким образом, модель голосовой почты удастся распространить на сферу, которую мы сегодня называем электронной коммерцией: просмотр каталогов, размещение заказов, вызов технической поддержки и т. д.

Однако интерактивный голосовой ответ (IVR) так и не покинул своей первоначальной ниши голосовой почты в корпоративных центрах приема телефонных звонков. IVR уцелел, избежав нередких для компьютерных технологий бед: неверно спроектированных приложений, неадекватного финансирования, низкой производительности и завышенных требований. В случае с IVR сферы применения были четко поняты, машины работали по спецификациям, а потенциальный рынок (все бизнес-клиенты телефонной связи) был огромен и рос с каждым днем. Проблема оказалась в нас самих: люди отказывались запоминать последовательности клавиш.

Теоретически противоположностью IVR было распознавание речи. К сожалению, у этой технологии были свои проблемы, причем прямо противоположные. Людям она нравилась, а вот машины, напротив, справиться со своей задачей никак не могли. Несмотря на десятилетия предшествующих исследований, к 1991 году системы распознавания речи так и не достигли приемлемых характеристик. «Существуют тысячи способов распознать фонему [мельчайшую фонетическую единицу], — поясняет Билл Мейзел, президент консалтинговой компании TMA Associates, специализирующейся в области распознавания речи. — Мы слышим звук, который является продуктом геометрии голосовой коробки, разной для каждого человека и влияющей на произношение фонем, а также шума в окружающей обстановке. Значение, которое говорящий вкладывает в речь, зависит от возраста, физического, эмоционального состояния и многих других факторов».

В последнее десятилетие компании, занимающиеся технологиями распознавания речи, вложили в свою деятельность крупные инвестиции. Конечные потребители собрали десятки тысяч образцов речи. Ученые выполнили работу по усовершенствованию алгоритмов отделения шума от речи. А программисты разработали методики использования более быстрых процессоров, поступающих на рынок. С 1997 года начали появляться функциональные системы распознавания речи, такие как NaturallySpeaking компании Dragon Systems, ViaVoice корпорации IBM и WildFire компании Wildfire Communications.

Перечисленные продукты позволяют (нередко после длительной «тренировки» системы) надиктовывать своим ПК тексты и отдельные команды. В то же время системы, созданные позднее, могут понимать нескольких говорящих. Такие системы можно использовать в сетях, и в Internet в частности. К примеру, гигантская компания Universal Studios, работающая в индустрии развлечений, заменила свою внутреннюю голосовую службу специальной системой распознавания речи Speech Processing производства Philips, способной понимать более 10 тыс. имен, фамилий, названий объектов. Компания TelSurf Networks продает «аудиобраузер», в котором распознавание используется для навигации по «речевому порталу», рассылающему звуковую электронную почту, новости, биржевые показатели, радиопрограммы, календарные даты и другое. Ряд компаний, в том числе Brooktrout Software и InterVoice-Brite, предлагают заказчикам средства речевой навигации в Web в качестве альтернативы клавиатуре и мыши. Пользователи могут либо говорить в микрофон и пересылать голосовые команды по Internet, либо набирать номер другого телефона и говорить по второй линии.

Почти через десять лет после появления в CIO той старой статьи слияние двух направлений развития может, наконец, состояться, однако легким оно не будет. Как указывает Карл Стратмейер, директор по стратегическому маркетингу компании Datalogic, поставляющей технологии компьютерной телефонии, машины должны не просто распознавать фонемы, они должны понимать смысл. Чтобы облегчить компьютеру работу, люди должны произносить ясные, простые и непротиворечивые вопросы и ответы. Стратмейер полагает, что людям не понравится такая дисциплина, и из-за этого технология может столкнуться с теми же социальными препятствиями, что и сенсорные панели — даже если техническое решение будет существовать.

Телефония и обработка информации развивались изолированно друг от друга, их технические перспективы и терминология стали существенно отличаться