На американском рынке высоких технологий, несмотря на рецессию, медленно, но верно поднимается новая волна. Судя по накалу борьбы, которую молодые компании ведут за распределение долей в зарождающемся рыночном сегменте, по возросшему интересу к нему со стороны гигантов индустрии и по оптимистичным прогнозам аналитиков, подлежащий разделу пирог будет иметь нешуточные размеры. Вот только вместо праздничных кремовых вензелей на нем будет выведена многозначительная аббревиатура: V-commerce.

Помимо самоочевидной расшифровки Voice Commerce (голосовая коммерция) в англоязычной литературе сегодня можно встретить разные вариации на ту же тему: voice-enabled commerce, voice-enhanced electronic commerce и т. д. Подобный разнобой свидетельствует о том, что рынок голосовой коммерции только-только зарождается, магистральные направления его развития еще не определены, а компании стремятся придать входящему в моду термину различные смысловые оттенки.

Само понятие «голосовая коммерция» было введено в обиход в конце 90-х годов с легкой руки сотрудников небольшой калифорнийской фирмы Nuance Communications. С самого начала она сосредоточилась на технологиях обработки речи и в считанные годы превратилась в ведущего производителя соответствующих продуктов.

Nuance стала и одним из инициаторов создания консорциума V-commerce Alliance, который был учрежден в октябре 1998 года при участии BroadVision, Motorola, SAP Labs и Visa International. В июне 1999 года указанная организация опубликовала спецификацию Open Voice Framework (V-Framework), в которой описывается открытая платформа для разработки голосовых приложений, способных функционировать на различных устройствах и в разных операционных средах. Появление этого прообраза стандарта позволило с самого начала снять ряд проблем, традиционно возникающих на стадии становления новой технологии.

Простым человеческим языком

Потребность в стандартизации систем V-commerce у кого-то вызовет удивление, поскольку идея, являющаяся основой голосовой коммерции, на удивление проста. Речь идет о применении стационарных и мобильных телефонов для доступа к самой разнообразной информации, совершения покупок, осуществления финансовых транзакций и т. д. При этом телефоны используются по своему прямому назначению: для получения тех или иных сведений абонент выдает голосовые команды, а затем прослушивает запрошенную информацию.

Соображения, побудившие первопроходцев развивать новый сегмент рынка, также лежат на поверхности. По некоторым оценкам, сегодня во всем мире телефонами пользуется около 2 млрд человек. Число компьютеров, подключенных к Всемирной сети, достигнет этой планки еще не скоро. Телефония открывает доступ к информационным и сопутствующим услугам владельцам компьютеров, не имеющих выхода в глобальные сети, абонентам, вообще не соприкасающимся с вычислительной техникой, лицам с ослабленным зрением и водителям. В результате возникла идея создания голосового портала, постепенно расширившаяся до концепции систем голосовой коммерции.

Надо отметить, что новая концепция в определенном смысле противостоит всеобщей устремленности к организации сетей третьего поколения: если владельцы WAP-терминалов, 3G-трубок и карманных ПК активно используют для навигации экран и тастатуру, то посетители голосовых порталов смогут обойтись без этих достижений технического прогресса.

Речевые браузеры и речевой серфинг

Концепция голосовых порталов формировалась под сильным влиянием Web, вот почему одним из первых в нее вошло представление о речевых порталах. Так называют ПО, обеспечивающее стандартный речевой интерфейс для доступа к Web-контенту и информационным услугам через телефон. Без подобного компонента не обойтись и в системах голосовой коммерции, поскольку именно он помогает заполнить формы ввода, которые не так-то просто перевести из экранного формата в звуковой.

Может показаться, что голосовой портал является дальнейшим развитием архитектуры операторских центров (см. «Сети», 2002, № 3, с. 11-15). В действительности же различий между ними гораздо больше, чем сходства.

Прежде всего пользователь общается с порталом посредством речевых команд. В первоначальных версиях команды были стандартными и лаконичными («Расписание полетов», «Спорт» и т. д.); восприняв их, система переходила в соответствующий раздел. Однако уже в недалеком будущем общение станет более естественным. Например, набрав соответствующий телефонный номер и соединившись с голосовым порталом, пользователь сможет произнести: «Ожидаются ли завтра осадки в столице штата Вайоминг?» Система должна будет не только корректно воспринять общий смысл вопроса, но и «сообразить», что столица называется Шайенн, после чего найти прогноз погоды, в котором значится этот небольшой городок, и зачитать абоненту требуемую информацию.

Здесь возникает второе отличие. Запрашиваемые сведения предоставляются пользователю в речевой форме. По мнению аналитиков, существенную роль в успехе новой услуги будет играть качество звукового воспроизведения. Большинство экспертов сходятся во мнении, что вместо машинно-синтезированной речи абонент должен слышать естественный человеческий голос. Один из путей достижения этой цели — формирование базы данных из отдельных слов и целых фраз, произнесенных реальными людьми, и инсталляция мощной системы поиска и анализа текстов, которая будет способна сконструировать из этих отрывков «живой» человеческий голос. Именно такой подход реализован в ПО Natural Voices, выпущенном в августе 2001 года корпорацией AT&T с ориентацией на применение в голосовых порталах, операторских центрах и системах Help Desk. В идеале у слушателя не должно остаться ни малейших сомнений в том, что с ним общается обычный оператор. И хотя первая версия Natural Voices, по признанию производителя, еще далека от совершенства, благодаря последним технологическим достижениям разрыв между человеческой и имитируемой речью стремительно сокращается.

Итак, обслуживание пользователей портала от начала и до конца осуществляется без вмешательства человека. Человеческий фактор важен только на стадиях разработки архитектуры и инсталляции портала, создания и обновления контента и администрирования.

Отсутствие операторов автоматически устраняет проблему управления очередями вызовов. Мощность аппаратной платформы портала и пропускная способность каналов связи должны быть такими, чтобы абоненты не ждали, когда же вычислительных ресурсов достанет и на их долю. Без соблюдения последнего условия вся затея обречена на провал.

Нарисованная идеальная картина пока далека от реальности — ее «актуализация» сталкивается с препятствиями как технологического, так и финансового характера. Недаром на американском рынке уже появились фирмы, избравшие компромиссный подход. В работе голосового портала iNetNow задействуются реальные операторы, которые сидят перед экранами компьютеров и ищут на страницах «голосового» портала либо во всем Internet ответы на запросы пользователей. Все это напоминает работу традиционной телефонной справочной службы, но прежде чем осуждать инициаторов проекта, выхолостивших, казалось бы, саму суть концепции V-commerce, стоит задуматься: а не экономичнее ли эта модель сценария, связанного с построением и эксплуатацией «настоящего» голосового портала?

Деньги счет любят

Молодые американские фирмы, первыми вступившие в новый рыночный сегмент, сумели привлечь начальные инвестиции в размере десятков миллионов долларов. Возможность их возврата в течение трех-четырех лет определяется выбранными способами получения дохода. Однако вариантов тут раз-два и обчелся.

Простейший заключается в предоставлении услуг за плату — фиксированную абонентскую, вносимую помесячно или привязанную к объему и типу полученного контента. Следует отметить, однако, что в условиях слабой «раскрученности» нового сервиса надежды на привлечение значительного числа платных подписчиков остаются довольно призрачными. Вот почему владельцы большинства современных порталов сделали ставку на рекламодателей, фактически перенеся модель баннерной рекламы на новую почву. Пользователям остается оплатить только услуги телефонной компании, а сам информационный сервис оказывается бесплатным.

Проблема, однако, заключается в том, что киберпутешественники давно уже научились игнорировать надоедливые баннеры, в огромном количестве присутствующие на Web-страницах. Двухмерное пространство экрана позволяет сразу же сконцентрироваться на ключевой информации, не обращая внимания на все остальное. При обращении к бесплатным услугам портала по телефону рекламу «не объехать, не обойти». А значит, способ ее подачи определяет успех всего предприятия.

Как известно, во Всемирной паутине время ожидания загрузки Web-страницы играет решающую роль в предпочтениях пользователей. Если на первых порах каждый из нас мог подолгу ждать появления на экране вожделенных строчек текста или иллюстраций, то сегодня, согласно оценкам экспертов, терпения среднестатистического пользователя хватает секунд на 10-12, после чего он просто покидает страницу. В голосовой коммерции, похоже, ситуация ожидается еще более жесткая, тогда как возможностей для маневра здесь гораздо меньше.

Рекламная модель частично воспроизводит маркетинговый трюк, используемый в телефонии. Некоторые европейские операторы дальней связи сегодня предоставляют бесплатные междугородные и международные звонки, правда, перед началом разговора вызывающий абонент должен прослушать рекламный аудиоклип, который может длиться 1-2 мин. Понятно, что бизнес-пользователи такой подход не приемлют. А вот частным абонентам спешить особенно некуда, поэтому они охотно восприняли новое предложение и готовы подставить свои уши под поток зачастую бесполезной информации, чтобы потом сэкономить деньги.

При разработке бизнес-модели голосового портала на подобную лояльность рассчитывать не приходится. Как показывают опросы потребителей новой услуги, если прогнозу погоды на завтра, который можно без труда зачитать секунд за десять, будет предшествовать двухминутная «рекламная пауза», сервис окажется попросту невостребованным. На современных голосовых порталах общение абонента с системой предваряется рекламной вставкой длительностью всего 5 — 10 с. Пролетают эти секунды как одно мгновенье — каждый может проверить на себе.

Однако если в результате овцы оказываются целы, то волки — сыты не вполне. Трудно представить себе, чтобы рекламодатель выложил за пятисекундный звуковой ролик столько же, сколько и за двухминутный, даже если обеспечивается гарантированное прослушивание его рекламы дозвонившимся. Поэтому операторам пришлось пойти на вторую хитрость, позаимствованную у телевизионщиков: чтение запрошенного текста периодически прерывается короткой (все те же 5 — 10 с) рекламой. Скажем, на портале MyAudiopoint паузы между рекламными вставками составляют около 45 с. Чтобы понять, много это или мало, достаточно представить себе неторопливую телефонную беседу с приятелем, которая каждые 45 с прерывает навязчивой посторонней информацией. На таком фоне наличие 15-минутных интервалов между последовательными рекламными паузами на ТВ покажется верхом заботы об интересах потребителей. Впрочем, на голосовом портале TelSurf реализован комбинированный подход: абонент может выбрать, слушать ему рекламу или обойтись без нее, заплатив за звонок 6 центов.

Тема рекламных вставок имеет и еще одну проекцию. Логично задаться вопросом: какое число рекламных пауз среднестатистический абонент может вытерпеть в принципе — две, три, пять, десять? Для оператора этот показатель определяет баланс доходов и расходов на обслуживание одного звонка, для пользователя — размер того информационного блока, который будет ему прочитан (напомню, что система не должна тараторить наподобие диктора, читающего выпуск новостей). Как выясняется, продолжительные информационные блоки по телефону плохо воспринимаются даже безо всякой рекламы. Недаром же по сей день при работе в Internet мало кто читает многостраничные документы непосредственно с экрана, особенно если они содержат ценные сведения. Куда комфортнее «скинуть» Web-страницу на принтер для последующего внимательного изучения.

Применительно к голосовой коммерции это правило справедливо вдвойне. Посетителям голосовых порталов недоступны не только графические и видеоматериалы, в изобилии присутствующие в Web, но даже пространные тексты. Вот почему порталы ориентированы на очень ограниченный контент: новости, биржевые сводки, расписание движения самолетов и поездов, репертуар театров и кинотеатров, спорт, погода, гороскопы — пожалуй, и все. Нетрудно увидеть, что при таком информационном наполнении новый сервис в принципе не сможет заменить Всемирной паутины. Спрашивается, а стоило ли в таком случае огород городить?

Техническая подоплека

В случае голосового портала «огород» этот состоит всего из трех «грядок», но зато каких! Если отвлечься от аппаратной платформы и каналов связи, то ключевыми компонентами любой системы V-commerce являются технологии усовершенствованного распознавания речи (Advanced Speech Recognition, ASR), преобразования текста в речь и голосовой аутентификации.

Радикальный технологический прорыв стал возможен благодаря прогрессу в области ASR, достигнутому в последние годы. Современные системы ASR обеспечивают корректность распознавания на уровне 97-98% независимо от интонации, диалекта и акцента говорящего, скорости и громкости речи, наличия фонового шума и т. д., причем не требуют предварительного обучения пользователя. Их появление позволило заменить примитивный интерфейс интерактивных систем речевого ответа (Interactive Voice Responce, IVR) общением на естественном языке, что повлекло за собой расширение информационного охвата, сокращение времени доступа к нужным сведениям, переход инициативы к абоненту и просто облегчение работы с системой.

Одновременно расширились возможности персонализации сервиса, которая, по мнению экспертов, для голосовой коммерции имеет даже большее значение, чем для коммерции электронной или мобильной. Связано это с ограниченной функциональностью речевого интерфейса, которая приводит к повышению требовательности пользователей. Сказанное в первую очередь относится к содержанию аудиорекламы, к настройкам информационных разделов, обычно интересующих пользователя, а также к учету его социального статуса, семейного положения и т. д.

Роль средств преобразования текста в речь дополнительных комментариев не требует, а технологии аутентификации выходят на первый план, когда нужно проконтролировать голосовой доступ к внутрикорпоративному Web-серверу или выполнить финансовую транзакцию. Простой перенос в новую среду модели регистрации, принятой в компьютерных сетях (логин и пароль), оказывается неэффективным, поэтому в системах V-commerce все чаще применяются технологии ASR.

Понятно, что на сей раз без обучения не обойтись, ведь только благодаря ему можно будет построить голосовой портрет пользователя, уникальный практически в той же мере, что и отпечатки пальцев. В таком случае, даже если абонент сильно простужен или намеренно говорит с акцентом, он с большой долей вероятности будет идентифицирован корректно. И напротив, даже профессиональный пародист, решивший сымитировать чужой голос, скорее всего, потерпит неудачу. По оценкам специалистов, современный уровень защищенности «голосовых» транзакций выше, чем в традиционных системах электронной коммерции.

Голосовая паутина

Функция голосового портала не обязательно сводится к звуковому воспроизведению хранящейся на нем информации. Некоторые операторы трактуют функциональность портала в более широком контексте — как шлюза в голосовой Web, т. е. в стремительно растущий массив контента, допускающий применение голосового интерфейса. Такая возможность реализуется благодаря применению языка VoxML (или VoiceXML, Voice Extended Markup Language), который во второй половине 90-х был предложен корпорацией Motorola. В октябре 2001 года рабочая группа по речевым порталам консорциума W3C опубликовала спецификации на вторую версию этого языка. К настоящему времени о поддержке VoxML заявили более 500 компаний, в том числе AT&T, Cisco, IBM, Lucent, Microsoft и Oracle.

Язык VoxML задумывался в качестве открытой платформы для создания голосовых программ, способных взаимодействовать с различными средствами распознавания речи. Его применение позволяет построить интерфейс приложения в виде набора диалогов, поддерживающих речевые команды и звуковую реакцию на них. Контент, созданный с использованием VoxML, находится на специальном сервере приложений, а доступ к нему с ПК или телефона осуществляется через речевой VoxML-браузер (см. рисунок). VoxML-приложение воспринимает речевой запрос и трансформирует его в форму Web-запроса. После обработки последнего осуществляется обратное преобразование: найденный контент переводится в формат VoxML, преобразуется в речь и зачитывается абоненту.

В модели, основанной на применении VoxML-приложений, предполагается, что контент хранится на специальном сервере и передается по Internet или intranet голосовому браузеру, поддерживающему язык VoxML и запущенному на ПК или телефоне

Слово — покупателю

Применение голосовых технологий в электронной коммерции открыло путь к использованию телефона для покупки товаров в электронных магазинах, совершения операций с банковскими счетами и ценными бумагами, организации голосового доступа сотрудников к интрасети, поддержки персонала, работающего на территории заказчика, и т. д. Одним из примеров может служить проект, реализованный компанией lastminute.com совместно с BT Ignite Solutions (подразделением British Telecom, специализирующимся на решениях в области электронной коммерции), Nuance Communications и Nortel Networks. Этот голосовой портал позволяет купить любой товар из представленных в каталоге lastminute.com. Для совершения сделки помимо наименования изделия абоненту достаточно сообщить свой полный почтовый адрес и данные о кредитной карте.

Важно отметить, что платформы, поддерживающие речевой интерфейс, органично дополняют традиционные системы электронной коммерции, а не конкурируют с ними. Для реализации голосового доступа фирме, уже присутствующей на рынке электронной коммерции, следует расширить имеющуюся систему за счет средств, допускающих речевое размещение заказов и воспринимающих голосовые команды на выполнение транзакций.

Применение технологий ASR позволяет не только вдохнуть новую жизнь в электронный бизнес, но и сократить внутренние операционные издержки. Отпадает необходимость в бумажных каталогах и внутрикорпоративных телефонных справочниках, идентификаторах и паролях для доступа в интегрированную корпоративную сеть, а также в хранении номеров быстрого набора на отдельных телефонных аппаратах (с необходимостью регулярного обновления всех перечисленных данных). Персональную информацию отдельных сотрудников теперь можно поместить на центральный сервер. Описанный подход используется в BT Ignite Solutions, служба каталогов которого имеет голосовой интерфейс и содержит сведения о 12 тыс. сотрудников.

Эта же идея активно реализуется в сетях мобильной и фиксированной связи. Так, в марте прошлого года американский оператор Qwest Communications начал предлагать своим клиентам услуги голосового доступа к адресной и телефонной книге с последующим автоматическим набором номера запрашиваемого абонента. Примеру Qwest вскоре последовали AT&T Wireless, Sprint PCS, Japan Telecom и другие телефонные компании.

Призрак грядущего бума

Есть какая-то ирония судьбы в том, что концепция V-commerce взросла на почве бешеной популярности Web. Ведь телефон появился задолго до персонального компьютера и уж тем более до Всемирной паутины. Да и потребность в оперативном и одновременно универсальном доступе к разнообразной информации возникла, мягко говоря, не вчера. Тем не менее до феномена сети Internet в ее сегодняшнем виде продуктивность голосовой модели была далеко не очевидна. Конечно, нельзя игнорировать последних достижений в области технологий речевого анализа и преобразования текста в речь: о современном их состоянии лет 30 — 40 назад нечего было и мечтать. Но все-таки появись идея организации голосовых порталов в то время, глядишь, и технологии развивались бы другими темпами, а то и по иному пути.

Сегодняшние попытки втиснуть новую концепцию в прокрустово Web-ложе имеют негативные последствия. Фактически пока все сводится к адаптации накопленного контента к ограниченным возможностям голосового интерфейса. Отсюда — необходимость игнорировать размещенные на Web-страницах графические образы, идея заменить баннерную рекламу на короткие аудиоролики, стремление ограничиться небольшими порциями зачитываемой информации и т. д. Несмотря на непрекращающуюся эволюцию самой Всемирной паутины, ее образ еще долго будет довлеть над голосовой коммерцией. Один терминологический пример наглядно иллюстрирует сказанное: в англоязычной литературе уже можно встретить словосочетание «звуковые обои» (audio wallpaper).

Спору нет, информационное богатство, накопленное в Сети, никогда не станет доступным владельцу телефона (даже поддерживающего 3G), и в этом отношении два варианта доступа будут не столько конкурировать, сколько дополнять друг друга. Но если бы развитие голосовых порталов происходило ab ovo, многие проблемы даже не возникли бы. Сегодня же начать все с нуля невозможно из-за жесткого прессинга финансовых и временных факторов.

Как бы то ни было, перспективы у голосовой модели более чем радужные. Аналитики негативно оценили исходное столпотворение на американском рынке голосовых порталов (которое уже начало рассасываться благодаря покупкам и слияниям — см. врезку), но долгосрочные прогнозы выглядят весьма оптимистично. Так, эксперты компании Kesley Group, специализирующейся на исследованиях в области электронной коммерции, полагают, что в 2005 году только в Северной Америке объем рынка V-commerce достигнет 12 млрд долл., оборот голосовых порталов (реклама, подписка и комиссия за обработку транзакций) составит 5 млрд долл, и еще около 6 млрд долл. будет потрачено на оплату аппаратных средств, ПО и услуг Internet-провайдеров. Что же касается всего мирового рынка голосовых технологий, его объем в 2005 году достигнет 41 млрд долл.

Если развитие голосовой коммерции и впрямь пойдет прогнозируемыми темпами, то через какое-то время значительное число существующих Internet-приложений будет дополнено речевым интерфейсом, а для вновь разрабатываемых программ его наличие станет императивом. Нам же осталось дождаться появления первого полноценного голосового портала в России. Дело, как говорится, за малым.


Речевая лихорадка

Несмотря на экономический спад в развитых странах, на рынке V-commerce активность не утихает. По следам разработчиков, предложивших первые продукты для построения голосовых порталов, и операторов, которые решились такие порталы развернуть, двинулась «тяжелая артиллерия». Одним из последних событий стало январское приобретение корпорацией Oracle разработчика голосовых порталов Indicast. Как ожидается, голосовые технологии купленной фирмы будут использованы в ПО Oracle9i Application Server и Oracle E-Business Suite, а кроме того, найдут свое место в таких онлайновых сервисах, как my.oracle.com.

Упомянутая покупка свидетельствует о явном обострении конкуренции в данном сегменте рынка. Дело в том, что в августе прошлого года Indicast заключила партнерское соглашение с IBM, в соответствии с которым молодая компания смогла использовать для создания речевых приложений платформу WebSphere Voice Server. Теперь ее передовые технологии достались конкуренту IBM.

Правда, руководство Голубого гиганта особенно не расстраивается. IBM продолжает оставаться одним из известных поставщиков речевых браузеров. Свой продукт Home Page Reader фирма выпустила на японский рынок еще в октябре 1997 года, а через некоторое время увидела свет и его американская версия. Платформа для распознавания речи и преобразования текста в речь под названием PhoneBrowser в конце 90-х годов появилась в арсенале Lucent Technologies; в функциональном отношении она является полноценным речевым браузером. Не отстает от конкурентов и корпорация Siemens. Выпущенный ею браузер Liason в первую очередь адресован пользователям, которые не в состоянии оторваться от Web-серфинга, даже оказавшись за рулем. Похожие разработки предлагают BeVocal, Philips, Phonetic Systems, SpeechWorks, VoiceMate и другие компании.

Несмотря на вступление в игру телекоммуникационных гигантов, ведущим поставщиком ПО для голосовых порталов остается калифорнийская Nuance Communications. Ее речевой браузер Nuance Voyager был создан в сотрудничестве с BT Ignite Solutions. Кроме того, фирма предлагает средства аутентификации звонящего, которые незаменимы на серверах V-commerce и в корпоративных приложениях, а также программы-автоответчики с речевым интерфейсом.

Стремясь не отстать от набирающего скорость поезда, некоторые крупные компании стали по-новому позиционировать свои продукты. Скажем, Intel опубликовала специальный документ Voice Portal Reference System, в котором она преподносит свои серверные платформы, дополненные адаптерами Dialogic и ПО обработки речи, как идеальный фундамент для развертывания голосовых порталов. А Hewlett-Packard несколько месяцев назад выпустила радикально обновленную версию ПО Netaction Application Server и предлагает ее фирмам, ищущим новые пути ведения электронного бизнеса. Телефонный оператор Z-Tel Technologies из шт. Флорида уже сообщил о намерении использовать разработку HP для организации голосового портала и предоставления сервиса универсальной обработки сообщений (Unified Messaging).

Возросшая активность производителей представляет собой реакцию на потребности рынка. Вслед за первыми голосовыми порталами MyAudiopoint, BeVocal, PhoneRun.com, Quack.com, Tellme, TelSurf и некоторыми другими аналогичные службы стали развивать хорошо известные компании. В прошлом году голосовой доступ к информации реализовали AOL и Yahoo!. В Европе голосовые порталы развернуло подразделение BT Ignite Solutions, а в Австралии фирма Timemac Solutions запустила в конце 1999 года электронную фондовую площадку для торговли ценными бумагами с использованием речевого интерфейса.

Вскоре после появления первых голосовых порталов в США (осенью 1999 года) они начали расти как грибы. Аналитики уже тогда отмечали резкое превышение предложения над спросом, утверждая, что на американском рынке есть место максимум для двух-трех крупных голосовых порталов. Эти слова оказались пророческими. После разорения нескольких фирм и череды поглощений в США осталось два явных лидера — BeVocal и Tellme. Стабильности первого способствует партнерство с операторами BellSouth и Qwest Wireless, устойчивому положению второго — ориентация на обслуживание представителей вертикальных рынков (банков, брокерских контор, страховых компаний, государственных учреждений, торговых организаций) и тесное сотрудничество с AT&T. Однако вступление в игру телекоммуникационных гигантов может привести к тому, что в течение ближайших двух лет расстановка сил очередной раз изменится до неузнаваемости.