«Собеседник» с экрана отвечает на голосовые команды и жесты пользователя, покачивая головой

«Какая погода в Токио?» С таким вопросом участник презентации обратился к Майко, трехмерному изображению миловидной девушки лет 25 на экране дисплея. «Погода в Токио? Одну минутку», — кивнула головой Майко, бросив взгляд на человека, задавшего вопрос, и занялась поиском в Internet информации о погоде в упомянутом районе.

Эта презентация состоялась во время выставки-конференции, посвященной проекту Real World Computing, где компания Sharp представила новый тип интерфейса для взаимодействия с пользователями. Эта технология составляет основу того, что в Sharp называют своим «интерфейсом мультимодального агента», который может использоваться как часть удобного коммуникативного механизма поиска в Internet. Предполагается также расширить его и использовать как интерфейс для домашних сетевых приставок.

Компания начнет выпуск коммерческих систем, использующих интерфейс этого типа, в ближайшие четыре-пять лет. Когда пользователь говорит в микрофон перед видеокамерой, которой оснащен ПК, начинается распознавание жестов говорящего и тут же формируется реакция на голос пользователя. Ответ сопровождается соответствующими наклонами и поворотами головы персонажа на экране компьютера.

Длительность движений имеет решающее значение, поскольку его адекватный выбор как раз и помогает сымитировать реальное общение. Как подчеркнул Тоширо Мукаи, инженер центра разработки системных технологий Sharp, компания достигла немалых успехов в создании генерируемых компьютером жестов экранного персонажа в нужное время, то есть сразу после обращения пользователя к персонажу, как это бывает при разговоре между живыми людьми.

Интерфейс построен на двух технологических моделях: невербальной и языковой. Первая воспринимает голос и жестикуляцию пользователя, чтобы определить момент для своевременного кивка. Вторая распознает слова пользователей и дает команду агенту отреагировать вербально и с помощью жестов.

Во время демонстрации компания также представила Габриэля, генерируемого компьютером персонажа-мужчину, который не может распознавать голосовые команды, но реагирует на голос кивком.

«Я думаю, что такое кивание — универсальная вещь. Люди, которые не говорят по-японски, попробовали работать с этой системой, и она им понравилась», — сказал Мукаи.

Сейчас Майко уже «научилась» искать информацию о погоде и программу телепередач. Запрос на информацию может быть очень подробным, например: «Какая телепрограмма будет на восьмом канале в 7 часов вечера?» Майко в состоянии также ответить на вопросы типа «какую еду вы предпочитаете?» или «вы можете поднять правую руку?». Иногда Майко просит пользователя сделать ответный жест, и если пользователь поднимает не ту руку, компьютер на это сразу указывает.

«Мы не хотели создать всего лишь замену пульту управления, — подчеркнул Мукаи, отметив, что в состав его группы входили специалисты по искусственному интеллекту. — Мы стремились в первую очередь разработать машину, которая станет другом пользователей, а не просто подготовить удобный интерфейс для сетевых домашних приставок».

Программное обеспечение интерфейса будет работать с оборудованием любого типа: например, можно установить устройство в чучело животного, и этот персонаж станет «собеседником» для одиноких пожилых людей.

Проект Real World Computing, рассчитанный на десять лет, был начат в 1992 году Министерством экономики, торговли и промышленности Японии в целях пропаганды новых информационных технологий.

Сейчас проект вступил в свою завершающую фазу, и состоявшаяся выставка была проведена с целью показать результаты исследований всех 54 лабораторий — участниц проекта из разных стран.