Интеллектуальные виртуальные ассистенты (intelligent virtual assistants, IVA) — новый мир, в котором машине можно задавать вопросы, как человеку, и просить ее выполнять различные задания. К примеру, проснувшись, можно спросить: «Какое у меня расписание на сегодня?» А перед уходом поинтересоваться: «Сколько времени потребуется, чтобы добраться до работы?» Перед ужином можно попросить заказать пиццу, а перед сном — выключить свет в спальне. В идеале в подобных взаимодействиях должны участвовать только две стороны — человек и устройство. Но так ли это?

Цифровые ассистенты становятся все популярнее: по прогнозу аналитиков Gartner, объем соответствующего рынка к 2020 году достигнет 2,1 млрд долл. [1]. Однако появляющиеся сообщения указывают на то, что популярные голосовые помощники наподобие Google Home, Apple Siri и Amazon Alexa не всегда надежны.

К примеру, в январе 2017 года шестилетняя девочка из Далласа, рассказав колонке Amazon Echo Dot о своей любви к кукольным домикам и печенью, случайно заставила ее заказать домик Kid Kraft Sparkle Mansion за 160 долл. и два килограмма сахарного печенья — к вящему изумлению родителей. Естественно, что вскоре такие заказы посыпались как из рога изобилия [2]. На следующий месяц во время суперкубка по американскому футболу рекламный ролик Google Home, в котором звучала фраза активации голосового поиска «Окей, Google», заставила разом включиться устройства многих пользователей [3]. Решив воспользоваться этой недоработкой, в апреле Burger King запустил рекламу «воппера», в котором актер, изображающий сотрудника закусочной, заявляет, что 15 секунд не хватит, чтобы описать этот бургер, и спрашивает: «Окей, Google, что такое воппер?» В ответ зрительские устройства телезрителей с голосовым ассистентом Google послушно цитировали описание бургера из Википедии, тем самым по сути удлиняя рекламу.

Рассмотрим принципы действия голосовых ассистентов, проблемы безопасности и приватности, связанные с этим новшеством, чтобы разобраться, насколько надежны эти системы. Записывают ли они наши беседы? Если да, то где хранятся голосовые данные? Стоит ли говорить, что сегодня все эти вопросы имеют общественную значимость.

Интеллектуальные виртуальные ассистенты

Голосовые помощники «выросли» из чатботов — программных агентов, беседующих с людьми с помощью текста или голоса. Самый первый чатбот, ELIZA, был разработан Джозефом Вейценбаумом в МТИ в 1966 году, через 16 лет после того, как Алан Тьюринг предложил свой тест искусственного интеллекта. ELIZA распознавала ключевые слова в набираемом тексте и выдавала заранее запрограммированные ответы, пытаясь имитировать человека. А уже в 1972 году бот PARRY, созданный психиатром Кеннетом Колби, сумел убедить ряд опытных специалистов в том, что является реальным человеком, страдающим параноидальной шизофренией.

Со временем в чат-ботах стали использовать более сложные алгоритмы, позволяющие вести вполне естественные диалоги (например, программы Alice, Jabberwocky и Cleverbot). Исследования показали, что пользователям в целом нравится общаться с программами, имитирующими человека, и несложные чат-боты стали появляться во многих системах телефонии и веб-приложениях, где они служат для клиентской поддержки, получения информации, маркетинга, обучения, развлечений и др.

Голосовые ассистенты переносят функции чат-ботов в устройства Интернета вещей, реагируя на текстовые и голосовые команды, отвечая на вопросы, включая музыку и видео, покупая товары, предоставляя рекомендации, сообщая указания по проезду и т. д. Помимо названия «интеллектуальные виртуальные ассистенты», используются термины «умный ассистент», «интеллектуальный персональный ассистент», «цифровой помощник» и т. д. В любом случае «мозг» такой системы, преобразующий речь в текст, выполняющий лингвистический анализ и затребованное действие, — это облачный сервис, а связь с ним обеспечивают агентские программы, работающие на устройствах без «интеллекта».

Ассистенты могут обмениваться данными с различными устройствами Интернета вещей, работающими под управлением совместимых операционных систем: Siri работает только с продуктами Apple — iPhone, iPad, iPod Touch, HomePod, Mac, Apple Watch и Apple TV; Cortana взаимодействует с Windows 10, Android, Xbox One, Skype, iOS, Cyanogen и Windows Mixed Reality; Alexa поддерживается продуктами семейств Amazon Echo, Fire и Dash, а также различными устройствами на Android и iOS (смартфонами, умными колонками и наушниками, наручными часами и устройствами умного дома). Google Assistant тоже работает с устройствами на Android и iOS, а недавно появился Bixby — ассистент для продуктов Samsung.

Экосистемы ассистентов

Чтобы разобраться в потенциальных рисках безопасности и приватности, связанных с ассистентами, были проведены исследования (облачный контент-анализ, пакетный анализ, тесты голосовых команд, оценка приложений и микропрограмм), позволившие лучше понять соответствующие экосистемы, как правило, состоящие из трех основных компонентов (рис. 1). В облаке находится сам ассистент — программа, которая обрабатывает текстовые и голосовые команды, а также выполняет запрашиваемые действия. На стороне пользователя имеются два компонента: устройства с поддержкой ассистента, например Echo Dot (Alexa) или ПК с Windows 10 (Cortana), и вспомогательные приложения, которые общаются с ассистентом.

Рис. 1. Экосистема интеллектуального виртуального ассистента состоит из трех основных компонентов: облачного ПО, пользовательских устройств и вспомогательных приложений
Рис. 1. Экосистема интеллектуального виртуального ассистента состоит из трех основных компонентов: облачного ПО, пользовательских устройств и вспомогательных приложений

 

Запросы, передаваемые ассистенту в текстовом формате (например, через онлайн-чат) или голосом, сохраняются в облаке вместе с ответами системы. Эти диалоги обычно доступны через вспомогательное мобильное приложение, и очевидно, что они могут содержать личные подробности — например, вопросы о симптомах болезни. Записи пользовательских голосов сами по себе создают риск приватности, поскольку являются информацией, позволяющей идентифицировать личность. Злоумышленники с помощью этих данных могут получить несанкционированный доступ к системам, реализующим распознавание, а также имитировать реального владельца.

Программное обеспечение ассистента можно встраивать в операционные системы устройств Интернета вещей: например, в iOS и OS X присутствует агент Siri, а агент Cortana — это один из системных процессов Windows 10. Во многих случаях сторонние поставщики имеют возможность соединять свои продукты и сервисы с цифровыми ассистентами, расширяя их возможности. Alexa, например, работает со многими видами техники умного дома, в том числе марок Philips Hue, Nest, Ring и Leviton. Ассистент также интегрируется с многочисленными приложениями заказа еды (например, с Domino Pizza), поточной трансляции музыки (Pandora и Spotify), вызова такси (Uber и Lyft) и получения финансовых услуг (Capital One). Всего в супермаркете Alexa Skills Store представлено более 10 тыс. приложений, управляемых голосом.

Риски безопасности и приватности

На рис. 2 показаны четыре направления атаки, способные поставить под угрозу безопасность систем и сохранность личных данных пользователя, вероятные в экосистеме, которая включает устройства с поддержкой ассистентов, а также облачные сервисы от создателей самого ассистента и сторонних разработчиков.

Рис. 2. Риски безопасности и приватности, создаваемые ассистентами: а — прослушка экосистемы ассистента; б — скомпрометированные пользовательские устройства; в — вредоносные голосовые команды; г — непреднамеренная запись голоса
Рис. 2. Риски безопасности и приватности, создаваемые ассистентами: а — прослушка экосистемы ассистента; б — скомпрометированные пользовательские устройства; в — вредоносные голосовые команды; г — непреднамеренная запись голоса

 

Прослушка

Даже если вспомогательные приложения пользуются зашифрованными соединениями, перехват трафика между ними и ассистентом позволяет выяснить особенности коммуникационных механизмов экосистемы (рис. 2, а). Например, анализ HTTPS-запросов и откликов, проведенный с помощью средств перехвата сетевых пакетов, позволил узнать, какие именно API используются для отправки и приема данных ассистента.

Анализ связи между устройствами и облачными сервисами показал, что не весь сетевой трафик передается по защищенному протоколу. Например, многие устройства не пользуются зашифрованными соединениями для проверки работоспособности связи, что позволяет обнаружить в домашней сети устройства с ассистентом. Образ микропрограммы тоже может передаваться в незашифрованной форме, что делает систему уязвимой для атак посредничества и вредоносной модификации обновлений. Даже если прошивки не изменяются, сама возможность получить их — это уже риск для безопасности, поскольку так посторонние могут разобраться в принципах работы пользовательского устройства.

Большая часть коммуникаций между устройствами и ассистентом шифруется по HTTPS, но, применяя методы машинного обучения для классификации сетевого трафика, можно определить объем полезной нагрузки, скорость передачи данных и другие показатели, по которым легко выясняется состояние устройства (например, находится ли оно в активном режиме), а также распознаются действия пользователя — в частности, можно уточнить, когда он включает и выключает устройство, прослушивает музыку и заказывает товары или услуги.

Компрометация пользовательских устройств

Будучи частью Интернета вещей, уязвимые устройства с поддержкой ассистентов могут быть скомпрометированы и использованы для DDoS-атак и достижения других неблаговидных целей. Например, в октябре 2016 года была организована DDoS-атака против сервис-провайдера Dyn, позволившая заразить вредоносом Mirai десятки миллионов уязвимых домашних устройств Интернета вещей и вывести из строя сети Dyn.

На рис. 2, б показано, как хакер, используя постоянную активность устройства с поддержкой ассистента, может скомпрометировать его и в режиме реального времени слушать все, что слышит само устройство. Данную опасность иллюстрирует случай, произошедший в апреле 2015 года, когда семейная пара из Вашингтона обнаружила, что посторонний получил доступ к видеоняне, используемой для наблюдения за их трехлетним сыном. Взломщик выяснил верительные данные удаленного доступа к устройству, общался с ребенком по вечерам через его динамик и управлял камерой. Теоретически атакующий может дистанционно управлять виртуальным ассистентом, общаясь с системой через другое скомпрометированное устройство в доме, например умную колонку или домофон.

Вредоносные голосовые команды

На рис. 2, в проиллюстрирован риск, связанный с ассистентами: атакующий имитирует пользователя и выдает вредоносные голосовые команды — например, для отпирания умной двери и получения доступа к дому или гаражу либо для заказа покупок онлайн без ведома пользователя. Хотя некоторые ассистенты способны научиться распознавать голос владельца, предотвратить подобное самозванство не всегда удается, так как похожие голоса система может и не отличить. В результате посторонний, получивший доступ к устройству, может обмануть цифрового ассистента.

Непреднамеренная запись голоса

На рис. 2, г показано, что голоса в пределах досягаемости пользовательского устройства могут быть случайно записаны и переданы в облако, что позволяет подслушивать личные переговоры третьим сторонам — например, коммерческим структурам с легитимным доступом к хранимым данным, а также злоумышленникам, которые могли бы взломать базу. Существование вероятности случайной записи означает, что пользователь не имеет полного контроля над своими голосовыми данными.

***

По мере роста интеллектуальных возможностей виртуальных помощников и расширения экосистемы взаимодействующих с ними сервисов и устройств растет необходимость в оценке связанных с ними угроз безопасности и приватности. Ряд инцидентов показал, что у цифровых ассистентов есть серьезные уязвимости, угрожающие безопасности Интернета вещей. Более совершенные средства диагностического тестирования экосистем, формирующихся на основе таких ассистентов, позволили бы выявить соответствующие слабые места и повысить надежность решений такого рода.

Литература

  1. Gartner Says Worldwide Spending on VPA-Enabled Wireless Speakers Will Top $2 Billion by 2020. Press release, Gartner, 3 Oct. 2016. URL: www.gartner.com/newsroom/id/3464317 (дата обращения: 05.12.2017).
  2. A. Liptak. Amazon’s Alexa Started Ordering People Dollhouses after Hearing Its Name on TV. The Verge, 7 Jan. 2017. URL: www.theverge.com/2017/1/7/14200210/amazon-alexa-tech-news-anchor-order-dollhouse (дата обращения: 05.12.2017).
  3. K. Opam. Google’s Super Bowl Ad Accidentally Sets Off a Lot of Google Homes. The Verge, 5 Feb. 2017. URL: www.theverge.com/2017/2/5/14517314/google-home-super-bowl-ad-2017 (дата обращения: 05.12.2017).

Хюнджи Чхун (hyunji.chung@nist.gov) — научный сотрудник отделения компьютерной безопасности NIST; Микаэла Йорга (michaela.iorga@nist.gov) — старший исследователь безопасности NIST; Джеффри Воас (j.voas@ieee.org) — научный сотрудник IEEE; Санджин Ли (sangjin@korea.ac.kr) — профессор Университета Корё.

Hyunji Chung, Michaela Iorga, Jeffrey Voas, Sangjin Lee, «Alexa, Can I Trust You?» IEEE Computer, September 2017, IEEE Computer Society. All rights reserved. Reprinted with permission.