Забудьте про конфиденциальность персональных данных

В середине 90-х в странах Евросоюза законодатели вознамерились проявлять заботу о защите персональных данных (Personally Identifiable Information, PII) отдавшего им свои голоса населения. Народные избранники, судя по текстам принятых ими законов, считают персональными данными «любую информацию, относящуюся к определенному или определяемому на основании такой информации физическому лицу, в том числе: фамилию, имя, отчество; год, месяц, день и место рождения; адрес, семейное, социальное, имущественное положение, образование, профессию, доходы и другую информацию (паспортные данные, финансовые ведомости, медицинские карты, биометрию и т. д.)». Все эти сведения сегодня — секрет Полишинеля; конечно, их стоило бы сохранять, но на практике, за редким исключением, они давно стали достоянием общественности. А вот четкого представления о том, что именно надо понимать под PII, нет, поэтому сколько законодательных и регламентирующих актов, столько и определений PII. Доступность собственно PII особой угрозы не представляет, нестрашно, что кто-то узнает ваш адрес или телефон, — угроза возникает в случаях, когда PII используются как идентификатор для доступа к различного рода изменяемым базам данных, содержащим критически важную личную информацию.

Как бы мы того ни опасались, сегодня из разных источников можно собрать намного больше данных о человеке, чем содержится в любых PII. Количество сведений, которые распространяет о себе современный человек, растет по экспоненте. Где бы мы ни были, что бы ни делали (от заказа такси для поездки в аэропорт до сдачи отчета по командировке), мы оставляем информационные следы, которые можно собрать, проанализировать и сделать выводы.

Данные о гражданах собираются в учреждениях двух типов. Меньшая их часть делает эту работу сознательно и профессионально; раньше, когда сбором данных занимался совсем узкий круг специфических организаций, такой тип данных называли досье и хранили в папках за толстыми дверьми. Для существенно большей части обладателей цифровых архивов (провайдеры, медучреждения, сфера услуг и т. п.) сбор данных является необходимой составляющей их бизнеса. Для первых главное — неразглашение, а вторые обязаны делиться тем, чем они владеют, но при этом не нарушая прав личности.

Профессионалы от данных

Сбором личных данных на профессиональном уровне заняты серьезные компании, о многих из которых обыватель не знает ничего. Одна из них — американская Acxiom, с ней было связано несколько крупных скандалов, из-за которых она вышла из тени. Аккумулирование личных данных в чьих-то руках опасно по ряду причин. Во-первых, всегда есть вероятность хищения (и такие случаи были в истории Acxiom) — в руки злоумышленников могут попасть не невинные паспортные данные, а сведения о состоянии здоровья, о личной жизни и многое другое. Во-вторых, кто может гарантировать, что эти сборщики данных используют их на пользу себе, а не во вред окружающим? Но об этих сторонах их деятельности обычно не говорят. У Acxiom есть легальное лицо — в публичных документа заявляется, что ее основной бизнес состоит в сборе, обработке и поставке крупным компаниям необходимой им маркетинговой информации и для этой цели компания осуществляет различные виды обработки клиентских данных. Штат Acxiom насчитывает более 6 тыс. сотрудников, годовой оборот — более 10 млрд долл. В 2011 году аналитики Forrester назвали ее одним из крупнейших в мире операторов баз данных и поставщиков коммерческой информации. Но это только видимая часть айсберга — в американской прессе Acxiom характеризуют как «одну из самых больших компаний из числа тех, о которых вы никогда не слышали». А услышав, изумитесь и невольно подумаете о том, кто занимается аналогичной деятельностью в вашей стране.

До 2000-х о деятельности формально учрежденной в 1969 году Acxiom было известно немного. По существу, Acxiom — технологический наследник давно исчезнувшей компании Inslaw. Достоверно восстановить то, как именно она заполучила это наследие, и все другие перипетии последующего более чем двадцатилетнего периода крайне сложно. Таинственность и недоговоренность, скандалы, связанные с коррупцией и с именами крупных политиков, непонятная роль спецслужб... И во все это оказалась вовлечена вроде бы совсем невинная софтверная компания Inslaw. Почему?

Институт социальных и правовых исследований Inslaw (Institute for Law and Social Research) основал в 1974 году Билл Хэмилтон, бывший аналитик Агентства национальной безопасности, самой скрытной из американских спецслужб. Согласно открытым данным, АНБ специализируется на получении информации техническими методами, в ведении агентства все виды электронной разведки, средства защиты данных и криптографии. Хэмилтон изначально работал по заказу и на средства одного из подразделений Минюста США. Inslaw разрабатывала ПО, предназначенное для поддержки деятельности судебных процессов. Помимо нее в этом сегменте работали еще несколько компаний, но она со своим программным продуктом Promis (Prosecutor's Management Information System), как следует из названия, предназначенным для поддержки обвинителей, оказалась успешнее прочих. Источником финансирования разработки продукта был грант федерального правительства, поэтому ПО было доступно для свободного использования госорганизациями США, но без права изменения. Однако Хэмилтон сделал больше, чем от него хотели, и, вероятнее всего, использовал какие-то наработки из АНБ, позволявшие, подобно современным аналитическим системам, превращать сырые данные в полезную информацию.

В отличие от конкурентов, Хэмилтон создал не просто систему, решающую задачу интеграции различных по формату баз данных, — Promis по своей функциональности попадает в категорию «систем, отслеживающих людей». Например, обвинитель мог использовать Promis для подготовки к противостоянию с тем или иным адвокатом, выяснив, в каких процессах тот принимал участие, его связи с преступным миром, готовность идти на подлог и тому подобное. Программа, насчитывающая более полумиллиона строк кода, свободно распространялась на имевшемся в то время парке машин Burroughs, Prime, Wang и IBM, а также на DEC PDP. Камнем преткновения стала созданная в 1983 году версия Enhanced Promis, работавшая на самой мощной по тем временам мини-ЭВМ DEC VAX. Проблема возникла, как обычно, из-за денег — разработка спонсировалась частными фондами, поэтому Хэмилтон решил выйти из союза с Минюстом и распоряжаться ПО самостоятельно, на коммерческих условиях. Реакция Минюста была показательной для правового государства — министерство попросту выкрало эту версию программы и стало распространять, как бы сегодня сказали, ее «пиратскую копию». После кражи, в чем признавались впоследствии многие участники, начался неравный судебный процесс — обладавшее большей силой ведомство победило в борьбе, закончившейся банкротством Inslaw в 1987 году. Судебные разбирательства продолжались вплоть до 2005 года, но Хэмилтону не удалось доказать своей правоты.

Однако, скорее всего, глубинная причина поражения Хэмилтона в том, что он умудрился создать оружие разрушительной силы, которое невозможно удержать не будучи членом клуба сильных мира сего. Затем в истории Promis открылась еще одна сторона, главным действующим лицом которой стал таинственный израильский доктор Бен Орр, он же Рафаэль Эйтан, — один из самых выдающихся военачальников Израиля, человек фантастической биографии. К 1983 году Эйтан формально ушел в отставку, но активно занимался внешней и внутренней политикой, к тому же выполнял некоторые специальные миссии. В этом качестве Эйтан побывал в Inslaw, сразу все понял и после визита наведался в Минюст и уехал оттуда с магнитной лентой, на которую был записан пиратский Promis. Так началась еще одна жизнь этого программного продукта. По некоторым оценкам, его удалось заполучить более чем 60 спецслужбам разных стран. Есть данные, что программа использовалась даже террористическими организациями. Известно, что в конце 90-х Promis применяли советники Бориса Ельцина для отслеживания связей людей из его окружения. Возможно, утечка Promis происходила не случайно: большая часть использованных пиратских копий была намеренно модернизирована неким Мишелем Рисончито, программистом с сомнительной репутацией, который признавался, что вставил в программу лазейку, позволявшую контролировать работу пиратской версим Promis из центра, расположенного в США.

Специализирующийся на разного рода расследованиях журналист Дэнни Касоларо хотел было написать книгу об Inslaw, назвав ее Octopus («спрут»), но в 1991 году был убит при невыясненных обстоятельствах. Все это настолько нетипично для компьютерной индустрии, обычно стоящей вне политики, что за расследование дела Inslaw взялся журнал Wired, который обычно пишет о влиянии компьютерных технологий на культуру, экономику и политику, однако и такому авторитетному изданию достоверно разобраться в этом деле не удалось.

Сегодня Acxiom принадлежит частному семейному инвестиционному фонду Stephens, одному из крупнейших в Америке. В период работы Хэмилтона в Inslaw фонд возглавлял Джексон Стивенс, близкий друг американских президентов, заслуживший титул «творца королей». Так или иначе Promis попал в Acxiom, которая использовала его при создании по заказу Пентагона информационной системы Total Information Awareness, позже переименованной в Terrorism Information Awareness. Утверждается, что Acxiom располагает сведениями о 80% населения Великобритании и США, а американское правительство неоднократно использовало технологии Promis при расследовании серьезных инцидентов — например, с помощью этой системы были выявлены сведения об 11 из 19 террористов, участвовавших в трагических событиях 9 сентября 2001 года. С системой работали, в частности, Генри Киссинджер, Хиллари Клинтон и многие другие.

Анонимизация и деанонимизация

Описанные шпионские страсти уходят корнями в 70-е, однако к сегодняшнему дню мир сильно изменился, перейдя в эпоху господства третичного сектора экономики (первичный — добыча и переработка сырья, вторичный — производство промышленных изделий). Главные составляющие этого сектора: финансы, транспорт, связь, торговля, туризм, здравоохранение и другие виды услуг. При всем разнообразии эти индустрии объединяет обязательная поддержка цифровыми технологиями, и, для того чтобы быть эффективными и конкурентоспособными, они с неизбежностью персонифицируются, что предполагает сбор всякого рода личных данных: медицинская, финансовая, страховая история и другие истории пользования теми или иными услугами и участия в социальных сетях. И тут возникает коллизия — непонятно, как наладить продуктивную работу, но при этом сохранить хотя бы видимость конфиденциальности клиентских данных.

Большинство компаний, собирающих персональные данные, заверяют своих клиентов в том, что они обеспечивают абсолютную надежность хранения сведений, а если что-то ими и разглашается, то только в форме, по которой персональная идентификация клиентов невозможна. В целом публикации данных требует доктрина открытого правительства, которая поддерживает право граждан на доступ к документам и действиям государства с целью эффективного общественного контроля за государственным регулированием. Все большую силу набирает идея открытых данных, предполагающая, что определенные сведения должны быть свободно доступны для всех, кто этого желает, без каких-либо ограничений. В качестве типичного примера можно привести сайт «Открытые данные о правоохранительной системе» (police.opengovdata.ru).

При раскрытии данных частные предприятия и госструктуры прибегают к анонимизации данных (data anonymization) или лишению идентификационных признаков (de-identification), делая доступными извне только подчищенные документы (limited data set) без персональных и других сведений, позволяющих указать на человека или нарушить права его личности. Подобные усеченные данные могут быть полезны для проведения социальных исследований, организации службы здравоохранения и других общественно важных инициатив, однако многие эксперты убеждены, что такая подчистка бесполезна и существуют средства, способные свести ее на нет. Одно из них получило название «деанонимизация» (de-anonymization) и служит для сопоставления и анализа данных из различных источников. Особой уязвимостью по отношению к атакам отличаются социальные сети — методами анализа текстов совсем не сложно идентифицировать человека: текст индивидуален, каждый человек использует довольно ограниченный набор слов, сложившийся под влиянием образования, окружения и других факторов.

Возможно, вопросами деанонимизации первой заинтересовалась Латиния Свини, возглавляющая сейчас лабораторию The Data Privacy Lab в Университете Карнеги – Меллона. Примерно 15 лет назад она провела сравнение двух баз данных (см. рисунок): медицинской базы после процедуры анонимизациии и списка для голосования. До этого она показала, что всего по трем показателям: пол, индекс и дата рождения можно идентифицировать 87% населения США. Это подмножество данных находится на пересечении двух баз, но в списке избирателей персональные данные открыты, а в очищенных медицинских базах — нет.

Сравнение медицинской базы после анонимизациии и списка для голосования

Вторым аналогичным эпизодом стало дело провайдера America Online, который в 2006 году опубликовал результаты исследования по анализу поисковой активности своих клиентов. На сайт компании было выложено более 20 млн запросов от 650 тыс. пользователей, и, не прибегая к сложным манипуляциям, группе блогеров и журналистов удалось персонифицировать ряд пользователей. Но самым нашумевшим событием из этого ряда стал анализ списка Netflix Prize — открытого конкурса на лучший алгоритм предсказания зрительской оценки фильмов. Соревнование Netflix организует компания, специализирующаяся на аренде видео и работающая с 1997 года. Клиенты выставляют просмотренным фильмам оценки от 1 до 5, и с течением времени Netflix накопила огромную базу данных, содержащую более миллиарда оценок, на основе которых компания рекомендует своим клиентам фильмы. Аспирант Арвинд Нарайянан и его научный руководитель Виталий Шматиков из Техасского университета использовали опубликованные оценки как материал для собственного анализа. Сама компания формально поступила честно, заменив имена клиентов их условными номерами, что, казалось бы, обеспечивало анонимность. Однако имеется еще одна, не менее популярная база Internet Movie Database (IMDb), которой владеет Amazon.com, и любой зарегистрированный посетитель сайта может голосовать за фильмы, выставляя им рейтинг. Нарайянан и Шматиков сделали нечто подобное тому, что и Свини, — соотнесли рейтинги и получили персоналии. Свой опыт они описали в статье; естественнно, разгорелся скандал.

Арвинд Нарайянан, ставший классиком деанонимизации, резюмирует: «Мы подошли к моменту, когда анонимизация становится алгоритмически невозможна».

Часть вторая — оптимистическая

Из первой, пессимистической, части следует огорчительный вывод — человечество вступает в период развития, когда права личности находятся под постоянной угрозой, исходящей от организаций, экспроприирующих персональные данные и превращающих их в политический или настоящий капитал. Они могут и впредь продолжать эту работу в случае молчаливого согласия населения, однако, как показывают события последнего времени, намечаются пути для противостояния — один в форме политической борьбы за права личности, а второй в виде перехвата инициативы в бизнесе.

Первым, кто в конце 2012 года начал публичное сопротивление узурпации личных прав и свобод со стороны брокеров данных и разного рода провайдеров, оказалась Бонни Ловенталь, член законодательного собрания штата Калифорния. Она выступила с местным законопроектом Right to Know Act (AB 1291) — «Акт о праве на знание». Суть законопроекта — в утверждении права человека на получение информации о том, какие именно сведения бизнес собрал о нем и как он намеревается их использовать в последующем. После первого обсуждения дебаты по поводу AB 1291 перенесены на 2014 год по двум основным причинам. Первая — законопроект сырой, осталось много естественных вопросов по составу данных, их размерам, контролю за достоверностью разглашаемых сведений и т. п. Вторая — сопротивление со стороны тех, кому новый закон создаст неудобства.

И вот что интересно, на инициативу AB 1291 немедленно отреагировала компания Acxiom, уже известный нам крупнейший в США коллектор и брокер персональных данных, заявившая, что в течение года предоставит сервис, позволяющий всем желающим найти относящиеся к ним записи, но без удаления нежелательных для гражданина данных. Что же касается вроде совсем невинных и полностью гражданских компаний типа Facebook, Google, Microsoft и других, то на словах все они поддерживают идею прозрачности накопленных ими персональных данных, но проявляют заботу о народонаселении и хотят видеть новую регулирующую норму более «работоспособной». Нетрудно догадаться, чем они руководствуются. Юристы Американской ассоциации за гражданские права в Калифорнии, консультирующие Ловенталь, недавно выпустили документ, где разобраны доводы этих компаний, в нем со всей очевидностью показано, что за большинством контраргументов кроются корпоративные интересы.

Суть происходящего со всей полнотой раскрыта в отчете The value of your digital identity, подготовленном Boston Consulting Group, название которого можно перевести как «ценность вашей цифровой персоны». Отчет содержит более полусотни страниц, но вывод достаточно банален — ценность данных об одном отдельно взятом среднем человеке почти нулевая, и распорядиться ею в одиночку практически невозможно. Здесь действует так называемый эффект одного ботинка: за редким исключением обладание одним левым или одним правым бесполезно. Иное дело, когда сапог очень много.

Чтобы как-то воспрепятствовать неправомерной деятельности, людям надо объединяться и самим становиться хозяевами своих данных. Появляется новый бизнес с простой идеей — раз уж сохранить конфиденциальность невозможно, то тогда нужно предоставить человеку возможность самому накапливать собственные данные, контролировать их состав и содержание, а быть может, и получать какие-то дивиденды за предоставление этих данных. Сегодня известно несколько проектов класса data locker, своего рода камер хранения для данных, — коммунального ресурса с индивидуально контролируемым доступом. Такого рода бизнесом занимается, например, компания Reputation.com, которая, помимо этого, может предлагать новые типы сервисов. Она помогает противодействовать такому явлению, как weblining, возникшему по аналогии с redlining, или «практикой красной черты», суть которого в отказе от кредитов на основании данных, собранных частным образом. Существуют законодательные нормы, препятствующие такой практике, и вот дошла очередь и до данных, собираемых в Сети. Несколько компаний, подобных Reputation.com, образовали Personal Data Ecosystem Consortium.

До недавнего времени казалось, что бизнес, связанный с сервисами «на персональных данных», остается уделом узкого круга компаний. Но вдруг выяснилось, что туда же движется корпорация Intel, которая объявила о новой инициативе Data Economy, преследующей своей целью помочь людям в получении пользы от их личных данных. Корпорация спонсирует сайт We the Data, с поддержкой которого активно выступает известная в области гуманизации данных компания Vibrant Data Labs.