В то же время, анализ таких данных при условии соблюдения их анонимности помогает выявить вредоносную деятельность и повысить безопасность интернета в целом.

В корпорации Microsoft были проведены исследования и по их результатам составлен отчет, авторы которого пришли к выводу, что по одним только строкам User Agent HTTP можно идентифицировать хост с точностью 62%. Если объединить эту же информацию с IP-адресом, и точность выявления увеличится до 80,6%. В сочетании с IP-префиксом строки User Agent дают точность 79,3%.

Наибольшей точности можно достичь в том случае, если на одном хосте поддерживается несколько пользовательских идентификаторов, как это бывает, когда одним компьютером пользуются несколько членов семьи. В этом случае несколько идентификаторов с точностью до 92,8% представляют конкретный хост-компьютер.

В своих исследованиях специалисты Microsoft анализировали анонимные данные сотен миллионов пользователей Hotmail и Bing за один месяц — август 2010 года, то есть опирались на, казалось бы, добротную и полезную информацию. Они пытались выяснить можно ли на основании некоторого фрагмента данных протокола точно выявить конкретный хост.

Они убедились, что даже из анонимных данных можно извлечь значимую информацию. Например, при замене IP-адреса на его IP-префикс, остается еще достаточно информации, которая в сочетании с другими данными, обычно указываемыми при входе на сайты, позволяет выявить хост. «Даже достаточно грубая обработка IP-префиксов дает ту же точность выявления хостов, как и данные об IP-адресах, если объединить их с хешированными строками User Agent», — пишут авторы отчета.

Они проанализировали данные о событиях уровня приложения, направленных на веб-серверы в сетях Hotmail и Bing.

По данным Hotmail была проведена обработка данных об операционных системах и типах браузеров, исходных IP-адресах, времени сессии и анонимных идентификаторов пользователя. Из Bing были собраны анонимные строки User Agent HTTP, исходные IP-адреса запросов, время запросов, анонимные cookie, выпускаемые Bing и даты создания cookie.

Исследователи поставили перед собой задачу определить, какой объем идентификационной информации можно установить по наиболее общим идентификаторам. Они не пытались выявить конкретные действия пользователей, а понять, к каким последствиям могут привести те или иные шаблоны поведения.

Они использовали данные строго в рамках политик конфиденциальности Microsoft, в том числе соблюдая требования, что данные не могут быть переданы исследователям из других организаций.

Было установлено, что провайдеры сервисов могут распознать 88% устройств, которые получают cookie, удаляют cookie и затем возвращаются на сайт, если дополнительно проализировать другие идентифицирующие факторы, собранные в ходе установки соединения. Даже если пользователи используют режим приватного просмотра браузера, рассчитанный на защиту их идентификационной информации, их все равно можно идентифицировать, утверждают исследователи.

«Предложение наших аналитиков состоит в том, что если вы не хотите, чтобы вас отследили, не следует ограничиваться только удалением cookie, — говорится в отчете. — При определенных обстоятельствах удаление cookie, напротив, помогает идентифицировать хост. Нетривиальные действия, такие как удаление cookie для каждого запроса, выделяют хост из числа других».

Специалисты дали несколько советов по сохранению анонимности.

  • Используйте браузер с популярными строками User Agent, устанавливаемыми по умолчанию, что уменьшает их ценность для определения именно вашей машины.
  • Даже при использовании анонимных анонимизации, таких как Tor, пользуйтесь инструментами, например, Torbutton, для управления идентификационной информацией.
  • Старайтесь выходить в Интернет через прокси-серверы.