Исследователи из Массачусетского технологического института разработали способ сопоставления данных о местоположении из разных наборов анонимизированных данных — например, из баз данных оператора мобильной связи и общественного транспорта. Метод позволяет оценить вероятность того, что данные в каждом из наборов соответствуют одному и тому же человеку. Анализ больших наборов может дать много ценной информации о том, как функционирует человеческое общество, однако важно выяснить, нельзя ли по этим данным идентифицировать передвижения конкретных людей. Предложенный авторами способ может использоваться для оценки вероятности деанонимизации данных. Исследователи искали в данных мобильной связи и общественного транспорта пользователей с совпадающими отметками положения. По мере увеличения количества совпадающих отметок вероятность того, что они принадлежат одному и тому же человеку, повышается. Данных за четыре недели достаточно, чтобы вероятность дошла до 55%, а за одиннадцать недель — до 95%. При дополнительном использовании данных GPS, собираемых приложениями смартфонов в активном или пассивном режиме, задача значительно облегчается, и для сопоставления 95% маршрутов из двух баз оказывается достаточно данных за неделю.