Ненадежные данные — неверные решения | Windows IT Pro/RE | Издательство «Открытые системы»

Гарри Трумэн с экземпляром газеты Chicago Daily Tribune, вышедшей под заголовком «Дьюи победил Трумэна» (Dewey defeats Truman). Сопернику Трумэна Томасу Дьюи повсеместно предсказывали победу, и часть тиража чикагской газеты увидела свет до того, как окончательный подсчет голосов показал, что выборы выиграл Трумэн (http://dic.academic.ru/dic.nsf/ruwiki/376877).

Контраст между результатами опросов и собственно итогами президентских выборов в США 2016 года со всей очевидностью продемонстрировал тот факт, что, хотя вы можете располагать самыми лучшими средствами визуализации и в вашем распоряжении могут быть самые современные алгоритмы, на основе недостоверных данных вы можете получить только ошибочные результаты. Есть личные ответы, высказывавшиеся участниками опросов. И есть косвенные данные, получаемые на основе наблюдения за поведением и реляционных связей с другими метриками. Так вот, до тех пор пока службы общественного мнения будут полагаться на первые, недооценивая вторые, мы не будем располагать данными опросов, на основании которых можно строить корректные предположения. Все дело в проблеме, о существовании которой мы знаем на протяжении десятков лет, но в ходе каждого избирательного цикла отвлекаемся от ее решения. У нас появилась уверенность, что благодаря прогрессу в таких областях, как технологии, аналитика, машинное обучение, а также с учетом самого объема собранных сведений наш анализ данных опросов, полученных на протяжении пары последних лет, станет точнее.

Знаем на протяжении десятков лет?

Да. С 80-х годов прошлого века.

Эффект Брэдли

Эффект Брэдли — это теория, объясняющая несоответствие суждений, высказываемых избирателями в ходе опросов общественного мнения, их реальному голосованию в случаях, когда выбирать приходится между двумя кандидатами: белым и афроамериканцем. Данное явление получило свое название по имени бывшего мэра Лос-Анджелеса Тома Брэдли, предпринявшего в 1982 году неудачную попытку добиться избрания на пост губернатора Калифорнии. Афроамериканец Брэдли занимал лидирующие позиции в опросах общественного мнения на протяжении практически всей избирательной кампании, но в конечном итоге проиграл белому оппоненту. Эффект Брэдли приводит к тому, что опрашиваемые граждане чаще всего дают интервьюерам ответ более политкорректный, чем их истинное мнение (или действие); вероятнее всего, избиратель скажет, что проголосует или проголосовал за кандидата от меньшинства, тогда как на самом деле он намеревается — или фактически голосует — за белого или «более традиционного» кандидата. Кроме того, если респондент и опрашивающий встречаются лицом к лицу, на ответ влияют и поведение интервьюера. Между расовыми различиями кандидатов, боровшихся за пост губернатора Калифорнии в 1982 году, и половым различием кандидатов в президентской кампании 2016 года можно провести прямую аналогию. Более подробную информацию об эффекте Брэдли можно найти в статье по адресу: https://en.wikipedia.org/wiki/Bradley_effect. Принимая во внимание эффект Брэдли, можно сказать: опрашиваемые граждане склонялись к тому, чтобы заявить о своей поддержке Клинтон, поскольку не хотели, чтобы их причислили к противникам избрания женщины на пост президента. Подобным же образом можно провести параллель, хотя и не столь очевидную, между кампанией Брэдли и кампанией 2016 года, на этот раз не связанную ни с расовыми, ни с половыми различиями. Опрашиваемые не хотели казаться людьми, поддерживающими человека с той историей и репутацией, которую, по сообщениям печати, имеет Дональд Трамп.

Как исправить положение?

Как «технарь» и человек с 20-летним опытом работы с данными, я полагаю, что мы можем искать выход с использованием технологии — в первую очередь Интернета вещей (iOT). Я убежден, что если при организации опросов общественного мнения нам удастся абстрагироваться от эмоций и сосредоточиться на получении заключений через действия, то мы сумеем повысить обоснованность своих прогнозов. Что я понимаю в данном случае под действиями? Я считаю, что мы можем устанавливать соответствие между тем, что избиратели делают, и тем, как они голосуют.

Трудность здесь состоит в установлении соответствия между наборами демографических данных, ассоциированными с конкретным избирателем или классом избирателей, и данными, собранными из Интернета вещей, вокруг которых мы, возможно, сможем построить алгоритм, позволяющий выявить, как граждане, которые выполняют действия X1, X2, X3, Xn, на самом деле голосуют. Если эта задача будет решена, мы сможем делать заключения относительно итогов голосования отдельных категорий граждан не на основе их эмоциональных ответов, продиктованных желанием представить себя в более выгодном свете или стремлением сообщить интервьеру то, что тот хочет услышать, а на основе коллективной истории выполнения ими определенных действий. Затем можно будет сопоставить демографические данные, полученные от опрашиваемого населения, с демографическими данными кандидатов и построить алгоритмы для получения более основательных заключений.

Разумеется, я излагаю свою мысль в упрощенном виде. Главная трудность при реализации этой модели состоит в том, как обеспечить защиту конфиденциальности персональных данных. Как отследить и зафиксировать эти действия, а затем привязать их к конкретным людям, не раскрывая их личности? Она не в том, как мы строим эти алгоритмы или получаем результаты. Будет любопытно посмотреть, сможем ли мы подойти к подобным решениям в условиях развития Интернета вещей, машинного обучения, аналитических алгоритмов и темпов изменений, отмечавшихся на протяжении последних четырех лет. Подозреваю, что мы несомненно станем свидетелями радикальных изменений процедур, с помощью которых измеряем настроения избирателей и, что еще более важно, с помощью которых собираются эти данные.

Ну а если я ошибаюсь… Через четыре года вы увидите на этих страницах еще одну мою заметку о том, что мы постоянно забываем об уроках, которые по идее должны были бы извлекать.