Большой мир Больших Данных

Большой мир Больших Данных Тематика Больших Данных сегодня чрезвычайно популярна — различным аспектам обработки данных сверхбольшого объема посвящаются специальные выпуски журналов, проводятся многочисленные конференции, а теперь вышел и номер журнала Computer, посвященный этой теме. И это очень важно, потому что в разных компьютерных сообществах термин «Большие Данные» трактуется по-разному, выделяются и решаются разные проблемы.

Приглашенными редакторами июньского номера являются Катина Майкл (Katina Michael) и Кейт Миллер (Keith W. Miller). Не секрет, что частные компании и правительственные организации нуждаются в лучшем понимании поведения и настроений людей, используя для этого различные аналитические методы: краудсорсинг, генетические алгоритмы, нейронные сети, анализ тональности (sentiment analysis) и т. д. Структурированные и неструктурированные данные собираются из многочисленных источников, включающих сенсорные сети, правительственные фонды данных, базы данных лидирующих компаний и общедоступные данные социальных сетей. Несмотря на то что интеллектуальный анализ данных в той или иной форме применяется с тех пор, как люди начали сохранять данные, так называемым Большим Данным свойственны не только большие объемы, но и наличие данных разных типов, которые никогда раньше совместно не анализировались. Для этого требуется высокая скорость обработки, экономное хранение и поддержка своевременной обратной связи с бизнес-процессами.

Со времени возникновения Сети человечество непрерывно движется в направлении расширения используемых типов данных, а также разновидностей метаданных (например, геолокационной информации). Пользователи смартфонов могут производить высококачественные фотографии и видеоролики и загружать их в социальные сети. Непрерывно растут объемы данных, накапливаемых в ходе двунаправленных взаимодействий (человек — машина и машина — машина) с использованием телемеханических и телеметрических устройств. Достижения в областях хранения и анализа данных обеспечивают возможность сохранения больших объемов данных, прямо или косвенно генерируемых пользователями, а также их анализа для получения новых знаний. Например, компании могут изучать тенденции покупательского поведения потребителей для улучшения маркетинга. Большие Данные могут помочь выявить скрытые модели поведения и понять намерения людей — устранить разрыв между намерениями людей и их реальным поведением, понять манеру их взаимодействия с другими людьми и окружающей средой. Эта информация полезна правительственным организациям и частным компаниям для поддержки принятия решений в областях охраны правопорядка, социального обеспечения, национальной безопасности и т. д.

Хотя Большие Данные могут нести исключительно полезную информацию, они порождают новые проблемы, связанные с хранением, безопасностью и требуемой продолжительностью хранения. Например, во многих коммерческих зданиях и общественных помещениях внедрены системы кабельного телевидения. В полицейских автомашинах установлены телекамеры для фиксации преследований и проверок автомобилей, данные которых используются при разборе жалоб. Многие организации экспериментируют с нательными видеокамерами для фиксации происшествий и сбора непосредственных доказательств на месте преступления с целью использования их в суде. Поскольку все эти устройства могут быстро производить огромные объемы данных, хранение которых обходится дорого, а обработка требует большого времени, операторам приходится решать, следует ли позволять камерам работать непрерывно или же фиксировать только отдельные сцены.

Большие Данные порождают новые этические проблемы. В компаниях данные используются для получения исчерпывающей информации о сотрудниках для повышения производительности и усовершенствования новых бизнес-процессов. Однако постоянная слежка за служащими может плохо влиять на атмосферу в компании. Кроме того, по мере возрастания распространенности больших наборов мультимедийных данных стираются границы между общедоступными и конфиденциальными данными. Появляющиеся онлайновые приложения, позволяющие загружать видеоданные в социальные сети в беспроводном режиме, скоро будут опираться на использование переносимых устройств — по сути, человек сам станет видеокамерой. Однако, в отличие от камер наблюдения, смартфоны и нательные устройства не обеспечивают защиты конфиденциальности, например, для невинных прохожих, которые неожиданно попали в кадр. Так, при расследовании взрывов в Бостоне несколько людей попали в число подозреваемых из-за того, что их фотографии на месте теракта были размещены на сайтах социальных сетей.

Аналитика Больших Данных может опираться на сведения о домашней, рабочей и общественной жизни людей, позволяя делать предположения о типичной «сегментации рынка» и отвечая на вопрос: к какому сегменту относится каждый отдельный человек? Последствия этого могут быть неожиданными — люди будут постоянно изменять свой образ жизни, поведение в наблюдаемых местах, чтобы защитить свою конфиденциальность. Не ведут ли Большие Данные к полностью контролируемому обществу? Или же удастся обойтись без разрушения тайны частной жизни?

Первая регулярная статья тематической подборки называется «Анализ общественного мнения для инноваций, продвигаемых данными» (Public Policy Considerations for Data-Driven Innovation), ее написала Джесс Хемерли (Jess Hemerly, Google). Термин «Большие Данные» относится не только к размеру, но также характеризует скорость, вычислительную и аналитическую мощность, требуемые для управления данными и получения знаний. Поскольку с генерацией, преобразованием, сбором, обеспечением безопасности данных и обеспечением доступа к ним связаны значительные расходы, они представляют собой ресурс, инвестиции в который огромны. А так как размер этих инвестиций продолжает расти, имеется повсеместное желание научиться правильно их использовать и найти новые способы принятия решений, совершенствования процессов и т. д. Другими словами, нужно научиться использовать данные для продвижения инноваций.

Часто можно численно оценить преимущества от использования или анализа данных — например, люди могут согласиться платить 1,99 долл, если после анализа данных производительность используемого ими приложения выросла на X процентов. Но сами по себе данные не обладают присущей им измеримой ценностью: невозможно «оценить» набор данных и присвоить ему денежную стоимость, исходя из размера или содержимого. Семантический анализ постов в Твиттере может показать тенденции развития массовой культуры или же подсказать пути выхода из конкретной кризисной ситуации. Данные бессмысленны, пока они не сравниваются с другими данными, не визуализируются в некотором контексте или не анализируются. Как говорит Эдд Дамбилл из компании O’Reilly, термин «Большие Данные» в действительности означает «разумное использование данных». Даже если этот термин когда-нибудь исчерпает себя, данные продолжат стимулировать процессы инноваций. Решения проблем будут получаться путем тщательного анализа данных и применения новых способов их интерпретации. Продукты, услуги и процессы, создаваемые под влиянием данных для продвинутых пользователей, можно называть инновациями, продвигаемыми данными (data-driven innovation). Подобные инновации являются будущим Больших Данных, но их место в обществе в конечном счете будет определяться общественным мнением.

Автором статьи «Корпоративное управление большими данными: перспективы значимости, риска и стоимости» (Corporate Governance of Big Data: Perspectives on Value, Risk, and Cost) является Пол Теллон (Paul Tallon). Во многих организациях продолжается экспоненциальный рост объемов накапливаемых и сохраняемых данных. Например, в Intel, Google и Wal-Mart сегодня хранится и используется по несколько петабайтов данных, что в сотни раз превышает объем содержимого Библиотеки Конгресса США. В среднем объемы данных, сохраняемых в корпоративных центрах обработки данных, возрастают на 40% ежегодно. В некоторых отраслях (например, в здравоохранении и фармацевтике) ежегодный рост составляет 100%. Однако, несмотря на то что этот экспоненциальный рост уже стал новой нормой, многие организации не могут ответить на два важных вопроса: зачем нужны эти Большие Данные и в чем их истинная ценность?

Расходы на сбор и хранение данных всегда оправдывались тем, что их ценность больше этих расходов, однако истинность этого предположения редко проверялась. Не имея четкого понимания ценности данных и ее изменения со временем, многие организации начинают допускать ошибки. Это может приводить к высоким техническим, экономическим и репутационным рискам. Скажем, при создании новых лекарств хранение данных клинических испытаний в ненадежных устройствах хранения не приводит к высоким расходам, но вызывает большой риск. Или же организации могут излишне много тратить на хранение не слишком ценных данных в тех случаях, когда было бы достаточно пользоваться менее дорогими системами. Проблемой, стоящей перед организациями, является разработка механизмов управления (политик и структур), которые позволяли бы балансировать расходы и риски при наличии растущих объемов данных.

Исследование, выполненное в Мэрилендском университете Лойолы, показывает, что управление данными отражает то, как организации оценивают свои информационные активы и насколько они готовы тратиться на развитие технологий хранения для защиты этих активов от различных рисков. Поскольку «безразмерные» (one-size-fits-all) решения здесь вряд ли помогут, организациям следует выбирать одно из существующих решений для управления данными, а затем модифицировать его с учетом особенностей своей прикладной области и текущих обстоятельств (рис. 1).

Рис. 1. Кривая жизненного цикла информации

Статью «Превращение Больших Данных в коллективную осведомленность» (Transforming Big Data into Collective Awareness) представили Джереми Питт (Jeremy Pitt), Айкатерини Бурацери (Aikaterini Bourazeri), Анджей Новак (Andrzej Nowak), Магда Рошинска (Magda Roszczynska), Агнешка Рыхвальска (Agnieszka Rychwalska), Инмакулада Родригез Сантьяго (Inmaculada Rodríguez Santiago), Майте Лопез Санчез (Maite López Sánchez), Моника Флореа (Monica Florea) и Михай Сандуляк (Mihai Sanduleac). Люди, живущие в физическом пространстве, нуждаются в доступе к его ресурсам и службам: воде, энергии, цифровой информации и т. д. Для этого должна разрабатываться и внедряться соответствующая инфраструктура. По мере того как информационно-телекоммуникационные технологии обеспечивают все большую автоматизацию и возрастает уровень связности сенсоров и устройств, эта инфраструктура становится «интеллектуальной», поддерживая разные роли, которые могут исполнять пользователи. Например, в умном городе пользователь может играть роль покупателя или продавца на рынке электроэнергии, участника процесса принятия решений об инвестициях в энергетику и т. д. Кроме того, исполняя данную роль, пользователи должны понимать, как их действия влияют на более крупную систему. Другими словами, они должны использовать одни и те же данные и один правовой, социальный и культурный контекст для интерпретации этих данных. Эта коллективная осведомленность является важным элементом сотрудничества сообществ, организуемых с компьютерной поддержкой.

Коллективной осведомленности можно достичь путем анализа Больших Данных, генерируемых сетевыми сенсорами и устройствами, а также пользователями (рис. 2). Технологии поиска, интеллектуального анализа данных и визуализации позволяют определять тенденции и предсказывать вид кривых изменения переменных. В свою очередь, это делает возможными коллективные действия, без которых нельзя изменить поведение сообщества для достижения желаемого результата.

Рис. 2. Интеллектуальная инфраструктура превращения Больших Данных в коллективную осведомленность

Статью «Большие сюрпризы Больших Данных» (Big Data’s Big Unintended Consequences) написали Маркус Вайгон (Marcus Wigan) и Роджер Кларк (Roger Clarke). В 1988 году был предложен способ слежки на основе данных (dataveillance, от database и suveillance), который определяется автором как «систематическое использование систем работы с персональными данными в целях расследований или мониторинга действий или коммуникаций одного или нескольких человек». Этот подход является более экономичным, чем физическая или электронная слежка.

К числу ранних методов слежки относились предварительная верификация (front-end verification) и установление соответствия данных (data matching). Важным направлением в этой области стала профилировка (profiling), позволяющая вывести из имеющихся наборов данных характеристики заданной категории людей с тем, чтобы впоследствии можно было выбрать других людей, обладающих близкими характеристиками. После появления технологии нейронных сетей и других средств генерации правил стали использоваться более масштабные процессы. Появился термин data mining (интеллектуальный анализ данных), обозначающий подход, в котором данные используются в качестве исходного сырья, а процесс состоит в раскопке этого сырья с целью извлечения малозаметных сложных, часто многомерных связей.

Выражение «Большие Данные» обычно относится не только к конкретным крупным наборам, но также и к коллекциям данных, объединяющим много наборов из нескольких источников, и даже к методам, используемым для управления этими данными и их анализа. Большими Данными первыми стали пользоваться физики, для которых вычислительный анализ и эксперименты оказались более экономными, чем традиционные дорогостоящие лаборатории. Огромные объемы данных генерируются в таких проектах, как поиск внеземных цивилизаций (Search for Extraterrestrial Intelligence, SETI), Большой адронный коллайдер (Large Hadron Collider, LHC), Квадратная километровая решетка (Square Kilometre Array) и т. п. Методы Больших Данных впоследствии стали применяться в других областях и привели к появлению вычислительной социологии. Новыми источниками данных являются сведения о местоположении из систем управления дорожным движением и из систем, отслеживающих мобильные телефоны. В последнее время идея Больших Данных захватила правоохранительные организации и структуры, обеспечивающие национальную безопасность, которые рассчитывают обеспечить более точное обнаружение криминальных и террористических элементов.

Компании и государственные организации, использующие Большие Данные, часто сталкиваются с проблемами легальности и качества данных, неоднозначности их смысла, качества процессов обработки и анализа. Это может приводить к неверным решениям, подвергающим людей большому риску. Отрицательные последствия использования Больших Данных могут сказываться не только на отдельных людях, но и на общественной жизни, экономике и политике. В статье предлагается подход, позволяющий снизить влияние этих побочных эффектов.

«Большие Данные в интенсивной терапии новорожденных» (Big Data in Neonatal Intensive Care) — последняя статья тематической подборки. Ее написала Каролин Мак-Грегор (Carolyn McGregor). Преждевременные роды со сроком беременности менее 37 недель — одна из наиболее существенных перинатальных проблем в развитых странах. Например, в Канаде от 75 до 85% случаев перинатальной смертности возникает именно в результате преждевременных родов. Отделения интенсивной терапии новорожденных обеспечивают должную терапию недоношенным и больным младенцам. Для лечения таких детей требуется клиническая поддержка сложных решений в реальном времени, опирающаяся на медицинские данные из многих источников, поскольку преждевременные роды могут вызвать у младенца различные повреждения. По мере роста ребенка опасность осложнений уменьшается, однако если недоношенного младенца не подвергнуть интенсивной терапии, проблемы со здоровьем могут остаться на всю жизнь.

Отделение интенсивной терапии новорожденных — это сложная среда, в которой решения принимаются совместно разными специалистами. Несмотря на происходящий переход от традиционных форм ведения медицинской документации к электронным формам, медицинские специалисты продолжают обсуждать большую часть клинической информации на качественном уровне из-за отсутствия инструментов, методов и политик, поддерживающих сложные, интенсивные потоки физиологических данных. Эти Большие Данные остаются неиспользуемым ресурсом, который потенциально может существенно повысить качество лечения. Поддержка клинических решений при интенсивной терапии новорожденных (и интенсивной терапии в целом) значительно выиграет от применения онлайновых аналитических платформ, опирающихся на физиологические и другие медицинские данные. В статье описывается прототип такой платформы.

Вне тематической подборки в июньском номере опубликованы две крупные статьи. Первую из них — «Конфиденциальность в социальных сетях: политика и управление» (Social Networking Privacy: Understanding the Disconnect from Policy to Controls) — написали Паулина Антонисами (Pauline Anthonysamy), Фил Гринвуд (Phil Greenwood) и Аваис Рашид (Awais Rashid). Хотя сайты социальных сетей продолжают привлекать миллионы пользователей по всему миру, в них все еще нарушается конфиденциальность данных, что приводит к неудовлетворенности и недоверию пользователей. Несмотря на многочисленные попытки исправления этой ситуации, большая часть пользователей социальных сетей так и не знает, как происходит управление их персональной информацией и как работают средства поддержки конфиденциальности. Чтобы продемонстрировать наличие средств, защищающих конфиденциальность, провайдеры социальных сетей должны показать, что средства поддержки конфиденциальности отражают установленную политику конфиденциальности.

Авторы исследовали доступные для наблюдения взаимосвязи политики и функций управления известных социальных сетей. Под политикой конфиденциальности понимались действия, выполняемые на сайте социальной сети над данными, поставляемыми пользователями. Средства поддержки конфиденциальности — это операции, предоставляемые пользователям для управления персональной информацией. Доступные для наблюдения взаимосвязи — это пользовательское восприятие взаимодействия с социальной сетью. Исследование показало наличие значительного разрыва между политиками конфиденциальности и средствами поддержки в большинстве социальных сетей.

Последнюю крупную статью июньского номера представили Е. Томас Эвинг (E. Thomas Ewing), Самах Гад (Samah Gad) и Нарен Рамакришна (Naren Ramakrishnan). Она называется «Анализ архивных газет для изучения распространения эпидемий» (Gaining Insights into Epidemics by Mining Historical Newspapers). Органы здравоохранения всегда находятся в состоянии готовности к появлению сообщений о вспышках эпидемий смертельно опасных заболеваний. Анализ документальных источников, посвященных пандемиям, может обеспечить полезные знания о способах распространения заболеваний, уязвимостях общества, действенности медицинской помощи и т. д. С этой целью в проекте, выполняемом авторами статьи, новые методы интеллектуального анализа данных применяются к корпусу оцифрованных газет, вышедших в 1918 году во время эпидемии испанки (рис. 3).

Рис. 3. Передовица газеты Колорадо-Спрингс от 5 октября 1918 года — издание сообщает о проведении медико-санитарных мер в ответ на пандемию испанского гриппа

До следующей встречи, Сергей Кузнецов (kuzloc@ispras.ru).