Технологии больших данных приобрели сегодня существенную ценность для бизнеса. В течение нескольких последних лет компании наперегонки запускают проекты, осваивают новые методы выявления наиболее ценной информации из доступных им массивов данных. Увеличение продаж, сокращение издержек, уменьшение рисков, повышение операционной эффективности — вот лишь некоторые успехи, полученные благодаря обработке больших данных при решении бизнес-задач. Технологии обработки больших данных применяются в самых разных отраслях: телекоммуникационной, финансовой, в розничной торговле, здравоохранении, информационных технологиях и многих других. Вместе с тем одним из самых существенных ограничений проектов в области больших данных аналитики называют риски информационной безопасности.

Безопасность для проектов больших данных — это не только вопрос обеспечения доступности информации. Данные, которые служат источником для анализа, как правило, содержат чувствительную для бизнеса информацию: коммерческую тайну, персональные данные. Нарушение конфиденциальности работы с такими данными может обернуться серьезными проблемами, среди которых штрафы со стороны регуляторов, отток клиентов, потеря рыночной капитализации.

Другой существенный вызов проектов больших данных — обеспечение целостности как анализируемых данных, так и полученных при их обработке результатов, представляющих коммерческую ценность.

Поводов для беспокойства немало. Сообщения об утечках поражают воображение: в первом полугодии 2017 года во всем мире, по версии Gemalto, произошла утечка более 1,9 млрд записей, по версии InfoWatch — до 7,78 млрд записей, что в разы превышает показатели прошлого года. Если не уделять должного внимания вопросам безопасности, то проекты в области больших данных способны увеличить объемы утечек на порядок.

Текущие подходы к обеспечению защиты технологий больших данных, как правило, основаны на использовании разрозненных мер при отсутствии единой концепции защиты. Сегодня нет четко сформулированных методов, описывающих систематизированные этапы и действия по защите больших данных, структурированных и неструктурированных, для которых характерны свои технологические особенности сбора, агрегирования, хранения и анализа. Требуются подходы, ориентированные на защиту критичных данных на всех этапах их обработки — от сбора и передачи до анализа и размещения в хранилищах.

В работу по стандартизации действий по защите больших данных вовлечен целый ряд ведущих институтов стандартизации: Международная организация по стандартизации и Международная электротехническая комиссия (ISO/IEC), Международный союз электросвязи (ITU), Британский институт стандартов (BSI), Национальный институт стандартов и технологий США (NIST). Вопросам защиты больших данных уделено особое внимание и в разделе «Информационная безопасность» госпрограммы «Цифровая экономика Российской Федерации»: соответствующие проекты национальных стандартов должны быть разработаны уже к концу 2018 года.

Дальше всех продвинулся NIST, предложивший спецификацию Interoperability Framework V1.0 [1], которая включает документы с описанием всех аспектов работы с большими данными: «Definitions»; «Taxonomies»; «Use Cases and Requirements»; «Security and Privacy»; «Architecture White Paper Survey»; «Reference Architecture»; «Standards Roadmap». Этот набор содержит методологию, которая затрагивает также вопросы информационной безопасности, вводя концептуальную модель архитектуры больших данных, нейтральной по отношению к поставщикам, технологиям и инфраструктурным особенностям проектов. Концептуальная модель NBDRA (NIST Big Data Reference Architecture) представляет собой систему больших данных, состоящую из пяти логических функциональных компонентов, связанных интерфейсами функциональной совместимости (рис. 1).

Рис. 1. Концептуальная модель архитектуры больших данных по версии NIST
Рис. 1. Концептуальная модель архитектуры больших данных по версии NIST

 

В разделе «Security and Privacy» рассматриваются различные аспекты информационной безопасности, приводятся примеры реализации проектов в различных отраслях с перечнем их недостатков, дается классификация основных направлений защиты, описываются роли и операции. За вопросы безопасности и конфиденциальности отвечает среда NBDRA Security and Privacy Fabric, охватывающая все основные компоненты архитектуры. NIST изначально рекомендует сфокусироваться на обеспечении безопасности и конфиденциальности данных на всех технологических уровнях их обработки, охватывая пять основных интерфейсов взаимодействия с данными.

Интерфейс взаимодействия между провайдерами данных и провайдерами приложений. Одна из особенностей систем больших данных — импорт и использование разнообразных данных из различных внутренних и внешних источников, поэтому все поступающие данные в режиме реального времени должны проверяться на целостность и отсутствие вредоносных признаков.

Интерфейс взаимодействия провайдера приложений и потребителей данных. Потребители в системах больших данных — это конечные пользователи или другие системы, выполняющие поиск, анализ, визуализацию и другие операции на основе этих данных. Все интерфейсы доступа потребителей к информации должны быть защищены и обеспечивать конфиденциальность в соответствии с положениями законодательства, в том числе предусматривать доступ к чувствительным данным со стороны органов власти.

Интерфейс взаимодействия провайдера приложений и платформы работы с большими данными. Платформы больших данных обычно имеют сложную многоуровневую структуру и часто предусматривают использование различных технологических подходов к хранению и обработке данных. Очень важно реализовать контроль доступа при взаимодействии с платформой больших данных, чтобы гарантировать доступ к данным в соответствии с правилами разграничения доступа. Данные могут храниться и извлекаться с применением шифрования.

Защита данных при внутреннем взаимодействии различных технологий и платформ больших данных. Платформа больших данных, как правило, состоит из инфраструктурной платформы, платформы хранения структурированных и неструктурированных данных и платформы обработки данных. Поэтому обеспечение защиты платформы больших данных — весьма трудоемкий процесс: необходимо обеспечить безопасность обработки в распределенных программных системах, защиту информации в базах средствами различных СУБД; должны быть защищены данные и журналы транзакций; для контроля доступа и отслеживания ключей нужно предусмотреть управление ключами. Кроме того, для обеспечения надлежащего контекста безопасности и функционирования данных на каждом этапе важно гарантировать легитимность происхождения данных, а для обеспечения их доступности требуется предусмотреть меры противодействия DoS-атакам.

Защита средств управления системой больших данных. Средства управления системой больших данных предоставляют широкие возможности для внедрения механизмов безопасности, позволяющих осуществлять мониторинг в режиме реального времени состояния компонентов, управление правилами разграничения доступа, идентификацию источников данных и др. Однако требуются дополнительные меры по защите самих средств управления такой системой — именно они представляют особую ценность для нарушителей.

В качестве примера практической реализация требований Interoperability Framework специалисты NIST указывают на разработки альянса Cloud Security Alliance (CSA) [2] и рекомендуют сосредоточиться на четырех направлениях защиты (рис. 2): безопасности инфраструктуры; конфиденциальности данных; управлении данными; целостности и процедурах реагирования.

Рис. 2. Классификация направлений защиты системы работы с большими данными
Рис. 2. Классификация направлений защиты системы работы с большими данными

 

Безопасность инфраструктуры. Использование технологий и платформ обеспечения производительности, масштабируемости и доступности баз данных. Реализация высокой доступности ресурсов. Защита платформ взаимодействия разработчиков и информационно-технологического обслуживания (DevOps).

Конфиденциальность данных. Анализ влияния социальных данных на безопасность и конфиденциальность при реализации проектов больших данных. Защита данных независимо от того, где они хранятся или используются. Обеспечение конфиденциальности и управляемости больших данных (инвентаризация и классификация данных, использование технологий маскирования данных, формирование политик управления и правил доступа к данным).

Управление данными. Защита хранилищ данных (списки контроля доступа, защита интерфейсов программирования приложений, защита механизмов доступа к базам данных). Управление ключами и реализация прозрачности процесса жизненного цикла данных.

Целостность и процедуры реагирования. Аналитика больших данных для выявления вредоносной деятельности и понимания состояния систем обработки больших данных. Детектирование событий безопасности и реагирование на обнаруженные угрозы. Выявление, анализ и расследование инцидентов. Безопасность результатов аналитики.

Основой для реализации проектов по защите систем больших данных должен быть подход Data-Centric Security, предусматривающий комплексное решение соответствующих вопросов. Современные методы реализации бизнес-процессов уже выходят за пределы инфраструктурных границ компании или организации: использование мобильных устройств в рамках подхода BYOD, облачных и гибридных сервисов, а также передача корпоративных данных подрядчикам и клиентам размывают границы предприятия. Подход, ориентированный на защиту данных, предписывает строить систему обеспечения безопасности с учетом ценности данных. Ключевые этапы такого подхода приведены на рис. 3.

Рис. 3. Основные этапы подхода Data-Centric Security
Рис. 3. Основные этапы подхода Data-Centric Security

 

При реализации проектов по защите систем обработки больших данных предприятия нередко сталкиваются с нехваткой специализированных решений. Конечно, миллиардный рынок не может не притягивать внимание — здесь присутствуют такие компании и организации, как Apache Software Foundation, Informatica, HPE, Gemalto, Imperva и др., которые предлагают универсальные платформы или инструменты, ориентированные на решение конкретных вопросов защиты данных. Однако проекты в области анализа больших данных всегда носят комплексный характер, и стек используемых технологий, определяемый целями, задачами и бюджетом проекта, весьма вариативен. Это означает, что не стоит надеяться на быструю проработку вопросов, связанных с проектированием системы защиты, а также набором мер, необходимых для обеспечения приемлемого уровня безопасности.

Некоторые сложности при выборе соответствующих решений могут возникнуть в связи с необходимостью соблюдать требования регуляторов — например, в части защиты персональных данных или данных государственных информационных систем. Представленные на рынке сертифицированные решения могут оказать заметное влияние на дизайн и бюджет конкретного проекта, обеспечивающего выполнение этих требований.

При проектировании систем защиты следует обратить внимание еще на ряд документов, которые могут помочь проектной команде в достижении качественного результата. CSA выпустил документ с лучшими практиками обеспечения безопасности систем больших данных [3], в котором собраны сведения и опыт проектирования и развертывания средств защиты таких систем. Агентство ЕС по сетевой и информационной безопасности (European Union Agency for Network and Information Security, ENISA) разработало документ, содержащий перечень угроз и рекомендации по их предотвращению, — Big Data Threat Landscape and Good Practice Guide [4].

Определенным препятствием может стать отсутствие у команды, вовлеченной в реализацию проекта, экспертизы в области информационной безопасности. Кроме того, не стоит забывать, что спроектированная система потребует дальнейшего сопровождения, мониторинга средств и мер защиты, а значит, соответствующих операционных затрат.

***

Вопросам безопасности систем работы с большими данными пока уделяется недостаточно внимания — подавляющее большинство проектов проектируются и реализуются без оглядки на информационную безопасность, что рано или поздно приведет к значительному увеличению сроков и стоимости реализации систем защиты, а иногда и к более печальным для бизнеса последствиям. При реализации проектов больших данных изначально должны учитываться вопросы обеспечения безопасности, в противном случае из бизнес-возможностей проекты могут превратиться в новые бизнес-риски. 

Литература

  1. NIST Special Publication 1500-1. NIST Big Data Interoperability Framework. URL: https://bigdatawg.nist.gov/_uploadfiles/NIST.SP.1500-1.pdf (дата обращения 5.12.2017).
  2. Big Data Taxonomy, Cloud Security Alliance. URL: https://downloads.cloudsecurityalliance.org/initiatives/bdwg/Big_Data_Taxonomy.pdf (дата обращения 5.12.2017).
  3. Big Data Security and Privacy Handbook: 100 Best Practices in Big Data Security and Privacy. Cloud Security Alliance (Безопасность и конфиденциальность больших данных: 100 лучших практик для обеспечения безопасности и конфиденциальности). URL: https://downloads.cloudsecurityalliance.org/assets/research/big-data/BigData_Security_and_Privacy_Handbook.pdf (дата обращения 5.12.2017).
  4. Big Data Threat Landscape and Good Practice Guide. URL: https://www.enisa.europa.eu/publications/bigdata-threat-landscape/at_download/fullReport (дата обращения 5.12.2017).

Дмитрий Пудов (pudov@angaratech.ru) — технический директор, «Ангара Технолоджиз Груп» (Москва). Статья подготовлена на основе материалов выступления автора на конференции «Технологии баз данных-2017».