Невиданные прежде «информационные катастрофы", вроде публикации сотен тысяч документов в WikiLeaks, дают представление о том, какие чудовищные объемы данных могут быть похищены с использованием современных технологий и к каким последствиям это может привести. Еще совсем недавно событий сравнимого масштаба не могло быть в силу существовавших технических ограничений на объемы данных, которые могли попасть в руки злоумышленников, — просто не было носителей, позволяющих украсть, например, полный комплект документации на изделие под названием "нейтронная бомба". Теперь необходимый объем данных уложится на нескольких квадратных миллиметрах флэш-памяти, да и хранятся они в цифровой форме, как будто специально созданной для упрощения краж. В итоге угроза кражи данных (data theft) и несанкционированный доступ к данным (data breach) вошли сегодня в число критичных, а для противостояния им предлагаются в том числе средства предотвращения утечки данных (Data Leak Prevention, DLP).

Добросовестным пользователям всегда не хватало устройства для компактной ручной транспортировки данных, и чего только не использовали: перфокарты и перфоленты, магнитные ленты, флоппи-диски. Емкость таких устройств росла, а недостатки, прежде всего нестабильность и недолговечность, сохранялись. Паллиативы в виде дисков типа ZIP оказались непрактичными, чуть получше показали себя CD-ROM, но и они скорее годятся для распространения данных и программ, а не для оперативной работы. И вот в 1998 году были изобретены, а через два года появились в продаже флэш-накопители, получившие повсеместное распространение от встроенных в бытовые устройства до серьезных твердотельных накопителей (Solid State Drive, SSD), и было бы странно, если бы это изобретение не взяли на вооружение не вполне законопослушные граждане.

До недавнего времени данные в основном воровали по сети — все 15 наиболее крупных краж в США за последние пять лет были осуществлены посредством атак с использованием SOL-инъекций, а сегодня в моду вошли носимые устройства. Известны два основных типа хищений с применением таких устройств: thumbsucking (от одного из английских названий флэш-накопителей ThumbDrive; thumb — "большой палец", thumb sucking – привычка грудничков сосать палец) и Pod slurping (от iPod и slurping — "заглатывать").

Первый широко известный пример хищения данных с использованием флэш-памяти был зафиксирован в ядерной лаборатории в Лос-Аламосе. Там страдающая наркозависимостью служащая, занимающая самый нижний уровень в служебной иерархии, смогла вынести полный комплект чертежей атомной бомбы; впоследствии данные были обнаружены у нее дома. Более эффективно и профессионально с подобной целью может быть применен USB-диск со встроенной технологией U3, в котором все пространство делится на два раздела, после чего один, меньший по объему, раздел предоставляется операционной системе, а другой используется как обыкновенный флэш-диск. В первом разделе размещается небольшая программа Launchpad, запускаемая операционной системой автоматически, далее открывается список переносимых программ, которые можно запустить из второго раздела. Эти программы способны работать с файлами или реестром Windows, не оставляя следов на компьютере по завершении работы. Результаты работы могут сохраняться во втором разделе накопителя. Аналогичное изделие, специально адаптированное для хакеров, известно как SB Switchblade.

Метод хищения Pod slurping можно признать разновидностью thumbsucking; отличие в носителе, им может быть iPod или аналогичный медиаплеер. Еще известны способы хищения данных через порт Bluetooth — Bluesnarfing.

Угрозы изнутри

Угрозы национальной безопасности становятся все разнообразнее, и это начинают уже понимать современно мыслящие спецслужбы, например Секретная служба США, которая в отличие от своего российского аналога, Федеральной службы охраны РФ, помимо своей непосредственной функции выпускает общедоступные отчеты, где представляет существующие и новые угрозы национальной безопасности. Последний из них 2010, Data Breach Iinvestigations Report, посвящен всестороннему анализу статистики хищений данных и аккумулирует данные о компьютерных атаках, публикуемые в странах Северной Америки и Западной Европы, Китае, Египте и Японии. Остальные страны, в том числе и Россия, не предоставляют таких официальных данных. Половина хищений фиксируется в США, где около 70% потерь данных приходится на три сектора экономики: финансовый (33%), гостиничный (23%) и торговлю (15%). Документ начинается с констатации факта наметившихся изменений в статистике компьютерных преступлений — хотя внешние хакерские атаки и проникновения все еще остаются основным способом хищений (на них приходится 70%, а на внутренние — 48%, сумма не равна 100%, поскольку часто злоумышленники действуют совместно), показательна динамика последнего года: внешние сократились на 9%, а внутренние увеличились на 26%.

Тенденция к перераспределению от внешних к внутренним угрозам естественным образом определяет направление в развитии средств обеспечения безопасности, отсюда повышенное внимание к DLP. Упомянутый выше отчет констатирует: главный вклад в рост внутренних хищений вносят намеренное асоциальное поведение сотрудников компаний и организаций и превышение ими служебных полномочий. Системы DLP можно назвать защитными экранами наизнанку, в отличие от межсетевых экранов.

Так уж сложилось, что термины «защита информации» и «информационная безопасность» предполагают наличие внешних угроз, но реальная жизнь демонстрирует, что не меньший вред предприятию могут нанести свои собственные "плохие парни", а практика социальной инженерии это успешно подтверждает. Опасность, исходящая изнутри, получила официальное название "утечка информации", что нашло отражение в стандарте ISO/IEC 17799-2005, созданном на основе британского стандарта, а его содержание перенесено в отечественный аналог ГОСТ/Р ИСО МЭК 17799-2005. Первые разработки DLP известны с начала десятилетия, а широкое распространение эти системы получили примерно с 2006 года, и с тех же пор обращение к DLP вызывает множество вопросов, поскольку за тремя буквами скрывается не конкретная совокупность технологий, а размытая область человеческой деятельности, включающая технологии, методологию, нормативные документы и многое другое, связанное с недопущением неавторизованного использования и распространения конфиденциальной информации. Не случайно помимо принятого названия DLP, существуют и альтернативные, отражающие определенную специфику: Information Leak Prevention (ILP), Content Monitoring and Filtering (CMF), Information Protection and Control (IPC) и Extrusion Prevention System (EPS). Особо интересно последнее, где слово extrusion использовано как антипод intrusion ("проникновение").

Система DLP должна обнаруживать критически важные данные в базах данных, файловых серверах, настольных и мобильных компьютерах; информировать о попытках пересылки этих данных или записи на накопитель, и в ней должны быть зафиксированы правила, по которым осуществляется блокировка данных, и другие превентивные меры.

Недавно возникшая проблема больших данных (Big Data Problem) может рассматриваться как еще одна из важнейших причин роста интереса к DLP. Отчет организации Computing Technology Industry Association, озаглавленный Trends in Information Security, свидетельствует, что в 2008 году свыше 60% утечек данных было так или иначе связано с человеческими ошибками, пятью годами раньше этот показатель составлял всего 8%, и если не предпринимать специальных мер, в том числе таких, как внедрение систем DLP, то по мере роста объемов данных он будет только возрастать. Аналогии с инцидентами в других отраслях свидетельствуют о том, что реальная безопасность без автоматизации недостижима, человеческий фактор — причина большинства техногенных катастроф.

Внедрение решений класса DLP должно способствовать получению ответа на три главных вопроса: где и в каких данных содержится конфиденциальная информация? как и кем эти данные используются, кто имеет к ним доступ? что нужно предпринимать, дабы избежать потерь? В идеале средства DLP должны обеспечивать: глубинный анализ контента; автоматическую защиту данных во всех возможных местах нахождения, то есть на пользовательских компьютерах (их называют конечными точками, end-point), в сетях и в системах хранения данных; анализ инцидентов и корректирующую работу с пользователями.

Антропология DLP

В общем случае под DLP понимают комплекс технологий для автоматизации процессов идентификации и защиты критически важных данных, состоящий из трех взаимодополняющих компонентов: Management (управление), Identification (идентификация) и Protection (защита).

Управление. Руководящие принципы любой системы DLP определяют то, какие данные следует рассматривать как критически важные, какие действия разрешены по отношению к этим данным и как такие данные следует защищать. Это чрезвычайно сложная задача. Допустим, нужно защитить номер кредитной карты 1234 2345 3456 4567, однако эта последовательность цифр может быть чем угодно: артикулом изделия, номером телефона и т. п.. Для того чтобы выделить ее именно как номер карты, необходимо каким-то образом задать контекст. Кроме того, в руководящих правилах должно быть задано, что следует делать компоненту Protection в том случае, если обнаружены защищаемые данные, нужно ли их перед пересылкой зашифровать или следует уведомить о попытке нарушения полномочий. Возможности Management ограничены представлением защищаемых данных, например их форматом или кодировкой: код номера кредитной карты в упакованном файле может сильно отличаться от кода того же номера в электронной таблице. Чем больше форматов распознает система DLP, тем она эффективнее, тем больше шансов обнаружить существенно важные данные, и, как следствие, поставщики DLP-решений утверждают всеядность своих технологий, что во многих случаях неверно — всегда найдутся исключения, которые необходимо учитывать. Это одна из причин для постепенного и итерационного внедрения DLP на предприятии.

Идентификация. В этом компоненте используются принципы, сформулированные в компоненте Management, — здесь выполняется некоторый тест и принимается решение о принадлежности данного фрагмента к критическим данным. Поскольку принципы формулируются с допущениями, то результат теста не может быть верным на 100%: в любом случае можно пропустить нужное или заблокировать ненужное.

Защита. После того как компонент Identification обнаружил данные, нуждающиеся в защите, компонент Protection выполняет ее обычно с использованием одного из двух возможных способов — либо зашифровывает, либо блокирует. Если налицо неразрешенная попытка списывания на диск по USB, то, скорее всего, она будет прервана, а если данные передаются по почте, но в открытом виде, хотя их положено шифровать, то они будут зашифрованы. Блокирование обычно не создает больших проблем, хотя и приводит к увеличению числа обращений в службу поддержки. Чаще всего оказывается, что люди не делают чего-то злостного, а лишь не вполне точно следуют служебным инструкциям. Что же касается криптографии, то ее более широкое распространение может потребовать дополнительных организационных мер.

Аналитики Gartner и Forrester среди компаний, специализирующихся на DLP, отмечают: RSA (в составе EMC), Websence, Symantec, Fidelis security, McAfee, CA, Vericept, Code Green, Trend Micro иVerdasys. Отечественный рынок таких продуктов и близких к ним отличается доминированием трех локальных производителей: Jet Infosystems, SecireIT и InfoWatch. По приблизительным оценкам, этим компаниям принадлежит примерно по четверти всего объема рынка, а оставшаяся часть занята иностранными компаниями. Очевидно, что по мере повышения его зрелости доля зарубежных компаний будет возрастать.

Работа с системами DLP на предприятиях заметно отличается от использования других технологий защиты информации — мнение по этому вопросу консультанты PricewaterhouseCoopers выразили в отчете «Data Loss Prevention: Keeping sensitive data out of the wrong hands» (DLP: не отдавайте важные данные не в те руки). Компаниями уже освоен выпуск продуктов, способных блокировать или предотвратить вывод значимых данных за пределы организации, однако пока все эти продукты еще не достигли зрелости — остается риск того, что заблокируются критические для функционирования предприятия данные. По этой причине должен быть разработан детальный план мероприятий по внедрению DLP, включающий оценку плюсов и минусов, последствий ошибок пропуска реальной угрозы или признания опасной безобидной вещи. Системы DLP нельзя отнести к категории «внедрил и забыл» — необходимо постоянно оценивать текущие результаты и совершенствовать руководящие принципы (политики). Разумно построенная система DLP должна позволить:

  • усовершенствовать схемы назначения уровня секретности для данных, точнее определить их тип и местонахождение;
  • получить точные представления о жизненном цикле данных, выделить их потоки, обнаружить пробелы в анализе, уточнить их расположение, ассоциированные с ними средства контроля и то, как эти средства контроля используются;
  • сконцентрировать контроль на существенно важных данных, соответствующим образом организовать работу персонала, имеющего дело с этими данными, распределить между исполнителями функции и ответственность;
  • не только защитить данные, но и обнаружить разрывы в бизнес-процессах.

Классификация систем DLP

Для систем DLP принята двухзвенная классификация по их размещению: в сетях (Network DLP, рис. 1) или в конечных пунктах назначения данных (Endpoint DLP, рис. 2). Кроме того, средства DLP можно классифицировать по возможным состояниям данных, на работу с которыми они ориентированы: данные в состоянии покоя (data at rest), в процессе перемещения (data in motion) и в процессе использования (data in use). Каждому из таких состояний адресуется свой собственный набор технологий, например подходы, лежащие в основе Network DLP, проще, более традиционны и дешевле, но менее эффективны.

Рис. 1. Три компонента DLP в сетевом варианте
Рис. 2. Три компонента end-point DLP

Данные в состоянии покоя. Для идентификации и регистрации тех мест, где хранится существенно важная информация, система DLP должна уметь обнаруживать на серверах, в сетях хранения и на рабочих местах файлы в форматах текстовых документов и электронных таблиц, а найдя их, должна уметь открыть файл, сканировать на предмет поиска интересующей ее информации. Для выполнения такой функции система DLP применяет агенты того или иного типа, обследующие все возможные места нахождения данных. Сбор такой информации является существенным шагом в работе предприятия, он позволяет найти пункты размещения данных, пути их миграции и соотнести их с регламентирующими правилами. Наиболее простые решения этого типа распространяются только на системы хранения — это storage-centric DLP.

Данные в процессе перемещения. Для работы с данными такого типа применяются встроенные технологии или специализированные устройства для перехвата и анализа сетевого трафика. Система DLP обязана осуществлять пассивный мониторинг трафика, распознавать данные в пакетах, при необходимости собирать содержимое пакетов, реконструировать файлы и ставить окончательный диагноз: разрешена или не разрешена передача данного файла. Ядром этого процесса является процедура глубокого анализа или инспектирования пакетов DPI (Deep Pocket Inspection) — хорошо известная технология защитных экранов, сочетающая функциональность обнаружения IDS (Intrusion Detection System) и предотвращения вторжений IPS (Intrusion Prevention System). Она позволяет проверять пересылаемые данные; выявлять их типы и приложения, работающие с ними; осуществлять загрузку сети тем или иным сервисом; выявлять злонамеренный трафик и аномалии в протоколах. Для анализа данные должны быть расшифрованы либо самой системой DLP, либо препроцессором. Системы DLP данного типа реализуются программными средствами либо с помощью специализированных машин (DLP appliance), которые производят компании McAfee, Code Green, Palisade Systems и Blue Coat Systems.

Данные в прочессе использования. Это, возможно, самая сложная и ответственная часть DLP, отвечающая за контроль действий пользователей над данными, выполняемых на рабочих станциях и чреватых утечками: попытки копирования на носимые устройства, распечатки, перемещения данных между приложениями и т. п. Принципиальное отличие end-point DLP состоит в глубинном анализе контента на основе принятых правил. Для этого типа анализа используются различного типа алгоритмы, основанные на частичном или полном совпадении документов, на «отпечатках пальцев» данных, статистике или на комбинации нескольких методов. Для реализации любого из алгоритмов могут быть использованы десятки разных программных агентов, способных работать на разных уровнях: непосредственно на уровне контента, на уровне файловой системы, на уровне сети и на уровне интерфейса пользователя с системой.

Подходы к созданию систем DLP

Какой из подходов предпочтительнее, сетевой или по месту нахождения данных? По ответу на этот вопрос специалисты делятся на два лагеря: сторонники решений network-based и data-in-motion, приверженцы data-at-rest и end-point DLP. Сильным аргументом первых является то, что фильтрация сетевого трафика позволяет уловить до 80% всех утечек, причем без особых сложностей, в таком случае нет необходимости в сложных правилах, а достаточно лишь установить фильтры в нужных местах. Но они же признают, что выбор не является альтернативным, скорее вопрос в том, с чего начинать, сначала с data in motion, а потом data at rest. Приверженцы второго подхода считают, что преимущество data-at-rest DLP в глубоком искоренении возможностей для утечек и хищения данных. Эти технологии не всегда требуют для себя использования специализированного оборудования.

Обычно внедрение систем DLP в организациях начинается с защиты сетей, как наиболее очевидного канала для утечки. Следующим шагом чаще всего бывает создание статичных систем защиты хранимых данных (storage-centric DLP). До недавнего времени такого рода системы network и storage-centric DLP исключали значительную часть инцидентов, связанных с потерей данных. Далее можно перейти к end-point DLP, и постепенно в связи с изменением структуры угроз безопасности данных роль этих систем возрастает. Наиболее современные системы DLP сочетают в себе оба типа программного обеспечения: end-point и network-based, позволяя создавать общую функциональность и вырабатывать общую корпоративную политику обеспечения безопасности.

На фоне разных технических аспектов DLP нельзя упускать один весьма существенный — психологический. Когда сотрудники узнают о внедрении DLP, количество попыток хищения уменьшается на порядок.

Полнота и точность

Продукт Websense Data Security Suite сочетает в себе технологию детектирования информации с архитектурой, интегрирующей средства DLP и обеспечения безопасности в Web, а также защиты электронной почты. Предложенная компанией технология информационных отпечатков основана на извлечении текста и других данных из сообщений и файлов с последующим расчетом кодовой последовательности, характеризующей защищаемую информацию. Отпечатки вычисляются на конфиденциальном документе, а затем на передаваемых сообщениях: система DLP сравнивает полученные отпечатки и принимает решение о фильтрации. Вместо полнотекстовой индексации используется циклическое хеширование, что позволяет работать с не текстовыми данными (например, документами САПР) и автоматически отличать заполненный бланк от пустого. Кроме того, отпечатки не позволяют злоумышленникам восстановить исходный текст и устойчивы ко всем основным типам модификации.

Отпечатки – это только часть методической базы PreciseID и кроме неструктурных отпечатков документов имеются отпечатки для текстовых полей РСУБД, используемые, например, для защиты фактически хранимых персональных данных. В компании разработана процедура создания классификаторов на базе естественных языков, и сейчас их около 1000. В решении определяются имена на 12 языках, включая русский, а регулярный анализ строк дополняется алгоритмической логикой; например, чтобы отличить номер пластиковой карты от случайного набора цифр вычисляются контрольные разряды.

По данным аналитиков, каждая ошибка первого рода (ложная тревога) стоит организации порядка 10 руб., а цена ошибок второго рода (пропуск конфиденциальных данных за пределы компании) может достигать значений со многими нулями, поэтому точности в решениях от Websense уделяется первостепенное внимание. В спорных случаях применяется процессор естественных языков (Natural Language Processing), реализующий контекстно-статистический анализ слов и выражений, подавляя ложные срабатывания, свойственные традиционным методам. По данным исследования, проведенного Percept Technology Labs, технология цифровых отпечатков обеспечивает около 1% ошибок первого и второго рода.

Петр Савич (psavich@websense.com) — старший инженер по продажам компании Websense в Восточной Европе.

Платформа защиты информации

Платформа «Дозор-Джет» представляет собой масштабируемое решение для создания архива данных и анализа его содержимого, позволяющее управлять остальными компонентами системы защиты, производить фильтрацию обрабатываемых данных в соответствии с заданной политикой и осуществлять поиск. Архитектура системы позволяет осуществлять контроль за утечками как для простых (гигабайты данных в месяц), так и для масштабных конфигураций (десятки и сотни терабайтов данных в архиве). Компонент анализа сетевых потоков способен обрабатывать трафик размером более 2 Гбит/с на одном сервере, а масштабируемая архитектура позволяет интегрировать решения от различных производителей (антивирусные средства, системы хранения, документооборота, OCR-системы, системы управления).

Система извлечения данных и метаданных, входящая в состав комплекса «Дозор-Джет», помогает извлекать текстовые данные, характеризующие свойства документов, даже при их случайном или намеренном искажении, например при подсоединении в конец мультимедиафайла. «Дозор-Джет» позволяет использовать для фильтрации и поиска списки слов и выражений, словари и наборы идентификаторов, данные о типе файла, данные о транспортной сессии. Кроме того, система дает возможность применять цифровые отпечатки — набор алгоритмов, позволяющих определить порядок использования защищенных документов (как текстовых и бинарных, так и изображений). Для контроля данных возможно также использование средств поиска стандартных идентификаторов, таких как номера телефонов, ИНН, ОКПО, ОКАТО, номера в финансовых документах, имена и фамилии, номера паспортов, кредитных карт и т. д. При этом система проверяет найденные значения с помощью контрольных сумм, а также других признаков, позволяющих обойтись без ложных срабатываний.

При развертывании системы обычно осуществляется аудит, в процессе которого вырабатываются ключевые точки контроля и политика компании, направленная на снижение рисков. Как правило, кроме введения в действие тех или иных правил обработки и проверки данных, необходимо провести соответствующую работу по изменению регламентов обращения с информацией, а иногда и регламентов основной производственной деятельности компании.

Отношения и обязательства между поставщиком и заказчиком регулируются сервисным договором, и, как правило, гарантии на системы контроля утечки в нем не предоставляются.

Дмитрий Михеев (ovpr-comments@jet.msk.su) — эксперт центра информационной безопасности компании "Инфосистемы Джет" (Москва).

Централизованная фильтрация

В состав DLP-решения от Symantec входит централизованная консоль управления (настройка политик, формирование отчетности, расследование и закрытие инцидентов), модуль защиты рабочих станций (контроль действия пользователей, блокировка попыток выноса конфиденциальных данных, сканирование файловой системы всех рабочих станций на предмет хранения там конфиденциальных документов), модуль контроля сетевого трафика (мониторинг сетевых взаимодействий внутри корпоративной сети и на границе периметра), модуль сканирования хранилищ (поиск и автоматическое перемещение конфиденциальных данных).

Общую схему работы технологии цифровых отпечатков можно описать следующим образом: из документа, с которого снимается цифровой отпечаток, выделяется текстовое содержание, которое разбивается на фрагменты, и для каждого из них создается «отпечаток» — математическая сумма содержимого. В итоге весь документ представляется набором «отпечатков», который сравнивается с набором для вновь пересылаемого -- если  имеется пересечение, то DLP-система это диагностирует. Однако практические реализации данного механизма могут существенно отличаться как по точности срабатывания, так и по потребляемым ресурсам. Как известно, комбинирование нескольких технологий идентификации содержимого повышает эффективность работы, что справедливо и для Symantec DLP, где поддерживаются как простейшие методы (ключевые слова, регулярные выражения, идентификаторы данных), так и технологии цифровых отпечатков с текстовых данных и с таблиц.

Ни одна DLP-система не гарантирует нулевой вероятности утечки, однако внедрение таких технологий позволяет снизить бизнес-риски. Исходя из опыта наших заказчиков как в России, так и за рубежом можно сказать, что количество утечек данных после внедрения таких систем в среднем падает на 80-90% за первые несколько недель или месяцев.

Олег Головенко (Oleg_Golovenko@symantec.com) — технический консультант компании Symantec в России и СНГ (Москва).

Интегральные DLP

DLP-решения Zgate, Zlock и Zserver Suite компании SecurIT имеют традиционную архитектуру, включающую в себя перехватчики, анализатор, архив, журнал событий и систему управления. Zgate перехватывает и анализирует сетевой трафик (HTTP, HTTPS, SMTP, FTP, ICQ, Skype и т. д.), Zlock контролирует печать и запись данных на внешние накопители, Zserver Suite защищает данные в серверных хранилищах и на резервных носителях при хранении, обработке и транспортировке. Все эти решения имеют ряд отличительных особенностей. Во-первых, имеется большое количество контролируемых каналов, среди которых только интернет-пейджеров насчитывается около полутора десятков. Во-вторых, в решениях применяется гибридный анализ перехваченных данных с использованием цифровых отпечатков, лингвистики, регулярных выражений, OCR и собственной технологии SmartID. В-третьих, в Zlock и Zgate поддерживается возможность блокировки утечек, а не только информирование по факту инцидента.

Как и у большинства производителей, в решениях SecurIT в основе технологии «цифровых отпечатков» лежит алгоритм преобразования исходного текста в специальный вид, например в последовательности из трех слов. При анализе информации такие последовательности документа сравниваются со специально созданной базой «цифровых отпечатков» конфиденциальных данных. Наряду с этим в Zgate используется технология определения и исправления ошибок, а также замаскированного текста. В общем потоке информации конфиденциальные данные выявляются с помощью фильтра, а попавшие в него данные могут блокироваться для передачи, архивирования, записи и т. д. Количество ошибок в DLP-системе зависит от настроек, массива защищаемых данных и сценария утечки -- по результатам собственных испытаний и анализа статистики использования SecurIT DLP средняя погрешность составляет примерно 2%.

Основную уверенность в надежности решения заказчику должна дать хорошая подготовительная работа — необходимо правильно оценить риски и описать сценарии использования информации и только потом выбрать конкретную техническую DLP-реализацию. Не стоит забывать и об административной работе, которая может снизить количество утечек.

Александр Ковалев (kovalev@securit.ru) — директор по маркетингу компании SecurIT (Москва).

Последнее слово за заказчиком

В арсенале компании InfoWatch имеются практически все наиболее эффективные способы идентификации конфиденциальной информации, и все они объединены в алгоритм "Гибридный анализ". Его средствами анализируется каждый передаваемый фрагмент данных (копируемый файл, отсылаемое сообщение, "пост" в системах мгновенного обмена сообщениями или на форуме, печатаемый документ и т. д.) на предмет выявления информации, которую компания-пользователь считает конфиденциальной.

Применяемый в решениях InfoWatch метод цифровых отпечатков (Digital Fingerprints) позволяет с вероятностью более 95% найти значимую цитату в проверяемом документе путем сравнения со «слепком» в другом документе. Метод применяется в основном при защите статических данных (клиентских баз, документных хранилищ, корпоративных библиотек) — можно снять «отпечаток» с каждого защищаемого элемента и заставить систему автоматически запрещать перемещение информации, содержащей большие значимые цитаты. Именно значимые, так как, уменьшая размер цитат, можно скатиться до одиночных слов и полностью остановить документооборот в компании. Алгоритм гарантирует стопроцентное детектирование значимых цитат, но некоторые цитаты могут оказаться неконфиденциальными, что и дает некоторый процент ложных срабатываний. Однако алгоритм неприменим в случаях, когда пользователь не имеет образца конфиденциальной информации, с которого можно было бы снять «слепок».

Статистические методы плохо работают на быстро изменяющейся информации или с неизвестными данными, например с входящими документами: процесс снятия отпечатка с большой базы может занимать несколько часов, поэтому защищаться будет не актуальная, а прошлая база. Входящие документы могут использовать не принятую в компании систему грифования документов, и конфиденциальный документ, пришедший из другой компании, не будет воспринят как таковой. Здесь на помощь приходит лингвистика, позволяющая проанализировать текст на предмет наличия в нем специальных терминов и сочетаний, а также их контекста (например, ни один торговец не назовет прямым текстом героин героином, а будет называть его «товар» и т. д.). В результате можно с точностью 85-90% определить категорию сообщения (финансы, производство, коммерция, личная переписка и т. д.) и его класс (общедоступное, ДСП, секретное и т. д.). По производительности и точности срабатывания статистические и лингвистические методы в DLP соотносятся приблизительно так же, как сигнатурные и эвристические методы в антивирусах. Первые, работающие с заранее известными «угрозами», дают близкую к 100% вероятность защиты и высокую производительность. Вторые умеют работать с неизвестными угрозами, расширяя функционал первых, но при этом понижается производительность и растет число ложных срабатываний. Самый большой процент ложных срабатываний (около 25%) отмечается на неструктурированных данных для необученной системы, построенной на правилах категоризации, которые были встроены по умолчанию. После обучения в течение нескольких часов количество ложных срабатываний падает до 5-7%, а если есть возможность снять отпечатки с образцов документов, то и до 1-2%.

Как и для любых других систем защиты информации, финансовой ответственности за пропуск важных данных компания-производитель не несет, поскольку причина может заключаться, например, в том, что заказчик не предоставил исполнителю все категории конфиденциальной информации. Однако у InfoWatch имеется опыт более сотни внедрений, и вопрос о гарантиях и ответственности еще не возникал, но если утечка была вызвана ошибкой алгоритма, то, безусловно, компания-разработчик сделает все возможное, чтобы его исправить.

В DLP, в отличие от антивирусов, пока нет независимых тестов на точность срабатывания (например, Virus Bulletin), да и вряд ли они возможны – документы у каждой компании свои и представляют собой внутренний, а не внешний, как вирусы, объект. Иногда бывает, что заказчик, избалованный предыдущим опытом организации защиты инфраструктуры, посчитает, что после внедрения DLP-системы все произойдет само собой, однако никто, кроме него, не знает о его данных и процессах их перемещения, поэтому улучшить эффективность системы защиты данных от утечек может только сам пользователь. В отрыве от всей системы защиты данных, без встраивания в бизнес-процессы, сами по себе DLP-системы вряд ли эффективны.

Рустэм Хайретдинов (rustem.khairetdinov@gmail.com) — заместитель генерального директора компании InfoWatch (Москва).

Простота и скорость

Характерная особенность решения для DLP  компании McAfee — это простота архитектуры, что, однако, не означает бедность функциональных возможностей. В McAffee Network DLPManager есть уникальные функции, например фиксация и индексация событий независимо от срабатывания правил, позволяющая обрабатывать события и восстанавливать картины произошедшего в случае, когда были допущены ошибки в настройках. Кроме этого предусмотрено несколько способов идентификации конфиденциальных документов: анализ ключевых слов и выражений; встроенный язык регулярных выражений, позволяющий описывать критерии конфиденциальности; тегирование по типу документа; анализ местонахождения и приложений, которые обрабатывают документ; цифровые отпечатки.

Говоря о гарантиях при работе с решением DLP от McAffee, следует отметить, что ни одна компания в мире не имеет в своем лицензионном соглашении пунктов об ответственности за ошибки системы DLP. Следует учесть, что одной системы мало — для надежности решения требуется совокупность организационно-технических мер. Надо повышать осведомленность сотрудников в вопросах информационной безопасности, применять технические специализированные средства мониторинга, контроля и противодействия утечкам конфиденциальных данных. Только комплексный подход даст заказчику уверенность в надежной защите конфиденциальной информации на предприятии.

Алексей Чередниченко (Alexey_Cherednichenko@McAfee.com) – руководитель направления продаж для секторов "Нефть и газ" и "Телеком McAfee",

Разумный баланс

Компания Trend Micro предлагает ряд решений, включающих в себя функции защиты от утечек данных, и полный набор таких функций содержится в продукте Trend Micro DLP for Endpoint. Это решение позволяет контролировать конечный узел одновременно по нескольким фронтам: USB-накопители, запись на CD/DVD-диски, различные сетевые протоколы и др. Одним из последних обновлений данного решения стало включение функциональности обнаружения вредоносных программ хищения данных.

Для идентификации конфиденциальной информации Trend Micro DLP for Endpoint использует шаблоны четырех типов, простейшим из которых является тип файла. Кроме этого используются ключевые слова и образцы, однако самой уникальной функцией является запатентованный компанией алгоритм создания «отпечатков» содержимого, способный идентифицировать неструктурированные данные на любом из возможных направлений их потери. Алгоритм использует статистическую модель документа для его идентификации слепком, имеющим размер менее 120 байт. Такой размер позволяет определять большое количество документов в конечной точке без подключения к центральному серверу. В отличие от метода контрольной суммы, данный способ невосприимчив к изменениям в документе и не создает больших баз данных контрольных сумм для одного документа. Ключом к работе алгоритма отпечатков (Data DNA) является идентификация значимых маркеров в документе на основании частоты и распространения.

Для идентификации конфиденциальной информации могут быть с помощью шаблонов сгруппированы четыре типа цифровых ресурсов. Для неструктурированных данных идеальным является применение алгоритма Data DNA, а для структурированных лучше подойдет сочетание пароля и регулярных выражений (образцов). Поиск структуры любого набора данных может быть достаточно сложным, но благодаря классификации данных и учету семантики данных можно изолировать маркеры в данных, которые могут быть расположены в качестве цифровых ресурсов.

Trend Micro, как и любой другой поставщик DLP-решений, не дает гарантий эффективности системы предотвращения утечек — каждому пользователю рекомендуется провести тестирование решения в конкретной среде и с реальными данными, чтобы доказать его действенность. Однако 100%-ного решения проблемы потери данных нет, и большинство организаций смотрят на нее с той точки зрения, что «сначала нужно закрыть самые крупные дыры». Обычно это USB-накопители, сообщения корпоративной электронной почты, общедоступная информация в Сети, и во многих организациях данные методы коммуникации являются частью бизнес-процесса. Всегда можно найти баланс между свободным потоком информации и безопасностью, причем кроме технологий на уровень защиты от потерь данных очень влияет человеческий фактор и условия процесса.

Pаймунд Генес (russia@trendmicro.com) — технический директор компании Trend Micro