OCR в системах DLP

Последние 3-4 года «экосистема» безопасности корпоративных ИТ переживает кризис, порожденный, с одной стороны, коммерциализацией киберпреступности и усилением фактора геополитизации, а, с другой, замедлением идеологического и технологического развития систем защиты данных. Факторы эти усиливают друг друга, вызывая кумулятивный негативный эффект, заметно нарушающий динамический баланс между угрозами корпоративной безопасности и средствами ее обеспечения – причем не в пользу последних. Удивительно, но каждый следующий год отраслевые аналитики и эксперты в области информационной безопасности провозглашают «годом утечек данных», и это уже никого не удивляет. Вот и нынешний 2014 год стал новым абсолютным чемпионом в этой гонке несмотря на то, что «бежать» предстоит еще квартал – благодаря невиданным доселе по масштабам и последствиям утечкам данных клиентов американской розничной сети Target и ее земляка, онлайн-ритейлера eBay.

Очевидно, что инциденты, связанные с утечками данных, следует разделять на две группы: вызванные внешними атаками и внутренние, инсайдерские утечки. Значительную часть инцидентов, связанных с внешними атаками, можно предотвратить за счет применения средств защиты компьютеров от заражения вредоносным программным обеспечением (вирусами, троянами и т.д.). Для борьбы с инсайдерскими утечками из корпоративных информационных систем наиболее эффективны специализированные системы защиты – так называемые data leak prevention или системы DLP. Они позволяют блокировать не субъект или первопричину утечки (вредоносное программное обеспечение или действия инсайдера), а непосредственно ее саму – например, предотвратить отсылку конфиденциального документа по личной электронной почте или его загрузку на сайт социальной сети. Применение систем DLP в любом случае необходимо, поскольку угрозы утечек создаются не только и не столько хакерскими атаками извне, сколько обычными сотрудниками предприятия – случайно, по халатности или злому умыслу.

Основным «оружием» всех современных систем DLP являются технологии контентного анализа и фильтрации, позволяющие выявлять в текстах документов, файлов, писем, вложений и прочих объектов данные, запрещенные политикой информационной безопасности, и блокировать операции по их передаче за пределы компьютера или сети организации, будь то печать на принтере, запись на флеш-накопитель, передача по Skype или почте и т.д. Именно на таких технологиях производители систем DLP делают основной акцент, усиленно развивая и совершенствуя методы контентного анализа, причем порой в ущерб фундаментальным контекстным механизмам контроля и предотвращения утечки. В качестве примеров прогрессивных технологий можно привести морфологический анализ, поддержку и развитые заготовки шаблонов регулярных выражений, детектирование комбинаций ключевых слов с поддержкой промышленных и отраслевых словарей, цифровые отпечатки документов и т.д. Можно утверждать, что сегодня в целом достигнут достаточно высокий уровень надежности и эффективности детектирования и фильтрации текстового контента.

Однако до сих пор ни в одной из доступных на российском рынке систем DLP не был достаточно надежно перекрыт такой простой и доступный даже неопытным пользователям компьютеров прием обхода контентной защиты, как конвертация текстовых данных в графические изображения, к которым методы анализа текстовых форматов принципиально неприменимы. Причем пользователи вовсе не обязательно конвертируют текст в графику со злым умыслом – обычной бизнес-практикой является пересылка сканированных документов, причем как в виде графических файлов, так и после конвертации в файлы формата PDF, а также в виде вложений в обычные документы Microsoft Office или электронные сообщения.

Конечно же, этот недостаток, равно как и средство его устранения, не являются секретом. Ряд российских и зарубежных разработчиков систем DLP уже в той или иной форме используют в своих продуктах технологии обратной конвертации графики в текст Optical Character Recognition (OCR), интегрируя модули OCR в системы DLP. К сожалению, в силу обусловленных историческими причинами дороговизны и «тяжеловесности» модулей OCR их применение в современных системах DLP ограничено, как правило, шлюзами DLP или серверами DLP, то есть от утечек данных в графической форме защищается только офисная сеть и лишь при их передаче по сетевым каналам связи. При этом исходящие коммуникации мобильных и настольных компьютеров сотрудников при их работе из-за пределов корпоративной сети – например, в командировке или дома – принципиально неконтролируемы модулями OCR шлюзов DLP. Кроме того, реализационные ограничения компонентов OCR многих систем DLP позволяют анализировать только файлы графических форматов, но не изображения, встроенные в офисные документы. В результате остается полностью открытым такой примитивный и общедоступный канал утечки данных, как вставка сканированной копии документа в Word и отправка его по почте. Еще один сценарий неконтролируемой утечки информации подразумевает копирование графических данных с компьютера на съемные накопители или их печать на локальных принтерах, поскольку для этих типов операций перехват и пересылка проверяемой графики для анализа на сервер DLP практически нереализуемы.

Именно на разработке компонента OCR, свободного от всех перечисленных недостатков, и его интеграции в свое DLP-решение сфокусировала усилия компания «Смарт Лайн». В конце октября 2014 года появилась новая версия DeviceLock DLP 8, исполнительные агенты которого оснащены резидентным модулем OCR, обеспечивающим распознавание графических образов текста в изображениях как в виде файлов графических форматов, так и встроенных в документы. При попытке передачи пользователем данных и файлов по сетевым каналам, их печати или копирования на устройства хранения DeviceLock DLP в соответствии с заданными политиками DLP применяет технологии OCR для анализа, детектирования и фильтрации графических образов конфиденциальных текстовых данных в сканах документов, снимках экранов и изображениях внутри офисных документов.

Важно подчеркнуть, что модуль OCR в составе DeviceLock DLP является резидентным, встроенным в агент, который в свою очередь устанавливается на всех контролируемых компьютерах и обеспечивает инспекцию и протоколирование приложений, использующих как сетевые каналы, причем независимо от используемых ими портов и способа выхода в Интернет, так и локальные периферийные устройства. Принципиальным преимуществом такой архитектуры является реализация защитных действий по блокировке и протоколированию почтовых отправлений, переписки и передачи файлов в социальных сетях и через службы мгновенных сообщений, в том числе содержащих данные в графическом формате, в момент отправки данных по сети «на лету» непосредственно на рабочем компьютере сотрудника. Это может быть офисная рабочая станция, переносной компьютер вне корпоративной сети или даже личное мобильное устройство в терминальной среде. В результате работоспособность системы DeviceLock в целом и компонента OCR в частности никак не зависит от доступности корпоративной сети или подключения к серверам, что позволяет службам ИБ обеспечить безопасность почтовых коммуникаций сотрудников даже в условиях, когда их работа требует мобильности.

Другой пример практического применения резидентного модуля OCR и архитектурных особенностей DeviceLock DLP – контроль данных, в том числе в графическом формате, в распределенной корпоративной среде, когда организация располагает широкой сетью филиалов и подразделений. Последнее делает нерациональным использование серверов DLP в массе либо в силу малочисленности филиалов, либо вследствие недостаточной пропускной способности сети передачи данных. К примеру, DeviceLock DLP 8 можно использовать для защиты от утечек экзаменационных материалов ЕГЭ, распространяемых в графической форме и используемых в тысячах образовательных учреждений, зачастую не имеющих достаточно быстрых каналов связи для внешнего анализа данных на серверах DLP.

Технологии OCR, применяемые в агентах DeviceLock для защиты обычных и виртуальных рабочих сред, позволяют как уменьшить информационные риски, так и обеспечить неукоснительное исполнение сотрудниками политик безопасности внутри и за пределами компании. Помимо агентов DLP технологии OCR используются в новом компоненте комплекса – DeviceLock Discovery, предназначенном для сканирования компьютеров пользователей, сетевых каталогов и систем хранения данных с целью выявления и устранения нарушений политик безопасного хранения данных.