По мнению аналитиков, в 2012 году мировой рынок оборудования, ПО и сервисов, так или иначе связанных с Большими Данными, уже превысил 5 млрд долл., а его ежегодный рост вплоть до 2017 года составит 58%. Спрос на технологии работы с Большими Данными формируют крупные компании и организации, решающие масштабные задачи взаимодействия со своими клиентами. Другая категория потенциальных потребителей — государственные структуры, которые по роду своей деятельности, и особенно с учетом реализации задачи оказания услуг в электронной форме и других программ в области информатизации, владеют гигантскими массивами данных. Эти данные необходимо хранить, анализировать, обеспечивать безопасный обмен между ведомствами и обрабатывать для предоставления услуг гражданам.

Для таких предприятий и организаций, которым небезразличны вопросы сохранности персональных данных, актуальны задачи анализа, категоризации, хранения и мониторинга больших объемов данных, причем решать их надо уже сегодня. Тем не менее следует признать, что в России технологии работы с Большими Данными — это пока лишь теория, и изобилия проектов здесь не наблюдается. Крупные компании, лидирующие в своих отраслевых сегментах, уже начинают интересоваться решениями по упорядочиванию и утилизации больших объемов данных, предлагаемыми ведущими производителями, но отсутствие экспертизы и методологии применения новых технологий вынуждает их проявлять осторожность.

Задача категоризации и мониторинга решается в рамках единой системы контроля всех информационных потоков предприятия. В основе такой системы может лежать, например, продукт InfoWatch Traffic Monitor Enterprise (IWTM), в состав которого входит шлюз и агенты, устанавливаемые на рабочих станциях. Вся активность сотрудников компании, касающаяся работы с информацией, фиксируется, а данные о ней отправляются в хранилище InfoWatch Forensic Storage (рис. 1), где они доступны для ретроспективного анализа. В этом хранилище в режиме реального времени накапливается архив пересылаемых сотрудниками почтовых сообщений, включая данные, которые сотрудники со своих рабочих мест публикуют в Сети через веб-сервисы, а также передают через системы мгновенного обмена сообщениями и социальные сети.

 

Рис. 1. Схема работы InfoWatch Forensic Storage
Рис. 1. Схема работы InfoWatch Forensic Storage

 

InfoWatch Traffic Monitor Enterprise работает с данными из собственных хранилищ компании, таких как различные базы данных, файловые серверы, системы документооборота (например, SharePoint), а также рабочими станциями в пределах корпоративного периметра. Как правило, все это неструктурированные данные, и для того чтобы иметь возможность извлекать из них полезные сведения, необходимо выяснить, где располагается конфиденциальная информация, кто из сотрудников имеет к ней доступ и насколько это целесообразно. InfoWatch Traffic Monitor Enterprise (рис. 2) осуществляет мониторинг и анализ данных, отправляемых за пределы корпоративной сети через почтовые системы, Web, системы обмена сообщениями, путем распечатки на локальные и сетевые принтеры и копирования на съемные устройства; выполняет автоматическую классификацию передаваемой информации; предотвращает утечки конфиденциальных данных, блокируя процесс передачи в случае обнаружения нарушения политики безопасности; обеспечивает безопасное хранение данных для анализа и проведения расследований.

 

Рис. 2. Схема работы InfoWatch Traffic Monitor
Рис. 2. Схема работы InfoWatch Traffic Monitor

 

Имеющуюся информацию необходимо категоризировать («разложить по полочкам»). Основная проблема здесь — неструктурированность подавляющего объема данных (более 80% составляют данные из неформализованных источников), который удваивается каждые три года. Сотрудникам служб информационной безопасности становится все сложнее отследить, какая информация обращается в компании, откуда она идет, кто ее получатель и имеют ли конкретные сотрудники право на ее использование. Их задача состоит в контроле за движением информации на всех этапах от аудита (где и в каком виде хранится информация) до выявления маршрутов движения информации (от кого и кому, данные какой категории передаются). Для всех этих задач категоризация весьма актуальна.

Существуют специализированные технологии анализа и категоризации неструктурированных данных, в основе которых лежит лингвистический анализ, обеспечивающий высокий уровень детектирования в объемных массивах разнородных, критичных для бизнеса данных, причем на любом этапе их жизненного цикла: сразу после создания, на этапе активной работы с данными и в режиме хранения.

 

Текст в эпоху Больших Данных

Несмотря на движение в сторону Semantic Web, основной объем текстов в Сети пока остается неструктурированным. Как из «сырых» текстовых данных извлечь максимум пользы?

Даниил Скатов

Система IWTM позволяет систематизировать и категоризировать информацию путем применения базы эталонных документов, базы контентной фильтрации и анализа текстовых шаблонов. Технология эталонных документов, также известная как цифровые отпечатки, работает следующим образом. На этапе настройки системы собирается база документов, для которых необходимо создать цифровые отпечатки содержимого (контента). Эти цифровые отпечатки могут сниматься с любых файлов, обычно метод используется для детектирования документов, которым присвоена категория «конфиденциально»: это реестр держателей акций, финансовые документы, отчеты, маркетинговые материалы на этапе их разработки и т. д. Из цифровых отпечатков формируется база эталонных документов. Детектор отпечатков, используемый в InfoWatch Traffic Monitor Enterprise, позволяет обнаруживать в анализируемом тексте цитаты из документов-образцов, содержащих конфиденциальную информацию. Данная технология предназначена для поиска и детектирования больших по объему документов, содержание которых не изменяется или меняется незначительно. Использование этой технологии может быть полезным для компаний, работающих с персональными данными (медицина, банки, страховые компании и т.п.) или обладающих ценной технологической информацией, потеря которой может нанести ущерб конкурентоспособности.

Для определения тематики сообщения, посылаемого, например, сотрудником по электронной почте за пределы корпоративной сети, и степени ее конфиденциальности используется база контентной фильтрации (БКФ) — выделенный на основе вероятностных и математических методов иерархически организованный список (дерево) категорий с произвольным количеством вложенных уровней и содержащий слова и выражения, наличие которых в документе позволяет идентифицировать документ. Перед созданием БКФ сначала составляется ее структура — рубрикатор или дерево контентных категорий. Затем каждая категория наполняется списком терминов, ключевых слов, словосочетаний и фраз, появление которых в анализируемом фрагменте информации указывает на его принадлежность к определенной контентной категории. После этого для каждого термина или словосочетания устанавливается вес, который этот термин будет иметь при отнесении информации к определенной категории. Решение о том, является ли текст релевантным контентной категории, принимается по результатам сравнения общей суммы веса терминов, найденных в тексте, с порогом релевантности этой категории. Для обеспечения качественной категоризации необходимо поддерживать БКФ в актуальном состоянии.

Термины, входящие в БКФ, разделяются на частотные и характеристические. Появление первых в анализируемом фрагменте с некоторой долей вероятности свидетельствует о принадлежности этого фрагмента к определенной категории. Появление вторых (даже единственное) в анализируемом фрагменте на 100% свидетельствует о принадлежности текста к определенной категории.

В состав InfoWatch Traffic Monitor Enterprise входит стандартная БКФ, содержащая наиболее общие категории и термины, встречающиеся практически в любых областях. Такая БКФ гарантирует детектирование данных по таким тематикам, как «Счета», «Бухгалтерия», «Кредиты», «Тендеры», «HR» и т. д., однако для обеспечения эффективного анализа стандартная база нуждается в дальнейшей доработке под специфику конкретной компании с целью учета отраслевых и других особенностей организации.

Технология «Анализатор шаблонов», применяемая в InfoWatch Traffic Monitor Enterprise, предназначена для детектирования алфавитно-цифровых объектов по шаблону данных (маске) и позволяет выявлять персональные данные или финансовую информацию: номера кредитных карт, паспортов, идентификационные коды банков (РФ и SWIFT), международные идентификационные коды ценных бумаг и т. п. Кроме того, данная технология может использоваться при обнаружении фактов несанкционированной пересылки внутренних документов, содержащих формализованные данные, образованные по определенному шаблону (например, договоров или счетов в случае детектирования банковских реквизитов, кодов классификаторов и т. д.). Функциональность данной технологии трудно переоценить — по результатам исследования аналитического центра InfoWatch, наиболее уязвимыми по-прежнему остаются персональные данные — на их долю приходится 89,4% всех произошедших за исследуемый период утечек. Это неудивительно: персональные данные довольно просто конвертировать в «живые» деньги, и именно за такими данными охотятся злоумышленники.

Совокупное применение нескольких технологий позволяет повысить точность конфиденциальных данных в общем хранилище неструктурированной информации, определять тип и тематику информации.

Мониторинг больших потоков данных в решении IWTM выполняется модулем InfoWatch Crawler, в задачу которого входит контроль за тем, какая информация содержится в общедоступных сетевых хранилищах и системах документооборота, сканирование и применение политик к информации, находящейся «в покое». Пользователь формирует задание на сканирование (где искать файлы, каких типов, каких размеров) баз данных, систем документооборота и сети машин Windows, в том числе на их локальных дисках. Для найденного файла определяется список учетных записей пользователей, которые имеют к нему доступ, а затем выполняется контентный анализ файлов с применением лингвистического анализа, цифровых отпечатков и анализатора шаблонов. Далее к файлам применяется политика, установленная в организации. В итоге формируется объект, содержащий данные о расположении файла, списке учетных записей пользователей, имеющих доступ к файлу, текстах, извлеченных из файла, результатах контентного анализа и выполнения политики IWTM (вердикт, теги и пр.). При этом можно регулировать уровень доступа к объектам для тех, кто работает с консолью IWTM, и осуществлять полнотекстовый поиск по объектам.

***

Большие объемы данных современных компаний требуют надежного хранения и кропотливого анализа, который позволяет получить ответы на вопросы: где лежит информация конкретного типа? кто имеет к ней доступ? как оперативно найти ту или иную информацию определенного типа? как оптимизировать информационные потоки? как оптимизировать бизнес-процессы, использующие информацию того или иного типа?

Андрей Данкевич (Andrey.Dankevich@infowatch.com) — руководитель отдела аналитики и спецпроектов, Александр Насонов (Alexander.Nasonov@infowatch.com) — руководитель направления OEM и интеграции компании InfoWatch (Москва).