Семантический анализ на службе

Семантический анализ на службе С незапамятных времен человечество защищает себя от внешних угроз разнообразными стенами — от простого плетня до Китайской стены и фортификационных сооружений замков и кремлей. Появление новых техногенных угроз стимулирует строительство новых стен; например, в конце XVIII века были изобретены огнеупорные стены (firewall), они ставились между пассажирскими помещениями и техническим отделением, в котором находились паровые машины, представлявшие опасность из-за возможности взрыва угольной пыли. Спустя век возникла необходимость возведения аналогичных, но на этот раз виртуальных стен в Сети — межсетевых экранов, выполняющих оградительные функции по защите корпоративных информационных ресурсов, и по аналогии с противопожарными стенами их тоже назвали firewall.

Обычно в качестве первой угрозы, побудившей к изобретению экранов, называют червь Морриса, поразивший подключенные к сети Unix-компьютеры 2 ноября 1988 года. Но есть и иная, конспиративная версия, относящаяся к тому же времени: вероятнее всего, реальным стимулом для создания нового фортификационного сооружения стала не проделка любознательного аспиранта, а сознательные злонамеренные действие группы хакеров совместно со спецслужбами СССР и ГДР. Существует достаточное количество свидетельств того, что в период с 1986-го по 1989 год группа, идейным руководителем которой был Маркус Хесс, передавала своим национальным спецслужбам информацию, добытую ими путем вторжения в компьютеры. События, связанные с обнаружением утечки и поиском злоумышленников, увлекательно описаны в изданной в 1989 году книге Клиффорда Стролла «Яйцо кукушки, слежение за разведчиком в лабиринте компьютерного шпионажа» (The Cuckoo's Egg: Tracking a Spy Through the Maze of Computer Espionage). Если верить написанному Строллом, то все началось с невесть откуда взявшегося счета всего на 70 центов. Анализ его происхождения в конечном итоге вывел Стролла на Хесса, работавшего программистом в небольшой западногерманской компании и одновременно принадлежавшего к экстремистской группе Chaos Computer Club, базировавшейся в Гамбурге, хотя самого Хесса звали «ганноверским хакером» по его месту жительства. Организованное им вторжение начиналось со звонка из дома через простейший модем, обеспечивающий ему связь с европейской сетью Datex и далее проникновение в компьютер библиотеки Бременского университета, где хакер получал необходимые привилегии и уже с ними пробивался в Национальную лабораторию им. Э. Лоуренса в Беркли. Первый лог был зарегистрирован 27 июля 1987 года, и из 450 доступных компьютеров он смог влезть примерно в 30 и после этого спокойно флибустьерствовать в закрытой сети Milnet, используя, в частности, ловушку в виде файла под названием Strategic Defense Initiative Network Project (его интересовало все, что было связано с рейгановской Стратегической оборонной инициативой). Процесс отлавливания Хесса занял полтора года, и в известный момент полномочия перешли к ФБР и западногерманской полиции — было арестовано десять человек, которые из-за пробелов в законодательстве смогли отделаться символическими наказаниями, а сам Хесс по-прежнему работает программистом.

Незамедлительной реакцией на появление внешних сетевых угроз оказалось создание межсетевых экранов. В 1992 году первую исследовательскую работу по изучению и нейтрализации действий хакера по имени Berferd выполнил и описал Билл Чесвик, известный эксперт из AT&T. Его ловушка для хакера была чем-то вроде лабораторного стенда, который создавал у атакующего иллюзию реальной системы, а на самом деле позволял изучать его методы и повадки. Другой исследователь, Стив Беллоуин, ныне профессор в Колумбийском университете, одним из первых систематизировал атаки и дал им научное толкование. Практические работы по созданию защитных экранов начались примерно в то же время в Cisco и в Digital Equipment Corporation. В 1991 году EC выпустила на рынок первый коммерческий экран SEAL, а спустя три года израильская компания Check Point Software предложила свой продукт FireWall-1, существующий и по сей день.

По мере развития Интернета выяснилось, что иная угроза, а именно утечка изнутри организации, или утеря данных, является не меньшей, если не большей опасностью для организации, чем внешние атаки. Создание средств защиты от утечек данных (Data Leakage Protection, DLP) вошло в компетенцию основных производителей, специализирующихся на безопасности: Check Point, nexTier Networks, RSA, Trend Micro, Symantec и McAfee. Для этих работ тоже может быть использован термин "межсетевой защитный экран", но он препятствует сознательной или бессознательной передаче конфиденциальных данных.

Компания nexTier Networks использует термин семантический экран (semantic firewall), обеспечивающий защиту от злонамеренной утечки данных (Malicious DLP, MDLP). Компания имеет высокий инновационный потенциал и была признана одним из самых перспективных стартапов 2009 года, а ее основатель и руководитель Тарик Мустафа обладает несколькими научными наградами. Мустафа делит все работы по DLP на четыре поколения, несмотря на то что данной области деятельности не более восьми–десяти лет.

К первому поколению он относит продукты, нацеленные на защиту авторских прав; они попадают в категорию Digital Rights Management. Эти продукты не являются в полном смысле экранами — их функционал позволяет ограничить или затруднить неправомерное копирование информации, иногда они не допускают любое копирование. Наибольшую известность в этом сегменте получили компании Authentica (куплена EMC), Liquid Machines (приобретена Check Point) и Adobe (продукт Adobe Live Cycle). Во многих случаях защита от копирования сводится к авторизации по паролю (Password Protection).

Решения, относящиеся ко второму поколению DLP, предложили компании Tablus (куплена EMC), Vericept (куплена Trustwave) и существующая по сей день Verdasys. Программы этого поколения фильтруют исходящий поток для идентификации и защиты структурированных данных, например номеров кредитных карт, социальных номеров и т. п. В них используются алгоритмы регулярных выражений (regular expression) и соответствия строк-образов, состоящих из символов и метасимволов, задающие правило поиска (pattern matching). Действие этих удивительно интересных методов распознавания текстов ограничено структурированными данными.

Создателями третьего поколения DLP стали компании Vontu (куплена Symantec), Reconnex (куплена McAfee), Port Authority (куплена Websense), Orchestria (куплена CA), ProofPoint и CodeGreen. Решения этого поколения ориентированы на неструктурированные документы (в форматах doc, pdf, ppt и т. п.) и алгоритмически близки ко второму. Один из распространенных подходов предполагает использование технологии цифровых отпечатков для файлов. Для этой цели применяют хеширование — преобразование входного массива данных произвольной длины в выходную битовую строку фиксированной длины. Такие системы позволяют создавать уникальный отпечаток, сопровождающий фрагмент данных в любых его перемещениях, попытка его пересылки по электронной почте или удаления может быть обнаружена и заблокирована. По мнению Мустафы, перечисленные решения ограничены тем, что предполагают простые сценарии, не допускающие деления утечек на случайные, непреднамеренные и сознательные, злонамеренные.

Отличие четвертого поколения DLP в отказе от любых простых лексических операций с документами и перенос акцента на семантические экраны. Для того чтобы бороться с Malicious DLP, требуются автоматические средства обеспечения безопасности (Automated Security), включающие классификацию данных (Data Classification), идентификацию (Data Identification) и автоматический синтез политики (Automated Policy Synthesis), что исключает ручное целеполагание (Manual Tagging). Решения, основанные на семантическом анализе, позволят избежать как ошибок первого рода, среди которых ложные тревоги или ложные срабатывания, так и ошибок второго рода, чреватых пропуском события.

Под семантическим экраном понимают сервис, сосуществующий параллельно с обычными межсетевыми экранами и способный оценивать входящие и выходящие сообщения с учетом множества самых разнообразных факторов: контекста, истории, содержания, правил безопасности в защищаемом домене и т. д. Для создания семантического экрана необходимо на языке OWL определить онтологии, соответствующие избранной концепции безопасности. Понятие онтологии в том смысле, как оно используется в компьютерной науке, отличается от философского — здесь оно проще и всего лишь обозначает способ формализации некоторой области знаний с помощью концептуальной схемы. Схемы могут быть разными, но обычно такая схема состоит из структуры данных, содержащей релевантные классы объектов, их связей и правил, принятых в этой области. Онтологии используются для представления знаний о реальном мире.

По своему исполнению семантический экран nexTier Semantic Firewall (см. рисунок) больше всего похож на программный спецсервер (software appliance), работающий на стандартных аппаратных средствах. Он естественным образом включается в имеющуюся сетевую инфраструктуру и инфраструктуру обеспечения безопасности. Этот сервер состоит из шести основных компонентов, первые два из которых являются служебными.

семантический экран nexTier Semantic Firewall

Робот для автоматического выявления данных. Высокопроизводительный робот (сrawler) может проходить по различным частям корпоративной информационной инфраструктуры в поисках данных, «проникая» во все типы систем хранения данных. Он рассчитан на работу в крупных системах, множество экземпляров робота могут функционировать параллельно в различных сегментах. Робот дает возможность решить одну из самых болезненных проблем современного предприятия — постоянно возрастающее и плохо поддающееся контролю количество данных, позволяя защитить информацию в любых местах, независимо от физического размещения данных. Один из важных, хотя и побочных результатов состоит в том, что информационная обстановка становится прозрачной и лучше контролируемой.

Многопротокольный движок. Такой движок назван многопротокольным (multi-protocol engine) за способность поддерживать и интегрировать данные, поступающие по различным протоколам — SMTP, FTP, IM, HTTP(S) и др. Он может быть интегрирован непосредственно в Semantic Firewall или быть слабосвязанным компонентом. Он способен поддерживать параллельные потоки данных, поступающих по разным протоколам.

Векторный движок. Такой движок (Semantic DNA Vector generation engine) — наиболее важная, но в то же время и наиболее таинственная часть продукта nexTier. Его теоретическую основу заложил Тарик Мустафа, предложивший концепцию векторного кодирования Semantic DNA Vector Encoding, за которую в 2009 году он получил премию за достижения в области технологий Excellence in Technology Innovation Award компании Frost & Sullivan, а в октябре 2010 года Мустафа представил концепцию в Москве на конференции DLP-Russia 2010.

Отличие семантического подхода состоит в стремлении выделить основную смысловую сущность материала, «энтальпию» (enthalpy), и применить для защиты контента алгоритмы, формирующие индекс Semantic-DNA — последовательность, которая не превышает по длине 1000 байт и идентифицирует контент не менее однозначно, чем геном человека. Используя эти последовательности, можно однозначно идентифицировать информацию даже в тех случаях, когда несущие ее данные подвергались модификации с целью их скрытной передачи в злонамеренных целях.

Векторный движок осуществляет глубокий семантический анализ данных, поступающих от двух первых компонентов, выделяет из них семантический контент и генерирует идентифицирующую последовательность Semantic-DNA. Результирующий вектор Semantic-DNA Vector уникален для того или иного документа, что обеспечивает семантическому экрану nexTier Semantic Firewall возможность выполнения автоматической идентификации данных (Automatic Data Identification), обнаружения данных и обеспечения безопасности (Data Discovery and Security) на основе классификации данных (Data Classification).

Semantic-DNA Vector Generation Engine состоит из нескольких компонентов. Имеется несколько готовых онтологий для определенных областей человеческой деятельности и вертикальных рынков, например юриспруденция, финансы, здравоохранение, а новые онтологии могут быть получены от третьих сторон или созданы пользователями с помощью специальных интерфейсов. В форме векторов Semantic-DNA сохраняются в специальной быстродействующей СУБД, архитектура которой обеспечивает масштабируемость и быстродействие, достаточные для больших предприятий. В отличие от большинства алгоритмов хеширования, предназначенных для "снятия отпечатков пальцев для документов", в которых размер отпечатка пропорционален размеру документа, размер вектора фиксирован, что обеспечивает возможность работы в режиме реального времени.

Semantic-Security Correlation Engine. В этом движке реализованы функции защиты средствами DLP. Его математическую основу составляют два уникальных алгоритма, S2-COREX и 3-Dimensional Contextual-Conceptual Correlation. Они придают nexTier Semantic Firewall способность идентифицировать и предотвращать утечки. Semantic-Security Correlation Engine состоит из следующих функциональных модулей:

идентификация данных в реальном времени (Real-time Automatic Data Identification) работает с использованием онтологий nexTier Semantic Firewall, автоматически идентифицируя наиболее информативные фрагменты данных, исключая ошибки первого и второго рода;
классификация данных в реальном времени (Real-time Automatic Data Classification) служит для проверки соответствия заданным правилам;
трехмерная контекстуально-концептуальная корреляция (3-Dimensional Contextual-Conceptual Correlation) позволяет установить соответствие данных и их источников.

Движок правил. Данный движок (policy engine) реализует задание правил и предотвращение кражи данных в реальном времени. Для реализации первой функции имеется удобный графический интерфейс, позволяющий идентифицировать документ и те его важные составляющие, которые могут быть использованы при работе в аксиоматическом режиме. Вторая функция позволяет применять правила безопасности в автоматическом режиме.

Движок управления потоками работ в реальном времени и мониторинга. Данный компонент служит средством управления работой всей системы.

Система nexTier может оказаться особенно полезной при внедрении DLP на небольших предприятиях. Она поступает заказчику с готовностью "под ключ", внедрение занимает считанные минуты, все управление осуществляется с центральной консоли.

О стеке стандартов Semantic Web

Десятилетиями создатели информационных технологий упускали из виду предмет своей деятельности — информацию, и Semantic Web заставляла всерьез задуматься о различии между данными и информацией. Для представления модели данных, отражающей свойства реального мира, используется понятие «онтология», описание которой производится посредством языка OWL.