Интегрированная обработка неструктурированных данных

Структурированные и неструктурированные данные — два пересекающихся подмножества данных информационного пространства организации, и анализ каждого подмножества в отдельности позволяет выделить закономерности, присущие только ему. Например, используя структурированные данные о котировках акций компании, можно оценить динамику их роста или падения на фондовой бирже, а при обработке неструктурированных источников, таких как публикации в СМИ, открывается возможность исследовать эмоциональный фон вокруг бренда этой компании и сформулировать экспертную оценку влияния той или иной информации на котировки ее акций. Работая со всей информацией о конкретном событии или процессе, можно научиться осознанно и целенаправленно управлять этим процессом.

Аналитика неструктурированных данных

Методы работы с неструктурированными данными иногда противопоставляются технологиям бизнес-аналитики, однако точнее говорить не о противопоставлении, а о взаимном дополнении двух групп технологий.

Леонид Черняк

В комплексном инструменте бизнес-анализа организация должна иметь как возможности анализа структурированных и неструктурированных данных, так и набор средств, которые позволят провести их совместный анализ. Вместе с тем сегодня наблюдается слабая интеграция систем анализа структурированных и неструктурированных данных — совместный анализ данных из различных источников пока возможен только при условии, что структуры этих данных перед применением инструментов анализа приведены к схожему виду. То есть неструктурированные данные должны быть структурированы, так как именно для структурированных данных наиболее развит математический и функциональный аппарат подготовки и анализа.

Неструктурированные данные — это на сегодняшний день еще не до конца оцененный бизнес-актив, эффект от использования которого будет тем выше, чем совершеннее и «тоньше» будут соответствующие программные инструменты. По оценкам экспертов, около 80% внутрикорпоративного информационного контента имеют неструктурированный или частично структурированный вид — это файлы различных форматов (фото, аудио и видео, электронная почта), несущие в себе огромный потенциал для бизнес-анализа. Мало того, наиболее продвинутые компании начинают «сканировать» внешнее информационное поле в поисках дополнительных актуальных знаний о конъюнктуре рынка и поведении своего сегмента потребителей, надеясь найти новые решения для развития своего бизнеса. Однако основной массив данных, генерируемых существующими на планете организационными структурами (предприятиями, компаниями, семьями, группами по интересам и т. д.), остается вне фокуса внимания аналитиков — подобная информация не подпадает под критерии области анализа, отсутствует инструмент обработки, а поток данных избыточен.

Неструктурированные данные 2.0

Можно ли прочитать мысли клиентов, чтобы понять их текущие и будущие предпочтения? Как оперативно найти важную информацию в потоке новостей и сообщений в социальных медиа? Возможно, понятие «контент» сегодня обретает новый смысл.

Артак Оганесян

Неструктурированная информация характеризуется рядом признаков, затрудняющих ее обработку средствами стандартного аналитического инструментария, но при этом как раз и составляющих уникальный потенциал для извлечения новых знаний. Во-первых, она очень разнообразна. Во-вторых, она неоднозначна — одинаковый набор данных может содержать разный смысл в зависимости от контекста, языковых и культурных особенностей. В-третьих, она динамична — со временем меняется структура информации, ее значение. Кроме того, неструктурированные данные зачастую носят субъективный и эмоционально окрашенный характер. Все это, а также анализ не учтенных ранее данных, выделение дополнительных и неявных предметных областей, пересечение и взаимовлияние предметных областей является сегодня предметом пристального изучения аналитиков в сфере неструктурированных данных.

Для разговора о способах анализа неструктурированных данных крайне важно понятие онтологии — совокупности схемы описания предметной области и правил отнесения данных к этой предметной области. Как схема она должна содержать концепты — сущности, атрибуты сущности и, в обязательном порядке, связи. При этом связи должны быть нагруженными, то есть содержать также атрибуты, которые позволяют отразить служебную информацию: эмоциональный оттенок отношения, предмет связи, способ связи и т. д. Для концептов, атрибутов, связей определяются критерии — правила отбора данных, удовлетворение которым позволяет отнести данные из неструктурированного потока информации к той или иной предметной области.

Способы обработки неструктурированных данных:

Выделение онтологии — описания-схемы предметной области, характеризующейся определенной логической структурой. С использованием семантического анализа текста, набора написанных лингвистических правил осуществляется наполнение выделенной онтологии (выделение данных из информационного потока). Логическая форма представления структурирована, поэтому к наполняющим ее данным применима реляционная алгебра.
Поиск упоминаний, категоризация и извлечение фактов. Подразумевает поиск по ключевым словам, выделение связанных с объектами поиска фактов и может быть использован как на данных онтологии, так и на неструктурированном тексте.
Выделение эмоциональной окраски, оценки интереса, отношения. Представляет собой семантический анализ на базе лингвистических правил, применяемый после выделения онтологии.
Выделение закономерностей — динамика и ход изменения отношения, выделение общего, заимствования. Опирается на выделенные в рамках онтологии концепты-сущности, их атрибуты и связи.

Все эти способы имеют ограничения, влияющие на полноту обработки неструктурированных данных, — они требуют обязательного участия человека, отвечающего за формирование запросов и схем предметных областей: онтологий, описаний лингвистических правил, а также за обучение системы и настройку семантического анализа. Осмысленное выделение предметной области (источники данных, критерии и особенности, обязательные сущности, атрибуты и связи) на сегодняшний день способен сделать только человек.

Выделение структуры предметной области (онтологии) — это первый шаг по приведению неструктурированных данных к структурированному виду. Каждая отдельная предметная область — это только подмножество неструктурированного набора данных, поэтому для максимально возможного охвата данных и, как следствие, более полного анализа необходимо выделить максимально возможное количество различных предметных областей, которые будут участвовать в анализе.

К сформированным структурам применимы инструменты поиска, визуализации, анализа, фильтрации, моделирования, прогнозирования, выделения закономерностей, выделения эмоциональной окраски, категоризации и извлечения фактов. Сформированные структуры успешно участвуют в кросс-анализе со структурированными источниками данных.

Рис.1. Универсальная схема обработки и анализа неструктурированных данных

На рис. 1 приведена универсальная схема работы с неструктурированными данными, опираясь на которую можно привести данные к структурированному виду и предоставить аналитику возможность применить к ним специализированные инструменты анализа. Онтология в контексте этой схемы — логическая структура, которая связана с одной или несколькими физическими структурами хранения данных в базе данных. В идеале онтология — это абстрактный, логический уровень, отделяющий аналитика-пользователя от структур хранения данных. Всю работу с данными, формирование запросов и отчетов аналитик осуществляет в терминах схемы онтологии, фактически — в терминах предметной области, для анализа которой эта схема создана. При этом сущности и атрибуты, связи схемы онтологии могут быть связаны с несколькими разнородными источниками данных. Аналитик осуществляет запрос в соответствии со схемой онтологии и получает свод данных из всех связанных источников. В качестве примеров аналитических систем, в основе которых лежит разработка и использование логического уровня (онтологии), можно назвать продукты компаний НПК «Кронос-Информ» (CronosPro) и «Авикомп Сервисез» (ТАИС Ontos).

В чем причины слабой интеграции систем обработки неструктурированных и структурированных данных? Их несколько:

отсутствие у аналитиков комплексного представления о предметной области — области анализа и источниках ее формирования;
отсутствие простого инструмента описания онтологий (схем и правил), интегрированного в инструменты анализа и понятного аналитику;
отсутствие адаптированного под аналитика модуля обработки неструктурированных данных; систем, решающих эту задачу, на рынке достаточно много (Factiva, Digimind и др.), но большинство из них ориентировано на лингвистов и экспертов в области семантического анализа.

Комплексной интеграции пока нет, но тем не менее потребность в интегрированном анализе структурированных и неструктурированных данных растет и задача частично решается. В СУБД создается реляционная физическая структура хранения данных, в которой каждая сущность (например, адрес или документ, проводки и др.) — это таблица, а атрибуты (улица, дом и т. д.) — поля. Нагруженные связи оформляются в виде служебных таблиц с атрибутами. Сама связь настраивается по ключу. Далее лингвисты и программисты прописывают правила анализа и выделения сущностей, связей и атрибутов. Исходные неструктурированные данные пропускаются через сито фильтров и правил, а затем помещаются в базу данных. Однако этот способ определения онтологии имеет ряд существенных ограничений. Во-первых, его отличает ограниченный набор онтологий и отсутствие возможности гибкой работы с онтологиями (описанием предметных областей): их создания, изменения, удаления. Во-вторых, онтология формируется для конкретного заказчика-аналитика, под задачи анализа, однако аналитик участвует в разработке системы опосредованно, только на этапе постановки задачи. На этапе реализации работают ИТ-специалисты и лингвисты, поэтому для максимально эффективного решения поставленной задачи и заказчик, и разработчик должны обладать универсальными знаниями и навыками, а также непротиворечивым пониманием стратегических целей и методологии проекта. В-третьих, онтология — база данных является физической структурой представления и хранения информации, которая не позволяет гибко увязать информацию из нескольких источников данных. Для этого нужно создавать дополнительные служебные структуры хранения метаданных, причем делать все приходится на уровне баз данных, что со временем порождает проблемы с контролем целостности. Как бы то ни было, по такому пути идут компании, специализирующиеся на анализе только неструктурированных данных («ЭР СИ О» с серией продуктов RCO, «Медиалогия» со своими сервисами анализа СМИ и др.) в проектах, требующих интегрированного анализа со структурированными данными. Некоторые разработчики промышленных СУБД (например, Oracle) встраивают в свои системы элементы Data Mining, которые, однако, в большей степени ориентированы на выявление неявных закономерностей в структурированных данных.

Другой способ интегрированной обработки неструктурированных данных состоит в интеграции инструментов анализа структурированных и неструктурированных данных в рамках одной системы на базе логического уровня — онтологии. Обязательным условием создания такого интегрированного решения является наличие инструмента создания и редактирования онтологий. Самым близким классом систем, у которого есть и инструменты анализа, и логический уровень представления информации, являются системы бизнес-аналитики, в которых имеются логические слои (Universe Designer в SAP BusinessObjects, BISM в Microsoft SQL Server, конструктор OLAP в Prognoz Platform и др.), они называются по-разному, обладают разным функционалом, но при определенной доработке их можно использовать как редактор онтологий. В таких системах остается добавить модуль обработки неструктурированных данных и интегрировать его с редактором онтологий, отвечающим за транспорт данных (рис. 2). Интеграция систем по такой схеме расширяет возможности классических систем бизнес-аналитики, трансформируя их в системы класса СППР (системы поддержки принятия решений).

Рис. 2. Схема интеграции на уровне онтологии в системах BI

Примером интегрированных решений для анализа структурированных и неструктурированных данных является облачный сервис Prognoz Data Portal, в котором реализован механизм Search-Based BI, позволяющий осуществлять в хранилище данных поиск информации по источникам, отчетам, справкам и публикациям, формулируя запросы на естественном языке. Также в компании «Прогноз» реализуется проект с применением обработки неструктурированных данных для одной из российских торговых сетей, в котором аналитический инструментарий используется для автоматической обработки массива данных кассовых чеков. Этот источник характеризуется определенным набором метаданных, но, в силу разнородности своей структуры, требует особого подхода к вычленению значимой информации. Чеки в торговле являются основным источником знаний о бизнесе — их обработка поможет производить анализ и делать выводы по обороту, эффективности торговых точек, номенклатуре товаров, режиму работы, использованию дисконтных карт и др. Комплексная аналитическая система позволяет на их основании рассчитывать такие ключевые показатели эффективности персонала, как объем продаж на один час работы продавцов или среднее время обслуживания каждого покупателя. Руководству сети могут предоставляться данные для более эффективного управления товарным ассортиментом и складскими запасами, для планирования и оценки маркетинговых мероприятий по привлечению и удержанию клиентов на основе данных дисконтных карт, для отслеживания подозрительных ситуаций и предотвращения случаев воровства недобросовестными сотрудниками.

***

Интеграция систем анализа структурированных и неструктурированных данных способствует организации обработки всех данных компании, проведению анализа перекрестного влияния различных сведений, обнаружению наложения и пересечения данных, скрывающих новые знания, влияющих на качество и обоснованность принимаемых решений. Сегодня имеются технологические и методологические причины того, что процесс интеграции идет недостаточно интенсивно, но главная причина в том, что пока нет спроса на интеграционные решения. Большинство ИТ-руководителей компаний не могут оценить объемы и качество скрытой информации, которую содержат неструктурированные данные, и не понимают, из каких источников их можно брать, как эти данные коррелируют со структурированной корпоративной информацией и какое преимущество получит компания от интегрированного анализа всех своих данных. В итоге разработчики, не видя спроса, не спешат предложить цельное решение, хотя интеграцию инструментов обработки структурированных и неструктурированных данных способны обеспечить не только крупные фигуранты рынка ИТ, но и нишевые игроки. При этом, как бы ни подходили разработчики к решению проблемы интеграционного анализа, использование слоя онтологии неизбежно, а предложенная схема (рис. 2) в ближайшем будущем станет доминантной в проектируемых архитектурах.

Артем Гришковский (grishkovskiy@prognoz.ru) — советник генерального директора, компания «Прогноз» (Москва).