Данные на работе

Топ-менеджеры компании, включая ИТ-директора, должны быть заинтересованы в том, чтобы сделать ИТ-службу полноценным бизнес-подразделением, непосредственно влияющим на получение прибыли, а не сервисной службой, находящейся на одном уровне с административно-хозяйственным отделом. Сегодня предприятиям все труднее выживать только за счет контроля над каким-либо активом — правила игры усложняются, и обладание актуальной информацией о внутренней и внешней среде предприятия становится необходимым условием принятия правильных решений. Пренебрегать достоверной аналитикой можно было в ситуации, когда прибыль многократно перекрывала издержки, а конкуренция ограничивалась внерыночными факторами, но сегодня такие времена уходят в прошлое. В этих условиях ИТ-службе прежде всего нужно повернуться лицом к бизнесу для решения его насущных задач, среди которых могут быть, например, снижение издержек, борьба за рост прибыли и за качество принятия решений.

Действительно, многие промышленные предприятия имеют, например, ремонтные программы, направленные на поддержку основных фондов, — ежегодно на эти цели выделяется определенный бюджет, и проблема его рационального использования является классической оптимизационной задачей. Как потратить средства таким образом, чтобы минимизировать риск аварий в течение года? Можно полагаться на интуицию электриков, а можно построить модель и получить на ее основе рекомендации по ремонту и прогноз аварийности. При этом исходные данные для такого моделирования уже имеются в компании и содержатся в инженерной и эксплуатационной документации, системах ERP и др., но не работают.

Если оптимизация издержек требует в основном анализа состояния внутренней среды, например активов компании, то повышение прибыли связано в первую очередь с анализом внешней. Имеется множество источников, откуда можно черпать сведения, о которых мечтают маркетологи любой компании: ленты новостей, тендерные площадки, социальные сети и т. п. Понятно, что невозможно вручную переработать такое «сырье» — аналитикам и маркетологам требуются не данные, а факты. Трансформация потока произвольных данных в доступные для пользователя знания — относительно новая для ИТ задача.

После того как решены конкретные прикладные задачи предприятия, наступает время для глобальной трансформации мышления топ-менеджеров — перехода к управлению, основанному на знаниях. Это означает, что ответ на любой управленческий вопрос в первую очередь должен адресоваться информационной системе, аккумулирующей разнообразные сведения обо всем, что касается жизни предприятия. Кроме того, любая ценная информация должна активно использоваться в работе, а не оседать в архивах: библиотеки инженерной документации, сборники лучших практик, живые (а не формальные) должностные инструкции, средства внутрикорпоративной коммуникации — все это части системы управления знаниями предприятия. Обеспечение доступности всех этих данных и их внутренней связности позволяет увеличить скорость и качество принятия управленческих решений, снизить риск ошибочных действий персонала и потери.

Онтология для инженерных данных

Интеграция данных жизненного цикла изделия — важнейшая задача для проектировщиков сложных инженерных объектов, однако такие данные исключительно разнородны, поэтому необходимы стандарты, в частности, ISO 15926.

Виктор Агроскин, Анатолий Левенчук, Владислав Головков

Можно заметить, что перечисленные задачи имеют отношение к работе с информацией на качественном уровне, анализу причинно-следственных связей и моделированию тех или иных систем или процессов, а для этого нужны технологии, позволяющие работать с неструктурированными данными, сложность связей которых адекватна сложности объектов и явлений реального мира. Реляционные базы данных для этих целей не подходят — одним из решений могут быть семантические технологии, основанные на представлении данных в виде набора фактов, выражаемых при помощи словаря (онтологии). Действительно, в реляционной модели каждый объект принадлежит только одному типу: например, запись в таблице «Клиенты» относится только к клиентам, а в семантической модели одна и та же сущность может выступать одновременно клиентом, поставщиком, кредитором — принадлежать любому числу классов одновременно. В реляционной модели каждое свойство какого-либо объекта может иметь только одно значение, а в семантической модели — множество. Например, в семантической модели легко отразить тот факт, что один человек совмещает несколько должностей, тогда как в обычной базе данных для этого потребуется лишняя таблица связи «люди — должности» или дублирование записи. В реляционной модели нельзя отразить какой-либо факт, не предусмотренный предварительно определенной структурой базы данных. Если у компании есть зарубежные клиенты, то в соответствующую таблицу придется добавить поле «Страна», пусть даже у 99% клиентов оно будет не заполнено. Семантическая модель позволяет каждому объекту иметь свой собственный набор свойств. Реляционная модель в целом статична: изменение структуры базы данных является операцией, которую обычно выполняет разработчик и которая влечет изменение логики работы прикладного ПО. Семантическая модель позволяет добавлять, редактировать и удалять типы объектов и их свойства точно так же, как любые другие данные, не влияя при этом на логику работы основанных на ней приложений.

Нижний уровень стека семантических технологий, включающий синтаксис представления логических аксиом (OWL, Web Ontology Language), средства вычисления логических выражений (reasoning), язык запросов к информационным хранилищам (SPARQL, рекурсивный акроним для SPARQL Protocol and RDF Query Language), оформился несколько лет назад и сегодня представлен в ряде программных реализаций. В активной разработке находятся прикладные компоненты более высокого уровня, такие как средства конвертации данных из реляционного в семантическое представление и обратно, интерфейсы конструирования запросов, инструменты работы с информационными моделями на контролируемом естественном языке (язык, на грамматические конструкции которого наложены ограничения).

Как семантические технологии изменяют принципы работы с информацией? Прежде всего они позволяют объединить данные из разных источников внутри и вне предприятия, имеющие разную структуру представления одних и тех же объектов. Интегрируя такие данные в общее хранилище, важно исходить из того, в каких терминах описываются эти объекты или процессы в реальной жизни, а не опираться на конкретную структуру данных той или иной информационной системы. Таким образом, первым шагом к созданию семантической базы знаний является формирование онтологии — набора концепций и логических связей между ними. При этом ключевое преимущество семантики состоит в том, что модель информации может изменяться во времени, причем не только программистом, но и пользователем. Также важно, что логические связи между элементами модели являются ее неотъемлемой частью — таким образом можно, например, воплотить на вычислительном уровне математическую модель, необходимую для оптимизационных расчетов.

Далее онтология наполняется содержанием: моделирование переходит с абстрактного уровня на предметный и создается обобщенная цифровая модель объекта или процесса. Информация для наполнения модели может поступать из корпоративной системы, например, при помощи сервисной шины предприятия, поддерживающей трансформацию данных в семантическую форму, или из внешних источников — при помощи компонентов, позволяющих выделять в потоке информации факты, отвечающие определенным критериям. Отметим, что не обязательно переносить в модель всю информацию (ее объем может быть значительным) — достаточно создать «оглавление», определяющее, в каком источнике можно получить сведения о тех или иных объектах, включенных в модель. Такой подход к построению логических семантических витрин данных реализуется, например, в рамках европейского проекта Optique, выполняемого по заказу Siemens и норвежской компании Statoil. Концерн Siemens использует Optique для того, чтобы предоставить инженерам возможность анализировать данные, поступающие с датчиков турбин электростанций. Каждая турбина генерирует около 30 Гбайт данных в сутки, представленных в нескольких реляционных базах. В случае возникновения нештатной ситуации, например вибрации в турбине, инженеры, согласно обычной практике, формулировали вопросы программистам, а те строили запросы к соответствующим базам данных, возвращая инженерам результат в виде электронных таблиц. Обработав результат, инженер задавал следующий вопрос и т. д., что занимало несколько дней или недель, а Optique позволяет сократить время (а значит, и трудозатраты, и стоимость) анализа данных, предоставив инженерам возможность самим конструировать запросы в терминах привычной им онтологии. Такой запрос затем автоматически трансформируется в серию обращений к реляционным базам, а результаты выражаются в понятных прикладному специалисту терминах онтологии.

Завершающий шаг построения системы семантической аналитики — развертывание интерфейса, позволяющего пользователю «задавать вопросы» информационной модели. Хотя конечным программным компонентом, позволяющим извлечь пользу из данных, является именно аналитический интерфейс, его внедрению предшествуют построение и наполнение информационной модели. Для создания модели применяется редактор онтологий (Protege, TopBraid Composer и др.), а ее наполнение осуществляется средствами интеграционного ПО. На сегодняшний день такие возможности предоставляют продукт IBM IIC (Integrated Information Core), а также корпоративная шина компании «Бизнес Семантика».

Корпоративная шина компании «Бизнес Семантика»

Шина обеспечивает прозрачный для пользователя обмен информацией между множеством приложений в реальном времени, настраивая для этого на стороне каждого приложения или базы данных, включенной в схему обмена, клиентский модуль. На сегодняшний день такие модули предлагаются для Oracle, Microsoft SQL, PostgreSQL, MySQL и «1C». Имеется возможность реализации клиентских модулей в прикладных средах, таких как Microsoft SharePoint.

Клиентский модуль отслеживает изменения, происходящие с данными тех видов, которыми нужно обмениваться. Информация об изменениях кодируется в семантическую форму и передается серверу, проверяющему и маршрутизирующему это сообщение всем заинтересованным сторонам. Таким образом происходит обмен информацией в нейтральной форме, не зависящей от структуры данных конкретного приложения. На стороне каждого клиентского модуля можно настраивать логику формирования и интерпретации сообщений как при помощи стандартного механизма, обеспечивающего сопоставление элементов онтологии структуре базы данных, так и при помощи определяемых вручную правил.

Обмен не останавливается при изменении структуры данных в любой из систем, а в схему обмена можно добавлять новые информационные системы, не затрагивая уже существующие процессы переноса данных.

Сервер шины обеспечивает автоматическую синхронизацию идентификаторов объектов, сведениями о которых обмениваются информационные системы, — то есть нет необходимости хранить в каждом приложении идентификаторы объектов, присвоенные им в других системах. Сервер следит за целостностью данных и при необходимости запрашивает недостающую информацию из системы-источника.

Среду обмена можно «открыть наружу», включив в нее внешние информационные системы. Например, одним из участников обмена может быть MDM-система, с которой будут синхронизироваться внешние хранилища информации.

Шина позволяет не только организовать прозрачный обмен информацией между различными приложениями, но и наполнять единую аналитическую витрину данных.

Таким образом, интеграция, которая пока редко осознается руководством предприятия как бизнес-задача, становится необходимым этапом достижения значимого для бизнеса результата — повышения скорости выполнения операций и эффективности расходования средств. Такая интеграция существенно отличается от привычных методов обмена данными по принципу «точка — точка», реализуемых при помощи различных процедур выгрузки/преобразования/загрузки информации (Extract-Transform-Load, ETL) или сервисов SOAP. Семантическая интеграция заключается не только в передаче данных из одного хранилища в другое, но и в трансформации: смысла (из одного понятийного аппарата в другой) и формы (из реляционного представления в поток фактов) — а также в выполнении ряда других процедур, реализуемых специальным программным обеспечением.

Важнейшее значение при семантической интеграции имеет каталог мастер-данных (нормативно-справочной информации). Понятно, что строиться он должен также по принципам семантических технологий. Один из подходов к построению архитектуры таких каталогов описан в стандарте ISO 15926.

Аналитический интерфейс может содержать специализированные компоненты для решения конкретных прикладных задач (например, оптимизационных или связанных с управлением знаниями) или позволять осуществлять «свободный поиск» по базе знаний. Механизм этого поиска состоит в том, что пользователь может в диалоге с системой формулировать вопросы в терминах онтологии. В качестве примера представим аналитическую систему предприятия, поставляющего оборудование для линий электропередач и подстанций. Собирая в единую модель сведения о крупных проектах (как еще только планируемых, так и уже реализуемых), информацию об инвестиционных программах сетевых компаний и промышленных предприятий, а также публикуемые ими новости, маркетологи данного предприятия могут получить массив знаний, позволяющий прогнозировать спрос на продукцию их завода. Дополнив его сведениями об институтах, выполняющих проектирование объектов для тех или иных заказчиков, можно получить список адресатов, которым следует разослать каталоги продукции. В примере с этим предприятием маркетологи могли бы задавать информационной модели следующие вопросы:

какие организации объявляли в декабре 2013 года тендеры на проектирование линий энергопередач в Уральском регионе?
какие сетевые или строительные компании, в которых в течение последнего полугодия сменились главные инженеры, объявляли конкурсы по выбору подрядчика для проектирования линий энергопередачи?

Инструменты семантического моделирования позволяют аналитику напрямую работать с информацией, представленной в виде модели знаний, — как следствие, бизнесу уже не нужен жрец, священнодействующий с SQL-запросами или OLAP-кубами, а требуется инструмент, позволяющий аналитику или маркетологу получать ответы на конкретные вопросы. Устранение посредников между специалистом, задающим вопрос, и источником, содержащим ответ, — это один из способов повышения скорости и качества принятия решений, а также снижения издержек. Примечательно, что роль ИТ-подразделения при этом возрастает — оно получает возможность выполнять бизнес-задачи (а не тонуть в рутинной работе) и вместо технических задач (приобретения серверов, установки программного обеспечения, подготовки информации по заданному шаблону) решать задачи разработки аналитических и оптимизационных методов в сотрудничестве с профильными специалистами.

***

Предприятия, сталкивающиеся с проблемой разрозненности критически важной информации, нелинейного увеличения ее объема, уже поняли, что имеют дело не с проблемой Больших Данных, а с большой проблемой данных. Возможности осмысленного использования данных сегодня отстают от технологий их хранения и передачи — семантические технологии могут стать одним из способов преодоления этого разрыва.

Сергей Горшков (serge@business-semantic.ru) — директор компании «Бизнес Семантика» (Екатеринбург).