Онтология для инженерных данных

Разнообразие различных информационных систем неизбежно приводит к проблеме организации их взаимодействия, которая особенно обостряется для случая компьютерных систем, использующихся при создании и эксплуатации крупных промышленных объектов — электростанций, химических производств, фармацевтических предприятий и др. На всех стадиях жизненного цикла сложных промышленных производств занято множество организаций: проектировщики, строители, поставщики оборудования, службы эксплуатации и т. д. — каждая из которых обычно использует свой набор систем и применяет разные форматы данных. Особые трудности возникают при работе с инженерными данными, которые, в отличие от «управленческих» данных, содержат разнородную информацию об одних и тех же объектах.

RDF — инструмент для неструктурированных данных

Реляционная модель, десятилетиями служившая основой технологии работы с данными, более не является главенствующей — на сцену выходят новые задачи, требующие учета и выявления существенно большего количества взаимосвязей.

Владислав Головков, Андрей Портнов, Виктор Чернов

Например, набор данных о насосе в инженерных информационных системах содержит сведения из систем ERP, EAM (Enterprise Asset Management), PLM (Product Lifecycle Management), САПР, а также информацию о его проектных технологических режимах, 3D-компоновке, истории замеров с его датчиков, интерактивные руководства по монтажу и обслуживанию и многое другое. С одной стороны, этот насос классифицируется как «комплектующее» на ранних стадиях жизненного цикла, и он же для системы ERP относится к категории «предмет снабжения» в момент его заказа у производителя и выдачи в монтаж. Насос имеет функциональный код в проектной документации для САПР и приобретает в EAM серийный номер, будучи установленным. Кроме того, инженерная информация формируется в каталоге производителя, в САПР для теплотехнических и электрических специальностей, в системах проектного управления, управления строительством (так называемое 4D-проектирование, в котором для трехмерного проектирования добавлено дополнительное измерение — время) и т. д. Все эти сведения и связанные с ними нормативно-справочные данные собираются в информационных системах предприятий-поставщиков, каждое из которых, как правило, хранит их в своем формате, определяемом разработчиком используемых приложений.

Ясно, что данные о разных узлах и подсистемах промышленного объекта (трубопроводы, электрооборудование, строительные конструкции и т. п.) будут иметь принципиально различную структуру, а в непрерывном производстве (нефтехимия, электростанции и т. д.) существуют сотни подсистем и тысячи групп оборудования. Если каждую из этих сущностей описывать, например, реляционной таблицей, то число таких таблиц разной структуры составит несколько тысяч.

Стандарт моделирования

По данным NIST, решение проблем взаимодействия разнородных систем поможет индустрии крупных капитальных проектов только в США экономить до 16 млрд долл. в год. Неудивительно, что сбор в единую структуру для совместного доступа и анализа полных данных о сложном инженерном объекте на всех стадиях жизненного цикла стал сегодня обязательным условием эффективного управления его проектированием и эксплуатацией. Эту задачу называют по-разному: создание единого информационного пространства жизненного цикла, создание цифровой модели и т. п.

Разработчики инженерных информационных систем CAD/CAM/CAE/PLM до сих пор в основном используют классические объектные модели данных и реляционные хранилища, однако попытки их объединения в единой объектной модели данных для непрерывных производств потерпели провал. Причины этого кроются в фундаментальных ограничениях классической («аристотелевой») теории моделирования данных — жесткие границы между сущностями, атрибутами и связями, разница в подходах к описанию пространства и описанию времени, а также традиция разделения мира на таксоны (фундаментальные классы, составляющие единую мировую иерархию). На практике, в свою очередь, возникают реализационные проблемы при формулировании общего запроса к нескольким базам данных, в которых приняты принципиально разные решения по поводу объектов и атрибутов предметной области или по поводу отражения изменения объектов во времени, что практически блокирует всеобщую унификацию.

Решение проблем интеграции оказалось возможным в рамках логического (семантического) подхода к моделированию данных, опирающегося на онтологическое описание мира в общих терминах теории множеств. Этот подход позволил сформулировать удовлетворительный ответ на вопрос о том, как соотносятся сущность и атрибут, — ответ в терминах принадлежности объекта к классу объектов, обладающих данным атрибутом. Таким образом, существенными чертами модели стали отказ от единого иерархического дерева и допущение множественности классификаций, в том числе равноправных классификаций объектов и атрибутов. Реификация отношений (выделение отношений как сущностей первого уровня, способных, в свою очередь, быть сторонами в отношениях) позволила распространить на отношения шаблоны работы с объектами. Теоретико-множественный язык оказался хорошо совместим с четырехмерным представлением о пространстве-времени, позволившим перейти к единообразному описанию пространственно-временных свойств объектов, решающему проблемы моделирования течения времени и получившему для баз данных название «шестая нормальная форма»).

В целом онтологическое моделирование данных оказалось значительно эффективнее таксономического «классификационного» подхода, и основанные на этом интеграционные модели были приняты на вооружение различными поставщиками инженерного программного обеспечения, озабоченными проблемами интегрирования приложений. В то же время для управления данными об инженерных объектах разрабатывались стандарты как отраслевого, так и международного уровня. Но настоящий прорыв произошел, когда современные решения по моделированию данных легли в основу создания нейтральной по отношению к отдельным инженерным системам модели данных стандарта ISO 15926 Industrial automation systems and integration. Integration of life-cycle data for process plants including oil and gas production facilities (ГОСТ-Р ИСО 15926 «Промышленные автоматизированные системы и интеграция. Интеграция данных жизненного цикла для перерабатывающих предприятий, включая нефтяные и газовые производственные предприятия»). Данный стандарт определяет основные типы объектов и отношений, используемых при описании инженерной информации (задает онтологию), упорядочивает терминологию, используемую для организации инженерной информации, а также определяет принципы расширения стандартной терминологии через механизм федеративных библиотек справочных данных. Сегодня на этот стандарт уже переходят многие крупные компании: члены Norwegian Oil Industry Association, члены консорциума FIATECH, крупнейшие поставщики инжинирингового программного обеспечения. Российские корпорации, такие как «Росатом» и «Роснефть», изучают возможности его использования.

Реализация стандарта ISO 15926 в части представления, хранения и доступа к данным основана на применении утвержденных консорциумом W3C семантических стандартов RDF, OWL и SPARQL. Использование RDF для инженерных данных — весьма удачное решение, поскольку графовая структура наиболее удобна для представления разнородной инженерной информации, требующей постоянного развития и усложнения модели данных на протяжении всего жизненного цикла изделия. Использование онтологического языка OWL позволяет применять для обработки инженерных данных новые технологии, например достижения в области искусственного интеллекта.

Архитектурные решения

Базы данных в Семантической паутине

Полностью представить себе возможности Semantic Web сегодня, как и возможности WWW пятнадцать-двадцать лет назад, еще трудно, однако изначально в научной среде, породившей Паутину, ее ориентировали, в частности, на взаимодействие с программами.

Дмитрий Левшин

Работа с данными инженерных систем на базе стандарта ISO 15926 предполагает трансформацию данных из применяемых в инженерном проекте систем и представление их в виде триплетов RDF, а языком запросов при обмене данными должен быть SPARQL. Однако, при наличии стабильно функционирующих унаследованных реляционных хранилищ и работающих с ними прикладных систем, бизнес пока оказался не готов финансировать глобальную смену технологий, что привело к появлению других архитектур реализации стандарта ISO 15926. Например, в программном комплексе iRINGTools нейтральные семантические модели данных используются для автоматической генерации отображений (mappings) между традиционными объектными моделями данных инженерных приложений. В рамках проекта Optique более важной, чем смена физического способа хранения, была сочтена возможность составления запросов на логическом языке. Общая семантическая модель данных позволяет в этом случае построить интерпретатор, «на лету» транслирующий общий для всех задействованных моделей данных логический SPARQL-запрос в набор запросов SQL для реляционных баз данных и интегрируемых информационных систем и собирающий потом результаты этих запросов в один ответ.

Таким образом, сегодня формируются два архитектурных подхода: физическое хранилище семантических данных и транслятор реляционных и объектных моделей, использующий семантические методы для доступа к традиционным хранилищам. Оба подхода требуют примерно одинаковой работы по подготовке нейтральной семантической модели данных в ISO 15926, отображению на нее баз данных интегрируемых систем и могут использовать одинаковый инструментарий моделирования данных. Для работы с нейтральными моделями данных в семантическом формате используются такие инструменты, как бесплатный редактор Protege или коммерческий продукт TopBraid Composer. Среди инструментов моделирования данных можно назвать 15926 Editor, разработанный специально для данных стандарта ISO 15926. В этом редакторе работа с семантическими структурами RDF скрыта за специализированными интерфейсами и языком запросов, ориентированными именно на онтологическую модель данных ISO 15926, что позволяет комфортно работать со справочными и проектными данными в рамках любой архитектуры интеграции данных.

При работе с физическим хранилищем семантической информации обеспечиваются:

полное соответствие стандарту ISO 15926 — реальный сбор данных о всех этапах жизни изделия в нейтральном (не зависящем от поставщиков инженерных систем) формате, позволяющем организовать хранение данных от проектирования до вывода из эксплуатации;
единообразный сбор данных из многочисленных разнородных источников, включая базы данных производителей оборудования (семантические хранилища данных легко расширяются при усложнении модели данных);
возможность составления и обработки за приемлемое время сложных запросов к разнородным связанным объектам; на сложных запросах (требующих много операций JOIN в реляционных данных) производительность семантических хранилищ превышает производительность реляционных хранилищ, что важно, учитывая традиционно исключительную сложность инженерных данных.
Недостатки физического хранения семантической информации:
необходимость синхронизации данных семантического хранилища с данными унаследованных инженерных систем;
медленная работа на простых запросах по сравнению с реляционными хранилищами (даже самые производительные современные хранилища триплетов, например Virtuoso и OWLIM, уступают в скорости запросов реляционным базам данных в 10–20 и более раз);
неэффективность хранения и обработки больших объемов однородных числовых данных (например, временных рядов отсчетов датчиков на стадии эксплуатации).

Достоинство «трансляционного» варианта — актуальность данных в момент обращения, отсутствие проблемы синхронизации с данными унаследованных инженерных систем. Его недостатки: медленная обработка сложных запросов и запросов, требующих обращения к реляционным хранилищам разных систем.

«Трансляционный» подход появился и развивается как способ быстрого реагирования на запросы бизнеса, однако совершенствование инструментов для семантической работы постепенно приведет к конвергенции двух подходов — сообщество разработчиков нацелено на устранение недостатков «физического» хранения данных в виде триплетов. Для синхронизации семантических данных с реляционными и объектными данными унаследованных систем разработчики инженерных приложений и сторонние компании создают шлюзы, которые служат для взаимодействия с распространенными системами CAD/CAM/PLM/ERP/EAM и тем самым способствуют поддержанию актуальности данных, выгружаемых во внешние семантические хранилища. Со временем только для полностью уникальных и закрытых унаследованных систем может сохраниться необходимость доступа через интерпретирующие модули. Кроме того, для задач интегрированного анализа разнородных данных жизненного цикла, как правило, не требуется доступ к изменяющимся данным в реальном времени, который будет и далее осуществляться для нужд оперативного управления в рамках специализированных систем.

Невысокая скорость работы семантических хранилищ на простых запросах по сравнению с реляционными хранилищами является одним из главных препятствий для распространения семантических технологий. В данный момент лидерами по производительности среди хранилищ являются Virtuoso, AllegroGraph, StarDog и OWLIM, но, поскольку рынок семантических хранилищ достаточно молод, на нем постоянно появляются новые игроки. Например, RDF-хранилище NitrosBase не уступает по производительности традиционным реляционным и объектным базам данных даже на простых запросах, а на сложных на порядки опережает по скорости работы RDF-хранилища лидеров рынка. Увеличение производительности достигается за счет того, что, в отличие от классических RDF-хранилищ, NitrosBase компактно хранит информацию по одному субъекту, это сближает его архитектуру с архитектурами объектных и реляционных баз и позволяет приблизить NitrosBase по производительности к реляционным СУБД. Все рабочие структуры NitrosBase, включая индексы, используют внутренние адреса вместо ссылок по URI, а для трансляции URI во внутренний адрес применяется словарь. Использование прямых внутренних адресов вместо URI дает возможность получить весь набор данных о субъекте за одно-два обращения к памяти (вместо многих обращений при поиске в B-дереве) и позволяет добиться быстродействия на простых запросах, сопоставимого с классическими реляционными базами данных. Кроме того, специальная структура позволяет получить список внутренних идентификаторов записей, на которые ссылается данная запись, что в сотни раз ускоряет обработку сложных запросов (требующих множества JOIN) по сравнению с использованием классических В-деревьев.

Неэффективность хранения и обработки больших объемов однородных числовых данных устраняется, например, в специализированных хранилищах, объединяющих традиционные триплеты и массивы. Однако для формирования запросов к таким хранилищам требуются расширения SPARQL, обеспечивающие возможность работы с массивами, как это сделано в расширении Scientific SPARQL. Другой подход развивается в рамках проекта Simantics (www.simantics.org), комбинирующего для задач инженерного моделирования различные логические представления инженерных данных, включая данные временных рядов.

***

Онтологические подходы к моделированию данных и семантические технологии их хранения и обработки были созданы для операций с квазиструктурированными данными, выполняемых, например, в задачах анализа текстов на естественных языках или данных социальных сетей. Развитие семантических технологий привело к расширению сферы их применения в том числе и для структурированных данных жизненного цикла сложных инженерных объектов — именно такие подходы позволяют обеспечивать эффективную коммуникацию большого количества людей и компьютеров в рамках все более сложных современных инженерных проектов.

Сегодня формируются две архитектуры для работы с инженерными данными: с хранением семантических данных и с их трансляцией в семантический формат. Новые разработки будут в дальнейшем ориентированы либо на конкуренцию, либо на конвергенцию этих архитектур, что следует учитывать специалистам, работающим с инженерными системами (САПР, PLM), а также применяющим семантические технологии для других прикладных областей.

Виктор Агроскин (vic5784@gmail.com) — президент, Анатолий Левенчук (ailev@asmp.msk.su) — вице-президент по исследованиям и разработкам, компания TechInvestLab.ru (Москва); Владислав Головков (vgolovkov@nitrosbase.com) — главный архитектор информационных систем, компания «НитросДэйта Рус» (Москва).