Семантические cредства управления мультимедиаОбъем мультимедийных данных сегодня растет экспоненциально, что существенно обострило проблему работы с ними: авторам, издателям и потребителям требуются эффективные средства управления и навигации. Такой инструментарий предоставляют системы управления цифровыми ресурсами (Digital Asset Management, DAM), область применения которых простирается от создания и распространения мультимедиа до ведения цифровых архивов. При обработке видеоматериалов на телевидении, радиостанциях, в фотобанках и домашних коллекциях в той или иной степени требуются инструменты индексации, поиска и доступа к мультимедиаресурсам. Различные фрагменты могут быть, например, скомбинированы, переданы пользователям или связаны логическими ссылками.

Получили развитие методы извлечения аннотаций из текстовых документов и автоматического распознавания речи, однако с остальными типами данных ситуация сложнее. Несмотря на то что записывающие устройства автоматически сохраняют в файлах такие метаданные, как временные отметки, сведения о диафрагме, фокусе и т. п., на практике пользователь, например редактор выпуска новостей, не будет употреблять большую часть из них при поиске материалов — ему нужны ответы на запросы типа: ”Найти картинку девушки с книжкой на прогулке после дождя”. Типичная система DAM обычно базируется на реляционных СУБД, что затрудняет публикацию и обмен данными, поскольку фиксированная модель метаданных требует задания явных связей между каждой парой систем. Кроме того, многозначность слов в естественных языках существенно затрудняет семантический поиск. Использование словарей и тезаурусов позволяет создать неплохую аннотацию, однако при внешнем поиске пользователь, не имеющий таких словарей, не сможет найти нужный материал.

Большинство систем управления мультимедиаресурсами, в том числе IBIS, CatDV, Televista, Final Сut и др., использует синтаксический подход к поиску, не учитывающий семантики запроса, что часто делает невозможным применение существующих материалов — их просто невозможно найти или сделать это крайне сложно за ограниченное время. Для того чтобы можно было осуществлять семантический поиск, необходимы семантические аннотации для мультимедиаресурсов. Перспективное решение для этой проблемы сегодня – Semantic Web, практическая реализация концепций которого позволяет не только создавать аннотации и обмениваться ими, но и использовать логические заключения для поиска в базе знаний явно не описанных фактов.

Semantic Web для DAM

Главная задача Semantic Web — организация метаданных таким образом, чтобы они позволяли осуществлять семантический поиск мультимедиаэлементов, а модель метаданных была бы легкой в управлении.

Напомним, что Semantic Web — это три спецификации: язык описания ресурсов (Resource Description Framework, RDF), язык описания онтологий (Web Ontology Language, OWL) и язык запросов (Protocol and RDF Query Language, SPARQL). RDF используется для описания объектов в триплетах, означающих, что каждый объект обозначен субъектом, предикатом и описанием. По сути, RDF — это модель, а не формат (наиболее распространенные формы записи: XML-RDF, N3, RDFa, Turtle). OWL – инструмент для определения классов, свойств и правил. Онтология для RDF — аналог схемы в реляционной базе данных — определяет общие свойства, объекты, типы свойств и значения объектов. Язык SPARQL предназначен для работы с триплетами, и его можно сравнить с T-SQL для SQL в реляционной базе данных.

При семантическом описании ресурсов поисковая машина может возвращать результаты, учитывающие смысловую информацию, и по запросу «Ученые из университета А» поисковая машина будет искать людей (профессоров, лаборантов и т. п.), имеющих отношение к данному заведению. Традиционная система информационного поиска представит запрос в лексической форме и возвратит документы, в которых присутствуют слова «ученые» и «университет», например учебные материалы университета.

Создание аннотаций средствами Semantic Web упрощается в основном за счет появления возможности вывода новых, не присутствующих явно в документе метаданных. Например, если указанно «на изображении присутствует профессор», а в базе знаний имеется запись (возможно, полученная автоматически из внешней системы), что «профессор входит в более общий класс ученых», можно вывести утверждение «на изображении присутствует ученый». Модель метаданных системы DAM, которая основана на RDF-графах, означает, что не существует как таковой схемы метаданных, которую надо менять, если вносятся изменения — новые триплеты, например « <Иванов Иван Иванович >»( в N-Triples-форме записи RDF) могут быть определены и добавлены как новые элементы в соответствии с изменившимися требованиями к модели метаданных. При этом не требуется вносить изменений в уже существующие модели метаданных, например нет требования явно определить предикат hasPerson в системе. Сам RDF-процессор может быть основан на реляционной базе данных — ключевое отличие семантического хранилища от традиционной базы данных состоит в представлении семантической модели данных. Семантика в традиционной реляционной базе хранится в виде ключей и таблиц, и приложение-клиент должно знать, как интерпретировать семантику базы данных, что значительно осложняет импорт данных.

RDF и OWL упрощают обмен информацией между системами, определяя лишь спецификации, а не фиксированные модели. Вместе с тем реляционные базы получили большое распространение, и полностью отказываться от них сегодня вряд ли целесообразно. Одним из решений является организация доступа к реляционному хранилищу данных с помощью бизнес-логики хранилища, представленной в виде RDF; все таблицы, независимо от источника данных, имеют одинаковый формат (рис. 1).

 

Рис. 1. Отличие реляционной базы данных от RDF-хранилища

Приведем пример описания мультимедиаресурса в формате XML-RDF. Мультимедиаэлемент идентифицируется с помощью URI — http://example.com/Videos#sample1.wmv, предположим, что это видео, тогда тип идентифицируется как http://example.com/dam/mediatypes#Video. Зададим для этого элемента несколько свойств, например название: http://purl.org/dc/elements/1.1#title. Визуальное представление описываемого ресурса приведено на рис. 2.

Рис. 2. Пример RDF-графа для описания мультимедиаресурса в DAM-системе

В RDF-XML (рис. 2) ресурс записывается как: , http://example.com/dam/mediatypes#Video , Sample 1, 300000 .

В любой момент можно добавить в базу знаний SPARQL-запрос, или через интерфейс — новую запись о том, что для этого элемента имеется другой формат, или определить новое свойство, которое на момент создания системы еще не существовало.

В системе DAM хранилище метаданных отделено от физического хранилища элементов, что позволяет абстрагироваться от задач хранения больших архивов мультимедиафайлов. Но иногда требуется, чтобы метаданные содержались в самом файле, представляющем мультимедиаресурс. Для этого имеются определенные стандарты хранения метаданных в заголовочной секции файлов, однако большинство из них недостаточно гибкие. Тем не менее, как и в описанном ранее примере, можно попытаться использовать преимущество RDF, скажем, для jpeg-файлов взять следующий XMP-формат записи: Профессор Иванов в лаборатории. В этом примере задан заголовок изображения.

В спецификации XMP гораздо больше записей, а учитывая, что это RDF, набор можно расширить своими элементами. Система, которая имеет в своей базе знаний определения («понимает»), может обрабатывать пространства имен с учетом семантики значения элементов, в то время как система, которая «не понимает», все равно способна их обрабатывать, а «понять» может позже, когда в ее распоряжении будет соответствующая онтология, добавленная администратором базы знаний или полученная путем индексирования внешних источников.

Для описания онтологий в Semantic Web используется OWL. В системах управления мультимедиаресурсами онтологии могут применяться для определения основных классов и понятий, а также отношений между ними. Важно, что при смене онтологий структура RDF-утверждений остается нетронутой. Для описания метаданных в DAM-системе, где требуется  выразительность, значительным является поддержка OWL-аксиом (таких, как subClassOf, disjointWith, и т. д.) и описания классов (uninonOf, IntersectionOf и т. д.).

Следующий пример включает SPARQL-запрос для поиска названия элемента VideoItem в объектах из графа. Запрос состоит из двух частей: условие SELECT определяет переменные, которые фигурируют в результатах запроса, условие WHERE используется для определения шаблона триплета при поиске соответствия в графе. А вот простой пример SPARQL-запроса, который возвращает заголовок ресурса:

SELECT ?title
WHERE
{ ?title .}

Проектирование архитектуры метаданных

Можно выделить две основные группы метаданных, требующих различных подходов к обработке.

Первая – метаданные, специфичные для конкретного рабочего процесса. Такие метаданные описывают контекст, в котором используются мультимедиаресурсы, уникальные для предприятия и пользователей данные, например имена редакторов, название рабочей группы, этапы прохождения редактирования и утверждения контента и т. п. Их наличие естественно для производственного цикла, но если, допустим, мультимедиаресурс будет продан в другую компанию, значимость метаданных «первой» группы утрачивается.

Вторая группа – это концептуальные описания контента. Метаданные этой группы описывают непосредственно, что изображено, какое действие происходит, кем производится действие, где, как и т. д. Такие метаданные будут, в первую очередь, использоваться при поиске контента, и их значимость не меняется при смене владельца или при переходе материала из одного рабочего процесса в другой.

Предложим методику построения базы знаний о мультимедиаресурсах, показав особенности работы с группами метаданных и получив систему, решающую проблемы обеспечения семантического поиска.

Для организации первой группы метаданных требуется разработать корневую онтологию, содержащую основные классы и понятия. Базируясь на ней, можно добавлять более гибкие модульные структуры данных. Корневая онтология должна быть максимально компактной и стабильной, а все расширения должны на нее опираться. Корневую онтологию можно заимствовать, доработав под конкретные требования, например взять за основу предлагаемую W3C Ontology for Media Resource.

Опираясь на корневую онтологию, разработчик модели метаданных может создавать гибкие модули или расширения модели. Уже эти конкретные классы станут основой для построения интерфейса с пользователем и ячейками для хранения метаданных об элементе. Благодаря гибкости RDF такие расширения могут быть изменены или доработаны в соответствии с постоянно изменяющимися требованиями. Так, расширением станут классы, обеспечивающие новые поля для карточки, которая будет заполняться редактором с комментариями об утверждении мультимедиаэлемента на определенном этапе. Например, в уже работающую систему к описанию человека можно добавить свойство "ученая степень". Выглядеть в N-Triples-форме это будет так: <Петров Петр >».

Ключевое отличие подхода, в основе которого лежит семантическое аннотирование в соответствии с принципами Semantic Web, — гибкость и прозрачность, которую дает модель. Допустим, потребовалось внести изменения в модель, например, увеличить число утверждающих редакторов для этого нужно добавить лишь еще одно утверждение « ».

Концептуальное содержимое мультимедиаресурса требует другого подхода: здесь нужно максимально полно и независимо от контекста текущей системы описать суть изображения, охарактеризовав мультимедиаресурс. Корректно составленное семантическое описание ресурса позволяет производить семантический поиск, а следовательно, точнее находить релевантные мультимедиаресурсы и проще обмениваться метаданными между системами.

Для таких описаний требуется база знаний, причем достаточно широкая, содержащая в себе «все знание человечества» с определенной, известной заранее детализацией. В последние годы в рамках концепции Linked Data в сети появилось большое число формализованных знаний, связанных между собой. Среди наиболее значимых можно упомянуть ресурс DBPEDIA, представленный в форматах RDF WordNet, Freebase, Geo-names и UMBEL. Все вместе эти источники можно рассматривать как распределенную базу знаний.

Получив методом индексирования распределенную базу знаний и опираясь на заложенные в ней понятия, можно создавать семантические описания мультимедиа-ресурсов. Использование общедоступных и общепризнанных источников дает гарантию того, что внешняя система заведомо «поймет» значение семантических описаний контента, а широта предметной области, которую дает распределенная база знаний, будет достаточной для того, чтобы описать практически любую сцену и действие.

Пользователь через программный интерфейс, помогающий делать корректные формальные RDF-утверждения об объекте, создает набор утверждений о мультимедиаресурсе. После этого, опираясь на базу знаний, система сможет предложить ряд утверждений о предмете. На выходе получаются RDF-описания ресурса, в которых утверждения состоят из общеизвестных объектов. При необходимости такая система может быть расширена узкоспециализированной онтологией, не представленной в распределенной базе знаний.

Однако использование распределенной базы знаний ставит ряд проблем: объединение баз, устранение противоречий, решение вопросов доверия к источнику знаний. Существует ряд подходов, основанных на совмещении политик и репутаций. Основные предлагаемые решения — это использование политик для задания уровня доверия к конкретным источникам в заданном контексте. В гетерогенных системах более эффективна оценка доверия к утверждениям на основе репутации, которая зависит от истории взаимодействия с источником обнаруженных противоречий с другими источниками или выведенным знанием, а также оценка конечного пользователя через механизм обратной связи.

Для того чтобы описывать мультимедиаресурсы, не обязательно «индексировать всю сеть». Для многих задач вполне можно опираться на один источник, например DBPEDIA, WORDNET или объединение небольшого множества баз знаний, однако это уменьшает число понятий, которыми можно описать ресурс без создания собственных понятий, неизвестных другим системам. К преимуществам такого подхода можно отнести отсутствие проблем с объединением и доверием к отдельным утверждениям.

***

Переход к семантическим инструментам метаданных открывает новые возможности для поиска. Правильно спроектированная архитектура, максимально использующая уже существующие в системе или в Сети знания, позволяет создать качественные аннотации с меньшими затратами. RDF-модель хранилища метаданных хорошо приспособлена для обмена между различными системами, позволяя легко импортировать данные или вести совместный поиск во множестве систем без задания жестких связей.

Сергей Новиков (serrnovik@gmail.com)  – аспирант кафедры МОСОИиУ, МИЭМ (Москва).

 

Web, часть третья

Вслед за World Wide Web появляется Web 2.0, уже вовсю обсуждается Web 3.0, суля широкой публике семантическую революцию. Но что реально стоит за новой технологией? Идея Semantic Web проста по сути, но тяжела в реализации – сложно научить программные агенты понимать Web-документы, которые для нынешних браузеров являются книгой на незнакомом языке с кем-то оставленными пометками на полях.

Язык онтологий в Web
Язык OWL поможет запустить автоматизированные инструменты для глобальной сети нового поколения, предлагая такие усовершенствованные услуги, как более точный Web-поиск, интеллектуальные программные агенты и управление знаниями.