В недалеком будущем информационных технологий потребуется динамически объединять ресурсы Сети, используя для этого новую распределенную инфраструктуру. Разберем некоторые задачи, которые могут здесь возникнуть, особо обратив внимание на роль и место в этом процессе цифровых библиотек — хранилищ знаний, снабженных развитыми службами.

Рассмотрим несколько модельных ситуаций, которые могут возникнуть в реальной жизни.

  • В медицинских научно-исследовательских учреждениях накапливается информация о человеке, состоянии его здоровья и болезнях. Она представлена самыми различными ресурсами: базы данных, идеографическая информация (истории болезни, клинические случаи и пр.), аудио- и видеофрагменты, изображения (фотографии, информация с томографов, рентгеновских аппаратов и пр.). Ресурсы принадлежат разным институтам, каждый из которых проводит самостоятельную политику в отношении их использования и организации доступа. Одновременно все эти ресурсы объединены в федеративную цифровую библиотеку, что открывает ее пользователям всю информацию, накопленную за долгое время, позволяет быстро получать исчерпывающие ответы на сложные запросы. При этом фрагменты данных, выбранные по запросу, подвергаются определенным процедурам, выполняемым специализированным программным обеспечением, что позволяет представить их пользователю в адекватной форме.
  • Тысячи физиков из десятков лабораторий по всему миру сотрудничают с целью создания и использования уникального оборудования в CERN. В процессе анализа полученных данных они объединяют свои вычислительные, сетевые и иные ресурсы с целью создания высокопроизводительной распределенной системы, способной обрабатывать и анализировать петабайты данных. При этом необходимо подчеркнуть тот факт, что вычислительных ресурсов всех видов, имеющихся в распоряжении даже целых стран, недостаточно для эффективного использования полученной информации — только их объединение в единую сеть позволяет решить задачу.
  • Высшее руководство корпорации принимает решение по размещению нового производства. При этом используется современное программное обеспечение для моделирования и расчета возможных вариантов. В процессе функционирования это ПО может запускать «дочерние» процессы вычислений на других удаленных машинах. Для полноценного моделирования необходима информация из распределенной корпоративной базы данных. Полученные результаты визуализируются и динамически изменяются непосредственно в ходе рассмотрения различных вариантов. При этом участники совещания могут физически находиться в различных местах. Следует обеспечить необходимую производительность программно-аппаратной инфраструктуры и безопасность ее функционирования [1].

Что роднит эти примеры?

  • Большое число участников консолидируют свои ресурсы для решения конкретной задачи.
  • Решение задачи предусматривает не просто обмен документами, но и прямой одновременный доступ к программам, данным и иным ресурсам.
  • Доступ предоставляется на определенных условиях, формулируемых владельцем ресурса.
  • Число участников может меняться непосредственно по ходу процесса, что предполагает возможность динамической авторизации, определения доступных обобщенных ресурсов, их качества, условий использования и пр.
  • К производительности всех подсистем предъявляются высокие требования. Для некоторых ситуаций (например, распределенное моделирование различных процессов в реальном масштабе времени) такое требование становится критическим.

Описанные ситуации качественно отличаются от известных моделей распределенного взаимодействия и требуют создания новых инструментов. Так, данные составляют ценность лишь тогда, когда они соответствующим образом организованы и доступны для всех участников проекта.

Решение проблемы можно найти на пути объединения распределенных ресурсов для создания виртуальных организаций. Создание такого инструментария осуществляет сообщество разработчиков grid [1-3] — единой динамической среды распределенных ресурсов (ЕСР).

Программное обеспечение ЕСР

Все задачи, как традиционные для обычных компьютеров (управление процессами, памятью, файловой системой, вводом/выводом и пр.), так и новые (учет, контроль, способ доступа и распределение ресурсов, обеспечение безопасности, совместная работа над набором данных в реальном масштабе времени и проч.) будет решать специализированный комплекс программного обеспечения. В качестве примера можно привести оболочку, разрабатываемую в рамках проекта Globus [4,5].

Основа ЕСР — это, прежде всего, специализированное программное обеспечение, необходимое для создания инфраструктуры для обработки больших объемов информации, обеспечивающее:

  • создание в рамках ЕСР согласованной объектной среды, позволяющей поддерживать выполнение необходимых приложений и служб в реальном масштабе времени;
  • создание систем управления данными (диспетчера), снабженных каталогами системных метаданных для обеспечения интероперабельности между объектами и ресурсами в ЕСР;
  • создание систем поиска информации (СПИ), обеспечивающих поиск данных по атрибутам, выделение метаданных, семантическую интероперабельность, общие онтологии и улучшенные системы аннотирования данных;
  • поддержку таких базовых технологий обработки информации, как публикация, каталогизирование и хранение наборов данных;
  • создание «брокера ресурсов», обеспечивающего единый механизм доступа к гетерогенным источникам данных;
  • создание комплексов «база данных+хранилище», как основы для специализированных коллекций;
  • создание архивных систем для долговременного хранения данных.

Речь идет о разработке промежуточного ПО, экранирующего сложность различных распределенных гетерогенных ресурсов при сохранении их возможностей и прозрачном позиционировании трех подсистем [6].

  • Именование. Поскольку уникальные имена практически невозможны, используются метаданные. СПИ, выполняя запросы по этим данным, осуществляет поиск в каталоге метаданных (information discovery catalog).
  • Нахождение ресурса. Описание расположения хранится в каталоге метаданных. Становится возможным разнесенное хранение данных и метаданных, а в каталоге должны храниться и данные о протоколе для доступа к конкретному набору.
  • Конверсия протоколов, которая должна осуществлять преобразование протоколов с целью обеспечения интероперабельности.

Прогресс в создании моделей описания информации позволяет организовывать федеративные структуры, в которых независимо на различных аппаратных платформах функционируют системы хранения данных (цифровые архивы) и программное обеспечение, необходимое как для организации коллекций, так и для СПИ.

Цифровые библиотеки и ЕСР

Стремительное развитие глобальных информационных и вычислительных сетей ведет к изменению фундаментальных парадигм обработки данных, которые можно охарактеризовать как переход к распределенным ресурсам и создание инфраструктуры для свободного доступа к ним. СПИ эволюционируют от синтаксического к семантическому поиску, технологии обработки информации совершенствуются в направлении все более изощренных и эффективных алгоритмов анализа всего спектра данных.

Такая организация данных требует создания соответствующих служб:

  • публикации данных, поддержка и их аутентичности и качества;
  • обнаружения информации (СПИ);
  • анализа распределенных данных.

Все эти механизмы должны составлять основу цифровых библиотек. Сама по себе информация, хранящаяся в репозиториях (архивах) является только лишь набором битов, комбинацией данных и метаданных, выполненных с использованием адекватного языка разметки. Как именно конкретный пользователь (приложение) будет использовать эту информацию, определяется пользователем. В этом смысле очень точным представляется термин «информационный контекст», предложенный в [6], — это возможные точки зрения, аспекты рассмотрения данного оригинального набора данных. Например, стихотворение Пушкина один будет просто читать как высокую поэзию, другой — учить как домашнее задание, третий — анализировать в контексте той или иной научной дисциплины и т.д. Само стихотворение при этом остается неизменным и — в нашем случае — хранится в репозитории, меняться может его представление на экране, «визуализация» с учетом запросов и уровня пользователя, а также решаемой задачи. Таким образом, создаваемые технологии должны предоставлять возможности для точного и адекватного удовлетворения потребностей пользователей, формально обращающихся к одной и той же информации (цифровому объекту в репозитории).

Цифровые библиотеки начинались как приложения в составе локальных сетей или intranet. В распределенных гетерогенных системах и в ЕСР говорят о федеративных цифровых библиотеках [7]. В архитектуре ЕСР библиотеки можно рассматривать, как автоматизированные комплексы, предназначенные для «аннотированного хранения» данных, причем пользователем цифровой библиотеки может быть как человек, так и приложение, работающее на удаленном компьютере. Фактически, цифровые библиотеки представляют собой хранилища знаний, оснащенные разнообразными служебными возможностями и составляют важнейший элемент ЕСР и виртуальных организаций.

Федеративные цифровые библиотеки можно рассматривать как пример виртуальной организации — большая часть компонентов находится в разных местах, при выполнении иных задач может функционировать независимо, интероперабельность достигается использованием согласованного набора протоколов и служб. Единство достигается, прежде всего, за счет унифицированного интерфейса и централизованного администрирования.

Любая цифровая библиотека (корпоративная, общедоступная, научная) опирается на онтологию, описывающую способ организации информации. Онтология конкретизируется в схеме атрибутов, описывающих информацию в конкретных метаданных. Общие для всей научной области определения конкретных атрибутов представляют собой семантический уровень. По мере эволюции области необходимо должна эволюционировать и структура организации информации [8].

Цифровые библиотеки предоставляют следующий набор инструментов (служб) для манипуляции с наборами данных:

  • публикация/регистрация новых наборов данных;
  • база метаданных для поиска данных по атрибутам;
  • доступ к гетерогенным ресурсам посредством брокера ресурсов;
  • контроль аутентификации и доступа;
  • мониторинг вычислительных ресурсов и ресурсов ввода/вывода;
  • распределенное исполнение служб.

Соответствующие службы могут регистрироваться в объектно-ориентированной базе данных и вызываться для обработки любого набора данных, хранящегося в библиотеке (репозитории). Комбинация возможности доступа к данным через базу метаданных, служб каталогов, зарегистрированного набора методов обработки данных позволяет решать задачи для создания среды обработки данных в ЕСР. На рис. 1 приведена возможная архитектура цифровой библиотеки.

Схема доступа к данным (в цифровой библиотеке, архиве, файловой системе и др.) представлена на рис. 2.

Главную роль играет программное обеспечение, реализующее функцию управления моделью данных (диспетчера). Полученный от приложения запрос направляется в систему обработки, которая посредством СПИ разыскивает необходимые данные и после выполнения удаленных процедур (например, выделение требуемого подмножества из данного множества) возвращает затребованные данные приложению.

Скорее всего, цифровые библиотеки будут локальными географически или специализированными по дисциплинам, а их число — неограниченным. При этом связь между отдельными библиотеками осуществляется посредством брокеров ресурсов, между которыми должны быть общие АРI-интерфейсы. Это позволит связывать неограниченное количество библиотек. Для обеспечения ЦБ подобной функциональностью потребуются хранилища петабайтной емкостью и компьютерные системы с производительностью, измеряемой терафлопами, линии передачи данных со скоростью передачи данных от 1 Гбит/с и выше [2].

В России коллаборация НИИЯФ МГУ, ИТЭФ, ИПМ и АНО ТЦ «Наука и общество» на базе Южной Московской Опорной Сети создает российский сегмент ЕСР (RGRID). Цифровые библиотеки, которые создавались и развивались как некие «аналоги» обычных библиотек на базе новых технологических возможностей, в контексте ЕСР рассматриваются как хранилища данных, снабженные развитым аппаратом информационных служб.

Сергей Арнаутов (saa@chph.ras.ru) — научный сотрудник Института химической физики РАН. Алексей Жучков (alex@chph.ras.ru) — научный сотрудник Института химической физики, директор АНО ТЦ «Наука и общество».

Литература

[1] I. Foster, C. Kesselman, S. Tuecke, The anatomy of the Grid. To appear: Intl.J.Supercomputer Application, 2001

[2] The Grid: Blueprint for a New Computing Infrastructure. Ed. by I.Foster and C.Kesselman. Morgan Kaufmann, San Francisco, CA. 1999

[3] В. Коваленко, Д. Корягин. Вычислительная инфраструктура будущего. «Отрытые системы», 1999, №11-12

[4] I. Foster, C. Kesselman. Globus: A metacomputing infrastructure toolkit. Int. J. Supercomput. Appl., 1997

[5] I. Foster, C. Kesselman. The Globus project: A progress report. In Proc. Heterogneous Computing Workshop, pp. 4-18. Los Alamos, CA: IEEE Computer Society Press, 1998

[6] A. Rajasekar, R. Marciano, R.W. Moore, «Collection Based Persistent Achives». Proc. Of the 16 IEEE Simposium on MassStorag Systems, 1999

[7] W. Arms. Digital Library. The MIT Press. 2000

[8] A.Gal. Handling constantly changing metadata. In IEEE Metadata Conf. Los Alamos, CA: IEEE Computer Society Press, 1997