К интеграции технологий Web и баз данных

Получивший распространение подход к разработке Web-узлов на основе языка HTML (конечно, с применением JavaScript, Java, CGI и т. д.) делает технологии Web и баз данных неравноправными

Задача СУБД — обеспечение удобного и эффективного доступа пользователей и приложений к содержимому баз данных. Размер баз данных непрерывно возрастает. На протяжении всей истории СУБД разработчики овладевали методами работы с очень большими базами данных. Базы данных изолированы. Даже при наличии соответствующей поддержки со стороны серверов баз данных и/или программного обеспечения промежуточного уровня - интеграция нескольких баз данных, обслуживаемых серверами от разных поставщиков, представляет собой нетривиальную техническую задачу, решение которой связано с существенными затратами.

Трудно, а скорее всего, просто невозможно оценить суммарный размер Web-страниц. Во всяком случае, очевидно, что объем информации, накопленной в Internet, в десятки раз превышает объем самых больших баз данных. В то же время неструктурированный характер информации заставляет осуществлять навигацию в Web либо вручную, переходя по ссылкам, либо с помощью поисковых машин.

Итак, по информационному накоплению Web превосходит самые большие базы данных. Есть техническая возможность единообразного доступа к распределенной информации. Но технологически, с точки зрения специалистов в области баз данных, все выглядит очень убого. Например, непонятно, каким образом можно производить анализ данных, имеющих отношение к конкретной предметной области. Данных этих море, но их анализ был бы полезен. Но даже если все их удастся найти, то отсутствие структуры и тем более метаданных не позволит применить какие-либо средства автоматизации анализа данных категории OLAP. Конечно, все это беспокоит здравомыслящих специалистов как в области Web, так и в области баз данных.

С точки зрения технологий баз данных идеальным решением было бы представление информации, накопленной в Internet, в виде одной распределенной структурированной базы данных в единой модели и с общей схемой. К сожалению, это невозможно по нескольким причинам: накоплен слишком большой объем неструктурированной информации, структуризация которой трудоемка и далеко не всегда возможна; содержимое Web-узлов разрабатывалось в расчете на использование гипертекстовых структур, поэтому даже если бы удалось структуризовать отдельные документы, неизвестно, можно ли было бы описать хотя бы локальную схему узла (в смысле технологий баз данных); даже если бы удалось перевести все Web-узлы в структурированную форму, пришлось бы решать неподъемную задачу интеграции несметного количества разнородных баз данных; а самое главное, для подавляющего большинства пользователей Internet вся эта суета была бы совершенно непонятна.

С другой стороны, Internet-сообщество в целом в полной мере осознало недостатки неструктурированных данных. Простота публикации не уравновешивает сложность и ограниченность средств поиска.

Одним словом, необходим компромисс между простотой и доступностью применяемых в настоящее время Web-технологий и сложностью, функциональностью и эффективностью технологий баз данных. Имеются некоторые основания надеяться, что такой компромисс удастся выработать на основе языка XML.

Как следует из полного названия языка XML, как и HTML, является языком разметки документов. Разметка текста в обоих случаях производится путем расстановки в тексте специальных языковых конструкций - тегов. Но если набор допустимых тегов в языке HTML предопределен (существуют классы тегов для форматирования текста, для установки гипертекстовых ссылок, для вставки графики и т. п.) и должен быть однозначно понимаем любым браузером, то в XML допускается определение тегов. Раздел определения тегов напоминает раздел определения схемы базы данных, то есть позволяет определить структуру документа.

Если соответствующие стандарты будут приняты, то в условиях ограниченной свободы использования XML мы получим существенно большие возможности разумного применения информации. Кроме того, только после согласования стандартов на представление метаданных можно будет надеяться на появление языков запросов в распределенной среде XML-документов - структурных, а не контекстных запросов.

О возможности подобного компромисса можно прочитать, например, в статье Сергея Кузнецова в еженедельнике Computerworld Россия (http://www.osp.ru/cw/1999/37/48.htm). XML как универсальное средство работы и обмена структурированными данными - тема этого номера нашего журнала.