наверх

«Открытые системы» , № 01, 1999 107 прочтений

Программа исследований в области баз данных на следующее десятилетие

Асиломарский отчет о направлениях исследований в области баз данных

Сообщество разработчиков баз данных по праву гордится успехами в фундаментальных исследованиях и их выдающимся влиянием на совершенствование технологий. Но сегодня необходимо расширить спектр исследований, приступив к решению вопросов получения, хранения, анализа и представления огромных объемов оперативной информации.

Надо принять более обширную программу исследований, расширив само определение управления базами данных и включив в это понятие вопросы, связанные с содержимым Web и иных хранилищ оперативно доступной информации. Для того чтобы этот переход осуществлялся быстрее, следует изменить методы оценки и представления результатов исследований, поддерживать рискованные и перспективные работы, перевести работу конференций в режим стендовых докладов и публиковать все материалы исследований в Web.

19-21 августа 1998 г. группа из 16 авторитетных исследователей систем баз данных из академических, коммерческих и правительственных организаций собралась в Асиломаре (шт. Калифорния), чтобы принять программу исследований в области систем баз данных на следующее десятилетие. Встреча прошла по образу аналогичных собраний, происходивших в предыдущем десятилетии [1]. Данная статья содержит отчет об этой встрече.

Десять лет тому назад сообщество исследователей систем баз данных основное внимание уделяло проблемы оптимизации запросов, объектно-реляционных и активных СУБД, тиражирования информации и параллелизма баз данных. Сегодня идеи эти взяты на вооружение компьютерной индустрией и сообщество исследователей вправе гордиться своими успехами.

Однако есть и повод для беспокойства. Дело в том, что совершенствование технологий осуществляется в настоящее время в рамках так называемых исследований "delta-X". Бесспорно, что подавляющее число исследований происходит пошаговым образом, когда каждый последующий шаг основывается на результатах предыдущих. Однако исследования "delta-X" отличаются тем, что сосредотачиваются на сиюминутной цели, "улучшении" некоторой уже широко известной идеи X. Зачастую определяющая идея X уже реализована в программных продуктах и поэтому исследования такого рода могут вестись в лабораториях коммерческих фирм и силами начинающих компаний, поддерживаемых совместным капиталом.

Сообществу исследователей баз данных необходимо воздержаться от работ типа "delta-X" и направить все усилия на изучение механизмов баз данных, основные приложения которых появятся через десять лет, оставив краткосрочную работу иным организациям. Финансирующим учреждениям и программным комитетам следует приветствовать подобные исследования; новаторские, хотя и рискованные работы должны котироваться значительно выше работ, ставящих перед собой более скромные задачи.

Фундаментальные аспекты систем баз данных за последнее десятилетие изменились драматически. Открылись новые обширные области исследований; именно на них следует перенести свое внимание с кратковременных пошаговых работ сообществу разработчиков.

Отчет организован следующим образом. В его начале обсуждаются движущие силы, фундаментально изменяющие программу исследований систем баз данных. В результате этого обсуждения ставятся конкретные вопросы, которые предлагается принять в качестве подобной программы.

Для того чтобы помочь исследователям баз данных сфокусироваться на долговременных проблемах, представлена проблема "грандиозного вызова", для решения которой понадобится десять лет.

В заключительном разделе предлагаются радикальные изменения в способах проведения конференций, посвященных системам баз данных, оценки профессиональных журналов и представления результатов исследований. Сегодня все они приветствуют незначительные шаги и отвергают пионерские работы - если мы хотим получить радикально новые идеи, этот процесс необходимо изменить.

Движущие силы

Три основных фактора определят направленность исследований.

  • Web существенно облегчает размещение информации в киберпространстве и обеспечивают ее доступность почти для каждого.
  • Постоянное усложнение прикладных сред увеличивает потребность в интеграции программ и данных.
  • Достижения в области компьютерных архитектур делают недействительными предположения и проектные решения, положенные в основу современной технологии СУБД.

Web изменяет все

Всемирная паутина и ассоциированные с ней инструменты кардинально снизили расходы создания информационного наполнения, но действительная революция состоит в том, что Web сделала возможной почти бесплатную публикацию. Никогда раньше не было так, чтобы почти каждый мог позволить себе опубликовать большие объемы информации. Web становится основной платформой для доставки приложений и данных; возрастающая пропускная способность сетей только ускоряет этот процесс.

Это хорошая новость для исследователей систем баз данных, ведь Web представляет собой одну громадную базу данных. Однако до сих пор, вместо того, чтобы превратиться в неотъемлемую часть инфраструктуры Web, базы данных остаются на вторых ролях. Во-первых, дизайнеры крупнейших Web-серверов с миллионами страниц содержимого постепенно перекладывают задачи управления страницами с файловых систем на системы баз данных. Во-вторых, системы баз данных используются в качестве серверов электронной коммерции, помогая отслеживать профили, транзакции, счета и инвентарные листы. В-третьих, ведущие Web-издатели примериваются к использованию систем баз данных для хранения информационного наполнения, имеющего сложную природу. Однако в подавляющей части Web-узлов, особенно в тех, которые принадлежат провайдерам и держателям поисковых машин, технология баз данных не применяется. В небольших Web-узлах, как правило, используются статические HTML-страницы, хранящиеся в обычных файловых системах.

В будущем статические HTML- страницы все чаще станут заменять системами управления динамически формируемым содержимым. Например, торговцы по каталогам не просто преобразуют бумажные каталоги в наборы статических HTML-страниц. Фактически, они представляют электронный каталог, позволяющий заказчикам оперативно узнать то, что их интересует, не пролистывая ненужную информацию: например, продает ли поставщик серые джемперы большого размера. Продавцы предлагают клиентам персонализированные манекены, позволяющие увидеть, как будет сидеть на них одежда. Для персонализации требуются весьма сложные модели данных.

HTML расширяется до XML, языка расширяемой разметки, который лучше описывает структурированные данные. К сожалению, XML, похоже, способен породить хаос в системах баз данных. Развивающийся подъязык запросов XML напоминает процедурные языки обработки запросов, превалировавшие 25 лет тому назад. Кроме того, XML стимулирует использование кэшей данных на стороне клиента с поддержкой обновлений, что заставляет разработчиков погружаться в трясину проблем распределенных транзакций. К несчастью, значительная часть работ по XML происходит без серьезного участия сообщества исследователей систем баз данных.

Авторы Web-публикаций нуждаются в инструментах для быстрого и экономичного построения хранилищ данных, рассчитанного на сложные приложения. Это, в свою очередь, формирует требования к технологии баз данных для создания, управления, поиска и обеспечения безопасности содержимого Web-узлов.

Унификация логики программ и систем баз данных

Создатели ранних систем баз данных беспокоились лишь о хранении пользовательских данных, а логика программ оставлялась другим подсистемам. В реляционных СУБД для удобства и повышения эффективности задним числом были добавлены хранимые процедуры и триггеры. Современные СУБД позволяют хранить и активизировать процедуры, написанные на некотором частном языке программирования. Появление объектно-реляционных методов вместе с ширящимся распространением языка Java в качестве стандартного языка позволяют внедрять в системы баз данных логику программ, написанных на стандартном языке в стандартной системе типов. В результате СУБД постепенно переходят от хранения и манипулирования только данными к хранению и манипулированию и логикой, и данными.

Однако все еще требуется большая работа. Репозитории являются типичными базами данных логики программ. Такие требования репозиториев, как управление версиями и возможности просмотра, в большинстве доступных в настоящее время систем должным образом не удовлетворяются. Код по-прежнему не является столь же полноценным объектом для СУБД, как данные.

Осуществление этого перехода имеет критически важное значение. Большие предприятия используют сотни, а иногда и тысячи крупномасштабных, сложно организованных и специализированных приложений. Возможность их совместного использования существенна для достижения гибкости, требуемой предприятиям для введения новых основанных на Web прикладных служб, сокращения времени выхода новых продуктов на рынок, сокращения расходов и структурной перестройки бизнеса.

Большое внимание уделяется технологии разработки, инструментальным средствам и языкам, адаптированных к нуждам создания крупномасштабных приложений. Для этого требуется, чтобы системы баз данных стали более "осведомленными" о приложениях. Частично проблему решают объектно-реляционные методы, но есть и иные высокоуровневые средства для управления описаниями прикладных интерфейсов и инструменты, позволяющие интегрировать, развивать, переносить или заменять как отдельные прикладные системы, так и группы систем, функционирующих в единых рамках.

Компьютерные архитектуры: масштабирование от бытовых приборов до мегасерверов

В грядущем десятилетии по-прежнему будет действовать закон Мура: центральные процессоры будут быстрее, диски - больше, проявят себя новые достижения в области повышения скорости коммуникаций. Станут привычными компьютеры с терабайтной оперативной памятью, служащей буферным пулом для баз данных размером в сотни терабайт. Все таблицы баз данных, кроме самых крупных, будут размещаться в памяти. Это сделает недействительным фундаментальные предположения, лежащие в фундаменте современных архитектур систем баз данных. В контексте новых компьютерных архитектур потребуется переоценка структур данных, алгоритмов и утилит.

Пожалуй, в прошедшие десять лет больше внимания компании-производители СУБД уделяли именно SMP-архитектурам. Достигнуты весьма существенные (возможно, предельные) результаты. Что же касается основной и дисковой памяти, то рост ее емкости и снижение стоимости оказались не столь значительными; соответствующие изменения в технологии теперь ожидаются в следующем десятилетии.

Отмечалась потребность в более высоком уровне доступности баз данных и в более развитых возможностях обработки сбоев.

Практически во всех развитых системах есть возможности зеркалирования и тиражирования.

Участники согласились, что пора прекращать исследования методов управления одновременным доступом, но выразили большой энтузиазм по поводу работ в области новых моделей транзакций.

Действительно, было много публикаций относительно моделей транзакций, однако в коммерческих системах сегодня главным образом используются классические транзакции.

Выражался определенный интерес в развитии методов повышения производительности, включая кэширование ответов на запросы, предварительное вычисление соединений и т.д. Считалось, что для оптимизации доступа к данным достаточно B-деревьев и расширяемого хэширования.

Эти технологии почти полностью воплощены в коммерческих системах. За десять лет сделано очень многое, причем направления работ были угаданы точно. Единственное, чего предугадать не удалось, - это появление битовых индексов, активно применяемых теперь в хранилищах данных.

Распределенные СУБД

Полагалось, что производители потратят много усилий на развитие области неоднородных (федеративных) распределенных систем баз данных. Рост масштабов распределенных баз данных потребует переосмысления алгоритмов обработки запросов, копирования и восстановления после сбоев.

С одной стороны, сегодня все развитые системы поддерживают ограниченные функции построения неоднородных распределенных баз данных. С другой стороны, функции эти действительно ограничены, и проблема все еще ожидает своего решения.

Разное

Физическое проектирование баз данных

Участники признали необходимость построения средств автоматического проектирования физической схемы баз данных, включая добавление и уничтожение индексов, балансировку загрузки дисков и т.д.

Прогноз начал оправдываться только к концу 1998 года, когда в Microsoft SQL Server 7.0 появились средства автоматизированной поддержки набора индексов. Автоматизированная балансировка загрузки дисков по-прежнему отсутствует.

Средства проектирования

Средства проектирования в то время представляли собой всего лишь графические "рисовальные" системы. Некоторые участники считали, что требуется их развитие, хотя и не знали, в каком направлении.

Конечно же, ситуация значительно изменилась.

Базы данных реального времени

Отмечалась важность этого направления и необходимость поддержки соответствующих исследований.

Направление по-прежнему актуально, но сказать, что достигнуты значительные результаты, нельзя.

Модели данных

Высказывалось мнение, что в этой области уже сделано достаточно много. Кое-кто полагал, что следует работать над стандартной моделью данных "следующего поколения".

Подобную модель действительно хотели бы видеть многие, но шансов пока маловато.

Трансляция данных

Один участник отмечал важность проблемы трансляции данных в неоднородных компьютерных средах. Большинство участников выразило уверенность, что данная проблема уже решена.

В принципе, они были правы, поскольку уже существовал протокол XDR (External Data Representation). Однако, насколько известно, позже к проблеме вернулись при разработке Internet Inter-ORB Protocol.

Обмен информацией через базы данных

Некоторые участники отмечали потребность в стандартном общем представлении данных. Для этого нужны более сложные справочники данных.

Видимо, стандартизация метаданных все еще остается проблемой.


Литература

[1] Laguna Beach meeting of 1988 [SIGMOD Record 18(1): pp. 17-26]. Lagunita meetings of 1990 and 1995 [SIGMOD Record 19(4): pp. 6-22, SIGMOD Record 25(1): pp. 52-63], www.acm.org/sigmod/record/issues/9603/lagunita.ps. ACM 1996 meeting "Strategic Directions in Database Systems - Breaking Out of the Box", ACM Computing Surveys 28{4}: pp. 764-778, www.acm.org/surveys/sdcr.

Страница 1 2

Комментарии


26/04/2012 №03

Анонс содержания
«Открытые системы»

Подписка:

«Открытые системы»

на месяц

c