Мнения Джеймса Кобьелуса из Forrester, высказанное в статье «Database Religions Dissolve Into The Big Billowing Virtual Data Cloud», и Билла Инмона, утверждающего, что «виртуальные хранилища данных – это в высшей степени плохая идея», позволяют с уверенностью сказать, что интерес к судьбам хранилищ данных есть.

Каждый по-своему прав – облачные технологии и виртуализация уже меняют нашу отрасль кардинальным образом. Но вряд ли облако изменит все. Хранилища данных не вписываются сразу в виртуальную модель вычислений в облаке, но потенциальные преимущества совершенно очевидны. Фактически ряд компаний уже экспериментирует с реализациями частного облака, и можно утверждать, что некоторые производители хранилищ данных начали использовать виртуализацию задолго до того, как она стала одним из основных подходов к организации вычислений.

Точку зрения, которую можно назвать консервативной, отстаивает «отец хранилищ данных» Билл Инмон. Он приветствует возрождение интереса к виртуальным хранилищам как к доброй старой федеративной структуре, но отнюдь не новой, а лишь сменившей название. «Федерация», или «Интеграция корпоративной информации» (Enterprise Information Intelligence, EII) – это практика связывания разнородных баз данных в единое целое во время исполнения, с помощью распределенного программного обеспечения баз данных промежуточного уровня. Эта методика неплохо себя зарекомендовала в отдельных случаях, особенно для приложений интерактивной обработки транзакций (OLTP), где доступ к данным локализован, а точки доступа – предсказуемы. Однако она никогда не применялась для массовых, интенсивно использующих ввод/вывод приложений бизнес-анализа, которые в организациях, как правило, опираются на выделенные хранилища и киоски данных.

«Футуристическую» точку зрения представляет Кобьелус, по мнению которого в будущем «виртуализованные корпоративные хранилища данных позволят прозрачным образом хранить данные в разных физических и логических форматах… в среде, поддерживающей информацию как сервис (IaaS)». Однако совершенно не ясно, имеет ли он в виду облако, которое виртуализует многочисленные базы данных (современные активные EII), или единую базу данных, распределенную по множеству вычислительных платформ, которые «становятся облаком» за счет поддержки многочисленных внешних концептуальных и физических схем внутри единой виртуализованной системы, либо же некий промежуточный вариант между этими крайностями. Эта неясность, скорее всего, и является источником разногласий.

Одна из основных проблем реализации виртуальных хранилищ данных состоит в оптимизации распределенных запросов. Обычная оптимизация запросов – это предмет тезисов кандидатской диссертации, однако оптимизация распределенных запросов – это сложная тема, требующая, как минимум, всеобъемлющих и точных метаданных, описывающих, как данные в различных базах связаны друг с другом, а оптимизатор запросов благодаря этому может разобраться с распределением данных, текущими потоками работ, доступными вычислительными ресурсами и задержкой в сети.

Многие современные системы управления базами данных выполняют работу по оптимизации запросов с привлечением администратора, от которого требуется предоставление рекомендаций или указания степени параллелизма. Причем в этой ситуации запросы должны соперничать лишь за данные, размещенные в одной базе.

Все эти проблемы, конечно, усложняются по мере того, как растет размер наборов данных и сложность анализа. Например, предполагая, что в многочисленных репозиториях поддерживается избыточность данных, система должна выполнять тесты на согласованность.

Ситуация еще больше осложняется, если мы хотим иметь виртуализованную систему, составленную из нескольких, перекрывающихся избыточных баз дан-ных, для поддержки «операционного анализа» (активные хранилища данных), при том что данные постоянно передаются практически в режиме реального времени. В этой ситуации мы должны представить не только какая распределенная платформа может обслужить запрос быстрее и эффективнее, но и получит ли она самую актуальную копию запрошенных данных.

Некоторые организации уже начинают позиционировать существующие у них хранилища данных как «частные облака». Сделка, которую ИТ предлагают бизнесу, выглядит примерно следующим образом: вы можете по-прежнему создавать киоски данных (фактически мы даже бесплатно предоставим вам необходимую для этого инфраструктуру), но вы делаете это в «частном облаке» (на самом деле в неиспользуемой части хранилища данных), где некоторые или все нужные вам данные уже имеются и вы повторно их используете вместо того, чтобы загружать их снова.

Это максимально «взаимовыгодная» сделка. Амбициозные менеджеры подразделений, создающие новые аналитические системы на своих условиях и в соответствии со своими планами, а не так, как это хочется ИТ-отделу, получают помощь, поскольку некоторые или даже все необходимые им данные уже имеются. ИТ-отдел получает контроль над избыточностью данных, объем которых в противном случае будет неуправляемо расти, минимизируя инвестиции организации в технологическую инфраструктуру. Бесперспективные проекты «быстро терпят неудачу» и освобождают технологические ресурсы, возвращая их обратно в общий пул, где ими могут воспользоваться другие бизнес-пользователи со своими великолепными идеями. В итоге эти ресурсы не теряют своей ценности, как это происходит, когда они остаются неиспользуемыми в дальней части центра обработки данных. И в ИТ-отделе знают о тех проектах, которые оказались успешными, в силу чего становится проще переводить их на полный производственный уровень, обеспечивая должным образом поддержку, чем это можно было бы сделать в противном случае.

Несмотря на несомненную разумность этого подхода, он в конечном итоге в большей степени касается преимущественной консолидации киосков данных, чем новой технологической парадигмы. Несмотря на то, что действительно более совершенное управление системой с разнообразными нагрузками имеет критически важное значение для реализации такого подхода, остальное в большей степени касается хорошего управления и гибкого регулирования, чем чего бы то ни было еще.

Вслед за моделью предоставления ПО как сервиса (SaaS) в общедоступное облако уже переносятся некоторые аналитические приложения и инструментарий бизнес-аналитики (BI), и этому примеру, безусловно, вскоре последуют и другие. Инструментальные средства и приложения на базе облака так используют стратегии «оптимизации сверху вниз», что нелегкая задача интенсивного ввода/вывода решается в параллельной базе данных, а пользователю через облако возвращается только результирующее множество. Но насколько большую дополнительную ценность аналитические приложения на базе облака принесут организациям, если последним по-прежнему придется сталкиваться с множеством хлопот и расходов по созданию своих собственных аналитических баз данных?

Многие аналитические приложения и инструментальные средства бизнес-анализа, скорее всего, будут распространяться в общедоступном облаке. BI-коллажи (bash-up) уже применяются, например, для того, чтобы наложить результирующие данные на карты Google Map, и эта тенденция, безусловно, сохранится и усилится.

Коллажи и BI-коллажи – прекрасный пример федеративного решения, в котором доступ к данным локализован, объемы данных небольшие, а интерфейсы просты и хорошо определены, в силу чего такого рода федерация может прекрасно работать. Однако есть разница между передачей широты и долготы небольшого, дискретного множества мест Web-приложению, поддерживающему работу с картографической информацией, и попыткой вычислить среднее расстояние между домашними адресами 10 млн пользователей и их ближайшим магазином так, чтобы можно было определить, есть ли какие-то различия в предпочтениях при покупках в зависимости от расстояния, которое приходится покупателям проезжать до магазина.

Все это объясняет, почему Кобьелус и Инмон правы оба: Кобьелус потому, что федерация – это полезная технология, занимающая свое место; а Инмон потому, что такое решение не предполагает замену сложной, интенсивно использующей ввод/вывод обработки, которая имеется в современном хранилище данных, а дополняет ее.

Наибольший интерес виртуализация вызывает, конечно, в связи с применением таких продуктов, как VMWare, Xen или Hyper-V, для балансировки рабочей нагрузки между множеством неэффективно используемых серверов. Эти инструменты поддерживают консолидацию серверов и позволяют значительно сократить расходы на аппаратное обеспечение, энергию и охлаждение.

Компания Teradata начала заниматься вопросами виртуализации еще в те времена, когда однопроцессорные аппаратные узлы заменяли виртуализованными элементами параллельной обработки, выпустив в 1995 году Teradata 2, позволяющую на 80-90% загружать центральный процессор. Сервис Teradata Virtual Services, включенный в версию Teradata 13, позволяет поддерживать разные размеры дисков в одной системе, давая возможность организациям использовать новые диски (с более высокой плотностью записи и более дешевые в расчете на терабайт) для хранения «холодных» данных вместе с «горячими», в то же время поддерживая уровни производительности дисков меньшей плотности для «горячих» данных. Сервис TVS позволяет реляционной системе управления базами данных Teradata равномерно распределять данные по доступной памяти для обеспечения максимально возможной производительности при параллельной обработке, без вмешательства администратора.

Кроме того, TVS имеет еще одну особенность – автоматически и прозрачным образом определяется «температура», и «горячие» данные перемещаются на внешние цилиндры диска, где скорость ввода/вывода выше. Такой автоматический перенос данных в ближайшем будущем позволит поддерживать различные типы хранения в одной и той же системе: твердотельные диски для «горячих» – наиболее часто используемых данных диски с доступом по Fibre Channel для «теплых» данных, и медленные SATA-диски для данных, к которым обращаются лишь изредка.

В 2009 году компания Teradata сделала следующий шаг в сторону облачных вычислений, объявив о выходе системы Teradata Enterprise Analytics Cloud, представляющей собой набор продуктов и услуг поддержки аналитических решений в частных облаках.

***

Влияние вычислений в облаке на хранилища данных, скорее всего, носит эволюционный характер. Усовершенствованные, многотерабайтные, многопользовательские активные хранилища данных (Active Data Warehouses) будут по-прежнему применяться, но вычисления в облаке в какой-то момент предложат экономически оправданный способ развертывания простых хранилищ данных. Модель «частного облака» дает ИТ-отделам превосходный способ расширить возможности пользователей для анализа данных. BI-коллажи будут все так же использоваться для расширения аналитических возможностей, предлагаемых пользователям, но тяжелая работа станет выполняться на сервере баз данных с параллельной обработкой. Наконец, виртуализация прекрасно соответствует архитектурам ведущих поставщиков аналитических СУБД, способствуя реализации более интеллектуального хранения информации.

Мартин Вилкокс (Martin.Willcox@teradata.com) – директор по платформам и решениям компании Teradata в регионе EMEA.

Поделитесь материалом с коллегами и друзьями