«Открытые системы»

Современные хранилища данных и системы принятия решения как никакие другие приложения требуют тесного взаимодействия ИТ и бизнеса

Своими идеями о перспективах развития рынка хранилищ данных и соответствующих технологий с читателями еженедельника Computerworld Россия поделился Стивен Бробст, директор по технологиям компании Teradata.

Что означает понятие Active Data Warehousing?

Современные хранилища данных и системы принятия решения как никакие другие приложения требуют тесного взаимодействия ИТ и бизнеса. С другой стороны, бизнес неизбежно усложняется, а следовательно, не избежать и усложнения данных. Однако из этого совсем не следует, что надо обязательно усложнять технологии их обработки и ИТ-архитектуру. Активные хранилища данных — ответ на это требование, которое можно рассматривать как наступление третьей волны эволюции технологий обработки данных.

Стивен Бробст: «Единственный способ снижения стоимости управления — это уменьшение сложности ИТ-конфигурации»

Первая волна — организация хранения и преобразования всех данных, порождаемых внутри предприятия. Вторая — размещение всех данных в хранилищах, позволяющих менеджерам принимать если и не единственно верные решения, то хотя бы помогающих ориентироваться в обстановке, имея под рукой сводки по состоянию бизнеса. Третья волна — совершенствование бизнес-операций с целью выполнения соглашения об уровне обслуживания для хранилищ данных (гарантированная готовность, время отклика, актуальность и качество данных, пропускная способность), а также с целью оптимизации взаимоотношений по каждому конкретному клиенту путем учета всех имеющихся о нем данных. Идея состоит в том, что если у вас уже накоплена информация о клиенте, налажена ее актуализация и обработка, то ничто не мешает принимать проактивные решения по любому вопросу. Скажем, коллективный центр обработки запросов может мгновенно получать из активного хранилища исчерпывающую информацию по абоненту. Сегодня многие говорят о предприятиях, работающих в условиях реального времени (Real Time Enterprise), однако пока нет ни одной компании, которая в реальном времени работала бы со всей накопленной у нее информацией.

Teradata Active Data Warehousing — это корпоративное хранилище плюс активная загрузка (актуализация данных в режиме, близком к реальному времени); активный доступ (интерфейс в реальном времени к данным внутри корпорации); активное управление событиями (основанное на бизнес-политиках или контексте управления хранилищем или пользователями, например, автоматическое формирование предупреждений типа «обрати внимание на»); активная интеграция (хранилище данных интегрируется в корпоративную инфраструктуру на уровне операционной системы).

В основе активного хранилища данных лежит Teradata Enterprise Reference Architecture — модель построения всей информационной инфраструктуры корпорации, позволяющая через корпоративную сеть или Internet организовать взаимодействие сотрудников расширенной компании, включая партнеров, внешних поставщиков и клиентов. Модель поддержана открытой платформой и открытыми интерфейсами, что позволяет интегрировать в решение любое приложение, программные компоненты промежуточного слоя или СУБД.

В чем особенность подхода Teradata к построению хранилищ?

Ведущие игроки рынка реляционных СУБД путем инвестиций будут и впредь добавлять к своим продуктам новый функционал, направленный на продление жизни реляционной модели, несмотря на ее очевидные ограничения. Правда, теперь от функциональной борьбы противостояние перешло на стратегический уровень. Об этом свидетельствует поддержка неструктурированных данных; мобильные СУБД; уменьшение стоимости администрирования благодаря включению функций адаптивности; поддержка средств бизнес-аналитики и мониторинга бизнеса; расширение списка поддерживаемых приложений. Этим, кстати, объясняется череда приобретений и слияний, захлестнувшая рынок. Традиционные игроки всеми силами стараются продлить жизнь реляционным СУБД, удовлетворяя все новые и новые запросы клиентов. Как следствие, рынок СУБД растет почти на 6% ежегодно, что даже выше темпов роста ИТ-бюджетов предприятий.

С другой стороны, большинство современных СУБД — это транзакционные системы, которые задумывались для автоматизации процессов обработки бизнес-транзакций и были сфокусированы на учетных функциях, не требующих для своей работы исторических данных и не всегда эффективно работающих с унаследованными системами. Однако то, что хорошо для транзакционных систем, вызывает хаос для приложений поддержки принятия решений, для которых требуется интеграция данных, причем не просто путем их распределения по «кучкам» (клиенты, продукты, счета и т. п.), а с учетом взаимосвязей. Популярные сегодня витрины данных не спасают положения, давая столь же мало представления о реальном содержимом хранилища, как и витрины супермаркета о его ассортименте.

В области хранилищ данных мы сегодня больше конкурируем с IBM, но и здесь речь пока идет о транзакционных системах, а у Teradata все решения специально ориентированы на поддержку принятия решений. Например, наша файловая система принципиально отличается от аналогичных реализаций по способу организации хранения данных на дисках, имеет средства автоматического размещения данных, предусматривающие динамическое выделение пространства под файлы, переменную длину блоков, аппарат оптимизации доступа к агрегированным структурам и т. п.

Мы выбрали наиболее удачную для поддержки принятия решений и активных хранилищ физическую архитектуру — архитектуру Shared Nothing Architecture на платформе MPP, которая допускает практически неограниченную масштабируемость. Данная архитектура предполагает, что для выполнения запроса выделяется свой пул виртуальных ресурсов, не разделяемых с другими (память, процессорная мощность, ввод/вывод и т. п.). Здесь нет потенциальных узких мест, неизбежных, когда разные запросы начинают конкурировать за какие-то ресурсы, например за доступ к одной порции данных из хранилища.

Можно назвать пять отличительных черт архитектуры хранилищ от Teradata: аппаратный параллелизм; отсутствие разделения ресурсов, что исключает появление узких мест; автоматическое управление нагрузкой, не требующее постоянного вмешательства администратора; одновременное выполнение множества запросов при смешанной загрузке, когда счет пользователей и одновременно выдаваемых запросов к одним и тем же данным идет на тысячи; высокая готовность и масштабируемость оборудования и программного обеспечения. Преимущества Teradata Warehouse 8.1 проявляются, когда число одновременно выполняемых запросов измеряется тысячами, объемы исходных данных превышают 25 Тбайт, данные обновляются почти в реальном масштабе и требуется интеграция всех имеющихся у пользователя специализированных решений работы с данными.

Что собой представляет аппаратная платформа активных хранилищ?

Решения от Teradata работают на MPP-серверах производства NCR, имеющих специальный коммутатор BYNET с резервированием; в одной MPP-системе можно собрать до 1024 узлов. В каждом узле могут размещаться два компонента Parsing Engine (модуль обслуживания соединений, включающий SQL-анализатор, оптимизатор и координатор выполнения запросов) и до 12 процессоров Access Module Processor (AMP) для доступа к данным на дисках каждый со своим вводом/выводом и буфером. Попутно решается задача повышения надежности — в случае сбоя узла все его AMP мигрируют на другие.