Маркетинг

Больше данных – меньше проблем!


Новые системы хранения данных для компаний малого и среднего бизнеса. Узнайте подробности и задайте вопросы на on-line-семинаре IBM




Открытые системы :: Разное

Exa против Tera

в buzz в мой мир в twitter версия для печатисохранить в pdf

Приставку Exa (exa – 1018) в названии нового специализированного семейства продуктов Exadata, анонсированного компаниями Oracle и HP на OracleWorld в сентябре 2008 года, можно рассматривать как вызов производителям, работающим в сегменте аппаратного и программного обеспечения для хранилищ данных и систем бизнес-аналитики.

Леонид Черняк

Приставку Exa (exa – 1018) в названии нового специализированного семейства продуктов Exadata, анонсированного компаниями Oracle и HP на OracleWorld в сентябре 2008 года, можно рассматривать как вызов производителям, работающим в сегменте аппаратного и программного обеспечения для хранилищ данных и систем бизнес-аналитики.

В неологизме Exadata несложно уловить сходство с названием компании Teradata (tera – это всего лишь 1012), вот уже более 20 лет поставляющей подобные системы. Кроме того, продукт семейства Exadata – HP Oracle Database Machine – машина баз данных – конкурирует с решениями компаний, недавно вступивших на этот путь, например Netezza, Greenplum и Datallegro. Об особенностях первого в истории Oracle аппаратного продукта рассказывает Марк Таунсенд, вице-президент, отвечающий за разработку новых версий Oracle Database.

Чем вызвана потребность в создании собственной аппаратно-программной платформы, ведь, за исключением одного эпизода, Oracle всегда подчеркивала, что является исключительно софтверной компанией?

Если перевести на обычный язык, то приходится признать – традиционные решения для хранилищ данных, состоящие из универсальных серверов и систем хранения, одновременно и «слабоваты», и «туповаты». Их органическая слабость в том, что они не обеспечивают системный баланс между потенциальной производительностью двух соучастников процесса: серверов и систем хранения. Известно, что мощность серверов по закону Мура постоянно растет, а диски становятся вместительнее и дешевле, но при этом неизменно сохраняется «бутылочное горло» в виде систем ввода/вывода. Чтобы хоть как-то это горло расширить и обеспечить достаточную пропускную способность, приходится увеличивать число SAN-адаптеров и устанавливать дополнительные коммутаторы SAN, но его природа сохраняется. Еще одна слабость в том, что даже дорогостоящие дисковые массивы из-за их недостаточной собственной вычислительной мощности тоже оказываются неспособными предоставить адекватную пропускную способность для сотен установленных в них дисков. Под влиянием этих факторов реальная производительность дисков искусственно снижается, она становится ниже той, которую они в состоянии обеспечить. Таким образом, эффективность работы дисков ограничивается интерфейсом Fibre Channel Loop и процессорными возможностями массива хранения данных.

На «слабость» накладывается еще и «тупость», то есть традиционные устройства хранения оперируют с битами и байтами, «ничего не зная» о том, что они на самом деле хранят, и не умеют работать осмысленно. Например, имея дело с базой данных, они не учитывают ее специфику – они работают с данными из базы точно так же, как с файлами, блоками. А это значит, что когда базе данных нужны столбцы и строки, ей в ответ приходят блоки данных, а не результат самого запроса. Традиционные средства хранения не в состоянии выделить конкретные столбцы и строки, содержащиеся в запросе, поэтому, обрабатывая данные от лица базы данных, они возвращают массу ненужных данных, не имеющих никакого отношения к запросу, забивая балластом и без того перегруженные каналы.

Требовалось найти альтернативный выход из создавшегося положения, поэтому с целью преодоления отмеченных слабостей и тупостей и была создана HP Oracle Database Machine, в основу которой положено «умное» (brainy) программное и мощное аппаратное обеспечение. Умное ПО делится на два типа: СУБД Oracle 11.1 на сервере баз данных и новое ПО, построенное на основе частей ядра Oracle 11.1 и размещаемое на компьютерах ячеек Exadata. Программное обеспечение ячеек хорошо выполняет операции полного сканирования (full scan), проецирования (projection) и объединения (join) и возвращает серверу базы данных не блоки данных, а результат выполнения запроса или подзапроса. Когда же серверу нужно выбрать строки по индексу, ему будут передаваться блоки данных. Работа с системой хранения идет, как правило, через ASM (Automatic Storage Manager).

С другой стороны, для того чтобы обеспечить доступ к базам данных, содержащим сотни терабайт данных, одного ума недостаточно – требуется поддержать «умное» программное обеспечение производительным (brawny) оборудованием, способным ускорить выполнение SQL-запросов и операций ввода/вывода путем применения «грубой силы». Симбиоз brainy и brawny – ключ к параметрам производительности, которые демонстрирует семейство продуктов Exadata.

Какие качества Exadata вы считает принципиально новыми?

Основных качеств, отличающих семейство продуктов Exadata от известных систем, три. Первое – интеллектуальная система хранения, позволяющая перемещать существенно меньше данных при выполнении запросов. Это приводит к меньшей загрузке канала между серверами базы данных и устройствами хранения. Второе – Exadata использует сочетание технологии Infiniband с прямым доступом в память (Remote Direct Memory Access). Возможность такого сочетания обеспечивается за счет пропускной способности каналов, в пять и более раз более высокой, чем у обычного канала типа Fibre Channel. И третье отличие – оригинальная конструкция системы коммутации (I/O Fabric), основанная на параллельной архитектуре и обладающая надежностью и способностью к масштабированию. Можно сказать, что мы повысили коэффициент полезного действия системы работы с данными, оптимизировав обращения к дискам – они организованы так, чтобы по мере возможности уменьшить время ожидания, бесполезно затрачиваемое при произвольном доступе, и приблизить процесс чтения к последовательному.

Что, по вашему мнению, является самым существенным в конструкции, обеспечивающей Exadata эти качества?

Я полагаю, что от известных устройств HP Oracle Database Machine отличает, прежде всего, сочетание модульной конструкции с системной организацией.

Машина баз данных состоит из кластера СУБД (Database GRID) и умной системы хранения Storage GRID, Storage Grid собрана из уже готовых к применению ячеек, каждая из которых состоит из 12 дисков, сервера HP Proliant DL180 G5 и программного обеспечение Exadata Storage Server. Диски подсоединены к «умному» контроллеру с 512 Kбайт кэш-памяти, 8 Гбайт оперативной памяти и двойному интерфейсу InfiniBand. Существует два варианта ячейки Exadata, один на дисках SAS, другой на дисках SATA. Для оптимизации хранения применяются технологии компрессии, увеличивающие максимальный объем в два-три раза. Интерфейс InfiniBand обеспечивает взаимодействие с узлами кластера Real Application Cluster (RAC). Архитектура HP Oracle Database Machine поддерживает любой уровень производительности. Поскольку каждая из ячеек автономна, для увеличения объема можно просто добавлять дополнительные ячейки Exadata. Существенно, что при таком расширении емкость и производительность возрастают линейно.

Отдельные ячейки объединяются в единую систему посредством HP Oracle Database Machine. Физически это стандартная стойка 42U, где 14 серверов хранения Exadata дополняются восемью HP Proliant DL360 G5 Oracle Database 11g, на которых работает база данных, кроме того, есть вся необходимая инфраструктура InfiniBand для связи между серверами базы данных и системой хранения Exadata. Параметры стойки Database Machine зависят от типа дисков – если это диски SAS, то объем данных доходит до 21 Тбайт, а скорость операций ввода/вывода до 14 Гбайт/с, если же SATA, то – 46 Тбайт и 10,5 Гбайт/с. Помимо этого, каждая стойка Database Machine является строительным блоком для создания хранилищ. Количество стоек может наращиваться, а между собой они связываются посредством InfiniBand. Производительность Database Machine существенно повышается за счет обработки данных в режиме Smart Scan.

Как соотносятся возможности Exadata с продуктами прямых конкурентов?

Не вдаваясь в сравнение отдельных показателей, я хочу остановиться на самом существенном – на преемственности. У нас достойные конкуренты, компания Teradata на рынке уже давно, и в свое время ее решения опередили общий уровень развития индустрии на годы, другие вышли на рынок совсем недавно, но их решения воплотили в себе достижения последних лет, например перспективную конструкцию MapReduce. Однако всех их объединяет то, что их подходы являются проприетарными. Если вы захотите внедрить что-то из спектра продуктов, предлагаемого данными поставщиками, то вам нужно начинать все с нуля, в том числе подготовку специалистов. А в лице семейства продуктов Exadata мы предлагаем методику работы с данными, которая давно знакома тысячам специалистов. Вы получаете новое качество без избыточных инвестиций. Каким бы ни было привлекательным то или иное решение
с технической точки зрения, нельзя не принимать во внимание готовность потребителей.

А по ценовым показателям?

Наше решение не только дешевле уникальных систем от Teradata, но, скорее всего, оно дешевле и того, что предлагают новые участники рынка параллельных СУБД. Что же касается программ, то трудно предположить, что у наших покупателей нет лицензионного ПО от Oracle, так вот – эти же лицензии можно использовать и на HP Oracle Database Machine

Если заглянуть в будущее, на что, по вашему мнению, повлияет конвергенция серверов и систем хранения?

Именно конвергенция. Действующая парадигма предполагает хранение данных отдельно от их обработки. В итоге на каждом этапе неизбежны издержки, плюс наличие узкого горла между этапами. Так можно было жить, пока объемы данных были невелики, но при выходе на петабайтные объемы эта идеология уже не оправдывает себя. Не меньшим барьером становится «тупость» систем, они по-прежнему работают не с информацией, а с данными. О каком управлении жизненным циклом информации (Information Lifecycle Management) можно говорить, если соответствующие технологии «не понимают», с чем они работают, и перемещают данные, руководствуясь общими соображениями. Использование технологий типа Smart Scan и ей подобных открывает возможность для полноценного управления информацией на всех этапах ее жизни, что чрезвычайно важно в современных условиях, когда номенклатура средств хранения постоянно расширяется и покрывает диапазон от быстрых накопителей на флэш-памяти до дисков на два и более терабайт.


Архитектура exadata

Аппаратную среду HP Oracle Database Machine (см. рисунок) можно рассматривать как систему, построенную по принципу grid. Каждая ячейка хранения Exadata – это самостоятельный сервер, на котором хранятся данные и работает управляющее программное обеспечение. В архитектуре HP Oracle Database Machine можно использовать как одиночные серверы баз данных (Single instance Database), так и несколько серверов, объединенных в кластер (RAC Database). Между собой серверы и ячейки объединены интерфейсом InfiniBand. Массив ячеек Exadata, используемый совместно несколькими базами данных, называется областью (Exadata Realm). Деление на области обеспечивает изоляцию и, соответственно, защиту каждого отдельно взятого набора баз данных. Имеются механизмы для безопасного перемещения дисков и группы ячеек из одной области в другую. На рисунке представлена одна такая область.

Для использования всех преимуществ системы хранения Exadata, СУБД Oracle Database 11g была значительно усовершенствована. Это прежде всего касается распределения функций между серверами и ячейками Exadata. Сервер базы данных и Exadata Storage Server Software взаимодействуют между собой по протоколу iDB (Intelligent Database), реализованному на уровне ядра базы данных и прозрачно отображающему операции с базой на операции в Exadata. Помимо традиционной функции передачи блоков данных, iDB использует архитектуру передачи функций. Данный протокол применяется также для передачи на выполнение SQL-операций нижестоящим ячейкам Exadata и возврата результатов выполнения запроса ядру базы. Вместо того чтобы возвращать блоки данных, ячейки Exadata возвращают только столбцы и строки, соответствующие SQL-запросу. Вообще говоря, iDB способен напрямую записывать блоки данных на диск и считывать их, действуя как традиционное устройство хранения, но при необходимости проявляет свой «интеллект» и возвращает серверу только необходимые данные, что существенно ускоряет работу и уменьшает трафик.


Основные компоненты архитектуры Exadata

30.03.2009г


Комментарии:


Для того, чтобы оставить комментарий авторизуйтесь или зарегистрируйтесь.

Новости ОСП-ТВ - 03.09.10


30/11/2009 №09

Будущее баз данных

Раскопки сетевых данных
Дмитрий Игнатов
Развитие технологий в последние два десятилетия позволило успешно вести коммерческую деятельность в Сети самым разным компаниям и не в последнюю очередь это произошло благодаря технологиям business intelligence и data mining. Каким образом можно превратить сырые данные в знания, дающие конкурентное преимущество?
Новые платформы бизнес-аналитики
Наталья Дубова
Сегодня бизнесу как никогда требуется глубокое понимание себя, окружения, потенциальных угроз и путей наибольшего благоприятствования. Считается, что добиться этого помогают решения бизнес-аналитики, однако их успешная реализация невозможна без хранилищ, агрегирующих данные из различных источников. Эффективность хранилищ зиждется на той платформе, где компания решит разместить свои ключевые данные, – именно платформа хранилищ данных становится сегодня залогом успеха компаний.
BI в открытую
Валерий Коржов
Изначально концепция Business Intelligence вращалась вокруг математических методов поиска скрытых взаимосвязей в массивах корпоративных данных, однако постепенно фокус переместился в область быстрой разработки отчетов, аккумуляции максимально возможных источников данных, в ущерб интеллектуальным механизмам. Особенно наглядно это видно в решениях категории Open Source.
BI и DSS - две стороны одной медали
Леонид Черняк
Различия между Business Intelligence и Decision Support System в большей степени определяются не столько спецификой технологий, сколько особенностями пользовательских сообществ.



Эта рубрика в архиве
Список номеров за



Инфозоны

В зоне партнерства Паладин Инвент и HP

Основные направления деятельности

«Паладин Инвент» предлагает своим клиентам решения на базе современных методов управления производством и бизнес-процессами.

HP Care Pack

HP Care Pack – это сервисный продукт HP, расширяющий условия стандартной гарантии в зависимости от требований бизнеса.

«Паладин Инвент» развивает экспертизу в области виртуализациии.

В портфеле компании есть решения разных производителей, но в качестве аппаратной базы неизменно используется продукция HP.

Система поддержки пользователей «Балтики»

Процессы управления ИТ-сервисами в пивоваренной компании «Балтика» специалисты «Паладин Инвент» реализовали на базе программного обеспечения HP Service Desk.
OSP.RU :: Написать письмо.