Система NearStore компании Network Appliance знаменует начало новой эры использования недорогих дисковых массивов для резервного копирования с диска на диск или из вторичной памяти.

Этот продукт — система NearStore компании Network Appliance, производство которого началось в марте 2002 года, позволяет быстро восстанавливать данные или выполнять их резервное копирование, при этом цена за мегабайт почти не отличается от цены систем резервного копирования на магнитных лентах. К устройствам хранения на базе интерфейса Advanced Technology Attached (ATA) добавляются интеллектуальные возможности, ориентированные на конкретное приложение. Это позволяет снизить нагрузку на сервер приложений и в то же время предложить более эффективные способы сохранения и восстановления данных.

Возможно, лучший тому пример — Centera, система компании EMC, используемая для индексации, хранения и извлечения файлов с «фиксированным информационным наполнением» (fixed content). В соответствии со схемой Content Addressed Storage клиентское приложение не задействует файловую систему сервера при обращении к внутреннему прикладному программному интерфейсу. Centera перехватывает каждый запрос на сохранение файла, удаляет метаданные (такие как маркировка даты и времени) и запускает алгоритм хеширования для создания уникального, 27-символьного «идентификатора информационного наполнения» (content ID). Затем она возвращает клиентскому приложению файл с «дескриптором информационного наполнения» (Content Descriptor File, CDF), который указывает и на хранимый объект, и на его метаданные. После этого приложению необходимо запрашивать только идентификатор хранимого объекта. Благодаря такому абстрагированию от носителя приложению больше не нужно заботиться о дисковом вводе/выводе, помнить путь к файлу на диске или отслеживать изменения в конфигурации базовой памяти.

Итог следующий. «Сервер задействован в меньшей степени, а приложения будут работать более эффективно на менее дорогих вычислительных платформах», — заметил Стив Дюплесси, аналитик Enterprise Storage Group.

Технология Centera также избавит от излишних затрат памяти при хранении файлов за счет создания нескольких ссылок, указывающих на один экземпляр хранимого файла. Например, чтобы сохранить архивированный файл, присоединенный к сообщению электронной почты, разосланный 1000 пользователей, Centera создаст 1000 CDF-ссылок на один информационный идентификатор, который, в свою очередь, будет указывать на этот сохраненный файл.

Компания Startup Avamar Technologies усовершенствовала данную технологию с целью решения проблемы неэффективности резервного копирования. Несмотря на то, что технология CDF может избавить от хранения избыточных файлов, устройство резервного копирования Axion компании Avamar индексирует отдельные блоки данных, из которых состоят файлы, размещенные на диске, для того, чтобы устранить избыточность как самих файлов, так и их компонентов. Если, к примеру, в документе меняется предложение, Axion обновляет только те блоки внутри файла, которые затрагивает сделанное изменение.

«Это решение работает настолько эффективно, что мы можем записывать на один-два порядка больше данных при ежедневном резервном копировании, чем это позволяют междисковые системы такого рода, дублирующие сохранение на магнитных лентах», — подчеркнул Джед Юх, исполнительный вице-президент Avamar. Отсюда, система, которая требует меньшего пространства для резервного копирования, быстрее выполняет восстановление данных и может эффективно осуществлять резервное копирование распределенных систем по Сети.

Netezza также развивает концепцию интеллектуального хранения за счет интеграции возможностей параллельной обработки для отдельных дисководов. Компания предлагает Netezza Performance Server в качестве «устройства обработки данных», которое оптимизирует интеллектуальные запросы к очень большим базам данных, заменяя традиционно используемую СУБД Oracle, работающую на Unix-серверах старшего класса и массивах хранения EMC. Генеральный директор и основатель компании Джит Саксена подчеркнул, что дисковый ввод/вывод становится узким местом при выполнении запросов к таким базам данных. Архитектура параллельной обработки Netezza связывает так называемые модули Snippet Processing Unit (SPU) с каждым дисководом (до 450 на устройство) и объединяет их с интерфейсным компонентом многопроцессорной обработки, принимающим SQL-запросы от любого приложения, которое отвечает требованиям ODBC. Каждый модуль SPU имеет выделенную память и взаимодействует через соединение Gigabit Ethernet.

«Мы реализуем огромные интеллектуальные возможности в непосредственной близости от каждого дисковода», — заметил Саксена. Благодаря тому, что все дисководы работают параллельно, удается увеличить производительность в 10-20 раз по сравнению с традиционной системой, цена же снижается в два-три раза. А поскольку система ориентирована на обработку большого числа операций чтения и рассчитана на конкретное приложение, то, по словам Саксены, дисководы на ATA работают прекрасно.

За счет использования интеллектуальных недорогих ATA-устройств хранения, способных брать на себя обработку ввода/вывода для задач конкретного приложения, производители могут в конечном итоге изменить представление пользователей о традиционной роли сервера.

«Мы выводим распределенные вычисления на новый уровень благодаря переносу интеллектуальных функций сервера на устройство», — заметил Саксена. Но даже такие известные продукты, как Centera, пока не пользуются большой популярностью. Для завоевания ее потребуется время.


Коротко о продуктах

EMC

  • Продукт: Centera; стоит от 204 тыс. долл. за систему зеркалированного хранения емкостью 5 Тбайт до 408 тыс. долл. за модель емкостью 10 Тбайт. Системы могут быть объединены в кластер общей емкостью 150 Тбайт.
  • Дата выпуска: апрель 2002 года.

Avamar Technologies

  • Продукт: устройство резервного копирования Axion; стоит от 170 тыс. долл. за систему зеркалированного хранения емкостью 3,5 Тбайт.
  • Дата выпуска: октябрь 2002 года.

Netezza

  • Продукт: Netezza Performance Server; стоит от 622 тыс. долл. за конфигурацию емкостью 4,5 Тбайт до 2,5 млн. долл. за модель емкостью 18 Тбайт.
  • Дата выпуска: сентябрь 2002 года.
Описание RAIN

Устройства Centera и Axion используют так называемые «избыточные массивы независимых узлов» (Redundant Arrays of Independent Nodes, RAIN) для обеспечения избыточности и повышенной надежности. Обе системы состоят из независимо функционирующих узлов хранения, которые могут устанавливаться в стандартный монтажный шкаф на 19 дюймов. Каждый узел содержит один или несколько дисководов, центральный процессор, память и соединения Ethernet, служащие магистралями связи внутри модуля. Каждый узел так же, как и подключаемые к сети устройства хранения, работает со своей собственной операционной системой. (Например, Centera — с диалектом ОС Linux, называемом CentraStar.)

RAIN — это своего рода реализация RAID на узлах, а не на дисковых массивах. Centera использует RAIN для зеркалирования дисков. Axion поддерживает RAIN 5 реализацию RAID 5 на уровне узлов, которая требует меньше избыточных дисководов.

Архитектура RAIN также поддерживает масштабирование. В Centera, к примеру, можно объединить до 16 отдельных стоек в систему, предлагающую в совокупности зеркалируемое хранение емкостью 150 Тбайт, и до 7 кластеров, из которых можно сформировать «домен» для работы с данными общим объемом до 1,05 Пбайт.

Centera собирает улики

Southern California High Tech Task Force стала одним из первых пользователей Centera, применяя эту систему для архивирования вещественных доказательств, собранных с компьютеров подозреваемых лиц. Прежде следователи записывали эту информацию на компакт-диски, количество которых достигало 100 штук для получения образа диска емкостью 60 Гбайт. «Нам требовалось решение, которое было бы защищенным и очень надежным», — заметил директор проекта Рик Крейго. Архитектура Centera поддерживала зеркалирование и позволяла отслеживать сделки при проверке, так как хранящиеся объекты нельзя изменить, не получив новый информационный идентификатор. «Centera отвечала практически всем требованиям», — подтвердил Крейго.

Используя разработанное клиентом программное обеспечение, следователи теперь могут хранить собранные улики на кластере серверов Linux с напрямую подключаемой памятью емкостью 6 Тбайт. Завершенные дела передаются в архив Centera прежде, чем пользователи удалят их из активной области хранения. Крейго отметил, что Centera имеет вполне приемлемую цену. «В отделе шерифа у нас установлена система Symmetrix стоимостью около миллиона долларов, емкость которой составляет всего 1 Тбайт. Мы заплатили примерно вчетверо меньше за систему емкостью 10 Тбайт. Разница потрясающая», — сказал он. Centera имеет еще одно преимущество: возможность применения ее для резервного копирования файлов с сетевых серверов с вещественными доказательствами и с серверов с Windows 2000, установленных в офисах Southern California High Tech Task Force. Резервное копирование выполняется быстро и требует минимального пространства, поскольку Centera сохраняет только одну копию избыточных файлов и обновляет только те файлы, которые были изменены. «Учитывая объемы данных, которые мы архивируем, общая экономия скажется в ближайшие полтора года», — заметил Крейго.