Двумя наиболее заметными тенденциями последних лет в области хранения является переход на SSD и SDS. Несмотря на схожесть аббревиатур, это совершенно разные понятия, хотя вторая технология, программно-определяемые хранилища, стала возможной во многом благодаря первой — флеш-накопителям.

Однако все разнообразие потребностей невозможно удовлетворить с помощью только двух новых технологий, поэтому традиционные системы и решения продолжают развиваться, не привлекая, впрочем, такого же ажиотажного внимания. Более того, они порой получают вторую жизнь, как это случилось с оптическими дисками: носители последнего поколения способны хранить данные в течение 100 лет, а у опытных перспективных образцов прогнозируемый срок службы составляет 600 лет!

Волна изменений в системах хранения порождает перемены и в смежных сегментах. Прежде всего это касается обеспечения требуемых характеристик при доступе к данным по сети. Несмотря на неудачу технологии Fibre Channel over Ethernet (FcoE), с появлением протокола NVMe и его сетевого варианта NVMe over Fabric сторонники перевода сети на единый протокол — таковым, конечно же, должен быть Ethernet! — вновь воспряли духом. Правда, наиболее осторожные из них соглашаются с тем, что для подключения систем хранения лучше использовать отдельную сеть.

Несмотря на все эти подчас революционные преобразования, кардинальные перемены еще впереди. И связаны они с тем, что эффективное решение задач и оптимальное использование ресурсов возможны лишь в том случае, если вычислительные мощности, емкости хранения и сетевые ресурсы будут объединены. Осознание этого факта привело к всплеску популярности гиперконвергентных решений. Однако на подходе уже следующая архитектура — дезагрегированная, или компонуемая, инфраструктура.

В докладах на конференции Prostor, которую уже в четвертый раз провела компания «Рэйдикс», в той или иной степени нашли отражение все основные рыночные и технологические тенденции в области СХД. В данной статье дается обзор наиболее интересных, на наш взгляд, докладов из программы конференции.

SDS В ЭПОХУ NVMe

Еще два года назад заказчикам не нужна была производительность в 1 млн IOPS на один узел. Как отмечает Сергей Платонов, руководитель отдела развития продукта в компании «Рэйдикс», при планировании разработок в компании исходили из того, что это требуется для решения только единичных нишевых задач. Однако жизнь, как обычно, внесла свои коррективы: в целом ряде проектов уже вскоре понадобилось обеспечить поддержку нескольких миллионов операций ввода-вывода в секунду.

Кроме того, на рынке появилось новое оборудование; например, производительность серверов хранения Serv24 высотой 2U от Western Digital составляет 6 млн IOPS, а SSD компании Intel в виде линейки (ruler) открывают путь к достижению емкости 1 Пбайт на 1U. Последнее новшество делает устаревшими прежние подходы к хранению метаданных, поскольку при доле в 5–8% их объем превысит терабайтный уровень. Построить узел с оперативной памятью на несколько терабайтов — недешевая задача.

Появление новых решений и требований заставило специалистов «Рэйдикс» пересмотреть весь стек хранения и создать специальную технологию, призванную обеспечить поддержку протоколов NVMe и NVMe over Fabric и производительность 5–10 млн IOPS на узел с задержкой не более 2 мс, причем при любых условиях, в том числе во время реконструкции данных после отказа дисков. Кроме того, дополнительно ставилась задача поддержки различных сценариев развертывания: классического программного RAID, подключения внешних систем хранения по NVMe-oF и распределенного горизонтально масштабируемого блочного хранилища.

В тестах открытые программные реализации RAID (RAID-Z и MD-RAID) демонстрируют низкие результаты при работе с NVMe: по мнению Светланы Лазаревой, руководителя исследовательской лаборатории «Рэйдикс», из-за протяженного и медленного пути передачи данных (data path) они не способны полностью задействовать пропускную способность накопителей NVMe. Поэтому при переработке стека ПО в «Рэйдикс» постарались сократить маршрут и ускорить прохождение данных.

В основу ERA, программного RAID для накопителей NVMe, было положено четыре принципа: быстрые вычисления, неблокирующая (lockless) архитектура, параллелизация и оптимизация очередей. Как заявляют в «Рэйдикс», библиотека для помехоустойчивого кодирования, которая используется в ПО Raidix 4.x и других продуктах, является самой быстрой в мире, обеспечивая высокую скорость вычислений даже при работе с NVMe.

Архитектура без блокировок предполагает организацию отдельного пути для ускоренного прохождения данных. Оптимизация очередей позволяет избежать ненужных задержек. Для достижения максимальной производительности осуществляется распараллеливание операций между ядрами и потоками. В результате удалось добиться высокой производительности: 4 млн IOPS для массива RAID 6 из 10 дисков при задержке менее 0,5 мс. Этот показатель близок к общей теоретической производительности дисков, которая составляет 4,5 млн IOPS.

В «Рэйдикс» свою распределенную систему хранения данных Raidix RAIN считают более предпочтительным выбором, чем Ceph (правда, RAIN является блочным хранилищем, а Ceph — объектным). С одной стороны, это удобная многофункциональная система, поскольку за последние годы в ней появилось более 500 новых параметров, а с другой, даже специалисту трудно разобраться во всех возможностях Ceph. Среди преимуществ решения компании Светлана Лазарева выделяет выполнение реконструкции с приоритизацией в фоновом режиме, использование помехоустойчивого кодирования вместо репликации и более высокую производительность.

ПРОГРАММНО-ОПРЕДЕЛЯЕМОЕ ХРАНИЛИЩЕ ДЛЯ NVMe

Программное обеспечение израильского стартапа Excelero позволяет объединить сетевые NVMe-накопители в распределенное блочное хранилище, поверх которого может быть развернута любая локальная или распределенная файловая система. Объединяемые ресурсы размещают как на внешней системе хранения, так и непосредственно в серверах. Как утверждается, дополнительная вносимая задержка (по сравнению с задержками при локальном доступе) не превышает при этом 5 мкс.

Для доступа к ресурсам пула на сервере должен быть установлен программный клиент, а на целевом устройстве — NVMesh Target Module. Их удаленное взаимодействие обеспечит сетевая версия протокола NVMe — NVMe поверх фабрики (NVMe over Fabric, NVMe-oF). Для мониторинга и конфигурирования распределенного хранения в сети нужен модуль управления NVMesh.

NVMesh поддерживает гиперконвергентную модель, когда каждый сервер приложения является одновременно сервером хранения. Одним из недостатков такой архитектуры считаются потенциальные проблемы с производительностью приложений в результате выполнения операций хранения — так называемая проблема шумных соседей. Чтобы исключить ее возникновение, Excelero разработала метод удаленного прямого доступа к дискам (Remote Direct Drive Access, RDDA) (см. рис. 1).

Тенденции СХД — большие и маленькие
Рис. 1. Метод удаленного прямого доступа к дискам (Remote Direct Drive Access, RDDA), разработанный компанией Excelero, позволяет обращаться к удаленным дискам, не задействуя ресурсы процессора

Источник: Excelero

Как видно из названия, RDDA воспроизводит метод удаленного прямого доступа к памяти (Remote Direct Memory Access, RDMA): клиенты получают дистанционный доступ к дискам NVMe, а процессорные ресурсы на удаленной стороне не задействуются. Перевод поддержки сервисов хранения с целевого устройства на клиента позволяет, как утверждают в компании, обеспечить детерминированную производительность для приложений и линейное масштабирование распределенного хранилища.

Предлагаемое решение является полностью программным, однако на всех клиентах (в качестве которых выступают серверы приложений) и серверах хранения должны иметься сетевые платы с поддержкой RDMA (R-NIC) (точнее, RoCE v2). Это ограничивает потенциальную применимость NVMesh в гипермасштабируемых инсталляциях, на которые оно ориентировано, так как предполагает замену большого количества оборудования. (Не случайно Facebook вместе с другими участниками рынка стимулировала разработку NVMe поверх TCP.)

В новой версии NVMesh 2.0, которая появилась в начале ноября текущего года, Excelero учла пожелания заказчиков и добавила поддержку Fibre Channel и TCP/IP. Ценой этого нововведения стало повышение задержки, зато заказчики теперь могут использовать имеющиеся у них сети (см. подробнее статью автора «NVMe устраивается на фабрику», «Журнал сетевых решений/LAN», №5, 2018). Как утверждается, задержка составляет всего четверть от типовой для флеш-массивов, а вот производительность ввода-вывода может достигать десятков и сотен тысяч IOPS.

КОМПОНУЕМАЯ ИНФРАСТРУКТУРА ОТ WESTERN DIGITAL

Western Digital предлагает собственный подход к реализации дезагрегированной, или, как ее называют вслед за HPE, компонуемой, архитектуры (см. подробнее статью автора «Компонуемая инфраструктура в контексте SDDC», «Журнал сетевых решений/LAN», №2, 2018).

Дезагрегированная архитектура делает возможным создание требуемой аппаратной конфигурации из доступного пула различных ресурсов: процессоров, памяти, жестких дисков, сетевых карт и т.д. Как отметил в своем выступлении Григорий Никонов, системный инженер компании Western Digital, смысл дезагрегации в повышении степени утилизации ресурсов и гибкости их предоставления. В компонуемой архитектуре можно будет использовать ресурсы не на 40–45%, как сейчас, а на 80–90%.

В Western Digital делают ставку на открытый подход (в частности, компания планирует в течение нескольких лет перевести всю свою продукцию на серверы RISC–V). Помимо открытости, при создании компонуемой архитектуры OpenFlex разработчики стремились обеспечить масштабируемость (различные виды ресурсов должны наращиваться независимо), дезагрегацию (независимость всех компонентов на аппаратном уровне) и универсальность (поддержка всех возможных типов процессоров и накопителей).

OpenFlex базируется на концепции сетевых устройств с поддержкой NVMe-oF. Для реализации компонуемой архитектуры, как объясняет Григорий Никонов, их необходимо дополнить вычислительными мощностями, подключив отдельный пул процессоров с памятью и сетевыми картами, но без каких-либо дисков (на самом деле такая архитектура является лишь частично дезагрегированной, так как полная дезагрегация предполагает независимость процессоров и памяти).

Необходимая пропорция ресурсов — процессоров, флеш-накопителей и жестких дисков — подбирается в соответствии с поставленными задачами. Иначе говоря, каждый виртуальный сервер собирается из имеющегося пула ресурсов (при этом компоновка осуществляется на аппаратном уровне — без использования гипервизора).

Western Digital выпустила две системы хранения для реализации такой архитектуры, причем в них поддерживаются не только флеш-накопители, но и жесткие диски. Это шасси для фабрики данных OpenFlex E3000 Fabric Enclosure и массив жестких дисков OpenFlex D3000 Fabric Device. В шасси высотой 3U может быть установлено десять модулей флеш-накопителей E3000 емкостью 61 Тбайт с двумя интерфейсами по 50 Гбит/с каждый с поддержкой RoCE для реализации NVMe-oF (см. рис. 2). Массив D3000 — довольно необычное решение, фактически это дисковая полка на 13 HDD с поддержкой двух NVMe-oF-совместимых интерфейсов на 25 Гбит/с. Пользователи воспринимают систему как один NVMe-диск емкостью 168 Тбайт.

Тенденции СХД — большие и маленькие

Рис. 2. СХД Aeon S200-RX M2 российской компании Netberg работает под управлением ПО Raidix 4.4. В этой системе, имеющей отказоустойчивую аппаратную архитектуру, применяются патентованные алгоритмы RAID

Источник: Netberg

Для управления OpenFlex компания предлагает открытый KingFish API, получивший свое название по аналогии с API Redfish для управления физическими серверами и Swordfish для управления логическими хранилищами. Создать широкую экосистему вокруг Kingfish пока не удалось, но идею поддержала компания HPE, активно занимающаяся продвижением компонуемой инфраструктуры. WD работает над оркестратором, с помощью которого из дезагрегированных ресурсов можно будет собирать серверы по требованию.

«В итоге мы хотим прийти к тому, чтобы внутри ЦОД можно было получить в два клика физическую машину для конкретных задач — точно так же, как заказываются виртуальные машины из облака», — объясняет Григорий Никонов.

ФАБРИКА ХРАНЕНИЯ ОТ MELLANOX

В этом году компания Mellanox была впервые включена аналитиками Gartner в магический квадрант поставщиков решений для сетей центров обработки данных. Одним из аргументов в пользу такого выбора стала предложенная ею концепция сетей хранения Ethernet (Ethernet Storage Fabric, ESF).

В своем выступлении Борис Нейман, старший системный инженер Mellanox, заявил: «Fibre Channel — несовременное решение. Это достаточно сложная сеть, эксплуатация которой требует специальных компетенций». Кроме того, переход с одного поколения Fibre Channel на другое с целью повышения скорости обходится очень дорого. Между тем Ethernet уже сегодня обеспечивает поддержку 100 Гбит/с против 32 Гбит/с у Fibre Channel.

Концепция ECF предполагает возможность применения ряда технологий для оптимизации использования Ethernet в качестве выделенной сети хранения — в частности, NVMe-oF, когда сеть Ethernet выполняет роль фабрики. Для этого в сетевых картах реализуются функциональность RDMA поверх конвергентного Ethernet (RDMA over Converged Ethernet, RoCE) и разгрузка целевых устройств NVMe-oF и операций кодирования. Для упрощения конфигурирования сети с поддержкой RoCE компания предлагает бесплатное программное обеспечение NEO.

Рис. 3. Фабрика хранения Ethernet, в которой используются коммутаторы Mellanox Spectrum, способна обеспечить предсказуемую производительность и минимальные, 1 мкс, задержки в сети

Источник: Mellanox

Современным сетям хранения пропускной способности 10 Гбит/с явно недостаточно — один накопитель NVMe может выдавать данные со скоростью 20–25 Гбит/с. Соответственно, четыре накопителя в сервере могут занять полосу в 100 Гбит/с. Сетевое оборудование Ethernet компании Mellanox позволяет строить сети с пропускной способностью 100 Гбит/с, при этом такая сеть обойдется дешевле, чем сеть Fibre Channel на 32 Гбит/с. В I–II кварталах следующего года этот производитель собирается выпустить коммутаторы с поддержкой 200 и 400 Гбит/с. Как отметил в своем выступлении Борис Нейман, современные ЦОД все чаще отказываются от модульных шасси в пользу построения сетевых фабрик с использованием стоечных коммутаторов форм-фактора 1U.

В отличие от многих других вендоров, в своих коммутаторах Spectrum и сетевых платах ConnectX компания использует микросхемы собственной разработки. Благодаря этому оборудование Mellanox обеспечивает на порядок меньшую задержку (как утверждается, в фабрике с тремя транзитными узлами задержка составляет всего 1 мкс (см. рис. 3)). Кроме того, потеря пакетов исключается даже при максимальной нагрузке.

Для коммутаторов Mellanox предусмотрена возможность выбора операционной системы. Помимо собственной «закрытой» ОС, они могут работать под управлением Cumulus Linux, а также любой стандартной версии Linux с ядром четвертой ветви. В частности, можно установить дистрибутив Alt Linux российской компании «Базальт».

МАГНИТНАЯ ЛЕНТА ИЛИ ОПТИЧЕСКИЕ ДИСКИ?

Зачастую данные необходимо хранить на протяжении очень длительного времени. Это касается, например, цифровых копий музейных экспонатов, кинофильмов, документации на инфраструктурные объекты, огромных массивов данных пользователей в социальных сетях и т. п. Для такой информации требуется обеспечить экономичное и долгосрочное хранение.

«Потеря данных — самое страшное, что может произойти с ними,  — отмечает Антон Петроченко, специалист по архивным СХД в компании Panasonic. — Но при долгосрочном хранении в течение 25–50 лет ко всем чрезвычайным ситуациям подготовиться невозможно». Так, например, в скандинавском отделении биржи NASDAQ в результате ложной тревоги сработала система пожаротушения. Громкий пронзительный звук газа, выходящего из некалиброванных редукторов, привел к поломке жестких дисков в трети всех серверов. В результате биржа не работала несколько часов.

Классическим подходом к обеспечению сохранности данных является стратегия «3–2–1»: наличие трех копий данных, использование двух разных типов носителей, хранение одной из копий в другом месте. Какую же технологию выбрать для записи копий? При долгосрочном хранении всегда возникает вопрос возможности их считывания впоследствии. Как указывает Антон Петроченко, ленточные приводы обеспечивают совместимость только с двумя предшествующими поколениями лент. Это означает, что текущий формат LTO-8 приводы нового, 11-го поколения, когда они появятся (а это произойдет примерно через 10 лет), читать уже не смогут. Между тем даже самые первые оптические диски, которые появились 36 лет назад, могут быть прочитаны современными приводами BluRay, поскольку оптические технологии поддерживают все предшествующие форматы.

Panasonic занимается технологиями оптических дисков и приводов на протяжении последних 30 лет, причем компания разрабатывает все необходимые микросхемы и механические элементы. В сотрудничестве с Facebook создана система архивации данных на оптических дисках — freezeray. В ней используется новый формат архивных дисков вместо BluRay, который был разработан Panasonic совместно с Sony. В настоящее время на один диск помещается 300 Гбайт, в скором времени должны появиться накопители емкостью 500 Гбайт, в планах — емкость 1 Тбайт. Расчетный срок службы Archival Disc составляет 100 лет. Для повышения надежности хранения, 12 дисков в кассете объединены в массив RAID.

Компания «Рэйдикс» выпустила программное обеспечение Raidix Archival Solution for Panasonic (RASP) для виртуализации ресурсов оптической библиотеки. ПАК на основе freeze-ray и RASP позволяет обеспечить хранение «горячих» и «холодных» данных в одной гибридной инфраструктуре. Для кеширования данных из архива предлагается файловая система RaspFS.

Ученые из Австралии и Китая продемонстрировали прототип оптического диска с потенциальной емкостью 10 Тбайт и сроком службы 600 лет. Стекло — износоустойчивый материал, который может храниться более 1000 лет, но емкость хранения такого диска ограничена. Для ее увеличения был использован нетрадиционный материал — гибридный стеклянный композит (комбинация стекла с органикой) с инкорпорированными золотыми наностержнями.

ВЫСОКОПРОИЗВОДИТЕЛЬНЫЕ РЕШЕНИЯ ДЛЯ ИМПОРТОЗАМЕЩЕНИЯ

Российская компания Netberg с 2015 года развивает собственные линейки серверов, систем хранения и сетевого оборудования, при этом разработка и производство ведутся на Тайване. Как признает Андрей Сапронов, заместитель генерального директора компании Netberg, решение о разработке и выпуске продукции под своим брендом было принято под влиянием переориентации государственной политики на импортозамещение, однако с самого начала ставилась более амбициозная цель — выйти на мировой рынок.

Вычислительная платформа Netberg реализована в соответствии с концепцией «кластер в коробке» (Cluster in Box, CiB): в одном шасси размещаются два сервера с общей объединительной панелью. На базе этой платформы могут быть развернуты как серверные кластеры, так и системы хранения данных. Андрей Сапронов проводит аналогию с популярными гиперконвергентными решениями, когда в одной архитектуре объединяются и серверы, и системы хранения.

В соответствии с концепцией CiB реализована, например, новая система хранения Netberg Aeon S200-RX M2, которая работает под управлением программного обеспечения Raidix 4.4 (базируется на серверной платформе Demos R420 M2). В зависимости от конфигурации в нее может быть установлено 24 диска 2,5" или 12 дисков 3,5". При необходимости систему можно расширить до 560 дисков с помощью дисковых полок серии Aeon RX (см. рис. 4).

Тенденции СХД — большие и маленькие
Рис. 4. Шасси OpenFlex E3000 Fabric Enclosure разрабатывалось компанией Western Digital в расчете на использование в рамках компонуемой архитектуры

Источник: Western Digital

Данная компактная система (высота 2U) позволяет предоставить возможности программно-определяемого хранилища корпоративного класса небольшим и средним компаниям. Среди таких возможностей можно выделить модуль распознавания приложений QoSmic, с помощью которого критичным приложениям гарантируется требуемый уровень производительности при работе с СХД. Для управления системой предусмотрен порт IPMI, что не так часто встречается в решениях данного класса.

В прошлом году Netberg выпустила дисковую полку Netberg Aeon J380 NVMe высотой 3U, которая представляет собой набор флеш-накопителей (Just Bunch of Flash, JBOF) — 80 дисков NVMe с интерфейсом U.2. Все они могут быть подключены к одному серверу, либо их можно разделить между пятью серверами с помощью пяти коммутационных модулей PCIe, оснащенных контроллерами PMC. Данная система предназначена для проектов, где предъявляются высокие требования к производительности дисковой системы.

Как считает Андрей Сапронов, Fibre Channel — отжившая технология, хотя компания и поддерживает ее в своих серверах и СХД. Помимо более высокой номинальной пропускной способности, достигаемой благодаря таким технологиям, как Data Center Bridging (DCB), современные коммутаторы Ethernet способны предоставить многие возможности, свойственные FC, в частности передачу трафика без потерь. При этом они стоят намного дешевле. Так, коммутатор Netberg 620 c 48 портами 25GbE и 6 портами для каскадирования продается по цене 9000 долларов (коммутатор FC с таким же количеством портов на 16 Гбит/с обойдется в три раза дороже).

С самого начала в разработке сетевого оборудования была сделана ставка на поддержку высоких скоростей: первый 100-гигабитный коммутатор Aurora 720 был выпущен в 2015 году. Эти коммутаторы используются в Институте Макса Планка для передачи данных с радиотелескопов. Как отмечает Андрей Сапронов, основной спрос на такое оборудование пока сосредоточен за рубежом. Некоторое время назад компании даже пришлось возобновить производство модели коммутатора 10/40, поскольку российский рынок не был готов к скоростям 25/100 Гбит/с (хотя по цене оборудование мало отличалось).

Дмитрий Ганьжа, главный редактор «Журнала сетевых решений/LAN»