Мы живем в эпоху роста объемов постоянно накапливаемых и обрабатываемых данных, различных по своим форматам и прочим характеристикам. Один полет «Боинга» порождает больше информации, чем содержится в библиотеке Конгресса США. Наряду с растущим объемом корпоративных данных основными драйверами рынка сетей хранения становятся внедрение флеш-накопителей и виртуализация серверов.

Чтобы можно было эффективно пользоваться данными как ресурсом, иметь возможность извлекать из данных, размещенных на разных носителях и устройствах, полезную информацию, интерфейсы систем хранения и сетевые коммуникации должны обеспечивать необходимую производительность. Причем доступ к данным должен быть не только быстрым, но и недорогим.

В мире СХД технологии передачи данных — столь же бурно развивающаяся область, что и технологии носителей, на которых эти данные хранятся. В текущем году ожидается дальнейший рост скоростей (см. табл. 1). Цикл разработки новых стандартов обычно составляет три-четыре года.

Таблица 1. Скорости передачи данных для распространенных интерфейсов СХД и сетей хранения
Таблица 1. Скорости передачи данных для распространенных интерфейсов СХД и сетей хранения

 

О чем именно идет речь? Об интерфейсах подключения СХД: Fibre Channel (FC), iSCSI, FCoE, NVMe и NVMe over Fabrics. О «транспорте»: протоколах передачи данных FC, Ethernet, InfiniBand, SAS (см. табл. 2). А также о внутренних интерфейсах систем хранения, то есть об интерфейсах подключения дисков и флеш-накопителей: SATA, SAS и NVMe.

Таблица 2. Сравнение протоколов сетей хранения данных
Таблица 2. Сравнение протоколов сетей хранения данных 

 

Как видно из табл. 1, в этом году нас ждет миграция на новые стандарты, под которые будет создаваться соответствующая инфраструктура, включающая в себя программное обеспечение, контроллеры, сетевые интерфейсы и физическую среду передачи — кабели и соединители.

ЕСТЬ ЛИ БУДУЩЕЕ У FIBRE CHANNEL?

Михаил Коган, технический директор и один из сооснователей израильской компании Mellanox, считает, что у FC нет будущего. С этим можно поспорить. Технология FC (см. рис. 1) продолжает активно развиваться. Принят стандарт FC Gen6 со скоростью передачи данных 32 Гбит/c, идет работа над его расширением для поддержки 128 Гбит/c.

Рис. 1. По прогнозам IDC, Fibre Channel в ближайшие годы будет оставаться самым распространенным протоколом сетей хранения по емкости подключенных внешних СХД (в тысячах петабайт). Как ожидается, до 2018 года общая емкость систем хранения FC будет составлять около 38% от всей суммарной емкости СХД на рынке
Рис. 1. По прогнозам IDC, Fibre Channel в ближайшие годы будет оставаться самым распространенным протоколом сетей хранения по емкости подключенных внешних СХД (в тысячах петабайт). Как ожидается, до 2018 года общая емкость систем хранения FC будет составлять около 38% от всей суммарной емкости СХД на рынке

 

Строго говоря, Fibre Channel Gen6 (шестого поколения) — это FC со скоростью передачи 32 и 128 Гбит/c. Последний вариант основывается на той же технологии FC 32 Гбит/c и отличается лишь параллельной конфигурацией (параллельный четырехканальный интерфейс). Комитет T11 присвоил проекту название FC-PI-6P. В FC 32 Гбит/c применяется соединитель 25/28G SFP+. В FC 128 Гбит/с, вероятно, будут использоваться соединители QSFP+, возможна также поддержка соединителей CFP2 или CFP4. Ожидается, что первые коммутаторы Gen6 появятся в 2016 году. Проект FC-PI-7 предполагает разработку стандартов FC с еще более высокими скоростями — 64 и 256 Гбит/с.

Определенно, в обозримом будущем Fibre Channel сохранит свои позиции как основная технология сетей хранения (SAN), тем более что в инфраструктуру FC вложены немалые средства. Однако со временем у него могут появиться конкуренты (об этом ниже). А вот на уровне подключения дисков интерфейс Fibre Channel может оказаться вытесненным SAS на 12 Гбит/c (эта технология позволяет использовать все преимущества шины PCIe 3.0).

Между тем разрабатывается спецификация интерфейса SAS на 24 Гбит/c: соответствующие компоненты могут появиться в 2017 году, а первые продукты — в 2018-м. Как ожидается, в финальных версиях этого интерфейса будет использоваться технология PCIe 4.x.

Относительно FCoE (FC-BB-6) можно услышать разные прогнозы. «Данная технология для подключения систем хранения умерла, так и не взлетев, и эту тему можно закрыть», — считает Николай Умнов, менеджер OEM-бизнеса Brocade. Однако, по оценкам IDC, в ближайшие пару лет по совокупной емкости подключенных внешних СХД она будет конкурировать с InfiniBand, но ожидавшегося широкого распространения все же не получит. FCoE работает поверх Ethernet и может применяться в качестве интерфейса между сетями FC и Ethernet. Следует отметить, что как протокол FCoE непопулярен, поскольку не является маршрутизируемым и требует применения специальных коммутаторов.

В августе 2014 года комитет T11 завершил работу над стандартом FC-BB-6. Используемая в нем архитектура VN2VN позволяет соединять узлы FCoE (Virtual N_Ports) без коммутаторов FCoE, что упрощает построение небольших сетей. Вместе с тем благодаря улучшенной масштабируемости (Domain_ID Scalability) фабрики FCoE могут обслуживать крупные инфраструктуры SAN. Ближайшая перспектива — переход на FCoE со скоростями 40 и 100 Гбит/с. Но «взлететь» FCoE вряд ли уже суждено.

Другое дело — вездесущий Ethernet. Стандарты IEEE 802.3ba (Ethernet на 40 и 100 Гбит/с) были ратифицированы в июне 2010 года, соответствующие продукты уже выпускаются. Эти технологии, а также более новые версии 25GbE и 50GbE, равно как и 2.5GbE, 5GbE и FC, достаточно широко освещались в прессе. Гораздо реже упоминается технология InfiniBand, хотя она давно и успешно применяется рядом вендоров и имеет свои достоинства. Ввиду открывшихся обстоятельств на нее стоит обратить внимание.

INFINIBAND, RDMA И ДРУГИЕ

InfiniBand — не настолько популярная технология, как FC и Ethernet, но она успешно развивается, преуспевают и специализирующиеся в данной области компании. Показательный пример — Mellanox, оборот которой растет на 30% ежегодно. Компания выпускает ПО, оптические и медные кабели, сетевые карты и коммутаторы InfiniBand от 12 до 648 портов. Последние предназначаются для создания вычислительных кластеров. Например, один из таких кластеров развернут компанией «Т-Платформы». Подобные решения применяются в известной платежной системе PayPal, на InfiniBand (IB) построены системы Oracle Exadata и IBM XIV.

Каждые 2,5 года Mellanox удваивает скорость своих сетевых решений и расширяет их функциональность. У нее уже есть решения для 100 Гбит/с (начиная с кабелей и адаптеров и заканчивая ПО): адаптеры с поддержкой RAID, в том числе с распределением RAID по разным узлам, коммутаторы IB и Ethernet, медные и оптические кабели. К концу 2017 года компания надеется вывести на рынок решения для построения терабитной сети.

В продуктах InfiniBand EDR (Enhanced Data Rate) со скоростью 100 Гбит/с применяются те же соединители 25/28G SFP+, что и в Ethernet и Fibre Channel. В 2017 или 2018 году ожидается появление технологии InfiniBand High Data Rate (HDR) со скоростью 200 Гбит/с. Вероятно, хост-адаптеры HDR будут рассчитаны уже на слоты PCIe 4.0.

InfiniBand известна прежде всего как технология кластерного интерконнекта. Ее характеризуют большая скорость и низкие задержки, а к недостаткам можно отнести высокую стоимость и сложность инфраструктуры. В высокопроизводительных вычислениях (HPC) и других специализированных решениях нашла применение еще одна технология, непосредственно связанная с InfiniBand и поддерживаемая ею. Это Remote Direct Memory Access (RDMA).

В уже далекие 90-е годы проблема с загрузкой процессора при вводе-выводе была решена с помощью процедуры прямого доступа к памяти (Direct Memory Access, DMA). Функции работы с подсистемой ввода-вывода были переданы специальному контроллеру DMA. Однако DMA — это локальные, внутрисистемные операции. Ее логическим продолжением стало создание «сетевой» версии.

В конце 90-х организация InfiniBand Trade Association предложила технологию RDMA. Разработанная для InfiniBand и адаптированная для Ethernet, она дает возможность приложению, находящемуся на одном узле, обращаться к ресурсам на другом узле без участия центральных процессоров обоих узлов (см. рис. 2). За работу с отправителем и получателем данных и их проверку в ходе операций отвечает сетевой адаптер.

Рис. 2. Процессор узла-получателя должен проверить поступившие данные и направить их приложению-адресату. Эту работу можно поручить адаптеру. В случае RDMA передачей данных через сетевой адаптер управляет приложение. В отличие от TCP/IP, процессор в операции не участвует (по данным Mellanox)
Рис. 2. Процессор узла-получателя должен проверить поступившие данные и направить их приложению-адресату. Эту работу можно поручить адаптеру. В случае RDMA передачей данных через сетевой адаптер управляет приложение. В отличие от TCP/IP, процессор в операции не участвует (по данным Mellanox)

 

Почему вдруг RDMA? С появлением флеш-накопителей, облаков и программно определяемых систем хранения данных (SDS) эта новинка 1998 года может обрести «второе дыхание».

Если время доступа к HDD характеризуется миллисекундами, то для SSD это десятки микросекунд — в 100 раз быстрее. Как ожидается, новые технологии памяти, разрабатываемые Intel и Hewlett-Packard Enterprise, увеличат скорость доступа еще на два порядка. За последнее десятилетие она выросла примерно в 10 тыс. раз (см. рис. 3).

Рис. 3. За последнее десятилетие благодаря современным технологиям скорость доступа увеличилась в 10 тыс. раз — по сравнению с применением традиционных жестких дисков (по данным Mellanox)
Рис. 3. За последнее десятилетие благодаря современным технологиям скорость доступа увеличилась в 10 тыс. раз — по сравнению с применением традиционных жестких дисков (по данным Mellanox)

 

Если требуется обращаться к носителю через сеть, должны использоваться протоколы с минимальными издержками (overhead). И тут может пригодиться RDMA.

В свое время из-за проблем в реализации применение RDMA ограничивалось системами HPC. Однако сегодня появились новые возможности. С помощью RDMA можно обращаться к SSD через сеть с той же скоростью, что и к локальному носителю (см. рис. 4). Ведь в RDMA отсутствует многократное промежуточное копирование данных при их передаче между отправителем и получателем.

Рис. 4. По скорости доступа сетевая технология RDMA 56 Гбит/с сопоставима со скоростью доступа к локальной памяти
Рис. 4. По скорости доступа сетевая технология RDMA 56 Гбит/с сопоставима со скоростью доступа к локальной памяти

 

Версии RDMA на базе InfiniBand и Ethernet отличаются методами управления сетью. Для приложений они прозрачны: если поддерживается одна из этих версий, будет поддерживаться и другая. Разница — в управлении сетью.

Рис. 5. Построение гиперконвергентного ЦОДа на базе RDMA. Интеллектуальная сеть RoCE (RDMA over Converged Ethernet) разгружает процессоры для выполнения прикладных задач (по данным Mellanox)
Рис. 5. Построение гиперконвергентного ЦОДа на базе RDMA. Интеллектуальная сеть RoCE (RDMA over Converged Ethernet) разгружает процессоры для выполнения прикладных задач (по данным Mellanox)

 

Что это дает на практике? По словам Михаила Когана, разгрузка процессоров от задач управления сетью позволяет создавать гиперконвергентные ЦОДы (см. рис. 5). Такой ЦОД состоит из одинаковых узлов — стандартных серверов и СХД. В среде виртуализации Microsoft Hyper-V с помощью RDMA можно на порядок увеличить скорость «живой миграции» виртуальных машин (см. рис. 6). «Все происходит настолько быстро, что работающее в ВМ приложение этого не заметит, — рассказывает Михаил Коган. — Важно, что такая миграция не требует и затрат ресурсов процессоров обоих физических серверов».

Рис. 6. С RDMA «переезд» ВМ с одного сервера на другой происходит в 10 раз быстрее и не требует ресурсов процессора
Рис. 6. С RDMA «переезд» ВМ с одного сервера на другой происходит в 10 раз быстрее и не требует ресурсов процессора

 

На основе RDMA создан ряд интересных протоколов и расширений. Например, iSER (iSCSI Extensions for RDMA) — расширение iSCSI для работы по сетям RDMA. iSCSI очень популярен и активно развивается благодаря увеличению скоростей Ethernet, но не слишком подходит для задач, где необходимы малые задержки, к тому же с увеличением масштаба систем могут возникать сложности управления. В iSER вся логика управления и обеспечения надежной передачи данных основана на стандарте iSCSI, а при операциях чтения-записи и передачи данных используется RDMA.

iSER считается самым эффективным сетевым протоколом SCSI: версия iSCSI с транспортом RDMA работает поверх Ethernet (см. рис. 7) или InfiniBand 10, 25, 40, 50, 56 и 100 Гбит/с и поддерживается всеми стандартными приложениями. Это стандарт IETF. Преимущества iSER — высокая производительность (пропускная способность, IOPS и малая задержка), низкая нагрузка на процессор, использование средств управления iSCSI.

Рис. 7. Технология Ethernet быстро эволюционирует. Все шире используется 40GbE. Поверх Ethernet работают многие протоколы, включая iSCSI, iSER и FCoE. RDMA позволяет сократить задержку. Начинается продвижение технологии NVMe over Fabrics (по данным RAIDIX)
Рис. 7. Технология Ethernet быстро эволюционирует. Все шире используется 40GbE. Поверх Ethernet работают многие протоколы, включая iSCSI, iSER и FCoE. RDMA позволяет сократить задержку. Начинается продвижение технологии NVMe over Fabrics (по данным RAIDIX)

 

iSER хорошо подходит для поддержки баз данных, виртуальных сред, облачных сервисов и Web-приложений. Он позволяет передавать данные в буфер SCSI и из него, минуя многочисленные промежуточные копирования. Кроме того, решается проблема фрагментации TCP, увеличивающей задержку из-за необходимости упорядочивания пакетов получателем (они могут приходить в произвольном порядке). В iSER вместо обычного способа инкапсуляции в TCP задействованы возможности RDMA.

Использование логики управления iSCSI и применение RDMA в операциях чтения и записи позволяют получить высокую скорость сервисов данных в виртуальной среде. Например, iSER применяется VMware (см. рис. 8). Благодаря iSER можно втрое увеличить плотность среды VDI (количество ВМ на одном сервере) по сравнению с iSCSI over TCP. Протокол iSER поддерживается во многих ОС. В 2016 году ожидается поддержка iSER в Windows Server 2012. Его используют и ряд производителей СХД, в частности HPE (массивы SL4500), NetApp (E-Series), Violin, Oracle (ZFS).

Рис. 8. VMware использует протокол iSER в своих сервисах хранения данных. Это позволяет на порядок увеличить пропускную способность и в 3–4 раза — IOPS при обмене данными между ВМ и СХД. В среде VDI применение iSER дает возможность втрое повысить плотность ВМ на сервере по сравнению с конфигурацией, где применяется iSCSI/TCP (по данным Mellanox)
Рис. 8. VMware использует протокол iSER в своих сервисах хранения данных. Это позволяет на порядок увеличить пропускную способность и в 3–4 раза — IOPS при обмене данными между ВМ и СХД. В среде VDI применение iSER дает возможность втрое повысить плотность ВМ на сервере по сравнению с конфигурацией, где применяется iSCSI/TCP (по данным Mellanox)

 

Рис. 9. Использование в SMB Direct в качестве транспорта RDMA дает возможность сократить издержки, уменьшить загрузку ЦП, ускорить работу Hyper-V и SQL Server
Рис. 9. Использование в SMB Direct в качестве транспорта RDMA дает возможность сократить издержки, уменьшить загрузку ЦП, ускорить работу Hyper-V и SQL Server

 

Еще один интересный протокол — Microsoft SMB Direct. В отличие от блочного протокола iSER, это файловый протокол. SMB Direct на базе RDMA позволяет в пять раз повысить производительность по сравнению с 10GbE (см. рис. 9). А применение еще одного расширения — протокола RoCE (RDMA over Converged Ethernet) с 40GbE в Windows Asure Storage — дало Microsoft возможность сэкономить немало вычислительных ресурсов (см. рис. 10).

Рис. 10. Использование в SMB Direct протокола RoCE вместо TCP позволяет более чем вдвое увеличить пропускную способность и снизить нагрузку на ЦП (по данным Mellanox)
Рис. 10. Использование в SMB Direct протокола RoCE вместо TCP позволяет более чем вдвое увеличить пропускную способность и снизить нагрузку на ЦП (по данным Mellanox)

 

Как утверждают в Mellanox, сеть RoCE и уменьшение нагрузки на центральный процессор за счет RDMA (RDMA Offload) позволяют создавать более эффективные гиперконвергентные ЦОДы и инфраструктуры SDS (см. рис. 11). В последнем случае ПО SDS обеспечивает доступ приложения на одном узле к хранилищу любого другого узла. Ресурсы хранения данных разных узлов образуют единый пул хранения, доступный приложениям. По такому принципу работает, например, ЦОД Microsoft Azure. Локальные ресурсы хранения узлов не привязаны к процессору узла.

Рис. 11. Традиционная горизонтально масштабируемая архитектура хранения и гиперконвергентная архитектура. Первую характеризуют разделение уровней хранения и вычислений, привязка ПО к оборудованию (примеры: EMC Isilon и XtremIO, IBM XIV). Во втором случае каждый сервер содержит вычислительные ресурсы и ресурсы хранения; обычно используется подход SDS. Примеры: EMC ScaleIO, VMware VSAN, Maxta, Nutanix, SANbolic (по данным Mellanox)
Рис. 11. Традиционная горизонтально масштабируемая архитектура хранения и гиперконвергентная архитектура. Первую характеризуют разделение уровней хранения и вычислений, привязка ПО к оборудованию (примеры: EMC Isilon и XtremIO, IBM XIV). Во втором случае каждый сервер содержит вычислительные ресурсы и ресурсы хранения; обычно используется подход SDS. Примеры: EMC ScaleIO, VMware VSAN, Maxta, Nutanix, SANbolic (по данным Mellanox)

 

NMVE И NMVE OVER FABRICS

За последние 10 лет производительность процессоров выросла в 10 раз, оперативной памяти — в 8 раз, сетей — в 100 раз, внутренней шины — в 20 раз, а накопителей на жестких дисках — всего в 1,5 раза. Ситуацию должна улучшить флеш-память. Для работы с этим носителем разрабатываются новые протоколы и технологии, раскрывающие потенциал интерфейса PCIe.

Одна из таких технологий — Non-Volatile Memory Express (NVMe). Она позволяет устранить значительные задержки оборудования и издержки протоколов, связанные с хранением, и может применяться для повышения общей производительности системы, особенно в таких ресурсоемких задачах, как виртуализация, Большие Данные и высокопроизводительные вычисления. С помощью NVMe можно получать доступ к флеш-памяти, минуя прослойку SCSI, что экономит несколько микросекунд по времени доступа, особенно в случае аппаратной поддержки NVMe (функции драйвера реализуются на аппаратном уровне).

Масштабируемая технология NVMe разрабатывалась специально для прямого подключения устройств NVMe (таких как SSD) через PCIe Gen3. Она обеспечивает быстрый доступ процессора к данным во флеш-памяти и характеризуется, высокой производительностью в IOPS, малым энергопотреблением и низкими задержками. Поставки первых продуктов NVMe начались в 2014 году. В 2015-м многие вендоры серверов представили свои платформы со слотами NVMe.

Таблица 3. Сравнение накопителей SSD с интерфейсом NVMe и SSD с SAS и SATA (по данным Supermicro)
Таблица 3. Сравнение накопителей SSD с интерфейсом NVMe и SSD с SAS и SATA (по данным Supermicro)

 

Согласно данным Supermicro, по сравнению с SSD SAS 3.0 серверы с поддержкой NVMe обеспечивают в семь раз меньшую задержку при доступе к SSD, а пропускная способность увеличивается до шести раз (см. табл. 3). Supermicro позиционирует такие серверы как решения для задач HPC, нефтегазовой отрасли, 3D-моделирования, графического дизайна, VDI, виртуализации, облачных вычислений и прочих ресурсоемких приложений.

Рис. 12. Производительность NVMe при произвольном чтении и записи блоками 4K в IOPS в сравнении с SAS и SATA. Результаты показаны для чтения, смешанных операций (70% чтение, 30% запись) и записи (по данным SNIA)
Рис. 12. Производительность NVMe при произвольном чтении и записи блоками 4K в IOPS в сравнении с SAS и SATA. Результаты показаны для чтения, смешанных операций (70% чтение, 30% запись) и записи (по данным SNIA)

 

NVMe позволяет повысить производительность системы (см. рис. 12) за счет более полного использования параллелизма устройств и программного обеспечения. «Суть технологии в том, что накопитель становится «ближе» к процессору. Это дает возможность снизить время задержки с 2031 до 86 мкс — более чем в 20 раз», — поясняет Руфат Ибрагимов, руководитель службы поддержки компании RAIDIX (см. табл. 4).

Таблица 4. Будущее — за NVMe, считают в компании RAIDIX
Таблица 4. Будущее — за NVMe, считают в компании RAIDIX

 

Кроме того, в 2016–2017 годах ожидается появление стандарта NMVe over Fabrics (NVMeF). Его задача — обеспечить эффективный удаленный доступ хоста к устройствам NVMe через коммутирующие фабрики (то есть через сеть), причем почти с такой же производительностью, как и при работе с локальными устройствами NVMe. Производительность созданных в настоящее время прототипов устройств составляет 450K IOPS при работе с локальными и удаленными устройствами NVMe PCIe, а при удаленном доступе задержка увеличивается незначительно.

Рис. 13. NVMe over Fabrics обеспечивает эффективность NVMe при работе с внешними и внутренними фабриками (по данным OpenFabris Alliance)
Рис. 13. NVMe over Fabrics обеспечивает эффективность NVMe при работе с внешними и внутренними фабриками (по данным OpenFabris Alliance)

 

Стандарт NVMe over Fabrics (см. рис. 13) разрабатывался в расчете на реализацию всей функциональности NVMe поверх Ethernet. Как и NVMe, он поддерживает RDMA. NVMe over Fabric может значительно улучшить производительность сетей хранения данных и сейчас рассматривается в качестве перспективного протокола SAN. В этой области он может потеснить iSCSI, FCoE, FC и InfiniBand, а в перспективе — даже вытеснить традиционный Fibre Channel. Все зависит от того, какую поддержку ему предоставит отрасль. Возможно дальнейшее развитие версий NVMe over FC и NVMe over Ethernet. Кроме того, он способен составить конкуренцию iSER (см. рис. 14).

Рис. 14. Сравнение iSER и достандартной реализации NVMe over Fabrics. Некоторые вендоры (например, компания Mangstor) уже выпускают такие решения для 40GbE
Рис. 14. Сравнение iSER и достандартной реализации NVMe over Fabrics. Некоторые вендоры (например, компания Mangstor) уже выпускают такие решения для 40GbE

 

В настоящее время Fibre Channel является де-факто стандартом для построения крупных сетей хранения данных. Этому способствуют ряд характеристик, которые делают FC наиболее подходящим протоколом для передачи трафика систем хранения: высокая скорость, низкие задержки, механизмы контроля пересылки пакетов без потерь, возможность передачи данных на большие расстояния. Однако, по данным Dell’Oro Group, за последний год продажи продуктов FC в мире сократились на 3%.

Тем временем QLogic и Brocade продемонстрировали в декабре прошлого года образцы продуктов NVMe over Fabrics, в которых используется фабрика Fibre Channel (FC-NVMe). Ожидается, что NVMeF может стать ведущим протоколом для работы с флеш-массивами. Ждем развития событий.

При подготовке статьи использованы материалы форума «ПРОStor», проведенного в декабре 2015 года российской компанией RAIDIX, а также открытые источники.

Сергей Орлов — независимый эксперт. С ним можно связаться по адресу: sorlov1958@yandex.ru.