ЦЕРН
ФИЗИКА ВЫСОКИХ энергий всегда требовала значительных вычислительных мощностей и обработки огромных объемов экспериментальной информации
Источник: Marco Cardaci, CERN, and CMS, taken in 2007

Третий форум Big Data 2014, проведенный издательством «Открытые системы», познакомил участников с проектами в области Больших Данных и стал площадкой для обсуждения актуальных проблем. С докладом на форуме выступил Массимо Ламанна, старший руководитель проектов группы сервисов и систем хранения данных департамента информационных технологий европейского центра ядерных исследований ЦЕРН.

«Физика высоких энергий всегда требовала значительных вычислительных мощностей и обработки огромных объемов экспериментальной информации», — подчеркнул Ламанна, пояснив, что экспериментальные установки Большого адронного коллайдера генерируют ежегодно свыше 25 Тбайт «сырых» данных.

Информация, полученная в результате экспериментов, проведенных на коллайдере, хранится в центре обработки данных ЦЕРН (ЦОД нулевого уровня) и передается также в 11 центров первого уровня.

Экспериментальная информация содержится в иерархическом хранилище CASTOR (CERN Advanced STORage manager), разработанном в ЦЕРН для хранения файлов экспериментальных и других физических данных.

CASTOR имеет компонентную архитектуру, содержит центральную СУБД, обеспечивающую в том числе защиту от изменений компонентов, поддерживает единое пространство имен, формирует несколько копий файлов на лентах или в дисковых массивах. В состав CASTOR входит восемь роботизированных ленточных библиотек, содержащих до 14 тыс. картриджей каждая. В настоящее время в ЦЕРН насчитывается свыше 52 тыс. ленточных картриджей емкостью от 1 Тбайт до 5,5 Тбайт.

Для каждой экспериментальной установки коллайдера в CASTOR установили петабайтные дисковые массивы. На этапах ввода в действие адронного коллайдера были оптимизированы инструменты и протоколы работы с файлами данных, но это не полностью устранило проблемы, связанные с совмещением архивирования информации и оперативного доступа к файлам для анализа данных экспериментов.

Три года назад в ЦЕРН ввели в действие систему хранения EOS (Exabyte Online Storage), содержащую восемь сотен дисковых серверов и более 17 тыс. дисковых накопителей, значительно снизившую время доступа к данным экспериментов. В EOS перенесена большая часть сервисов, которые ранее поддерживались дисковыми массивами CASTOR. Система EOS, поддерживающая файловые и блочные протоколы, обладает функциональностью балансировки нагрузки и самовосстановления при выходе из строя отдельных дисков или серверов.

Постоянный рост объемов информации стимулирует повышение производительности и развитие функциональности комплексов хранения данных ЦЕРН. Наряду с физической информацией, хранящейся в системах CASTOR и EOS, значительные объемы пространства хранилищ данных занимают директории около 30 тыс. пользователей, которые работают с файловыми системами AFS/DFS; служебная информация (AFS/NFS) ИТ-персонала, обеспечивающего поддержку инфраструктуры; резервное копирование данных серверов и настольных систем.

«Мы намерены использовать единую модель поддержки сервисов хранения, которая не должна зависеть от отказов дисков, серверов и сети, может поддерживать географическую репликацию данных и, наряду с этим быть нейтральной по отношению к поставщикам оборудования, а также обеспечивать горизонтальное масштабирование на базе общедоступного железа» — подчеркнул Ламанна.

Для создания такой модели в ЦЕРН ориентируются на технологию Ceph. Эта платформа хранения, основанная на программном обеспечении с открытым кодом, использует единый распределенный компьютерный кластер для организации объектного, блочного и файлового хранения, которое может масштабироваться до экзабайтного уровня.

Весной прошлого года объем хранящейся в ЦЕРН физической информации превысил 100 Пбайт. Это данные не только Большого адронного коллайдера, но и других текущих и проведенных ранее экспериментов в области физики высоких энергий, а также магнитного альфа-спектрометра, расположенного на Международной космической станции. В CASTOR содержится около 88 Пбайт, в EOS — более 13 Пбайт.