Решение проблемы Больших Данных

Проблемы, возникающие из-за быстро растущих объемов данных, настолько же реальны, насколько субъективны порой определения понятий, имеющих отношение к этому явлению. С одной стороны, под словосочетанием «Большие Данные» подразумеваются относительно новые типы файлов: в первую очередь сюда относятся изображения с высоким разрешением, видео- и аудиофайлы. С другой стороны, этим термином обозначаются крупные логически взаимосвязанные объединения небольших по размеру файлов — например, комментарии пользователей социальных сетей, серии фотографий, снимки с камер наблюдения или данные GPS, полученные от транспортных средств. Обычно Большие Данные описываются такими характеристиками, как многообразие и скорость, поэтому изначально небольшие объемы сохраняемой информации могут быстро разрастаться до невероятных размеров.

Средства массовой информации или организации, относящиеся к индустрии развлечений, уже довольно давно вынуждены решать эту проблему. Ведь, например, данные, накапливающиеся при производстве 3D-фильма, занимают в два раза больше места, чем двухмерные видео, поскольку одну и ту же сцену приходится снимать двумя камерами. Оцифровка сегодня применяется повсеместно. Так, производство видеоматериалов стало неотъемлемой частью таких видов корпоративной деятельности, как маркетинг, сбыт или обучение сотрудников.

Но высокопроизводительные вычисления для нужд нефтегазовой отрасли, предполагающие распознавание и обработку изображений, или секвенирование геномов в биологических науках неизбежно влекут за собой накопление больших объемов информации. Необходимость долгосрочного хранения результатов подобных исследований требует экономически привлекательных и интеллектуальных решений для архивирования данных и быстрого доступа к ним. Системы хранения с традиционными дисковыми массивами (Disk Array) оказываются непригодными для сред с большими объемами данных либо из-за недостаточной масштабируемости, либо из-за сравнительно высокой стоимости. Аналогично обстоят дела и с резервированием Больших Данных. Их огромный объем или большое количество взаимосвязанных файлов не позволяют использовать традиционные методы резервного копирования (Backup). Чтобы сохранить контроль над данными, предприятиям требуется решение, которое:

сочетает высокопроизводительный доступ к данным и соответствующую их обработку с высочайшей масштабируемостью;
обеспечивает долгосрочное, экономически выгодное и надежное хранение быстро растущих объемов данных;
поддерживает параллельный доступ к данным, чтобы с ними могли одновременно работать несколько пользователей.

Инфраструктура систем хранения на предприятиях включает в себя различные уровни хранения (Tier), причем разделение выполняется с учетом финансового аспекта. Однако зачастую директивы и правила для распределения данных, которые могут основываться, к примеру, на частоте обращений к файлам, прорабатываются недостаточно. При отсутствии автоматизированной, экономически выгодной и надежной стратегии архивирования данных очень быстро образуется пропасть между ожидаемыми и реальными затратами. Между тем постоянно осуществляемое архивирование старых и редко используемых файлов на более дешевые носители, например ленточные, позволяет освободить место на дорогостоящих первичных накопителях.

Тем не менее архивированию информации уделяется недостаточно внимания именно в тех организациях, где среды хранения данных непрерывно усложняются. Часто архивирование ошибочно принимают за резервное копирование. Предприятия, не руководствующиеся продуманной стратегией архивирования данных, понапрасну расходуют не только дорогостоящие системы хранения, но и ключевые ресурсы ИТ, так как зачастую на первичных накопителях складируются все данные без учета времени их создания или частоты запросов. Распределение данных по уровням хранения должно осуществляться в соответствии с актуальным сегодня девизом: «Каждому файлу — свою среду хранения».

Кроме того, автоматизированные процессы архивирования избавляют ИТ-специалистов от необходимости ручного вмешательства в процесс администрирования и позволяют конечным пользователям самостоятельно искать и находить необходимые им старые файлы, которые могут оказаться очень важными для деятельности предприятия. Так, объемы данных, накапливаемые в рамках исследовательских проектов в биологических науках, за год нередко возрастают на 100–200%. Надежное сохранение информации и быстрый доступ к данным являются неотъемлемым условием получения точных результатов, поскольку большинство проектов опирается на данные, полученные в результате предшествующих исследований.

Успешный поиск сохраненной информации в средах с Большими Данными обеспечивается за счет интеграции интеллектуального программного обеспечения для управления файлами (к примеру, Stornext от компании Quantum) (см. Рисунок 1). Такое решение представляет собой гетерогенную систему для общего управления файлами (Shared File-System), способную виртуализировать файлы, находящиеся на разных уровнях хранения, и отображать их в виде однородной файловой системы. Все данные представляются в виде одного большого пула хранения, при этом неважно, на каком носителе они на самом деле расположены. Такое ПО позволяет осуществлять доступ к централизованному содержимому с быстротой Fibre Channel, а кроме того, выполнять долгосрочное архивирование и сохранение критически важной для предприятия цифровой информации. Благодаря высокой масштабируемости подобных программных решений, файлы могут автоматически перемещаться с одних уровней хранения на другие, при этом не приходится приобретать дополнительное оборудование. Возможность индивидуальной настройки директив и правил обеспечивает автоматическое размещение файлов на наиболее подходящем уровне хранения, будь то дисковый или ленточный накопитель. Таким образом можно сохранять и файлы, имеющие слишком большой размер для традиционных методов резервного копирования.

Рисунок 1. Интеллектуальное программное обеспечение для управления файлами объединяет эффективное предоставление файлов с их долгосрочным хранением и обеспечивает конечным пользователям доступ к файлам независимо от уровня хранения.

Быстрое совместное использование данных, охватывающее разные типы носителей, реализуется с помощью множественных клиентов (Multi-Client), которые работают во взаимосвязи с различными операционными системами, будь то Windows, Linux, AIX, HP-UX или Apple Xsan. Однородные файловые системы всегда привязаны к какой-либо конкретной операционной системе и при быстром накоплении данных достигают пределов своих возможностей за очень короткое время. Клиенты же гетерогенной разделяемой файловой системы на каждом сервере точно взаимодействуют с соответствующей операционной системой и имитируют для конечного пользователя единую файловую систему, похожую по своей структуре на Windows.

Ранее инфраструктура с различными уровнями хранения была закрыта для рядовых пользователей. Обычно только отдел ИТ обладал необходимыми техническими сведениями о программном обеспечении, используемом для резервного копирования, а доступ сотрудников к резервным копиям вообще был запрещен. С внедрением файловых систем, обладающих интуитивно понятным управлением, конечные пользователи могут самостоятельно запрашивать даже старые документы, хранящиеся на ленточных накопителях.

Контроллер метаданных, располагающийся вне обычного пути к файлу, позволяет реализовать в таком решении сразу множество запросов от нескольких серверов и препятствует одновременным попыткам записи информации. Возникновение задержек при предоставлении файлов с разных носителей можно предотвратить, если системы хранения данных соединены друг с другом посредством Fibre Channel или Ethernet и используют при этом — как в случае с Stornext — протокол, работающий на 50% быстрее, чем CIFS или NFS. Чтобы избежать возможного повреждения долгосрочно хранящихся данных, программа для управления файлами регулярно проверяет эти файлы на предмет их целостности. При превышении установленного допустимого порога ошибок система автоматически перезаписывает файл на другой носитель, и информация остается неповрежденной.

Франк Херольд — старший менеджер по поддержке продаж в регионе ЕМЕА, компания Quantum.