Computerworld, США

Корпоративные клиенты дают все более высокую оценку возможностям grid-инфраструктуры, которая в вопросах управления данными позволяет выходить за рамки простого увеличения вычислительной мощности
Выполнение высокоскоростного перемещения больших наборов данных между удаленными узлами является сегодня общей задачей для многих отраслей экономики

После приобретения корпорацией EMC у компании Acxiom программного обеспечения для организации распределенных вычислений за 30 млн. долл. корпоративные пользователи получили еще одно свидетельство того, что grid — это не просто грубая сила, позволяющая оптимизировать использование процессорных ресурсов в высокопроизводительной вычислительной среде. Итак, чем же разработчикам grid-инструментария Acxiom удалось привлечь внимание EMC? Если отвечать коротко — средствами управления данными.

У Acxiom имеется очень популярное приложение интеграции данных AbiliTec. Задачи масштабирования и поддержки растущего числа транзакций решаются здесь путем постепенного наращивания обычного недорогого оборудования, а управление новым оборудованием осуществляется с помощью собственного программного обеспечения grid. В статье, посвященной разработкам Acxiom и опубликованной в еженедельнике Computerworld в прошлом году, говорилось, что размеры построенной на ее технологиях grid-сети достигли 6 тыс. Linux-узлов, на которых ежемесячно обрабатывается более 50 млрд. транзакций AbiliTec.

Вопросы производительности и устойчивости всегда находились в центре внимания создателей систем управления данными Acxiom, но обработка корпоративных данных требует выполнения и других специфических условий. Сегодня grid-сети достаточно широко используются, к примеру, при проведении научных исследований. Но и корпоративные клиенты дают все более высокую оценку возможностям grid-инфраструктуры, которая в вопросах управления данными позволяет выходить за рамки простого увеличения вычислительной мощности.

Пересылка больших объемов данных

Типичному предприятию в ближайшее время вряд ли придется иметь дело с петабайтами данных, с которыми приходится сталкиваться исследователям, занимающимся физикой элементарных частиц.

Но многим компаниям уже сегодня ежедневно требуется пересылать огромные файлы. Возьмем, к примеру, английскую телевещательную компанию BBС, где предварительно обработанная информация, предназначенная для широковещательной трансляции высокой четкости в течение одного часа, занимает в среднем 280 Гбайт. Такие компании активно осваивают grid-технологии, для того чтобы предоставить доступ к необходимой информации сотрудникам, находящимся на выезде, и пользователям распределенных корпоративных сетей.

Выполнение высокоскоростного перемещения больших наборов данных между удаленными узлами является сегодня общей задачей для многих отраслей экономики. Деятельность нефтяных и газовых компаний вполне можно использовать для рекламы пересылки больших наборов данных, ведь эти предприятия накапливают результаты сейсмического анализа и разведки запасов природных ресурсов. Получение «полной картины» для принятия грамотного бизнес-решения требует извлечения больших объемов данных из различных источников. Среди других рынков, предъявляющих высокие требования к массовой передаче данных, можно выделить автомобильную отрасль и фармацевтические фирмы.

Извлечение данных из комплексных систем хранения

Именно grid-технологии сделали популярным утверждение о том, что «доступ к данным сегодня оказывается важнее доступа к вычислительным ресурсам». Иногда на предприятиях задачи доступа к информации — с выходом за рамки ограничений наборов данных — обусловлены сложностью протоколов, применяемых в комплексных системах хранения.

Серьезных успехов в деле преодоления несовместимости протоколов, используемых при организации хранения данных, удалось добиться при построении научных grid-сетей. Здесь появился стандарт GridFTP. Реализации GridFTP опираются на созданный на заре Internet протокол передачи файлов, который упрощает извлечение данных из любых файловых или блочных систем хранения. Здесь фигурирует плоская или иерархическая схема имен, связанная с сетью TCP/IP, которая применяется в большинстве корпоративных систем хранения, получивших сегодня широкое распространение.

Сквозная координация данных

Сегодня фактически в каждой крупной ИТ-организации сложилась среда, включающая многочисленные источники данных, каждый из которых представляет собой отдельный ИТ-островок. Хотя в каждом отдельно взятом островке все организовано хорошо, если, конечно, ему хватает вычислительной мощности (в оптимизации использования ресурсов в этом случае нет особой необходимости — достаточно просто купить дополнительное серийное оборудование), при налаживании связей между этими разобщенными островками вы рискуете столкнуться с настоящей анархией. На предприятиях, сформировавшихся путем объединения нескольких организаций, зачастую возникает потребность в совместном использовании больших наборов данных, которое предполагает, в частности, репликацию информации между центрами данных и кластерами, оптимизацию управления потоками, улучшение взаимодействия между удаленными коллективами и проведение более качественного анализа.

Grid-технологии позволяют предприятиям связать между собой многочисленные ИТ-островки, не переделывая и не меняя существующую инфраструктуру. Если у компании имеется две группы пользователей в разных регионах с собственными большими наборами данных, пересылать данные чаще всего оказывается невыгодно, но вместо этого можно выполнить всю необходимую работу в удаленном режиме.

При решении подобных задач grid-технологии способны проявить себя в полном блеске. Организации больше не сталкиваются с непреодолимыми трудностями при перемещении вычислительных ресурсов или данных. Объединив разобщенные ранее ИТ-островки (причем это относится как к вычислительным ресурсам, так и к данным) со средствами обеспечения информационной безопасности, которые закрывают опасные бреши в существующей системе, они могут приступить к преодолению анархии, избавившись от менталитета бесконечной конвертации форматов и замены.

Стив Тюкке — главный архитектор программного обеспечения с открытым исходным кодом Globus Toolkit, широко используемого при построении grid-сетей. Одновременно он руководит компанией Univa, которая специализируется на продуктах и услугах на базе программного обеспечения Globus.