Развитая телекоммуникационная инфраструктура и квалифицированный персонал способствуют кардинальной реорганизации ИТ-инфраструктуры ОАО “РЖД”

Михаил Фридман

Возраст: 58 лет
Образование: Институт связи, специальность — инженер-электрик
Послужной список:
2007 — настоящее время
ГВЦ ОАО «РЖД», главный инженер
2000 — 2007
ГВЦ ОАО «РЖД», начальник отдела системного математического обеспечения и центральных устройств
1981 — 2000
работа в ИВЦ Московской железной дороги



 

Один из старейших и крупнейших ВЦ нашей страны — Главный вычислительный центр ОАО «Российские железные дороги» — в этом году отмечает свое сорокалетие. В число основных задач центра входят информационное обеспечение эксплуатационной работы отечественного железнодорожного транспорта‚ внедрение и сопровождение автоматизированных систем управления, а также обработка статистической‚ экономической и финансовой информации. В настоящее время на базе ГВЦ и 17 региональных информационно-вычислительных центров (по числу железных дорог страны) сформирована единая вертикально интегрированная структура информационного обеспечения ОАО «РЖД», в рамках которой создаются консолидированные центры обработки данных, расположенные в Москве, Санкт-Петербурге и Екатеринбурге. ИТ-инфраструктура РЖД, персонал которой составляет приблизительно 11 тыс. человек, насчитывает около 40 мэйнфреймов, более 6 тыс. серверов различных типов, более 250 тыс. рабочих станций, а суммарная емкость систем хранения составляет около 2 тыс. терабайт. Для примера, электропотребление, необходимое только для работы самого ГВЦ, составляет 2 МВт.

Михаил Фридман, главный инженер ГВЦ, рассказал об организации работы ГВЦ, используемых платформах и основных решениях.

Когда сформировалась концепция создания консолидированных центров обработки данных, обслуживающих железнодорожные перевозки страны?

После организации укрупненного ГВЦ возник вопрос о путях его дальнейшего развития. Одним из побудительных мотивов модернизации стала необходимость в период до 2010 года осуществить замену ИТ-оборудования, крупные закупки которого осуществлялись в 2002–2003 годах. Наряду с этим было решено создать единую катастрофоустойчивую консолидированную ИТ-инфраструктуру, основанную на резервированных центрах обработки данных, размещенных в Москве, Санкт-Петербурге и Екатеринбурге. Каждый вычислительный комплекс состоит из двух и более серверов IBM System z10, Z9 и более 15 серверов на платформе Power6.

Работа началась в 2007 году. Первая консолидированная система, которая была введена в действие в Екатеринбурге и Петербурге, — АСУ управления трудовыми ресурсами. Следующая — на базе центров Москвы и Петербурга — хорошо известная система «Экспресс», которой пользуются пассажиры для резервирования и приобретения билетов. Однако кризис внес коррективы в ранее намеченные планы, и конечные сроки реализации проекта могут сместиться на полтора-два года. Тем не менее в Екатеринбурге уже проектируется типовой резервный ЦОД, такие же резервные центры появятся и в двух других городах.

Создание в полном объеме трех центров обработки данных и организация асинхронных репликаций информации между ними должны привести к существеннуму уменьшению вычислительной мощности региональных центров…

На три новых центра обработки данных ляжет от 80 до 90% производственной нагрузки. Для них приобретается новое оборудование, включая мэйнфреймы и серверы. Мы подсчитали, что проект консолидации способен сэкономить миллиарды рублей по сравнению с развитием всех 17 ВЦ в рамках прежней стратегии. Региональные центры останутся, они будут решать задачи управления перевозками местного и станционного уровня, на них также ляжет постоянная и трудоемкая работа по обслуживанию локальных пользователей. Установленные там мэйнфреймы будут выводиться из работы по мере перевода задач АСУ в ЦОД, а основными вычислительными мощностями станут серверы стандартной архитектуры, включая лезвийные системы, работающие в режиме виртуализации. Региональные центры могут также оказывать коммерческие услуги внешним заказчикам, используя, в частности, для этого на промежуточных этапах их преобразования и мэйнфреймы, и Unix-серверы.

В укрупненном ГВЦ используются главным образом вычислительные платформы IBM. Перенос унаследованных задач с ЕС ЭВМ на мэйнфреймы вполне логичен. Но затем вы добавили к ним старшие и средние модели Unix-серверов IBM. Не опасна ли зависимость от одного производителя?

Мы отнюдь не сидим «на игле» одного поставщика. У нас, к примеру, достаточное количество серверов Sun Microsystems. Когда же осуществляли консолидацию системы управления трудовыми ресурсами, то выбрали серверы IBM с учетом требований приложений SAP, а также сложившейся на рынке ситуации: у Sun тогда возникли серьезные проблемы, обсуждалась возможность покупки этой компании. А параметры платформ IBM Power5 и Power6 нас вполне устраивали, и мы остановились на этих системах.

Учитывая ваш значительный опыт работы с мэйнфреймами, в чем вы видите их основные преимущества?

В масштабируемости и надежности. Покупая мэйнфрейм, вы не думаете о приобретении в дальнейшем дополнительных компонентов, о необходимости наращивать мощность источников питания. Вы получаете готовую масштабируемую систему, увеличение производительности которой достигается введением в действие уже имеющихся в ней процессоров. Что же касается надежности, то, думаю, не существует других вычислительных систем, способных превзойти мэйнфреймы по этому параметру.

Каким образом распределяются задачи между мэйнфреймами и Unix-серверами?

Исторически сложилось, что мэйнфреймы использовались в МПС и применяются теперь главным образом для решения задач управления перевозками. После создания ОАО «РЖД» потребовалось развертывание приложений, которые позволяют осуществлять планирование и оценивать результаты деятельности коммерческой компании; эти приложения в значительной степени ориентированы на Unix-системы.

А что вы можете сказать о стоимости эксплуатации систем различных типов?

Мы очень внимательно относимся к ценовой политике компаний, предлагающих ИТ-оборудование, учитывая и начальные вложения, и последующие расходы. При запуске каждой новой задачи приходится оценивать все связанные с ней затраты. На мэйнфреймах они могут быть слишком велики из-за высокой стоимости системного программного обеспечения, цена которого заставляет в ряде случаев более критично относиться ко всем их очевидным преимуществам, о которых я уже говорил. Uniх-серверы в этом отношении намного доступнее. В то же время Unix-серверы старшего класса, в области архитектурных решений, масштабируемости и надежности очень многое переняв у мэйнфреймов, приближаются к ним по своим возможностям.

Для работы с такими вычислительными платформами нужны специалисты соответствующей квалификации. Как решается проблема их подготовки?

Мы традиционно используем мэйнфреймы, и у нас есть квалифицированные специалисты в этой области. Отраслевые вузы, включая Московский государственный университет путей сообщения (бывший МИИТ), готовят необходимых нам специалистов, в том числе в рамках целевых программ. Это примерно пятьдесят человек в год, из которых пять-шесть направляются в Москву. Когда полностью консолидируем инфраструктуру, потребность в персонале сократится. Применяя современные средства коммуникаций, мы сможем использовать высвобождающихся инженеров и программистов для дистанционного администрирования. Тем не менее постоянно приходится думать и о специалистах по SAP, инженерным системам. Помогают наши условия оплаты труда и соцпакеты.

Что у вас, как у главного инженера, вызывает больше проблем: ИТ-системы или инженерная инфраструктура?

Все здесь взаимосвязано, нельзя выделить главное и второстепенное. Если выходит из строя кондиционер, вы можете потерять один, а то и несколько серверов. Поэтому мы стараемся решать эти вопросы сбалансированно; скажем, когда приобретаем новое ИТ-оборудование, сразу думаем о дополнительной нагрузке на системы электропитания и кондиционирования.

Как решаются вопросы инженерного обеспечения вычислительных средств?

Проектирование всех вычислительных центров МПС с самого начала осуществлялось с учетом требований инженерных систем. Исторически сложилось так, что на разных площадках использовались источники бесперебойного питания различных производителей, применялись локальные и централизованные схемы кондиционирования, по-разному решались вопросы резервирования. Но все эти системы решали основную задачу — поддержку работоспособности вычислительных средств. Когда несколько лет назад в Москве, в результате крупной аварии, отключилось электроснабжение, наш центр продолжал нормальную работу, используя дизель-генераторы. Осуществляемая в настоящее время консолидация упрощает унификацию инженерного оборудования, а также способствуют комплексному внедрению таких высокотехнологичных решений, как, например, мониторинг критически важных объектов, включая стойки с наиболее ответственными ИТ-системами, где устанавливаются не только датчики технологических параметров, но и камеры видеонаблюдения.

Эксплуатация столь масштабного комплекса оборудования требует определенного уровня автоматизации. Что делается в этой области?

Одновременно с консолидацией выполняется проект создания единого комплекса ИТ-управления. Принято решение об использовании на его верхнем уровне системы IBM Tivoli, в сетях передачи данных — HP OpenView, для ПК и рабочих станций — решений Microsoft. Наряду с этим мы стараемся охватить единой системой диспетчеризации все инженерное оборудование, включая ИБП, кондиционеры, дизель-генераторы.

Имеется ли директивно определенный уровень готовности, который должны обеспечить специалисты ГВЦ?

Мы заключаем с подразделениями центрального аппарата и железных дорог соглашения об уровне обслуживания, которые предусматривают определенные параметры готовности аппаратных средств, поддерживающих работу информационных систем. Сейчас работаем над их распространением и на дочерние предприятия, которые создаются в рамках формирования холдинговой структуры РЖД. У нас активно используются решения, регламентируемые библиотекой ITIL и процессным подходом ITSM к предоставлению ИТ-услуг. Планируется, что после завершения проекта консолидации показатель надежности и отказоустойчивости ИТ-инфраструктуры повысится до 99,99%.

Каким образом вы решаете проблемы недостатка мощности системы энергоснабжения и дефицита площадей, характерные для всех современных ЦОДов?

Для этого применяются все современные технологии, позволяющие экономить ресурсы, необходимые для работы ГВЦ. Однако они требуют определенных начальных финансовых вложений. Для внедрения виртуализации, например, нужно убрать устаревшее оборудование, приобрести лезвийные системы, позаботиться о расширении функциональности средств управления. Виртуализация 60% из более чем 6 тыс. серверов приведет в конечном итоге к значительной экономии. Используются также каналы передачи данных, позволяющие размещать новые системы на других площадках, когда для них не хватает мощности системы электроснабжения.

Я бы хотел особо подчеркнуть, что мы обладаем собственной волоконно-оптической сетью, охватывающей всю территорию страны. Именно эта сеть позволяет решать задачу консолидации, не прерывая работу основных информационных систем, поскольку позволяет рационально использовать дистанционно удаленные вычислительные системы.

После завершения консолидации и создания трех ЦОДов название ГВЦ сохранится?

Безусловно. Сегодня ГВЦ — это не название одного конкретного объекта, а структура, объединяющая консолидированные ЦОДы и региональные вычислительные центры, которая призвана обеспечить решение всего комплекса управленческих и аналитических задач ОАО «РЖД».

Алексей Чернобровцев — обозреватель еженедельника Computerworld Россия, tchern@osp.ru