Консолидация федерального масштаба

Ядром автоматизированной обработки документов Всероссийской переписи населения стал Главный межрегиональный центр обработки и распространения статистической информации Государственного комитета РФ по статистике.

Ярким примером многоуровневой консолидации ИТ явилась реализация Всероссийской переписи населения. Ядром автоматизированной обработки документов переписи стал Главный межрегиональный центр обработки и распространения статистической информации Государственного комитета Российской Федерации по статистике.

ГМЦ был изначально создан при Госплане как центр народно-хозяйственного учета для проведения вычислительных работ большого объема, затем он стал функционировать при Центральном статистическом управлении СССР, а в настоящее время — при Федеральной службе государственной статистики. Всегда одной из важнейших задач для ГМЦ была обработка данных переписей населения, проводившихся в СССР и в Российской Федерации.

В ГМЦ для обработки статистической информации внедрена локальная вычислительная сеть, объединяющая около двух десятков серверов и 500 рабочих станций на базе платформы Intel. Она пришла на смену компьютерам серии ЕС ЭВМ, которые в свое время заменили машины семейства «Минск». Имеется также мэйнфрейм IBM S/390, применяемый для работы с Единым государственным регистром предприятий. Не так давно была разработана концепция развития информационно-вычислительной сети. Ее выработкой занималась компания «АйТи», финансирование было получено благодаря кредиту Всемирного банка. Реализацией проекта создания сети занимается компания IBS. Обновленная корпоративная сеть во взаимодействии с вычислительной системой Федеральной службы государственной статистики станет хорошей платформой для консолидации информационных ресурсов федерального масштаба.

Инфраструктура для переписи

Перепись населения — задача общегосударственная. Планируя реализацию проекта, комплексно выбирали все: технику, технологии, поставщиков, исполнителей и персонал.

— Евгений Сычев, исполняющий обязанности директора Главного межрегионального центра Госкомстата России

Проведение первой Всероссийской переписи населения 2002 года стало серьезным испытанием не только для Госкомстата России и ГМЦ, но и для целого ряда министерств, ведомств, государственных и коммерческих организаций. В частности, было организовано сотрудничество с МЧС, Минобороны, ФАПСИ, ФСБ, МВД, Минюстом, Минздравом, Минсвязи и др. Проектные решения для переписи населения проходили экспертизу в ведомствах, отвечающих за безопасность информации.

«Перепись населения — задача общегосударственная. Планируя реализацию проекта, комплексно выбирали все: технику, технологии, поставщиков, исполнителей, персонал, — рассказывает Евгений Сычев, исполняющий обязанности директора ГМЦ. — Главный вопрос был кадровый. ГМЦ наладил сотрудничество с техникумами и колледжами. (Студенты вузов работают иногда не слишком добросовестно, но предъявляют высокие требования к оплате труда.) ГМЦ заключил договоры с рядом техникумов, где обучают по специальностям, близким к компьютерной тематике. Студенты техникумов работали очень хорошо, нескольких человек мы взяли потом на работу. В других регионах возникали проблемы с набором персонала: там сделали ставку на пенсионеров и студентов вузов».

Впервые при проведении переписи населения в нашей стране производилось сканирование двусторонних документов. Также впервые для их заполнения были использованы шариковые ручки, а не карандаши. Это повлекло за собой определенные проблемы. Если возникла ошибка, рядом с зачеркнутыми данными разрешалось записывать исправленные, иной раз и они содержали ошибки, поэтому рядом записывались новые исправления. С учетом того что на бланках почти не было свободного места, исправленные сведения обработать на этапе текстового распознавания первичных документов представлялось затруднительным. В связи с этим при создании прикладных программ для обработки данных регионального уровня пришлось реализовать функции дополнительного контроля вводимой информации.

Проект позволил провести масштабную модернизацию в ГМЦ и региональных центрах обработки данных. В частности, для обработки данных первой Всероссийской переписи было закуплено и развернуто новое оборудование — более 100 высокопроизводительных устройств индустриального ввода документов. Примерно половина из них — техника Fujitsu, другая — отечественные сканеры ДС-300, созданные при участии компании «Крок». В регионы было отправлено более 90 сканеров. В ГМЦ развернуто 10 таких устройств.

В СССР для сканирования листов переписи использовались оптические читающие устройства и системное ПО, выпускавшиеся Минским производственным объединением вычислительной техники и НИИ ЭВМ. Приложения для обработки данных создавались силами сотрудников центра.

ПО для обработки документов последней переписи населения на региональном уровне создали специалисты «Крока», на федеральном — НТЦ «Атлас» совместно с компанией «АйТи».

Консолидация обработки

Как и прежде, для обработки листов переписи применялся «кустовой» метод: было развернуто 66 региональных центров, куда свозились переписные листы. Там они сканировались, а электронные образы документов на дисках DVD по каналам фельдъегерской связи передавались в 15 более мощных центров (ГМЦ выполнял роль 16-го центра и обслуживал Центральный федеральный округ).

«Эта схема помогла обработать документы переписи населения в установленные Правительством РФ сроки, не тратя на это лишние деньги», — комментирует Сычев. Потребовалось немало усилий, чтобы оснастить оборудованием центры обработки, обучить персонал, доставить необходимые материалы, обеспечить конфиденциальность данных переписи. ГМЦ выполнял все три функции — первичного ввода, обработки на региональном и федеральном уровне. Всего в процессах сбора и обработки данных на федеральном, региональном, городском и районном уровне было задействовано 2 тыс. ИТ-специалистов.

И хотя материалы переписи уже опубликованы, часть обработки федерального уровня еще не закончена и по сей день. Полностью завершить обработку планируется к концу нынешнего года. Будут подготовлены таблицы данных с уровнем детализации вплоть до отдельных поселков, в общей сложности 7 тыс. таблиц.

«Замечу, что на обработку последней переписи в США потребовалось примерно два года, общие затраты на перепись населения составили около 30 долл. на каждого жителя страны, в России — примерно по 1 долл. на человека», — говорит Сычев.

Особенности национального хранения

Первичные документы будут храниться в течение всего будущего года (год после завершения обработки — такой регламент хранения предусмотрен процедурой переписи). Электронные копии документов планируется передать в Росархив в 2005 году (соответствующие проекты сейчас разрабатываются).

В ГМЦ хранят две основные базы данных — электронных копий первичных документов и итоговых таблиц. Базы данных довольно часто подвергаются перезаписи, что обычно вызвано изменениями в ПО.

«Это отдельная проблема — долговременное хранение данных, — отмечает Сычев. — Результаты прошлой переписи записаны на магнитные ленты, мы их перезаписываем, однако часть лент уже не читается. Разумеется, сейчас появились более совершенные носители. Производители дисков DVD утверждают, что они могут хранить информацию 50 лет, но ведь никто это утверждение пока не проверял».

В Федеральной службе государственной статистики имеются все результаты обработки данных, там с ними работают аналитики ведомства.

Впереди — новые проекты

Использованные в ходе последней переписи населения технология обработки и сеть центров (включая развернутое в них оборудование и ПО) создавались в расчете на использование в будущих проектах, предусматривающих проектирование машиночитаемого документа и его распознавание, в частности при проведении переписей сельхозпроизводителей и индивидуальных предпринимателей.

В ближайшее время планируется возложить на центр обработку данных переписи сельхозпроизводителей. Предстоит обработать около 200 млн. листов первичных документов — отсканировать, проконтролировать вводимые данные, собрать данные и провести первичный анализ (для сравнения: в ходе последней переписи населения было собрано и затем обработано около 150 млн. листов).

Планируются также совместные проекты с различными министерствами и ведомствами — традиционными клиентами ГМЦ: Минобразования, Минсельхозом, Минэкономики, Минфином, Пенсионным фондом РФ и др. Они не только получают полезную информацию, но и размещают в ГМЦ заказы на обработку больших объемов данных, а также на проведение широкомасштабных обследований в российских регионах.

О выгоде центров данных

«Информация — это государственный ресурс, — отмечает Сычев. — Распределяя нагрузку по обработке данных в крупных государственных проектах, можно более эффективно использовать имеющиеся вычислительные мощности, не тратя деньги на создание центров обработки данных в рамках каждого такого проекта».

По мнению Сычева, целесообразно развивать федеральные центры обработки данных больших объемов. Многие ведомства действуют разрозненно, развивая собственные стратегии в области обработки информации. Было бы разумнее консолидировать ИТ-ресурсы в нескольких крупных центрах данных, ведь при наличии телекоммуникационных каналов нужного качества и достаточно высокой пропускной способности нет никакой принципиальной разницы между обработкой информации во внутреннем центре данных компании или во внешнем. В США уже созданы федеральные центры обработки информации, где консолидированы большие вычислительные мощности, осуществляется непрерывный мониторинг, развернута соответствующая инфраструктура электропитания, строго регламентирован доступ к оборудованию и пр. Мощные центры данных развернули и некоторые коммерческие компании.

«Кстати, в СССР лет тридцать назад велся проект по развитию вычислительных центров коллективного пользования, которые покрывали бы потребности по проведению масштабных расчетов и аналитических исследований в отдельных регионах», — напомнил Сычев.

Он согласился с тем, что уже имеющиеся центры обработки данных (как государственные, так и коммерческие) не пользуются большой популярностью, поскольку перед их потенциальными клиентами остро встает проблема доверия: далеко не всякое предприятие согласится передать информацию в «чужой» вычислительный центр. «Эта проблема аналогична проблеме доверия к банку: вы кладете деньги и гадаете, не подведет ли он вас, — отмечает Сычев. — Доверие приходит с опытом, когда партнеры убеждаются в порядочности друг друга. Однако, решая вопрос о доверии к независимому центру обработки данных, следует учесть, что не вся информация, которая есть на предприятии, действительно конфиденциальна».