Окончательные итоги Всероссийской переписи населения, проведенной в октябре прошлого года, будут представлены Госкомстатом РФ в первом квартале будущего года, хотя первоначально это планировалось сделать до конца нынешнего.

Окончательные итоги Всероссийской переписи населения, проведенной в октябре прошлого года, будут представлены Госкомстатом РФ в первом квартале будущего года, хотя первоначально это планировалось сделать до конца нынешнего. Комментируя необходимость корректировки сроков публикации итоговой отчетности, председатель Госкомстата Владимир Соколин отметил ряд обстоятельств, затормозивших обработку данных переписи, упомянув, в частности, конфликт вокруг выбора технологического подрядчика проекта. По его словам, практически ни одной стране еще не удавалось представить полные результаты переписи спустя год после ее проведения.

Изменились не только сроки выполнения проекта. Общие затраты на перепись составили 5 млрд. руб.; предварительно же правительство планировало израсходовать на эти цели 4 млрд. руб.

Всех описали, распознали и запомнили

Прошлогодняя перепись оказалась для России уникальной, поскольку впервые использовалась технология автоматизированной обработки собранных в ходе нее данных. Речь идет прежде всего о сканировании переписных листов, выполненных в формате машиночитаемых бланков, с последующим распознаванием внесенной в эти бланки записей и занесением результатов распознавания в информационную базу. (Нельзя сказать, что Россия в этом отношении сильно отстает: в США, например, впервые использовали аналогичный подход только в ходе последней переписи 2000 года.)

Для обработки результатов переписи была принята технология, разработанная компанией «Крок» и оцененная в Госкомстате как «лучшее и наиболее недорогое решение». К настоящему моменту услуги компании без учета стоимости поставленного оборудования обошлись статистическому ведомству России в 51,5 млн. руб.

По словам заместителя директора департамента информационных технологий «Крок» Андрея Шаина, проект, реализованный в интересах автоматизированной обработки материалов переписи населения, был, наверное, «самым тяжелым и сложным» за всю историю.

В ходе проектных работ была создана распределенная система, состоящая из 66 региональных центров обработки данных; в 16 из них монтировались локальные сети. В каждом из центров были развернуты программно-технические комплексы на базе серверов, рабочих станций и высокоскоростных сканеров, оснащенных программным обеспечением для массовой обработки машиночитаемых документов. В целом в проекте было задействовано 106 серверов, 108 сканеров (63 из них — модель «ДС-300») и более полутора тысяч рабочих станций; общая масса поставленного в рамках проекта оборудования достигла 65 т.

Все технические средства и ПО предварительно прошли серию испытаний в компании «Крок», благодаря чему удалось избежать различных неувязок между входящим в комплекты поставок оборудованием и программным обеспечением, которые могли возникнуть на этапе запуска системы в эксплуатацию. Как заметил Шаин, в ходе тестирования был обнаружен десяток подобных ситуаций.

Для установки техники, доставленной на места, привлекались в том числе региональные партнеры «Крока». Серьезное внимание было уделено обучению персонала, а также вопросам технического сопровождения системы, которое подразумевало, в частности, круглосуточную работу линии технической поддержки.

На этап сканирования, распознавания и идентификации машиночитаемых документов, которые производились в центрах обработки, ушло в среднем от двух до трех месяцев.

«Мы считаем эти сроки достаточно сжатыми,— поясняет Шаин. — В некоторых центрах необходимо было обработать до 3 млн. переписных бланков».

Наиболее сложным в реализации оказался этап формально-логического контроля, осуществлявшийся в 17 центрах обработки и занявший от трех до четырех месяцев, правда, он проводился отчасти параллельно сканированию и распознаванию документов. В целом цикл обработки и передачи всех данных для дальнейшего их анализа составил около полугода и был завершен в конце июля.

По словам Шаина, очень ценным оказалось то, что в системе изначально была предусмотрена возможность централизованного распространения обновлений. Этим гарантировалось, что материалы переписи по всей стране обрабатывались по единой схеме. Различные нештатные ситуации, вызванные некачественной информацией, потребовали ряда корректировок программного обеспечения уже в ходе начавшейся обработки результатов переписи.

Проект завершен, но техника должна работать

К настоящему времени подведены итоги и опубликованы лишь предварительные результаты переписи. 215 млн. переписных бланков отсканированы и содержащаяся в них информация перенесена в центральную базу данных Госкомстата. Для переноса информации из регионов в Москву использовались оптические диски.

Общий объем первичной информации составил 283 Гбайт, а после окончательной обработки результатов объем данных о переписи возрастет в два с половиной раза. В Госкомстате предполагают сохранить ее на DVD в зашифрованном виде, и для этих целей планируется закупить 400 DVD-устройств.

По словам Соколина, статистические службы таких стран, как США, Франция или Германия в рамках проекта переписи обычно осуществляют полное техническое перевооружение. Не стала исключением и Всероссийская перепись 2002 года, благодаря которой был оснащен Госкомстат РФ.

Теперь, когда основные задачи переписи выполнены, пора подумать о дальнейшем использовании закупленного оборудования, ведь следующая перепись состоится лишь через десяток лет и к тому времени существующая компьютерная техника явно устареет.

Оценив новую технологию в работе, Госкомстат принял ее в качестве базовой на ближайшую перспективу. Программно-технические комплексы, установленные в 66 региональных центрах, будут использоваться ведомством для обработки текущей статистической отчетности, а также в рамках предстоящих сельскохозяйственной и экономической переписей. Об этом представители Госкомстата объявили 7 октября.

Отвечая на вопрос о возможности предложения услуг по обработке результатов переписи в других, в частности европейских, странах, Соколин заметил, что Россия в этом плане «немного опоздала»: практически все страны Старого Света уже провели «переписной раунд».

Что написано пером...

Среди особенностей закончившейся переписи в Госкомстате выделяют не только большой объем собранной информации, но и влияние человеческого фактора: к заполнению бланков было привлечено 600 тыс. переписчиков, что не могло не сказаться на количестве допущенных ошибок.

Еще одним качественным отличием переписи 2002 года стало то, что впервые при заполнении переписных листов была применена ручка. Это существенно усложнило процесс обработки информации: прежде, бланки всегда заполнялись карандашом, и перед исправлением ошибочные данные можно было просто стереть. В результате на некоторых бланках насчитывалось до десятка исправлений; понятно, что нагрузка на канал сканирования и на средства последующей обработки информации из-за этого резко возросла. Тем не менее, по его словам, разработанная в «Кроке» технология обеспечила надежность распознавания в рамках проекта 99,967%.

Что касается производительности, то при первоначальном плане обрабатывать от 25 до 40 тыс. переписных документов в день Госкомстат вышел на уровень ввода от 35 до 88 тыс. документов на сканерах «ДС-300» и до 30 тыс. — на сканерах производства Fujitsu.

Поделитесь материалом с коллегами и друзьями