У входа в библиотеку

Национальная служба новостей в Москве, недавно переименованная в Национальную электронную библиотеку (НЭБ), осуществляет мониторинг, архивирование и хранение материалов из российских СМИ. По состоянию на 1 января 1998 г. в ней представлены 2204 источника информации, в том числе центральные и региональные периодические печатные издания России и СНГ; ее фонды включают 2,1 млн. документов общим объемом 4,5 млн. машинописных страниц. Ежедневно библиотеку пополняют 4,5 тыс. полных текстов публикаций. Удобный доступ к документам возможен по сети Internet из любой точки мира, причем их поиск производится по всему фонду.

НЭБ интересна не только тем, что в ней хранится, но и тем, с помощью каких технологий информацию получают и готовят для доступа сотрудникам и пользователям библиотеки.

За заветными дверями

Все материалы поступают в НЭБ в оригинальном или электронном виде, и кроме того, библиотека сама проводит мониторинг передач по всем каналам Центрального телевидения и основных станций радиовещания. Обслуживание может быть как платным, так и бесплатным в зависимости от того, кто является заказчиком информации — государственные структуры, какие-либо организации или частные лица.

Структура НЭБ состоит из двух основных служб: производства и маркетинга, которые главным образом должны поддерживать продажу информации. Более подробно управление библиотекой представлено на рис. 1.

НЭБ — информационная система, отличающаяся не только объемом хранимой или вводимой информации, но и многообразием ее обработки. Что же происходит за дверями библиотеки? Сотрудники НЭБ по электрическим каналам связи и по почте принимают от поставщиков информацию, которую затем сканируют, распознают, автоматически вводят и обрабатывают, а тексты изданий в неэлектронном виде набирают вручную. В их функции входят также архивирование и складирование документов, управление средствами поиска, отправка заказанной информации пользователям. Сотрудники маркетинговой службы работают с внешними WWW-серверами, ведут аналитическую обработку материалов, создавая качественно новую информацию, и проводят бухгалтерские расчеты.

Аппаратные платформы, используемые в НЭБ, столь же многообразны, сколь и решаемые функциональные задачи. На входе-выходе локальной сети библиотеки установлено оборудование компании Cisco. IBM-совместимые ПК, планшетные сканеры и плоттеры обеспечивают ввод твердых копий изданий и подготовку их к записи в архивы. Электронные версии изданий обрабатываются на компьютерах Macintosh II. Для ручного ввода документов применяются IBM-совместимые компьютеры. Информационные архивы созданы с помощью дисковой системы TeXtract 4.5 на платформе SPARCServer20. Специальные средства поиска информации по запросам и внешние WWW-серверы размещены на рабочих станциях SPARCStation 4. Подсистема ведения бухгалтерских расчетов установлена на IBM-совместимом ПК.

Сетевое управление и управление оборудованием и технологиями осуществляется системными программными средствами Server Windows NT, Windows 95, Mac OS, Solaris 2.0, а контроль за доступом в сети — FireWall-1, Apach и FrontPage. Информационные архивы и расчетная система управляются программой FreeBSD и СУБД Postgres. Программные приложения для ручного ввода документов реализованы на MS Office, а для ввода электронных версий изданий сотрудники НЭБ разработали ПО. Распознавание текстов при сканировании выполняется с помощью FineReader, продукта компании ABBYY Software House.

Несколько слов о промышленной эксплуатации

Для повышения эффективности работ в НЭБ создали специальный цех сканирования, оснащенный необходимым оборудованием, которое благодаря соответствующей организации труда позволяет увеличивать скорость ввода информации в систему (см. таблицу).

Скорость обработки вводимых газет Кбайт/ч
"Советский Сахалин" 18
"Коммерсант-Daily" 35
"Правда" 41
"Новые Известия" 50
"Московская Правда" 52
"Известия" 55
"Комсомольская правда" 60
"Труд" 61
"Советский спорт" 98

Правильный выбор технологии сканирования при обработке информации позволяет повышать общую производительность всей системы и за счет предпочтения той или иной схемы организации работ (см. врезку).

Рассмотрим, каким образом сотрудники библиотеки выполняют ввод и первичную обработку изданий (рис. 2). Для ввода и сегментирования информации в структуре цеха имеются рабочие места (рис. 2, поз. 1), оснащенные ПК (или рабочими станциями) с подключенными к ним плоттерами и сканерами. Редактирование после распознавания сегментов производится на других рабочих местах только с ПК (на рис. 2, поз. 2 и 3). При необходимости дополнительно производится ввод плохо распознанных сегментов с рабочих мест со сканерами (рис. 2, поз. 4 и 5). В завершение производится верификация результатов предыдущих действий (рис. 2, поз. 6).

Каким же образом организует сотрудник НЭБ свой рабочий процесс? Сначала он осуществляет представление элементов документа, привязанное к выполняемым над ним операциям. Для этого сканируется текст, затем документ разбивается на сегменты (выделяются иллюстрации, статьи, фрагменты и т. д.), которые распознаются и редактируются. Структурная блок-схема этих операций позволяет уточнить информационную модель, принятую в системе: издание состоит из листов, листы — из сегментов, последние — из текстов и рисунков, образующих в свою очередь документы. После настоящего разъяснения мы надеемся, что вольное обращение со словами "документ" и "текст" в начале статьи, связанное с общностью суждений об информации, не вызовет недоразумений.

И в заключение о первичной обработке информации в НЭБ. На экране монитора на рабочем месте редактора отображается обрабатываемая информация, сегментированная в окне "Изображение-2". В окне "Текст-2", находится выделенная часть первого окна. Изображение сопровождается комментариями к меню, опции которого охватывают основные и вспомогательные операции, выполняемые при первичной обработке информации. При эксплуатации информационной системы нужно убедиться, что помещаемый в информационный архив документ идентичен вводимому изданию. На рабочем месте выпускающего редактора на экране можно вызвать нужный фрагмент издания и выполнить последний этап верификации, просматривая уже отредактированные нужные куски текста.

На выходе из НЭБ

В заключение следует констатировать: НЭБ — успешно эксплуатируемая информационная система, хотя в ней практически не представлены мультимедийные технологии. Едва ли не основным, что необходимо, по крайней мере на первых порах, для существования подобных систем, является создание информационных архивов с приемлемыми режимами работы, а это в НЭБ уже имеется.

Считаю своим долгом выразить благодарность С. Слюсареву, начальнику управления мониторинга СМИ НЭБ, за содействие, оказанное при подготовке данной статьи.


Производительность труда в зависимости от выбора схемы организации работ

Производительность труда (Кбайт/ч) одного сотрудника в зависимости от выбора схемы организации работ: машинистка - 10; редактор-оператор сканера - 40; 3 оператора сканера и редактор - 70; оператор сканера, 4 блокера, 16 редакторов и 4 выпускающих редактора - 118