Мы и информация

В процессе работы любой компании зачастую накапливается довольно ценная информация, умело используя которую можно повысить эффективность бизнеса.

«Информация — это знания, которые вы приобретаете, когда ищете совершенно другое».

Неизв.

В процессе работы любой компании зачастую накапливается довольно ценная информация, умело используя которую можно повысить эффективность бизнеса. Однако поиск нужных данных в банке «памяти предприятия» — процесс сложный, требующий формализации

Перевод окружающей нас информации в электронный вид — первый шаг к тому, чтобы начать работать с ней, используя современные технологии. Наиболее известный пример — массовый ввод документов (пенсионных или налоговых форм, платежных поручений и т. д.) c помощью программ распознавания текстов и автоматическое размещение их в базе данных банковской системы. Создание электронных архивов таких документов и эффективных систем поиска в них — довольно актуальная задача.

На каждом предприятии всегда можно выделить внутренний документооборот, который формализовать проще, и внешний приток и выход документов — здесь вопросы унификации и формализации решить сложнее. Задачи, встающие перед предприятием, довольно типичны, и их решение можно более детально рассмотреть на примере автоматизации библиотечного дела. Действительно, книг (как и информации) становится все больше, а отыскать нужную — все труднее. Приходится решать задачу учета внешних поступлений, «внутреннего» движения книг — из хранилищ в читальный зал и обратно. При этом используются средства унификации, стандартизации описания книг, строятся эффективные универсальные механизмы поиска необходимой литературы в библиотечных системах. Рассмотрев на примере автоматизации библиотек эти процессы более подробно, можно попробовать потом «наложить» полученные схемы, подходы и решения на задачи управления информационными потоками и архивами предприятий из других сфер деятельности.

В нашей стране первые попытки ввода и обработки библиографической информации, еще на больших ЭВМ серии EC и СМ, были сделаны в Институте научной информации по общественным наукам РАН и в ГПНТБ в 1978 году. А начиная с 1993 года библиографические записи ведутся на компьютере.

В 1995 году принимается первая версия протокола Z39-50, который как раз и позволяет вести поиск нужной литературы по Internet-серверам библиотек во всем мире. Создавался этот протокол под библиографические записи библиотек, он выступает и как транспортный, и как связной протокол, практически полностью «подменяя» Internet. Можно войти в Internet, а дальше воспользоваться преобразователем протоколов — из TCP/IP в Z39-50 — и работать с базами библиографических записей библиотек всего мира (естественно, если таковые базы имеются в электронном виде). Библиотека конгресса США полностью построила свою работу на протоколе Z39-50.

Но поиск нужной книги — только одна частная задача. Попробуем подняться уровнем выше и посмотреть на автоматизацию библиотечного дела в целом.

Задачи библиотеки — что автоматизировать?

Первая задача — заказ литературы в издательствах. Сейчас информацию для заказа книг и журналов нужно искать либо по прайс-листам, либо в Internet, либо на специализированных книжных выставках. Библиографические описания стандартизованы в помощью коммуникативных форматов USMARС (CША), UNIMARС (Европа) и RUSMARС (Россия). Сами библиотеки уже работают по этим стандартам и готовы заказывать литературу, но в книжных издательствах принят другой стандарт, правда, очень похожий на библиотечный. Специалисты компании «Гипер» разработали конверторы, позволяющие преобразовывать различные форматы друг в друга, и создают сейчас единый центр, где бы и издатели, и библиотекари общались на одном «языке». При этом библиотеки смогут оформлять заказ через Internet в едином стандарте, независимо от каждого конкретного издательства.

Вторую задачу — отбраковку книги, если она замята или вместо одного издания прислали другое, — библиотеки обычно решают без проблем самостоятельно.

Третья задача — описание поступившего в библиотеку издания. На этом этапе каталогизатор описывает полученное издание: автор, название, издательство, количество страниц, размер страницы, какой корешок — одним словом, указывает параметры книги в определенных полях библиографической записи (их может быть до 1400).

Четвертая задача — систематизация издания. Для этого требуется работа высококлассного специалиста, который бегло читает книгу и проводит ее систематизацию: составляет классификационные индексы, предметное описание и относит издание к определенной рубрике. Это занятие во многом сходно с научной работой по построению классификационных схем в музейном деле (cм. «Директор ИС», 2001, № 4). Чтобы помочь систематизатору, специалисты фирмы «Гипер» создали АРМ в виде иерархической справочной системы — «дерева», по которому можно «ходить», выбирать и состыковывать классификационные индексы. Полученные в результате индексы и описания также включаются в библиографическую запись.

Пятая задача — книгохранение. Надо организовать его так, чтобы можно было быстро найти книгу по расстановочному шифру — определить полку, шкаф, этаж, здание. Здесь нет универсальных систем, и основная масса разработчиков библиотечных систем идет по простому пути — создает программный модуль по расстановке, предоставляя наполнение и организацию работы с ним библиотекарю. Однако большинство библиотекарей с этой задачей не в состоянии справиться, и зачастую внедрение таких систем, которые стоят 5-10 тыс. долл., идет два-три года, что совершенно недопустимо.

Шестая задача — выдача и возврат книг. Информационная библиотечная система предусматривает автоматизацию этого рутинного процесса. На книгу наносится штрих-код, который сканируется и обрабатывается библиотечной системой. При этом исключен ручной ввод данных о книге. Посетитель предъявляет свой читательский билет — пластиковую карточку тоже со штрих-кодом, который считывается на книговыдаче, и у библиотекаря на экране появляются данные о читателе и его фото. Происходит сверка, после чего библиотекарь сканирует штрих-код на книжке и выдает ее читателю. Выдача книги при этом занимает 10-15 секунд, а в обычной библиотеке требует минуты две-три. Та же процедура и при сдаче книги. Теперь можете сами посчитать экономию времени: в Российскую государственную библиотеку приходит около 5 тыс. человек ежедневно. Естественно, при таком потоке читателей компьютеризация процесса выдачи и возврата книг очень актуальна.

Седьмая задача — организация работы межбиблиотечного абонемента (МБА). Если требуемой книги нет в одной библиотеке, читатель может ее заказать в другой. При пересылке книг необходимо решать задачу электронных финансовых транзакций, взаимных расчетов библиотек между собой и оплаты через Internet почтовых услуг. Решение ее напрямую будет зависеть от темпов развития систем электронных платежей в нашей стране. Но сейчас задача автоматизации МБА для основной массы библиотек не очень актуальна.

Восьмая задача — пересылка электронных копий книг. И здесь проблема даже не в финансовых транзакциях, а в том, что во всем мире в электронную форму переведено всего 0,5-1% книг. Правда, при этом можно решать и частные задачи — например, использование электронных копий позволяет сохранить наиболее ценные, редкие, ветхие книги. Можно перевести их в электронный вид и таким образом предоставить доступ к этим изданиям всем желающим.

Электронный каталог — первый шаг к автоматизации

Остановимся более подробно на задаче создания электронного каталога — фундамента, на котором библиотеки и начинают строить свою информационную систему. Естественно, первыми за ее решение берутся крупнейшие национальные книгохранилища, поскольку у них больше возможностей по привлечению средств: Российская государственная библиотека, Всесоюзная библиотека иностранной литературы (ВГБИЛ), Национальная литовская библиотека, Национальная армянская библиотека. Перевод бумажного каталога библиотеки в электронный специалисты в этой области называют ретроконверсией. Создание таких каталогов позволяет реализовать в них быстрый и удобный поиск нужной информации: и тематический, и полнотекстовый.

Решение задачи создания электронного каталога рассмотрим на примере ВГБИЛ, поскольку основные этапы этой работы типичны для любой библиотеки.

Проект во ВГБИЛ

Проект по созданию электронного каталога начался два года назад, а средства для него предоставил фонд Сороса, основываясь на том, что в библиотеке имеется иностранная литература более чем на 140 языках народов мира, и ее фонд представляет большую ценность для мировой общественности.

Специфика работы заключалась в том, что каталог библиотеки начал создаваться давно, и часть каталожных карточек (КК) была написана от руки, часть — напечатана, причем cама библиотека насчитывает 4,5 млн. единиц хранения. При переводе каталожных карточек в электронный вид потребовалась поддержка формата представления данных Unicode. Ведь в создаваемом электронном каталоге библиотеки нужно было поддерживать практически все языки мира.

Потребовалось «обучить» пакет Fine-Reader 4 компании ABBYY распознавать шрифт старых печатных машинок, ведь 60 лет назад он серьезно отличался от современного. Частично распознаются и рукописные каталожные карточки, но значительную часть текста приходится вводить вручную.

Была сделана специальная настройка для FineReader, которая позволяет вести процесс распознавания в автоматическом режиме — одновременно на пяти компьютерах. Обычно процесс распознавания запускается на ночь и на все выходные.

Затем идет сравнение с эталонами — буквами, далее специальный алгоритм определяет, какой результат содержит меньше всего ошибок — и лучший текст выбирается. После этого автоматически проходит операция «уборки мусора», и далее — уже редактирование полученного текста оператором.

Построенная технология процесса массового распознавания библиотечных КК позволила ускорить работу по их обработке более чем на порядок.

Процесс обработки каталожных карточек ВГБИЛ

Для проведения ретроконверии каталога библиотеки сотрудники ВГБИЛ и специалисты «Гипер» совместно разработали комплекс «Маэстро». Рассмотрим, как строится его работа.

Начинается обработка карточек с запуска программы сканирования КК, которая позволяет автоматически провести доворот изображения до горизонтального положения на случай его смещения при сканировании.

Затем в дело вступает программа группировки каталожных карточек по видам. Процедуру группирования можно вести как в автоматическом, так и в ручном режиме. (Автоматический режим применяется, когда оформление всех карточек выполнено в едином стиле.) Если же такой четкой формализации нет, используют ручной режим, когда сотруднику библиотеки представляется список видов карточек, из которого ему просто нужно выбрать необходимый.

В результате сотрудники библиотеки смогли просматривать один ящик каталога (а это 30-40 тыс. сканированных документов) за два-три дня и определять, какую карточку нужно распознавать, а какую — нет. Из общего массива 1,6 млн. карточек около 400 тыс. карточек обрабатывать не требуется, а обработка каждой карточки стоит примерно 30 центов — вот и экономия.

В любой библиотеке имеются каталожные карточки, напечатанные на различных печатных машинках, скопированные на ксероксе, изготовленные в типографии, напечатанные на принтере. Учитывая это, для всех типов печати карточек ВГБИЛ сотрудники фирмы «Гипер» создали эталонные файлы шрифтов, подключенные к системе распознавания FineReader. Программа распознавания букв запускается автоматически — последовательно с несколькими эталонными файлами шрифтов. Выбирается лучший результат.

По результатам распознавания в реестр заносятся: номер ящика, в котором находится КК; общее количество символов в библиографической записи; количество нераспознанных символов в ней; число неправильно распознанных слов; количество неуверенно распознанных символов и еще целый ряд параметров.

Одна из программ комплекса «Маэстро» перед разнесением библиографической записи по полям БД занимается «чисткой мусора»: в автоматическом режиме удаляет посторонние элементы — черные полосы по краям отсканированных карточек, разметки линованной бумаги и проч. На этом же этапе осуществляется проверка орфографии текста на карточках ВГБИЛ, для чего в «Маэстро» включены обширные справочники всех основных европейских языков. Далее происходит разнесение по полям БД.

«Маэстро» распознает разные виды библиографического описания. Разнесение текста по полям БД можно вести в пошаговом режиме.

В автоматическом режиме система удаляет переносы в словах; доставляет точки в сокращениях; заносит соавторов из добавочных библиографических записей в поля авторов, расшифровывает сокращения и т. д.

Затем идет проверка и корректировка содержимого полей карточки библиотеки — параллельно в двух режимах. В автоматическом режиме содержимое полей редактируется с помощью программы «Коррект», на одну карточку при этом уходит 2 секунды. В ручном режиме оператор редактирует неформализуемые поля, например, инвентарный номер. При этом время доработки одной карточки составляет 2 минуты. Если же набирать карточку вручную, то на это уходит в среднем 10-15 минут.

Контроль качества библиографических записей выполняется в программе «Универсальный редактор» комплекса «Маэстро», которая сокращает время редактирования каталожной карточки до 2 минут. В программе имеется возможность оперативно найти карточку по содержимому одного из полей, воспользоваться справочной информацией для быстрой и корректной правки данных (авторы, издательства, место издания, серии), присвоить cтатус просматриваемым КК.

И наконец, на последнем этапе обработки массива КК производится конвертирование их в требуемый формат. Причем непосредственно перед процессом конвертирования «Маэстро» проверяет электронные библиграфические записи на дуплетность названий и инвентарных номеров, производит поиск и удаление списанных изданий по актам списания и генерирует предметные рубрики по классификационному индексу. Если говорить о временных затратах, то этот процесс предварительной обработки 1000 записей на ПК занимает несколько минут. Сам же процесс конвертирования 1000 записей из промежуточной базы данных в любой требующийся заказчику библиографический формат не превышает четверти часа.

Во ВГБИЛ было решено вести ретроконверсию каталога последовательно по языкам: по состоянию на 20 марта было введено более 200 тыс. карточек на русском языке, к концу года эта цифра должна составить около 1 млн.

Во втором квартале 2002 года планируется завершить ввод всего каталога, и тогда ВГБИЛ должна стать первой из крупнейших библиотек в стране, имеющей полный электронный каталог.

Проект в Ханты-Мансийском АО

Рассмотрим теперь более комплексную задачу, когда требуется автоматизировать не одну библиотеку, пусть и национального масштаба, а систему библиотек.

Сейчас наметилась тенденция по созданию информационных ресурсов внутри отдельно взятого региона или города, и одним из первых здесь стал Ханты-Мансийский автономный округ. Специалисты ЗАО «Гипер» разработали концепцию для построения единой информационной системы библиотечной сети Сургутского региона этого автономного округа. В нее предполагается включить все 86 библиотек разных министерств и ведомств, в большинстве из которых используются библиотечные системы MAРК различных версий, разработанные НПО «Информ-Система». Используемый в этой библиотечной системе коммуникативный формат представления записей USMARC позволит обеспечить межбиблиотечный обмен.

Работы было решено начать с Центральной библиотечной системы (ЦБС) ХМАО. Она объединяет 16 библиотек, где работает 145 сотрудников, которые обслуживают 41,2 тыс. читателей. Информационные ресурсы ЦБС включают книжный фонд — 334 тыс. изданий, фонд периодических изданий — 1059 наименований и фонд аудио/видеоматериалов. ЦБС располагает также специализированными фондами краеведческой, общественно-политической литературы, литературы на иностранных языках, фондом редких книг. С 1994 года здесь ведутся работы по созданию сводного электронного каталога ЦБС, который сейчас включает электронный каталог книг, электронную картотеку статей и электронную краеведческую картотеку. В декабре 2000 года были разработаны аспекты сетевого взаимодействия библиотек, входящих в ЦБС Сургута, в январе этого года — предложения по гармонизации правил библиографического описания, и с марта 2001 года начато внедрение единой корпоративной информационной библиотечной системы ЦБС Сургута. Система обеспечит автоматизацию в единой информационной среде таких библиотечных процессов, как заимствование записей, поиск, заказ, книговыдачу, учет читателей. К маю этого года планируется завершить внедрение системы в ЦБС, а к осени она должна распространиться на все библиотеки Сургута (если на это выделят средства).

В результате внедрения системы читатель, единожды зарегистрировавшись в ближайшей к дому библиотеке, получит возможность проводить поиск, заказ и получение необходимой книги или журнала в любой библиотеке ЦБС. А с расширением системы — в любой библиотеке города, области, округа. Он также сможет получить себе искомый документ в электронном виде, если на него в карточке есть ссылка. Библиотекарь, получив новую книгу, журнал или другое издание (СD-ROM, видеофильм), не будет тут же его описывать, а проверит, нет ли такого описания в едином электронном каталоге, и если есть, то позаимствует его. Это сэкономит время на поиск книги, устранит ведомственную разобщенность библиотек, уменьшит затраты на описание издания (на ввод карточки уходит 15-20 минут, на заимствование — 1-2 минуты).

В дальнейшем планируется, что библиотечный ресурс вольется в единую информационную систему Cургута, которая позволит исключить дублирование работ по вводу и обработке информации для разных фондов — медицинских, библиотечных, паспортного учета и т. п. И такая система в маcштабах Сургута сейчас уже разрабатывается.

«Книжные летописи»

Мы уже говорили о важности составления качественных библиографических записей и о том, что они будут заимствоваться. Но что станет основой «банка» этих записей? Цель проекта «Книжная летопись» — создать такой источник.

Проект получил название от небольшой брошюры «Книжная летопись», которая выходит раз в неделю и содержит перечень всех изданий, вышедших за этот период в стране, причем с полным их библиографическим описанием. Конечно, полную национальную библиографию составить сложно — это работа колоссального масштаба. Так, в Канаде аналогичный проект финансировало государство и выполняли четыре института. Но технологическая основа для такой работы уже создана на основе довольно сложного математического аппарата.

Создание единой базы библиографических записей уже идет, и будем надеяться, что через пару лет для поиска нужной книги можно будет зайти на сайт и определить, в какой библиотеке ее можно найти.

Если же говорить о работе библиотекаря, то здесь взаимодействие будет строиться следующим образом. Библиотекарь получает компакт-диск с виртуальной базой библиографических записей в зашифрованном виде, и выбирает интересующие его электронные каталожные ресурсы, сверяя их со своим каталогом. Дальше он связывается по Internet с сервером библиографических записей, и сервер даст подтверждение на то, что можно забрать столько-то записей (это обойдется существенно дешевле, чем создавать библиографическую запись самостоятельно).

Сейчас одна заимствованная запись обходится в 30-50 коп., а ее ввод, даже при низких зарплатах библиографов, по оценкам специалистов, составляет от 2 до 5 рублей. Причем эта задача заимствования библиографических записей актуальна для библиотек практически любого масштаба, кроме разве тех, которые умещаются в однокомнатной квартире.

Основной же проблемой, сдерживающей процессы информатизации библиотечного дела в нашей стране, является отсутствие электронных библиотечных ресурсов. Их нужно создавать. И объединение библиографических ресурсов библиотек — важный шаг на этом пути.

Об авторе

Михаил Глинников — научный редактор журнала «Мир ПК». Ему можно написать по адресу: mikeg@pcworld.ru