Проблема управления информационными потоками документов является сегодня достаточно актуальной. Нельзя сказать, что архитектура систем, предназначенных для этой цели, представляет собой нечто принципиально новое, тем не менее определенная специфика, вариантность технологий и разброс рабочих характеристик альтернативных корпоративных цифровых библиотек существуют. Кроме этого, для организации цифровых библиотек сегодня все чаще используют интеграцию со средой intranet, выступающей в качестве основы для инфраструктуры управления широким кругом знаний фирмы. Тема данной статьи - управление документами и знаниями, а также концептуальные основы построения корпоративных цифровых библиотек.

Интеллектуальный настольный компьютер стал сегодня стандартной платформой для информационно-аналитических систем корпораций. С помощью этих компьютеров создаются документы, содержащие значительную часть практических знаний и опыта корпораций. К сожалению, эти документы не могут эффективно распространяться и использоваться.

Современный интеллектуальный настольный компьютер предназначен, в основном, для проведения анализа данных, выполняемого специалистами-аналитиками, создающими для корпораций новые знания. Традиционные системы оперативной обработки данных (OLTP) и поддержки принятия решений (DSS), безусловно, упрощают подобную аналитическую работу. Однако ни OLTP, ни DSS не могут облегчить собственно реальную аналитическую работу. Здесь свое слово должны сказать так называемые персональные средства повышения продуктивности, например системы подготовки текстов, крупноформатные таблицы, графические средства и пакеты по представлению данных, а главное, аналитические средства для сбора, обработки и организации структурированных данных, отобранных с помощью таких источников получения данных, как средства поиска, генераторы отчетов и т. п.

Продуктом работы аналитика почти всегда является документ, в самом широком смысле этого слова: большие, сложные мультимедийные объекты, представляющие как модели и методы, используемые в аналитической работе, так и ее результаты. Специалисты по маркетингу представляют требования к продукту в виде документа, подготовленного в текстовом редакторе, анализ рентабельности сегментов рынка (подразделений) в виде крупномасштабных таблиц, а средства и методы реализации продукции отображают с помощью средств электронного представления данных. Разработчики воплощают технические характеристики продукта в виде чертежей, подготовленных средствами САПР. Производственный персонал готовит описание рабочего процесса в виде блок-схем. В практике деловых отношений эти документы перемещаются по всему предприятию и хранятся (на предприятии) в определенном месте. Маршрутизация производится с использованием средств электронных сообщений, что приводит к тиражированию документов - на предприятии можно обнаружить десятки, а иногда и сотни копий одного и того же документа, что очень засоряет файловую систему. Большая часть документов хранится на локальных жестких дисках отдельных пользователей сети корпорации и недоступна для других специалистов-аналитиков. Использование общих файловых серверов не спасает положение - содержание документов полностью скрыто посредством зашифрованных имен файлов и сложных структур каталога. Проще говоря, продукты аналитической работы фирмы, постоянно усложняющиеся, вырастающие в объеме и приобретающие все большую актуальность, не управляемы, труднодоступны для поиска и не подлежат проверке или исследованиям.

Несмотря на то что многие фирмы научились сегодня неплохо справляться с управлением своих структурированных данных (технологии реляционных баз данных на основе открытых систем), массивы неструктурированных и квазиструктурированных данных (примерно 70% данных на фирме, по оценке META Group) не управляются, да и, как показывает практика, в существующем виде ими управлять невозможно в принципе.

1. Документы и проблема управления знаниями

При анализе "проблемы документов" необходимо учитывать сразу следующие моменты:

  • знания корпорации и лучший практический опыт включаются не только в наборы структурированных данных, управляемых СУБД, но и в квазиструктурированные мультимедиа-документы, создаваемые специалистами в области знаний на своих интеллектуальных компьютерах;
  • знания корпорации и опыт лучших практических решений должны распространяться и храниться способами, позволяющими их эффективно использовать всеми заинтересованными лицами, а не ограничиваться кругом только небольшой группы аналитиков;
  • база знаний корпорации не должна быть "вещью в себе", в которой невозможно искать информацию по запросам или эффективно ее использовать для решения каких-либо задач.
  • Решение экономических проблем, вызванных распространением внутри корпорации неструктурированных и квазиструктурированных документов, является частью задачи управления знаниями. Для понимания процессов создания, использования и управления знаниями предлагается следующая модель (рис.1). В этой модели:

    "Конструкция", в данном случае процесс выявления или структурирования знаний по типам: например, как продавать определенный продукт на рынке или как решить некоторые проблемы, возникающие у покупателя;

    "Воплощение" относится к процессу выбора контейнера (упаковки, способа представления) для уже выстроенных знаний. Как уже говорилось, большинство фирм в качестве такого контейнера выбрало интеллектуальный компьютер, в котором хранятся знания в виде документов;

    "Распространение" относится к процессам, связанным с человеческим фактором и технической инфраструктурой, посредством чего знания - документы становятся доступными для всех работников по всей фирме;

    "Использование" относится к конечной цели любой системы управления знаниями: создание продукции коммерческой ценности для потребителя.

    Picture 1

    Рис. 1. Общая модель управления знаниями

    При взгляде на эту модель видно, что проблема документов в современной фирме упирается, главным образом, в решение задачи распространения. Для чего должна быть четко разработана техническая инфраструктура, отвечающая следующим признакам:

  • возможность проводить контролируемое централизованное представление знаний в виде документов для общего пользования;
  • гарантия сбора метаданных: название, автор, данные об эффективности, данные о розничной торговли и т. д., или атрибутов, являющихся принадлежностью каждого документа;
  • возможность хранения документальной базы фирмы в надежной управляемой среде;
  • способность контролируемого электронного распределения документов через повсеместную электронную инфраструктуру, охватывающую непосредственно все точки их использования;
  • простота сбора и анализа всей информации, релевантной потоку документов от составителей (издателей) к потребителям.
  • Совсем нелишними будут также следующие возможности:

  • интеграция существующих систем, особенно OLTP и DSS, в инфраструктуру распространения таким способом, чтобы представить эти системы пользователям в качестве совокупности документов;
  • оперативная доставка любого содержания из любой системы на компьютер аналитика, независимо от его расположения.
  • Именно такая система может носить наименование - корпоративная цифровая библиотека (CDL).

    2. Корпоративная цифровая библиотека

    2.1. Функциональные возможности

    Корпоративные цифровые библиотеки являются большими, централизованными информационными техническими системами, позволяющими хранить, структурировать и обеспечивать доступ к суммарному итогу знаний корпорации, распределенному по документам, а часто и в базах данных.

    По структуре CDL выполняют те же функции для корпораций, что и библиотеки для университетов и публичные библиотеки для широких слоев населения, а именно:

  • содержат большую разнородную совокупность знаний, основанных на документах;
  • обеспечивают физическую инфраструктуру для безопасного хранения этих документов;
  • предоставляют множество логических структур для размещения определенной информации в пределах физической инфраструктуры;
  • обеспечивают соответствующие средства защиты для получения гарантии, что данные не будут удалены из библиотеки и не будут получены несанкционированным персоналом.
  • 2.2. CDL и другие типы цифровых библиотек

    CDL отличаются от традиционных цифровых библиотек по следующим параметрам:

  • CDL рассчитаны на обеспечение корпорации внутренней инфраструктурой интеллектуальной собственности на базе документов, а не на воспроизведение в электронной форме материалов на бумаге (хотя CDL и поддерживают цифровые изображения как категорию управляемых документов);
  • CDL концентрируются на документах и метаданных: информация о документе, имя создателя, место документа в пределах знаний фирмы, уровень секретности, соответствующие перечни по распределению. Другими словами, понятие "каталога карточек" у CDL намного сложнее, чем это принято у библиотечных работников;
  • CDL обеспечивают цельную инфраструктуру от зарождения документа до его конечного использования. Это означает, что в CDL для любого служащего обеспечивается инфраструктура информационной технологии по добавлению и извлечению материалов в/из CDL. Подобная инфраструктура надежнее по защите, чем традиционные цифровые библиотеки, и богаче по информации: собирается больше данных о том, кто что публикует и кто что использует в CDL по сравнению со средствами обычных библиотек;
  • CDL проектируются не по стандартной схеме (как система классификации в Библиотеке Конгресса или УДК, принятая в России), а в соответствии со специфичными ценностями внутри корпорации и системой ценностей вне ее. Это происходит таким образом, чтобы структура библиотеки отражала (и приводила в исполнение) единую модель, посредством которой корпорация делает бизнес;
  • CDL почти одинаково открыты для изучения и для распространения. В CDL собирается информация, необходимая руководству для исследования "преимуществ применения знаний" ("экономика знаний"), почти так же, как системы MRP собирают информацию, нужную для исследования, управления и "настройки" производственных мощностей предприятия;
  • CDL создаются, для того чтобы фирма могла довести "представления" своей "библиотеки" до сведения поставщиков, партнеров по бизнесу и покупателей.
  • 2.3. Пользователи CDL

    Субъектами CDL являются потребители, издатели, библиотекари и руководство.

    Потребители регистрируют свое "пребывание" в цифровой библиотеке - CDL распознает их посредством электронного эквивалента библиотечной карточки и ведет учет ее использования для подготовки отчетов издателям и руководству.

    Издатели создают документы и публикуют их в корпоративной цифровой библиотеке, предоставляя все данные, необходимые для построения электронного эквивалента элементов каталога карточек или библиографических баз данных на документы. В некоторых случаях издатели используют средства, не предусмотренные в CDL, в недрах которых происходит конвертация документов, созданных такими средствами к одному или более форматам, поддерживаемым CDL.

    Библиотекари отвечают за дизайн и структуру корпоративной цифровой библиотеки и за поддержку ее физической и логической инфраструктуры. Библиотекари устанавливают правила для издателей и потребителей и предоставляют руководству статистические сводки интенсивности применения CDL.

    Руководство использует информацию, собранную с помощью CDL, для моделирования, практического осуществления и настройки процессов, создания и применения знаний корпорации. С помощью CDL руководство может определить:

  • когда и кем созданы знания, их количество и качество;
  • путь прохождения знаний;
  • как используются знания, тем самым реально раскрывая скрытые преимущества применения знаний в работе.
  • Любой служащий может быть и потребителем, и издателем документов.

    2.4. Процессы, поддерживаемые CDL

    CDL поддерживает процессы, связанные с публикованием и распространением квазиструктурированной и неструктурированной информации внутри фирмы (рис. 2).

    Picture 2

    Рис. 2. Процессы, поддерживаемые CDL

    Публикация документа. CDL начинает свою работу с процесса публикования документа, обеспечивая инфраструктуру для издателя, помещающего документы в CDL, независимо от:

  • программных и аппаратных средств, используемых для создания документа;
  • категории документа: документ в текстовом редакторе, электронная таблица, изображение, презентация, звук, полномасштабное видео, программное обеспечение;
  • местоположения издателя.
  • Технология публикования документа предусматривает сбор не только документов, но и всех метаданных на него, необходимых для облегчения доступа потребителей к документу и повышения эффективности его управления библиотекарями и руководством. К тому же CDL привносит свои собственные знания о том, кто из потребителей на фирме интересуется определенными категориями информации и кому необходимо с ней познакомиться, что требуется, в частности, для оповещения пользователей в соответствии с установленными ими параметрами о поступлении новых материалов в CDL.

    Поиск, извлечение и модификация документов. CDL обеспечивает инфраструктуру для потребителей внутри корпорации для реализации поиска конкретных документов или областей знаний в CDL. Поиск может быть: а) низкоуровневым, например сканирование библиотеки целиком для получения всех документов, связанных с определенным потребителем; б) структурированным, скажем сканирование архива метаданных CDL для получения всех документов, опубликованных определенным автором по интересующему предмету за определенный период времени; в) навигационным - произвольный по форме поиск с использованием гипертекстовых навигационных моделей. В последнем случае происходит извлечение любого документа из библиотеки (при условии контроля за сохранностью данных) в форме, приемлемой для использования набором инструментальных средств компьютера потребителя. CDL облегчает работу с документами посредством хранения каждого из них не только в определенном формате, в котором он был создан издателем, но и в ряде канонических форматов, которые могут быть преобразованы любым интеллектуальным настольным компьютером в требуемый формат. Модификация любого документа в библиотеке может производиться за счет присоединения дополнительной информации к основному документу.

    Инфраструктура информационной технологии, используемая потребителями, будет аналогична и для издателей - таким образом служащим не надо переучиваться, если они сменили роль издателя на роль потребителя.

    2.5. Структура и ведение библиотеки

    Как только процесс публикования документа заканчивается и он попадает в поле контроля CDL, включаются механизмы, позволяющие библиотекарям физически и логически управлять каждым документом. Средства физического управления предоставляют библиотекарям возможность оптимизировать инфраструктуру информационной технологии, формирующую среду CDL. Средства логического проектирования позволяют свести основную информацию в библиотеке к структуре, отражающей систему ценностей на и вне корпорации, а также множеству доступов к этой структуре, отражающих определенные нужды или организационные модели некоторых групп потребителей внутри фирмы.

    Например, несмотря на то, что структура CDL строится на основе модели внутренней сети корпорации и внешней системы ценностей, для многих служащих даже на фирмах с матричной структурой управления или организацией производственного процесса на высоком уровне все еще необходимо рассматривать корпорацию в качестве множества дискретных функций: производство, финансы, маркетинг и т. д. Либо другой взгляд на фирму, как на сеть работников, каждый из которых вносит свой вклад в знания корпорации. А кое-кто все еще смотрит на базу документов в CDL через лупу множества продуктов или рынков компании. CDL должна быть достаточно гибкой, чтобы:

  • поддерживать основную модель - сеть и систему ценностей;
  • поддерживать создание множества профилей, логически перестраивающих множества документов;
  • содействовать простому формированию детального представления множества документов для определенных служащих внутри фирмы;
  • давать возможность частичного представления защищенных документов другим фирмам без потери интеллектуальной собственности.
  • CDL также обладает полным набором механизмов для усиления профилей безопасности на уровне документа, для отметки и отчета о событиях, происходящих с каждым документом, для автоматического удаления устаревших документов из библиотеки, для поддержки множественных версий любого документа по мере его редактирования, модификации, переиздания, удаления и для осуществления контроля различных типов документов, требуемого фирмой или такими внешними регулирующими органами, как ISO и SEC.

    2.6. Управление знаниями

    CDL также облегчает исследование, анализ и настройку системы экономики знаний фирмы посредством предоставления руководству интерфейсов к множеству данных, собранных CDL по опубликованным документам и использованию материалов CDL. Публикуемые метаданные и протоколы поисков в CDL позволяют руководству выявить экономию от применения знаний на фирме, оценить количественные и качественные характеристики базы знаний корпорации и наметить определенные области для улучшения и тщательной проверки.

    3. Архитектура CDL

    Основная архитектурная модель для любой CDL состоит из пяти основных элементов:

  • документы, основной цифровой объект под управлением CDL;
  • вызывающие параметры: уникальное средство управления для каждого цифрового объекта, распознающее его из многих других объектов в любой CDL;
  • сама CDL - множество взаимосвязанных архивов для данных и метаданных;
  • перечни - структурированные множества свойств, разрешений, условий и инструкций, относящихся к определенным документам;
  • структура библиотеки: логическая информационная модель, отождествляющая документы и параметры их вызова с метаданными и перечнями.
  • Документы. Хорошо спроектированная CDL обрабатывает любой тип знаний, представленных в электронном виде, - документ в текстовом редакторе, электронную таблицу, изображение, презентацию, звук, полномасштабное видео, программное обеспечение, сообщения электронной почты. Если потребитель научится представлять любой продукт с помощью CDL, выражая его через документ, который может быть опубликован, описан или зарегистрирован, деятельность фирмы мгновенно улучшится. Причем инфраструктура информационной технологии будет гораздо проще, чем если бы корпорация вкладывала средства в информационные технологии для работы с каждым подклассом документов в отдельности.

    Кроме того, CDL может управлять ассоциативными документами, представляющими некоторые реальные объекты, которые нельзя выразить в цифровом виде:

  • расписание использования общих материальных ресурсов предприятия, а именно конференц-залы, парк автомобилей и т. д.;
  • характерные черты и квалификацию сотрудников;
  • инструкции для создания стандартных DSS-отчетов со складов и торговых центров фирмы.
  • Так как CDL управляет многочисленными типами данных документов и предусматривает возможность изменения набора инструментальных средств на рабочем месте своих субъектов, то документы могут храниться в CDL как в естественном формате (формат, в котором они были первоначально опубликованы), так и в канонических форматах, определенных библиотекарями и используемых для передачи документов по всей фирме, независимо от набора инструментальных средств на конкретном рабочем месте служащего корпорации. В некоторых случаях каноническая форма хранится в CDL (например, когда речь идет о многотомном документе); в других хранится ассоциативный документ, содержащий набор инструкций для создания канонической формы.

    Вызывающие параметры. Каждому документу присваивается вызывающий параметр - идентификатор, являющийся уникальным не только в CDL корпорации, но в любой другой CDL, что возможно, например, при использовании UNR (Uniform Resource Number), применяемого в Internet.

    Этот параметр отличается от аналогичного в обычной библиотеке тем, что он сам не является носителем метаданных, служит в качестве средства для отслеживания, адресации и контроля документов на индивидуальном уровне.

    Перечни. В перечнях структурированы совокупности свойств, разрешений, условий и инструкций, которые могут создать группы документов или прилагаться к документам или группам документов. Обычно перечни в среде CDL включают:

  • перечни по уведомлению и дистрибутивам: список потребителей, желающих получить уведомление в случае, когда определенный документ, группа документов или категория данных в CDL пополняется или изменяется;
  • перечни по проверке: список служащих, просматривающих или одобряющих документ до того момента, как он становится официально частью совокупности знаний фирмы. CDL автоматически включит документ в перечни по проверке, где он будет находиться до тех пор, пока эксперты не представят уведомление в CDL об одобрении документа (например, используя свои персональные цифровые подписи для уникальной идентификации и отслеживания);
  • перечни событий: список документов, представляющий непосредственный интерес для библиотекарей и руководства, желающих получать уведомление, когда документ был затребован, изменен, устарел и выведен из системы, заблокирован или выведен из обращения;
  • предметные перечни: предметы, ключевые слова и темы, с которыми может быть связан любой документ;
  • перечни классов безопасности: список категорий безопасности (открытые, секретные, отражающие конъюнктурные колебания), в зависимости от которых регулируется распространение определенных документов;
  • перечни управляющих воздействий: список воздействий - архив, версия, блокировка, которые должны быть произведены на определенные типы документов для внутреннего процесса или внешних регулирующих причин;
  • перечни для контроля за доступом: списки потребителей, имеющих или неимеющих доступ к определенным документам.
  • Сами перечни управляются как документы, находящиеся в ведении библиотекарей и подчиненные определенным типам отслеживания событий. Механизмы CDL должны быть достаточно гибки для поддержки любого типа перечня, необходимого для управления документами в CDL.

    4. Варианты реализации CDL

    Для создания корпоративных цифровых библиотек применим ряд следующих технологий:

  • традиционные СУБД;
  • средства организации деятельности рабочих групп;
  • системы класса workflow;
  • технология WWW.
  • На рис. 3 представлена модель проекта CDL на основе Web. Потребители взаимодействуют с CDL посредством программы просмотра Web, связанной, в свою очередь, с Web-сервером, объединяющим несколько классов ресурсов:

  • хранилище содержания, включающее суммарное количество документов, помещенных в CDL специалистами по знаниям, причем многие из документов представлены в достаточно большом количестве форматов, модификаций и версий;
  • индексы, обеспечивающие довольно низкоуровневый (полнотекстовый или близкий к нему) доступ к документам в CDL;
  • хранилище метаданных: содержит всю информацию о документах, издателях и потребителях, необходимую для управления документами, обеспечения их соответствующими средствами защиты и контроля за доступом, построения каталогов, установки и управления схемами по устареванию документов, а также облегчения решения разных административных проблем и задач по доступу пользователей;
  • внешние OLTP-ресурсы, наборы данных и интерфейсы пользователей которых могут быть представлены в CDL в качестве форм и документов (отчеты);
  • внешние DSS-ресурсы, наборы данных и интерфейсы которых могут быть представлены в CDL в качестве форм и документов (отчеты).
  • Picture 3

    Рис. 3. Модель проектирования CDL на основе Web.

    Потребители также взаимодействуют с CDL через программу-посредник. В CDL используется система сообщений для оповещения потребителей, зарегистрировавших свой интерес к определенным темам, областям знаний или документам, в случаях, когда: появляются новые документы, модифицируются уже существующие документы, материал в библиотеке заблокирован или удален вследствие устаревания информации. Средство издания может быть в полной мере реализовано средствами технологий WWW, обеспечивающих процесс публикования, сбора соответствующих метаданных и, вообще, облегчающих спокойное и упорядоченное пополнение CDL документами.

    ***

    CDL, построенные на базе Web, предоставляют корпорациям и их партнерам уникальную возможность решения следующих неотложных задач:

  • управление квазиструктурированными, основанными на документах, данными, являющимися существенной частью интеллектуальной собственности фирмы и ее базы знаний;
  • организацию мгновенного распределения актуальной деловой информации благодаря использованию технологий Internet.
  • Используя целиком инфраструктурированные технологии: WWW, традиционные реляционные базы данных, системы с полнотекстовым поиском, а также проверенные на практике модели, организации, занимающиеся информационными технологиями, могут создавать централизованно управляемые и администрируемые CDL, обслуживающие рабочие места всей корпорации независимо от их местоположения, локального набора инструментальных средств или функций. Немаловажно то, что применение CDL позволяет корпорации понять, как внутри нее осуществляются процессы построения, реализации, распространения и использования знаний.