С ЧЕГО НАЧАТЬ?
КАКИЕ СРЕДСТВА?
УПРАВЛЕНИЕ КАЧЕСТВОМ ПРИ РАБОТЕ С БАЗОЙ ДАННЫХ
ОТДЕЛЯЯ ФОРМУ ОТ СОДЕРЖАНИЯ

По мере того, как первый приступ лихорадки по "подключению к Web" проходит, во многих организациях начинают осознавать, какие проблемы может вызвать добавление другой формы распространения информации. Большую часть коммерческого содержания Web составляет информация, которая в течение долгого времени поставлялась иными способами, например: через печатные брошюры и прайс-листы, каталоги на компакт-дисках или интерактивные базы данных. На первый взгляд кажется, что стоит лишь внести незначительные изменения, и эти документы будут доступны также и по сети World Wide Web. В результате многие организации принимают решение о переходе в эту среду прежде, чем обнаружат все подводные камни построения нового динамического набора из существующих материалов.

Проблемы начинаются с того, что разработчики баз данных называют "дублированием данных". Как можно обеспечить согласованность одних и тех же данных во множестве их копий? Осознание того, что следовало бы на первое место поставить проблему дублирования данных, побудило ряд организаций заняться полномасштабной переоценкой своей издательской деятельности. Кроме того, хотя средства, совместимые со стандартным языком обобщенной разметки Standard Generalized Markup Language (SGML), обещают упростить процессы публикации в Web, когда дело касается быстрого и надежного распространения документов, процесс и методики важны так же (если не больше) как и конкретные продукты.

При написании этой статьи мы говорили с людьми, занимающимися издательской деятельностью в сети Web в трех больших организациях: Налоговом управлении США (IRS), корпорации Novell и известном научно-техническом издательстве O'Reilly and Associates. Каждая из них имеет дело по крайней мере с тысячей отдельных документов, состоящих из более чем 10 тысяч текстовых материалов и графиков каждый.

Когда эти организации переносят свою информацию в сеть Web, они сталкиваются с ограничениями, налагаемыми некоторыми инструментальными средствами. Например, в оперативную работу в IRS вовлечено около 3500 документов и форм. Однако, когда потребовалось отформатировать и репродуцировать те формы, которые были переданы в управление по факсу, язык гипертекстовой разметки, Hypertext Markup Language (HTML), сразу же отказал.

В результате, для пересылки файлов PostScript, пригодных для обработки в сети Internet, кроме использования страниц, описанных средствами HTML, IRS применяет также пакет Acrobat компании Adobe Systems.

Кроме того, нельзя забывать о проблеме поддержки уже существующих систем. В IRS формы хранятся в базе данных DB2, состоящей из текстовых файлов SGML. Эта организация использует средства редактирования InContext компании Arbor Text's и работает над определением стилей для пакетов WordPerfect компании Novell и Microsoft Word, чтобы воспользоваться многообещающими возможностями SGML.

По утверждению Джона Босака, одного из объединенной издательской службы корпорации Novell, даже в такой крупной компании некоторые уже существующие файлы необходимо обрабатывать вручную, чтобы конвертировать их в формат Web. Многие отделения Novell используют широкий диапазон средств редактирования и конвертирования от WordPerfect до системы форматирования Troff для ОС Unix и FrameMaker корпорации Frame Technology. "Мы позволяем этим системам обрабатывать все, что они могут, но после этого все равно приходится вмешиваться и что-то доделывать", - посетовал Стив Малам, директор корпоративной издательской службы Novell.

С ЧЕГО НАЧАТЬ?

Хотя далеко не всем компаниям нужно управлять таким множеством документов, как IRS, коммерческому издательству или Novell, хорошая издательская система может избавить от многих затруднений еще до того, как они реально проявятся. Все издатели, с которыми мы говорили, готовя эту статью, полагают, что справиться со сложной издательской деятельностью в Web можно только при определенных условиях. Прежде всего, необходим систематический, формализованный способ представления содержания документа, а также специальный штат экспертов в области издательского дела, способных определять компоненты и структуры документа, часто в форме стилей организации и типов документов. Кроме того, нужны инвестиции в программные средства и время для управления корпоративными хранилищами данных. Хранилища данных должны иметь формализованную организацию либо в виде базы данных определенной структуры, либо в виде продуманной структуры каталогов для хранения и восстановления данных. Необходимы средства для конвертирования уже существующих документов в формализованные типы и стили, и, конечно, обязательным условием является непрекращающаяся деятельность по разработке средств для создания новых документов и обучение авторов работе с новыми средствами.

"Самое важное - это продумать и смоделировать ваш процесс публикации, - говорит Линда Уоллес из IRS, технический советник и член группы разработчиков системной архитектуры управления, - то есть определить, что вам необходимо реконструировать с помощью средств управления документом и SGML. Понимание изменений и характера работы вообще - залог успешного перехода".

"Люди обычно думают о том, как документы выглядят на бумаге, тогда как прежде всего нужно определить суть документа, - считает Норман Уолш, технический директор интерактивной издательской деятельности в O'Reilly and Associates. - Потом уже можно заняться приобретением, разработкой или приспособлением инструментальных средств для создания различных внешних воплощений документа".

КАКИЕ СРЕДСТВА?

Язык SGML приобретает растущую популярность, и даже основные текстовые процессоры, такие как Microsoft Word и WordPerfect, включают какие-то уровни поддержки SGML. Организации, которые привыкли к конвертированию документов с использованием команд Troff, находят, что SGML полезен для перевода их содержания во множество форматов.

В издательстве O'Reilly были использованы документы, отформатированные как с помощью Troff, так и с применением языка SGML; сейчас так присматриваются к нескольким новым средствам на базе SGML, например Near&Far Author (дополнение для Word производства компании Microstar Software). Эти средства когда-нибудь разгрузят сотрудников, занятых окончательной обработкой текстов в издательстве O'Reilly.

Многоплатформенная поддержка языка SGML является, вероятно, одной из его основных особенностей. "Поскольку у нас в сети было более 100 типов компьютеров, - объясняет Чак Доммел, старший специалист по печати в отделе мультимедиа IRS, - то независимость SGML от платформы явилась решающим аргументов в пользу использования этой технологии".

Однако, форматирование документов для Web не ограничивается только использованием SGML. Для создания своих форм и документации IRS применяет пять различных определений типов документов SGML - Document Type Definitions (DTD). Эти DTD совместимы также с одобренным правительством стандартом для форматирования документов Continuous Acquisition and Lifecycle Support. "SGML реально помогает нам контролировать качество, - добавляет Доммел. - Все наши SGML документы, прежде чем выйти за пределы отдела, проходят грамматический анализ согласно их DTD. Этот этап прибавляет нам уверенности в том, что наши формы и документы выглядят правильно, и что строка 42 - действительно правильный адрес для текущих контрольных сумм". Кроме того, прежде чем любая публикация выйдет в свет, в IRS выполняют строгую проверку компоновки и формата, а также серьезную корректуру.

В отличие от IRS, многие организации имеют возможность использовать стандартные продукты. Компания Davenport Group, консорциум поставщиков, специализирующихся на технических публикациях в области компьютеров, разработала определение SGML DTD, известное как DoсBook (текущая версия 2.1), которое описывает широкий набор структур и компонентов для издания технической информации, руководств по работе с компьютерами и программной документации.

"Прежде всего, стоит поискать готовое DTD, разработанное для конкретного типа размечаемых документов, - советует Джон Босак (корпоративная издательская служба Novell, в которой он работает, входит в группу Davenport и представляет Novell в рабочей группе по языку HTML консорциума World Wide Web Consortium). - Например, те, кто выпускает справочники по ПО, каталоги данных по полупроводникам, руководства по обслуживанию самолетов, газетные статьи и академические издания литературных произведений не нуждаются в разработке своих собственных DTD, поскольку есть организации уже потратившие два - три года на создание такого рода документов".

"Если же вы все-таки обнаружите, что для вашей отрасли промышленности не существует DTD, мой совет - соберите вместе людей, занимающихся документацией и работавших на ваших конкурентов, и образуйте группу, подобную Davenport, чтобы разработать его, - советует Босак. - Мы обнаружили, что в компьютерной индустрии нельзя добиться преимущества за счет использования различных стандартов разметки, - вы только усложните обмен или интеграцию набора документов".

Босак знает, что говорит. В 1992 году Novell отказалась от разработанного собственными силами DTD в пользу Version 1.0 DocBook. Когда в том же году Novell приобрела Unix Systems Laboratories, она обнаружила, что интеграция оперативных документов этих двух организаций, отформатированных с помощью DocBook, была намного проще, чем она могла бы быть, если бы Novell придерживалась своего собственного DTD.

УПРАВЛЕНИЕ КАЧЕСТВОМ ПРИ РАБОТЕ С БАЗОЙ ДАННЫХ.

Кроме указаний на необходимость единой структуры и языка разметки, "первопроходцы" Web подчеркивают, что документы следует держать в формализованном хранилище документов.

Тщательно контролируемое хранилище документов служит источником для всех версий документа. Для всех трех организаций база данных (или набор баз данных) играет ключевую роль в контроле доступа и соответствия (кто какой документ или компонент получает, в каком состоянии, где и когда). Формализованная проверка документов выполняется как нечто само собой разумеющееся (для доказательства правильности формы и, в конечном счете, возможности перевода), и специалисты по документам всегда готовы помочь в осуществлении необходимых изменений или улучшений существующих определений документа.

IRS хранит свои документы в базе данных DB2 с набором средств окончательной обработки для создания версий их форм и поддерживает документацию на жестком диске, на четырехскоростном компакт-диске и в форме страниц Web.

При управлении своим набором из более 540 томов технических руководств, компания Novell ввела строгие меры защиты в специальную иерархию каталогов файлов в сети. Компания оценивает вероятность использования в будущем в качестве более формализованного хранилища документов в пределах возможностей системы управления документами нескольких баз данных, ориентированных на текстовую информацию.

Сегодня уже ясно, что помещение документации в узел Web требует не просто добавления нескольких записей в файл. Те "первопроходцы", с которыми мы говорили, подчеркивали, что организация должна быть готова произвести инвестиции в несколько областей, иначе ее усилия окажутся бесплодными.

Во-первых, необходимо заняться кадрами. Или наймите консультантов, которые знают, как обращаться с SGML, или отведите ресурсы и время для подготовки ваших собственных сотрудников. В действительности, каждая из трех компаний имела в штате, по крайней мере, трех разбирающихся в SGML профессионалов.

Даже с помощью консультантов и грамотных работников ни одна из данных фирм не потратила меньше двух человеко-лет на построение и внедрение своих собственных сред, а у большинства других на это ушло значительно больше времени.

Все организации решили ввести у себя дорогостоящую экспертизу достаточно высокого уровня для обеспечения лучшего контроля над тем, что каждая из них считает жизненно важным аспектом организационной деятельности или бизнеса. И все они должны заново пересмотреть и реорганизовать процессы создания своих документов, их обработки и производства, чтобы полностью использовать преимущества примененной технологии.

Однако все сотрудники были довольны новыми решениями и той отдачей, которую обеспечили сделанные инвестиции.

Эти люди считают, что издание документов для Web, хотя и связано со значительными финансовыми и интеллектуальными затратами, требует такого же уровня поддержки управления, как, скажем, системы клиент/сервер.

"Продажа SGML-продуктов может представлять из себя трудную задачу, но она имеет решающее значение для всей торговли, - полагает Уоллес. - Мы поняли, при их продаже необходимо основываться на результатах бизнеса.

Для нас в IRS это означает существенное уменьшение объема обрабатываемых материалов из-за применения компоновок и копий, правильность которых гарантированна. Это заметно сокращает время производства наших форм и документов. Сжатые сроки уплаты налогов делают этот фактор весьма важным для успешного ведения дел".

ОТДЕЛЯЯ ФОРМУ ОТ СОДЕРЖАНИЯ

SGML (стандартный язык обобщенной разметки) - это мощное и сложное средство для подготовки всех типов документов. Он позволяет программисту создавать для многих типов документов спецификации, которые затем могут быть использованы для определения и построения образцов индивидуального документа, удовлетворяющего этим спецификациям.

Многие правительственные агентства, консорциумы поставщиков и промышленные организации одобрили SGML. Министерство обороны США, например, распорядилось, чтобы все документы представлялись в формате, совместимом со спецификацией Continuous Acqiusition and Life-cycle Support (CALS). Разработка этой спецификации является инициативой Министерства обороны; она предназначена для обеспечения обмена электронной документацией между ним и его многочисленными подрядчиками и субподрядчиками. Использование CALS позволило компании Yoyodyne подготовить свою документацию на операционную систему Linux с использованием Troff и гарантировало, что клерк-делопроизводитель в Пентагоне, работающий на рабочей станции Sun SPARC и пользующийся системой ArborText, будет иметь возможность легко прочитать, распечатать или изменить документ и составить его реферат.

Основной принцип SGML - концепция, называемая "разметкой". Этот термин обозначает, что для систем обработки текста обычно требуется, чтобы в содержание документа была включена дополнительная информация. Эта информация выполняет две основные функции: разделения логических элементов в документе и обозначения различных типов функций обработки, которые должны быть выполнены над этими элементами (например, печать жирным шрифтом, курсивом и замена шрифта).

Такими мощными возможности определения документа в SGML делает именно использование "обобщенной разметки". Ключевая идея состоит в том, что разметку необходимо применить только один раз, после чего она может создавать различные выходные формы ("всю будущую обработку"). Кроме того, разметка должна быть достаточно строгой, чтобы поддерживать компьютерный грамматический анализ, манипулирование данными и программные преобразования на выходе.

Ядром основанного на SGML документа является управляющее DTD (определение типа документа). DTD компонует структурные элементы и определения разметки документа, которые затем используются для создания самих документов. Вот почему SGML часто считают видом "описательной разметки": он описывает элементы в организации документа без необходимого уточнения способа представления. В противоположность этому, большинство типичных текстовых процессоров использует "процедурную разметку", в которой представление, структура и организация документа связываются с его содержанием.

Отсутствие возможности отделить описание внешнего вида от структуры и организации - это то, что делает файлы текстовых процессоров зависящими от их конкретных приложений. Без программы, которая "понимает" эти частные форматы, такие файлы по большей части невразумительны. Документы SGML, с другой стороны, могут быть прочитаны и "поняты" любой системой, которая способна выполнить общий грамматический анализ SGML, если документ им управляется. DTD может быть применен, чтобы разработать определения тех элементов структурирования и организации, которые присущи данному документу. Это также означает, что могут быть созданы специальные "выходные DTD", что позволит представить один и тот же документ множеством способов, пригодных для конкретной среды. Выходные DTD позволяют отдельно представить (и полностью привести к обычному виду) образцы документа для записи на жесткий диск CD-ROM или предоставления другим пользователям по сети World Wide Web.


Эд Титтел - автор книги "SGML для чайников" (издательство IDG Books) и других книг по сетевым вопросам. Живет в Остине, шт. Техас.