Когда оглядываешься назад, то невольно замечаешь, насколько стремителен бег современной жизни. Автомобили, одежда и многое иное — в общем, тысячи фундаментальных и незаметных вещей становятся все более функциональными, изменяясь и стремясь к некоему пределу, задаваемому требованиями удобства и скорости. Дыхание века затронуло и книги.

Перед крупными исследовательскими центрами и библиотеками встал вопрос, каким образом можно перевести в электронный вид печатный материал, чтобы огромнейший пласт знаний, хранимых на бумаге, стал доступен компьютеру. При решении этой задачи нужно было обеспечить независимость процедуры преобразования от содержимого (текста, графики или формул), сократить до минимума действия оператора процесса и получить компактные по размеру электронные копии.

Разработчики пошли по проторенному пути. В библиотечном деле давно применялись фотокопии печатных изданий, что было положено в основу создаваемой технологии. Для этого были взяты отсканированные изображения, как правило, развороты книг. Далее в каждой картинке программа преобразования выделяла зоны трех типов: первая — текст, вторая  — иллюстрации, третья — текстура страницы, т. е. детали, не отнесенные к первым двум. Качество (разрешение) изображений в зонах, где размещен текст, не изменяется, а вот в зонах второго типа (иллюстрации) принудительно понижается и становится еще хуже у зон третьего типа.

Такой метод выборочной компрессии позволил автоматизировать процесс получения фотокопий, в десятки или сотни раз меньших по объему, чем оригиналы, сохранив качество, приемлемое для восприятия (вполне уместна аналогия с MP3). Этим новая технология отличалась от других, в которых разрешение позволялось уменьшать либо автоматически для всего изображения, либо выборочно, при помощи оператора.

Идея использовать фотокопии, т. е. отказ от распознавания сканированных изображений, значительно сократила процесс преобразования, поскольку исключились правка и верст-ка электронной версии вручную.

Данный метод под названием DjVu (читается как «дежавю») вышел из стен корпорации AT&T Laboratories в 1996 г. А теперь о его применении на практике.

Первый этап создания электронной книги — получение набора отсканированных изображений (или цифровых фотографий) в виде файлов. Причем допустимы они практически любого типа, поскольку большинство конвертеров поддерживают все распространенные графические форматы. Далее обратимся к публичному интернет-ресурсу Any2DjVu Server, бесплатно предлагающему свои услуги по преобразованию изображений в DjVu-формат. Надо лишь, пользуясь веб-интерфейсом, указать требуемый файл (или на интернет-источники), а также установить параметры преобразования: тип документа, ориентацию текста и степень компрессии.

К сожалению, за один раз сервер конвертирует только один файл. Значит, для получения большой книги следует загружать также файлы, поддерживающие многостраничность, как TIFF-, PDF-, PNM- или PS-документы, либо обратиться к иным решениям.

Any2DjVu конвертирует по одному файлу

Например, при помощи свободно распространяемых утилит MiniDjVu и DjVuLibre удастся собрать многостраничный DjVu-файл, но они реализуют не все возможности технологии, к тому же далеко не многие пользователи привычны к работе из командной строки. Поэтому подробнее остановимся на следующих проектах.

Редактор DjVu Solo 3.1 еще можно найти в Интернете, но на сайте разработчика он более не публикуется, его поддержка прекращена. Хотя морально этот редактор уже устарел, для несложной работы с DjVu он вполне подходит. К тому же он бесплатный при условии некоммерческого использования.

DjVu Solo позволяет объединить множество отдельных изображений в DjVu-книгу, где каждому из них соответствует один лист. Допустимо также экспортировать отдельные страницы издания в файлы формата BMP и распечатывать их. В книгу позволительно добавлять гиперссылки, указывающие на другую страницу данного документа или на интернет-ресурс, выделяя для этого прямоугольные, овальные или многоугольные (полигональные) сегменты страницы. Эти сегменты можно обозначать цветовой заливкой и снабжать подписью. Чтобы посмотреть, как выглядит оформленная страница DjVu Solo, нужно перейти из режима редактирования в режим просмотра.

В книги можно вставлять гиперссылки

Стоит отметить, что внешний вид книги во многом определяется версией применяемой программы. Если она устарела, то может не показывать гиперссылки или выделять сегменты.

Коммерческое развитие редактора DjVu Solo — Document Express with DjVu Professional Edition 6.0 (Document Express Editor). У них обоих сходные интерфейсы и методы работы с документами. К инструментам оформления документов, имеющимся у DjVu Solo, у него добавился элемент оформления в виде стрелы (черты). Кроме того, он обеспечивает оптическое распознавание текста (OCR  — Optical Сharacter Recognition). В результате пользователь, просматривая DjVu-документ с распознанным текстом (или, как говорят, с OCR-слоем), может копировать его содержимое или выполнять в нем поиск слов.

Текстовый слой можно изменять 

Правда, следует отметить, что, хотя в программе и заявлена поддержка русского языка, результат распознавания оставляет желать лучшего. К тому же в Document Express Editor нельзя править распознанный текст. Однако такая возможность есть в другом продукте тех же разработчиков — Workflow Manager, но до нее непросто добраться.

Программный пакет Document Express with DjVu Enterprise Edition 5.1 содержит в своем составе утилиты Workflow Manager и Configuration Manager. Последняя предназначена для визуального анализа, показывающего, как будет выглядеть какая-либо картинка после преобразования в DjVu-формат. Выбирая различные методы компрессии и изменяя их параметры, можно путем сравнения преобразованного изображения с оригиналом добиться наилучшего качества. Данный DjVu-редактор предлагает значительно больше методов преобразования, чем рассмотренные ранее, а также позволяет реализовать на их основе новые.

DjVu удобен для оцифровки рукописей и текстов с формулами и иллюстрациями

Утилита Workflow Manager служит непосредственно для создания DjVu-книг. Она основана на иных принципах, нежели DjVu Solo и Document Express Editor. Пользуясь ее графическим интерфейсом, можно лишь сделать книгу, распознать текст или добавить на страницы водяные знаки. А вот чтобы внести какое-либо другое изменение в оформление страниц, придется применить утилиты командной строки. Например, djvutoxml (djvutoxml. exe []) извлекает содержимое DjVu-документа в XML-файл, с помощью которого легко менять внешний вид страниц, добавлять гиперссылки или редактировать распознанный текст. Другая утилита, djvuparsexml (djvuparsexml. exe ), связывающая отредактированный XML-файл с родительским документом DjVu, позволит изменить этот документ.

Можно изменять внешнее оформление

Также отметим утилиту djvutotext (djvutotext. exe [—help] [—page=] []), которая дает возможность выделить OCR-слой как с указанной страницы, так и из всего DjVu-документа в отдельный текстовый файл.

Применяя утилиты из командной строки, можно выполнять те же операции, что и из графического интерфейса программы. Такой подход, пожалуй, пригодится при автоматизации процесса конвертации множества книг, но для индивидуальной работы с DjVu-документом он весьма неудобен. При оформлении страниц, создании гиперссылок, редактировании текста необходимо знать синтаксис XML, а в программе даже не предложен редактор. В общем, хотелось бы, чтобы коммерческий продукт, ориентированный на массовый рынок, был более удобен в использовании.

DjVu-файлы в десятки раз меньше оригиналов

Один из общих недостатков всех рассмотренных выше программ  — низкое качество работы c OCR-данными. В зависимости от редактора текст в DjVu распознать либо совсем нельзя, либо можно, но плохо. К тому же исправить его удастся лишь иногда, да и то с трудом. Впрочем, работу с OCR разработчики сочли второстепенной задачей и не придавали ей должного значения. Правда, порой необходимость в распознавании текста все-таки возникает, и тогда целесообразно обратиться к утилите DjVuOCR, ориентированной на работу с текстовыми данными DjVu. Она способна извлечь OCR-слой в текстовый файл и после редактирования внести его обратно, заменив им оригинальный. Также DjVuOCR поддерживает интеграцию с программой распознавания текстов FineReader, что позволяет работать с документами, изначально не имевшими OCR-слоя.

В заключение следует отметить, что определились три основных формата электронных книг: PDF, CHM и DjVu. Каждый из них разрабатывался для решения определенных задач, и потому сложно определить, какой лучше, но для конкретного случая один будет удобнее, чем другие. Так, DjVu имеет смысл использовать для перевода в электронный вид книг, особенно рукописей и текстов с большим количеством рисунков, графиков и формул; когда требуется сохранить оформление первоисточника или следует получить компактный по объему электронный аналог, а также когда допустима потеря качества в изображении второстепенных деталей.


История

В стенах AT&T Laboratories было сделано немало открытий. История этой организации началась с 1925 г. c возникновения Bell Telephone Laboratories Inc. В том же году ее сотрудники продемонстрировали первые работающие образцы факсимильных аппаратов. Среди дальнейших достижений можно назвать шесть Нобелевских премий, и одна из них, по физике, в 1956 г. была присуждена за изобретение транзистора (Джон Бардин, Уолтер Браттайн, Вильям Шокли). Ниже приведен список открытий, оказавших знаковое влияние на развитие информационных технологий и Интернета, в частности.

1969 г. — Денис Ричи, Кен Томсон и Дуглас Макилрой создали операционную систему Unix.
1970 г. — Денис Ричи разработал язык программирования Cи. 
1990 г.  — испытана WaveLAN (wireless local area network), первая беспроводная сеть.
1991 г. — запатентована технология модемной связи на 56 кбит/с.
1996 г.  — опубликован стандарт DjVu; разработчики Янн Ле Кан, Леон Ботту, Патрик Хаффнер и Поль Ховард.
1996 г. — разработана технология передачи голоса по Интернету в реальном времени.

На этом далеко не полном списке научных открытий и революционных технологических достижений деятельность компании не остановилась.

В настоящее время эта исследовательская организация — филиал корпорации Alcatel-Lucent. Большинство выполняемых этим подразделением научно-исследовательских проектов являются заказами военного министерства США.


Document Express with DjVu Professional Edition 6.0.0 (build 1194)

Оценка: 5/5 
Системные требования: 400-МГц процессор Intel, 128-Мбайт ОЗУ.
Поддерживаемые ОС: Windows 98/NT 4.0 SP6/2000/XP, Red Hat Linux 6.x/7.1, Solaris 2.6.
Размер дистрибутива: 82,3 Мбайт.
Особенности: Редактор (как и версия Enterprise) содержит ограничения по числу обрабатываемых за один месяц документов.
Язык интерфейса: Английский.
Условия распространения: Ограничения версии для тестового использования: не более 30 дней работы и не более 500 созданных страниц. Полная версия — от 395 долл.
Разработчик: LizardTech, Inc, http://www.lizardtech.com/


Document Express with DjVu Enterprise Edition 5.1.0 (build 973)

Оценка: 4/5 
Системные требования: 400-МГц процессор Intel, 256-Мбайт ОЗУ.
Поддерживаемые ОС: Windows 98/ NT4.0/2000/XP, Solaris 9, Linux (kernel 2.2).
Размер дистрибутива: 186 Мбайт.
Особенности: Большая коллекция методов преобразования в DjVu.
Язык интерфейса: Английский.
Условия распространения: Ограничения версии для тестового использования (trial): не более 30 дней работы и не более 500 созданных страниц. Полная версия — от 1495 долл.
Разработчик: LizardTech, Inc, http://www.lizardtech.com/


DjVuLibre 3.5.19

Оценка: 3/5 
Системные требования: 266-МГц процессор Intel, 64-Мбайт ОЗУ.
Поддерживаемые ОС: Windows 95/98/2000/XP, Linux/BSD/Solaris, OS/2.
Размер дистрибутива: 6,28 Мбайт.
Особенности: Утилита командной строки.
Язык интерфейса: Английский.
Условия распространения: Свободное использование при соблюдении лицензии GNU General Public License (GPL).
Разработчик: Янн Лекан, Леон Ботту и др., http://djvulibre.djvuzone.org/


DjVu Solo 3.1

Оценка: 4/5
Системные требования: 266-МГц процессор Intel, 128-Мбайт ОЗУ.
Поддерживаемые ОС: Windows 95/98/NT 4.0 SP6/2000.
Размер дистрибутива: 2,12 Мбайт.
Особенности: Поддержка программы прекращена.
Язык интерфейса: Английский.
Условия распространения: Бесплатно для некоммерческого использования.
Разработчик: LizardTech, Inc, http://www.lizardtech.com/


Any2DjVu Server

Оценка: 2/5 
Системные требования: Подключение к Интернету.
Поддерживаемые ОС:
Размер дистрибутива:
ОСОБЕННОСТИ: Конвертирует только по одному файлу
Язык интерфейса: Английский.
Условия распространения: Публичный интернет-ресурс.
Разработчик: Янн Лекан, Леон Ботту, Джефри Тригс, http://any2djvu.djvuzone.org/


MiniDjVu 0.7

Оценка: 3/5 
Системные требования: 266-МГц процессор Intel, 64-Мбайт ОЗУ.
Поддерживаемые ОС: Windows 95/98/2000/XP, Linux/BSD/UNIX.
Размер дистрибутива: 1,35 Мбайт.
Язык интерфейса: Английский.
Условия распространения: Свободное использование при соблюдении лицензии GNU General Public License (GPL).
Разработчик: Илья Межиров, http://minidjvu.sourceforge.net/


DjVuOCR 2.2 beta

Оценка: 5/5 
Системные требования:
Поддерживаемые ОС: Windows 95/98/ME/NT/2000/XP.
Размер дистрибутива: 1,08 Мбайт.
Особенности: Инструмент для работы с OCR-слоем DjVu-документов.
Язык интерфейса: Английский.
Условия распространения: Свободное.
Разработчик: http://djvuocr.ucoz.ru/


Инструменты для просмотра

В разговоре о DjVu-редакторах было бы неправильно обойти молчанием программы просмотра DjVu-документов, которых достаточно много и которые в отличие от редакторов почти все бесплатны. Первым, пожалуй, следует упомянуть DjVu Browser Plug-in, модуль расширения интернет-браузеров компании LizardTech. Он помогает просматривать и распечатывать документы, копировать текст (если в документе есть OCR-слой) или выполнять в нем поиск. Можно увеличивать изображение и поворачивать его. Среди прочих инструментов следует отметить линейку, предназначенную для измерения расстояния между элементами страницы. Из остальных программ чтения DjVu заслуживает упоминания WinDjView, обладающая русскоязычным интерфейсом.


Список упоминаемых программ и ресурсов

Any2DjVu Server http://any2djvu.djvuzone.org
LizardTech http://www.lizardtech.com
DjVuOCR http://djvuocr.ucoz.ru
MiniDjVu http://minidjvu.sourceforge.net
DjVuLibre http://djvulibre.djvuzone.org
WinDjView & MacDjView http://windjview.sourceforge.net
DjVuReader http://opendjvu.webhost.ru
JRAPublish http://www.jrapublish.com  

Купить номер с этой статьей в PDF
1746