В настоящее время основными задачами, которые необходимо решить для усовершенствования процесса оцифровки бумажных документов, являются снижение требований к качеству бумажного оригинала, повышение скорости обработки полученной информации и экономному хранению электронных образов. Компания Cognitive Technologies для их решения разработала технологию Cognitive ScanPack.

Она позволяет осуществлять пакетное сканирование и сжатие изображений документов. Кроме того, в результате использования новых алгоритмов анализа изображений расширился круг качественно распознаваемых документов и обеспечилось их сохранение в виде pdf-файлов, имеющих объем, в 4--10 раз меньший, чем у файлов в популярных графических форматах JPEG и др. 

Технология Cognitive ScanPack позволяет не только распознать текст
на подобных документах, но и сохранить их в небольшом объеме
для последующего воспроизведения в электронном виде 

 

  Общие сведения о Cognitive ScanPack

Казалось бы, выгода от электронной формы представления материалов очевидна. Прежде всего, она поддерживает более высокую степень доступа пользователей к фонду документов, избавляет от заботы по хранению оригиналов, а также обеспечивает возможность многопользовательской работы и удаленный доступ, что принципиально невозможно при обычной организации функционирования документооборота. Однако до сих пор масса текстов представлена на бумаге, так что для перевода в электронную форму их надо сканировать. При этом плохое состояние оригинала накладывает ограничения на скорость сканирования и качество получаемых образов, а также может негативно сказываться на памяти, требуемой для хранения. Решение ScanPack улучшает эти показатели благодаря применению фирменной технологии Cognitive PDF/A структурного представления документов, опирающейся на стандарт ISO 19005-1:2005, для их долговременного хранения. При ее использовании отсканированный документ преобразуется в два вида структурных слоев -- текстовый и графический. Они порождают специальные файлы, подвергающиеся собственным видам обработки по фирменным алгоритмам. Так, текстовые файлы сканируются с помощью программы распознавания с ядром CuneiForm. Графические слои формируются в виде файлов в формате PDF/A, которые соответствуют образам иллюстраций, печатей, подписей и т.п. Заканчивается обработка сборкой слоев в электронный образ документа в виде pdf/a-файла.

Особенности алгоритмов обработки

Для получения высокого качества электронных копий разработчики ScanPack уделили большое внимание описанию слоев документов. Это позволило с большой детальностью формализовать представление различных слоев, а затем и применить интеллектуальные алгоритмы в программах их обработки, чтобы достичь одновременно высокой точности и степени сжатия файлов, образующих слои документа.

Так, еще на стадии расслаивания документа предусмотрена типизация информации из него, позволяющая выбирать наиболее подходящие алгоритмы обработки. Например, идентификация текстовой и графической части страницы приводит не только к возможности детального учета параметров текста, включая его шрифтовые, цветовые и другие особенности, но и к топологии, сохраняя связи с графикой страницы и подготавливая сжатие файлов слоев. Более того, учет различий в параметрических описаниях страниц документов позволяет выстраивать в алгоритмах обработки свои  цепочки операций, что интеллектуализирует технологический процесс перевода документа в электронную форму.

В частности, применение к текстовой части ядра Cognitive CuneiForm на базе нейронных сетей дает возможность работать как со шрифтовыми, так и со шрифтонезависимыми алгоритмами.

Для увеличения коэффициента компрессии текстовые и графические файлы сжимаются по-разному. Вследствие важности информации текстовой части документа соответствующие слои сохраняются с разрешением исходного документа, для чего используется алгоритм кодирования без потерь -- CCITT Group 4, а для графических слоев производятся приведение к разрешению 100 тнд и кодирование алгоритмом JPEG.

После этого наступает завершающая фаза оцифровки документа. В ходе ее все файлы распознанного текста и графических слоев сохраняются в формате PDF/A.

  ***

Для чего нужны все приведенные выше ухищрения? Вот конкретный пример, полученный в результате применения технологии Cognitive. Файл с отсканированным страховым полисом ОСАГО при хранении в формате JPEG будет занимать 2,42 Мбайт (в разрешении, пригодном для дальнейшего воспроизведения), а при сжатии с помощью ScanPack -- всего 408 Кбайт (при сравнимом качестве электронного образа).