Что написано пером

Для оцифровки многомиллионных бумажных архивов отечественным компаниям и госоргорганизациям потребуется не меньше десяти лет

В 2009 году объем мирового рынка программного обеспечения для потокового ввода документов и данных достиг 1,99 млрд долл., говорится в отчете исследовательской компании Harvey Spencer Associates, а к 2013 году, согласно прогнозу того же агентства, его объем составит 3 млрд долл. Показатели российского рынка пока существенно скромнее — примерно 10-15 млн долл., однако большинство экспертов сходятся во мнении, что его ждет большое будущее. Сегодня на российском рынке действует два основных игрока — это Cognitive Technologies и ABBYY, что касается западных компаний, таких как Kofax и EMC, то их присутствие малозаметно.

Активное создание электронных хранилищ документов, по словам руководителя проектов департамента систем управления документами ЛАНИТ Николая Лукина, в России началось всего восемь-десять лет назад и, по оценкам экспертов, объемы проектов по оцифровке документации увеличиваются ежегодно. Даже в период экономического кризиса они снижались несущественно, заметил Лукин. «В России начался переходный период, когда люди уже понимают целесообразность перехода на электронный документооборот, применения электронной цифровой подписи, но тем не менее еще не готовы к нему», — считает директор департамента общесистемных решений компании «АйТи» Сергей Гришин. По его прогнозу, пик востребованности данной услуги ожидается в ближайшие три-пять лет, а сама задача оцифровки бумажных документов будет актуальна еще в течение 10-15 лет, особенно для огромных архивов.

Сейчас многие компании заняты оцифровкой своих архивов, особенно активно процесс идет в банковском и страховом бизнесе. Эти компании, по словам старшего управляющего по корпоративным проектам «ABBYY Россия» Андрея Лубенца, одними из первых осознали эффективность оцифровки документов и запуска всех процессов согласования в электронном виде. Необходимость переводить документы в цифровой формат и создавать электронные архивы еще выше в государственных организациях, и многие из них уже сейчас, как отметил Лубенец, обращают на это самое пристальное внимание. По мнению руководителя сканерного отдела департамента информационных технологий компании «Крок» Тихона Григоренко, наиболее активно работа по оцифровке документов сейчас ведется в госсекторе. Однако по опыту Гришина, доля государственных заказчиков пока невелика, во многом из-за больших объемов архивов и высокой итоговой стоимости их оцифровки.

В целом же получается замкнутый круг: чем больше ежедневный документопоток и объемнее имеющийся бумажный архив, тем острее нуждается организация в переходе на электронный документооборот, но тем более затратным для нее оказывается этот переход. К сожалению, как отметил Григоренко, до сих пор немногие компании просчитывают рентабельность этого масштабного проекта, прежде чем принять решение. По его мнению, сначала необходимо выстроить систему делопроизводства и документооборота, чтобы правильно интегрировать в нее новые документы, и только потом поэтапно оцифровывать накопленный архив. При этом из-за трудоемкого ввода данных в архивы, затратного как по ресурсам, так и по времени, в некоторых случаях целесообразно передавать на аутсорсинг управление архивом, в том числе оцифровку и даже обработку документов, отметил Михаил Потапенко, руководитель департамента продаж программного обеспечения Cognitive Technologies.

Как считает директор департамента управления информацией Digital Design Василий Новиков, подавляющее большинство компаний пока предпочитают хранить документы в бумажном виде, с «живыми» печатями и подписями по той простой причине, что российское законодательство признает юридически значимыми только бумажные документы. Поэтому заметным толчком к развитию электронных архивов станет взятый самим государством курс на создание электронного документооборота и соответствующие изменения в законодательстве.

Кроме того, процесс оцифровки затруднен тем, что в подавляющем большинстве организаций бумажные документы в основном являются неформализованными, то есть не обладают четкой структурой, которая позволила бы с минимальными затратами не только перевести их в электронный формат, но и проиндексировать для систематизации и упрощения поиска в будущем.

В свободной форме

К неформализованным можно отнести не только печатные и рукописные документы, но и бумаги с неявной или нечетко выраженной структурой. В качестве примера такого неформализованного документа Варенец приводит договор. Он обладает определенной структурой: обозначены стороны договора, реквизиты, финансовые обязательства и пр., но отсутствуют четкие требования по размещению информации, которая в договоре содержится.

Наиболее сложны для обработки, по словам Варенца, финансовые документы с таблицами, в частности счета, счета-фактуры, накладные. Как правило, такие документы слабо формализованы. Счета, например, могут содержать информацию об услугах, товарах, их стоимости и количестве в произвольном виде. Дополнительные сложности, как добавил Потапенко, возникают из-за того, что печатаются счета-фактуры из различных программ по разным шаблонам. При этом документы данного вида могут быть как одностраничными, так и многостраничными, «перетекающими», включать таблицы, которые тоже могут «перетекать» со страницы на страницу, а число строк в таблицах может быть заранее неизвестно. Все эти факторы усложняют автоматизированную обработку.

В целом же существующие технологии анализа образов изображений не позволяют с высоким качеством извлекать информацию из неформализованных документов, отметил Гришин. По его словам, даже альтернативные методы, основанные на вероятностном и семантическом анализе, незначительно улучшают дело. С ним согласен и Потапенко, он признается, что в настоящее время задача обработки неформализованных документов в общем случае не решена, и полная автоматизация этого процесса применительно к данному типу объектов сканирования будет возможна только через год-два. На данный момент, подчеркнул Потапенко, такие документы обрабатываются лишь частично — распознается номер и некоторые другие реквизиты.

И все-таки основной проблемой, как считает Лукин, при обработке неформализованных документов остается распознавание рукописного текста, поскольку пока отсутствует научное обоснование этого процесса. По его словам, несмотря на то что время от времени компании, ведущие исследования и разработки в этой области, сообщают о новых достижениях, представляемые ими очередные версии ПО по-прежнему не могут обеспечить работу в реальных производственных условиях. С этой точкой зрения согласен и Григоренко.

Если же говорить об общем уровне качества распознавания текста, то сами компании-производители оценивают его довольно высоко. Например, в Cognitive под промышленным качеством распознавания подразумевают 90 и более процентов корректно распознанного текста, а в ABBYY стандартом является 99% уверенно распознанного текста, не требующего последующей верификации. В обоих случаях речь идет об обработке документов, заполненных машинным методом или от руки, но печатными буквами.