Жемчужины российского ПО

Предыстория

В.Л. Арлазаров В лаборатории А.А. Харкевича, известного ученого в области теории связи, велись активные работы по распознаванию символов, прежде всего букв и цифр. В то время теория информации и практика передачи сообщений по различным каналам связи переживали бурное развитие. Создавались первые мощные автоматизированные системы обработки информации, для которых, естественно, одной из важнейших проблем было распознавание образов. Но, к сожалению, еще не существовало технологически приемлемых решений даже по вводу информации в вычислительные системы, обычно требовался весьма трудоемкий ручной перевод в машиночитаемый вид. Поэтому в основном усилия направлялись на исследование подходов к проблемам распознавания и разработку алгоритмов для наиболее привлекательных модельных задач. Некоторые из них имели значительный практический интерес. Так, для автоматизации сортировки почтовых отправлений необходимо было обрабатывать почтовые индексы. Выполненные к тому времени в Лаборатории проблем передачи информации исследования по геометрическим моделям распознавания цифр позволили в рамках жесткого формата размещения их рукописных образов создать автоматы, существенно повысившие эффективность работы сортировочных узлов на Московском почтамте.

В последующие два десятилетия сформировалась замечательная научная школа во главе с М.М. Бонгардом, выпускником физфака МГУ им. М.В. Ломоносова, которая вплоть до его безвременной кончины в 1971 г. (он погиб на Памире) была ведущей в разработке эффективных алгоритмов распознавания образов. Не последнюю роль в этом сыграла написанная им книга «Проблемы узнавания», вышедшая в 1967 г. в Москве.

Пример здоровой конкуренции

В конце 80-х — 90-х годов научно-техническое направление, связанное с распознаванием образов, получает мощную технологическую поддержку в виде сканеров — широкодоступных устройств для оптического распознавания образов (OCR, оптического когнитивного распознавания). Это послужило серьезным основанием для создания отдельной ниши на ИТ-рынке, специализированной отрасли — производства OCR-устройств, -технологий и -программ. Существенный вклад в ее развитие внесли две российские компании — Cognitive Technologies и ABBYY Software House (далее CT и ABBYY) во главе со своими лидерами В.Л. Арлазаровым, выпускником механико-математического факультета МГУ им. М.В. Ломоносова, и Д.Е. Яном, окончившим факультет общей и прикладной физики МФТИ. Разработанные ими вместе с их сотрудниками технологии и программные продукты для распознавания текстов принесли им поистине мировую популярность. Первый стал известным ученым, членом-корреспондентом РАН, академиком Европейской академии наук и руководителем крупной фирмы, а второй — кандидатом физико-математических наук и весьма успешным бизнесменом. Замечательна история здоровой конкуренции возглавляемых ими компаний на ИТ-рынке на примере развития OCR-технологий и продуктов.

К концу 80-х годов завершается период «научных забав» с распознаванием простейших моделей текстов, которые представлялись для обработки в виде моноширинных образов, т.е. текстов, набранных шрифтами одинаковой ширины, а при распознавании сравнивались с эталонными символами, выбор же производился по правилу наиболее «близкого». Предлагавшиеся на рынке OCR-решения в лучшем случае работали с так называемыми специальными моноширинными шрифтами OCR-A и OCR-B и принадлежали к обучаемым системам. Поэтому оба будущих конкурента на рынке, компании CT и BIT Software, как тогда называлась ABBYY, начали с создания программ, позволяющих работать с печатными омнифонтовыми (шрифтонезависимыми) символами. Так, в 1992—1993 гг. появились программы CuneiForm Tiger for DOS (компании CT) и FineReader 1.0 (BIT Software).

Первая программа работала с эмулируемым омнифонтом и была обучаемой, а также позволяла распознавать текстовые образы низкого качества. Построенная на ее основе технология продемонстрировала качество работы по распознаванию выше, чем у человека.

Вторая программа не только позволяла работать с омнифонтовыми печатными символами, но использовала растровый классификатор и осуществляла целенаправленную проверку выдвинутых гипотез при принятии решения. Кроме того, для повышения качества распознавания слов осуществлялась их автоматическая проверка по словарю.

Выход в 1993 г. CuneiForm for Windows, версии программы для текстов на латинице, предоставлявшей пользователям возможность распознавания любых шрифтов без обучения (исключение составляли декоративные шрифты), позволил компании CT заключить первый ОЕМ-контракт, по которому программа была встроена как библиотека в популярный издательский пакет Corel Draw 3.0 и его последующие версии. В следующем году на рынке была представлена и русскоязычная версия CuneiForm for Windows, названная «интеллектуальной OCR-системой». Это означало, что с ней могли работать даже слабо подготовленные пользователи. В программе были также реализованы алгоритмы классификации текстовых стилей (курсив, жирность букв, подчеркивание), отделения линий разграфки и других шумовых элементов от полезной части текста.

В 1994 г. корпорация Hewlett-Packard заключает первый контракт с российским разработчиком ПО — компанией СТ, по которому все поставляемые в Россию сканеры HP комплектовались программой CuneiForm.

Ответным шагом компании ABBYY в конкурентной борьбе стал выпуск в 1995 г. версии программы FineReader 2.0. Ее отличали технологические новшества: распознавание символов велось комбинированно, применялись растровый классификатор и несколько признаковых. Значительно эффективнее стали операции деления слов на символы и выполнения словарной проверки. С данной версии в программу было включено адаптивное самообучение, выполняемое в процессе работы, что повысило качество распознавания, особенно при обработке символов нестандартного шрифтового начертания.

В том же году компания CT создает программу CuneiForm 2.0, которая позволяет распознавать и сохранять в выходном документе цветные изображения. В ней также реализован алгоритм «снятия» цветного фона с обрабатываемого образа в процессе распознавания. Программа компании CT получила международное признание, завоевав звание «Выбор редакции» французского журнала PC Expert и одержав победу над OCR-системой Omnipage Recognita в тестировании на точность и скорость распознавания. CuneiForm также побеждает в большинстве тестов, проведенных в РАН, и отдел информационно-технического обеспечения академии рекомендует широко использовать данную программу, а бюро Отделения информатики, вычислительной техники и автоматизации РАН отмечает при этом высокий теоретический уровень реализованных в ней разработок.

В это же время компания CT уделяет значительное внимание внедрению своего успешного OCR-продукта. Так, подписаны договоры с ведущими производителями периферийного оборудования компаниями Seiko Epson и Brother Corporation на включение программы CuneiForm во все поставляемые в Россию комплекты сканеров Epson, а в роликовые Brother IC-150 — в поставках по всему миру. С корпорацией Hewlett-Packard был заключен второй контракт, по которому ПО компании CT интегрировалось в программную среду ввода и обработки документов PaperPort, поставлявшуюся со сканерами. По договору с фирмой Inzer модуль распознавания из OCR CuneiForm был встроен в программу FaxLine, поддерживающую факсимильную связь. Интересным оказался совместный шаг компаний «Весть» и CT, который привел к пополнению комплектации ПО системы документооборота DOCs Open за счет программы CuneiForm.

В 1995 г. OCR-системы достигли промышленного уровня качества распознавания (т.е. приемлемого для пользователей). В дальнейшем они развивались уже как утилиты больших систем.

Следующий год в истории отечественных OCR-систем отмечен выходом продуктов FineReader 3.0 и CuneiForm’96. В первом из них был реализован усовершенствованный растровый классификатор, который позволял работать с приведенным изображением символа, когда особенности различных шрифтов не сильно влияют на качество распознавания. Также в программу был добавлен признаково-дифференциальный классификатор, позволяющий при распознавании использовать контекст. Кроме того, теперь при принятии решений о распознавании программа FineReader не только оценивает гипотезы относительно отдельных символов, но и проверяет гипотезы о целых словах.

В CuneiForm’96 впервые был применен алгоритм адаптивного распознавания, т.е. комбинирования алгоритмов распознавания печатных символов на основе шрифтового (multifont) и шрифтонезависимого (omnifont) их представления. С его помощью OCR-система генерирует внутренний шрифт для каждого вводимого документа, основываясь на хорошо пропечатанных символах, при этом используется динамическая настройка (адаптация) на конкретные входные символы. Таким образом, реализованный метод совмещает универсальность и технологичность шрифтонезависимого подхода и высокую точность распознавания шрифтового, что существенно повышает качество распознавания.

Компания CT объявила в 1996 г. о выпуске продукта для сканера-ручки (pen-scaner) и сетевой системы распознавания. На базе программы CuneiForm была создана версия Tiger for Primax DataPen, которая позволяла вводить в ПК смешанные русско-англий-ские тексты. Сетевая версия системы распознавания CuneiForm OCR Server серьезно увеличила количество пользователей, в России их число превысило 70 тыс.

В том же году были заключены OEM-контракты на комплектование поставляемых по всему миру многофункциональных устройств и сканеров системами Cuneiform LE и CuneiForm. Среди партнеров выступили компании Samsung Information Systems America (устройство OFFICE MASTER OML-8630A), Xerox (МФУ Xerox 3006 и Pro-610), Hewlett-Packard (HP ScanJet).

В соперничестве с ABBYY компания CT в 1997 г. начала применять технологии, основанные на нейронных сетях. В этом случае алгоритмы распознавания символов строятся следующим образом: поступающее на распознавание изображение символа (растр) приводится к некоторому нормализованному виду, при этом значения яркости в узлах нормализованного растра используются в качестве входных параметров нейронной сети (число этих параметров равняется числу распознаваемых символов). Результатом распознавания является символ, которому соответствует наибольшее из значений выходного вектора нейронной сети.

На платформе CuneiForm была разработана программа OCR MacTiger 2.5 — единственная в России OCR-система для компьютеров Macintosh. На рынке также появилась система CuneiForm 98 Collection, предназначенная в числе прочего для хранения и поиска введенной информации.

Компания ABBYY отметила 1998 г. выходом на мировой рынок и выпуском продукта FineReader 4.0, который вполне соответствовал условиям конкурентной борьбы. Вот лишь некоторые отличия от предыдущих версий. Реализована процедура повторной обработки неуверенно распознанных или вовсе не распознанных слов. Заведена обратная связь в процесс обработки на этапе завершения анализа страницы, когда можно вновь обратиться к объектам, неуверенно распознанным при первом проходе страницы. Это позволяло завершить обучение классификатора на материале страницы, что повысило качество распознавания в целом. Верификация распознанных текстов упростилась и стала удобнее. Встроенный текстовый редактор по возможностям уже не уступал известной программе WardPad. Список доступных в четвертой версии продукта форматов для экспорта документов расширился и включил HTML и PDF, а количество доступных для распознавания языков достигло 53.

Ответ компании CT: выпуск на рынок системы сетевого сканирования CuneiForm’98 NeST. Кроме того, после появления процессора Intel MMX и соответствующих технологических возможностей в CT разработали и внедрили OCR-систему CuneiForm MMX Update.

Продолжила CT и свою OEM-деятельность. В число ее партнеров, предустанавливающих программу CuneiForm на свои МФУ и сканеры, поставляемые в Россию, вошли фирмы Canon, OKI Europe Limited, Olivetti и снова Hewlett-Packard.

Последняя комплектует новые сканеры программами CuneiForm и встраивает модуль распознавания OCR-системы CuneiForm 98 Direct в ПО, поддерживающее сканирование, — HP Precision-Scan. В комплект поставки сканера HP ScanJet 5200 теперь включается программа Cognitive Office 98 SE.

На основе соглашения с французской фирмой WSKA компания CT осуществляет в Европе дистрибуцию продукта OCR Cuneiform Direct.

Готовясь к новому тысячелетию, CT разработала продукт CuneiForm 2000, в котором реализован метод когнитивного анализа, защищенный торговой маркой. Суть его в том, что внутрь ядра распознавания встроена возможность экспертной оценки, позволяющая проводить оценку альтернатив, получаемых на выходе каждого алгоритма распознавания, с целью выбора наилучшего варианта.

Разработан метод «меридианной сегментации таблиц», также защищенный торговой маркой, с помощью которого можно повысить точность воссоздания исходной формы таблицы в выходном документе. Реализован механизм воссоздания формы исходного документа, характеризуемый слоганом: «What you scan is what you get» (что сканируете, то и получаете).

В 2000 г. компания ABBYY предлагает на рынке продукт, демонстрирующий значительные технологические новшества. ABBYY FineReader 5.0 теперь включает контурный и структурно-дифференциальный классификаторы, поднимающие на новый уровень качество распознавания символов и передачу оформления исходного документа. Появились новые словари для контекстной проверки. Стало возможным распознавание документов на 176 языках.

Помимо того, пятая версия продукта значительно усовершенствована, в частности, улучшен и расширен пользовательский интерфейс, а также список поддерживаемых сканеров, добавлены новые форматы экспорта документов.

Для компании CT годы с 2000-го по 2007-й стали временем маркетинговых усилий и серьезной диверсификации деятельности в области OCR-систем, но об этом в следующем разделе статьи.

Тем временем ABBYY выпустила версии с 6.0 до 9.0 своей OCR-системы. Сначала был существенно доработан алгоритм многоуровневого анализа документа (MDA), улучшивший качество распознавания и точность воспроизведения внешнего вида документа. Введены процедуры IBF (Intelligent Background Filtering), позволившие отделять информативный текст от элементов оформления, адаптивной бинаризации и др. Улучшен экспорт в формат HTML со специальным режимом сохранения непрямоугольных картинок и обтеканием текста вокруг них, встроенный редактор теперь работает в режиме WYSIWYG. Осуществлена интеграция с Windows Explorer. Интеллектуальное ядро программы, называемое ABBYY FineReader Engine, используется не только в самой OCR FineReader, но и в других системах, в том числе в СЭД, при потоковой обработке документов, например в решениях Kofax, Cardiff, Canon DMS и других компаний. Облегченная версия программы ABBYY FineReader Sprint распространяется со сканерами и МФУ ведущих производителей, конкурируя с продуктами компании CT.

Седьмая версия ABBYY FineReader вышла в 2003 г. и содержала множество усовершенствований и ряд принципиально новых возможностей, в частности, был добавлен структурный классификатор, весьма существенно повысивший точность распознавания. Улучшилось качество работы с документами сложной верстки. Добавлены специализированные словари для английского и немецкого языков. В этой версии OCR-программы появился новый формат сохранения — Microsoft WordXML, что важно для пользователей Microsoft Office 2003. Интеграция позволила объединить возможности двух приложений. Улучшена поддержка формата PDF, теперь из документов в этом формате можно извлекать текст и использовать его для проверки результатов распознавания; кроме того, появилась функция редактирования распознанных PDF-документов. Расширены возможности экспорта документов: добавлено сохранение в формате PPT и улучшен экспорт в форматы DOC и HTML.

Удобный справочник в этой версии программы годится и начинающему работнику, и опытному — для облегчения ее настройки. Имеется версия продукта для работы в сети — ABBYY FineReader Corporate Edition, с расширенными возможностями по распознаванию штрихкодов, по наличию средств для разбиения изображений на фрагменты и для полнотекстового и морфологического поиска.

Восьмая версия FineReader, разработанная два года спустя после седьмой, при работе с документами допускала включение изображений, полученных с помощью цифровой фотокамеры, что в некоторых случаях избавляло от их сканирования. Таким образом, в этой версии программы реализован автоматический выбор способа обработки документа после автоматического же определения, откуда получено изображение. При этом точность распознавания текста на фотографиях повысилась на 40%.

Теперь появилась возможность автоматизированной обработки документов при распознавании путем составления так называемого сценария или последовательности типовых операций, выполнение которых производится нажатием кнопки. Имеется набор готовых сценариев, но не возбраняется и составление собст-венных. Благодаря новой версии продукта работа с трудно читаемыми документами стала эффективнее, чем с применением OCR-программ предыдущих версий. Для документов с простым оформлением, в первую очередь для хорошо отсканированных, в программе предусмотрен ускоренный режим обработки.

Начиная с ABBYY FineReader 8.0 в состав продукта входит утилита ABBYY Screenshot Reader, позволяющая распознавать текст в любой области экрана ПК. В корпоративном издании этой версии имеется еще одна утилита, ABBYY Hot Folder & Scheduling, — приложение-планировщик для автоматической проверки в указанное время локальных, сетевых и FTP-папок. Это позволяет пользователю управлять входным потоком документов.

К функциям обработки PDF-файлов добавлены задание пароля на открытие такого файла, изменение права доступа, выбор уровня шифрования. Включены два новых распознаваемых языка и словарная поддержка, а также формат экспорта LIT (Microsoft Reader e-book). Возможно распознавание и сохранение гиперссылок.

Продукт ABBYY FineReader 9.0 — последняя из вышедших версий OCR-программы. Ее отличает прежде всего то, что процесс распознавания охватывает связанные страницы и многостраничные документы. Для этого ABBYY пришлось разработать ADRT (Adaptive Document Recognition Technology, технологию адаптивного распознавания документов), позволяющую работать со связанными документами. Она также служит для определения элементов логической структуры документа: верхних и нижних колонтитулов, сносок, подписей к картинкам и диаграммам, стилей, шрифтов, номеров страниц.

Пользовательский интерфейс продукта девятой версии существенно переработан, теперь можно действовать исходя из выбранного сценария, что существенно сокращает время выполнения заданий. Распознавание цифровой фотографии стало проще. Электронную копию сфотографированного документа можно получить одним нажатием кнопки мыши, а затем сохранить ее в нужном формате.

Использование сетевых факсов и МФУ для последнего редактирования стало намного удобнее, так как документы приходят к пользователю от этих устройств в виде вложений в электронные письма, доставляемые в определенную папку почтового ящика. Программа ABBYY FineReader 9.0 распознает факсы и отсканированные документы в назначенное пользователем время и сохраняет в любой назначенной папке на ПК. Помимо того она поддерживает новые форматы сохранения документов: PDF/A, DOCX, XLSX.

Таким образом, сегодня программа ABBYY FineReader 9.0 обеспечивает высокую точность распознавания и обладает значительным набором функций, что обеспечивает ей востребованность при решении широкого класса задач.

OCR-системы сегодня

Прежде всего следует отметить, что технологии распознавания образов стали существенными составляющими различных информационных систем. Отсюда и возникли проблемы, связанные с диверсификацией бизнеса, у компаний, занимавшихся в основном OCR-технологиями. Практический выход у CT, можно сказать, сложился с опережением. Проект «Евфрат» предоставлял постоянную возможность для интеграции OCR-технологии в подсистему ввода документов, что, естественно, реализовывалось в различных версиях информационной системы «Евфрат-Документооборот». В частности, она включала для работы в локальном офисе корпоративной системы следующие модули и технологии: просмотра печати, распознавания «на лету» (Drag&Recog), встроенный генератор отчетов, морфологический анализ текста, механизмы работы с иерархическими словарями и справочниками, встроенные средства взаимодействия удаленных серверов. В территориально-распределенной организации этот продукт позволяет решать задачи управления обработкой документов.

Другое направление использования OCR-технологий — создание систем потокового ввода широко используемых на практике документов, потребовавшее развития таких способов обработки, которые прежде всего удовлетворяли пользователей по производительности, а ограничения по их формату не снижали уровня автоматизации, т.е. не требовали постоянного ручного вмешательства. Для этого направления выпущен ряд продуктов: Cognitive Forms Network — программный комплекс для массового ввода и обработки бумажных документов печатного и рукописного заполнения (счета-фактуры, платежные поручения и т.п.); Scanify API — программный интерфейс, реализующий функции сканирования документов и интеллектуальной обработки отсканированных изображений, распознавания полей, обеспечивающих доступ к реквизитам документов; Cognitive Forms Bank — решение для ввода платежных поручений и требований в одном пакете документов. Компания СТ предложила ряд таких решений для банковской сферы и в рамках проектов по ФЦП «Электронная Россия». Например, реализованы разработки подсистемы потокового ввода для Сбербанка и подсистемы электронного проведения госзакупок в региональной ИС администрации Владимирской области. В целом направление OCR CuneiForm — утилита для больших систем — вылилось в 15 контрактов на встраивание модулей распознавания в различные корпоративные ИС (например, юридической компании «Городисские и Партнеры» или фирмы «Синергетические системы»).

В последнее время в связи с общим интересом к разработке OpenSource-решений, в частности на государственном уровне, компания CT, придерживаясь лозунга «распознавание должно быть на каждом компьютере!», развивает подход OCR CuneiForm — свободно распространяемая программа (freeware).

Уже сегодня можно переписать полную версию программы с сайта компании CT. Исходные тексты программы CuneiForm с марта 2008 г. размещены на сайте www.Cuneiform.ru для работ по созданию новой версии с участием всех желающих. Компания ABBYY также активно использует свои наработки в области OCR-технологий, прежде всего применяя их в решениях для потокового ввода документов. Созданные ею соответствующие программные продукты, такие как ABBYY FineReader, ABBYY FormReader и специальное приложение для ABBYY FlexiCapture для работы с документами сложной структуры, нашли широкое применение. Для распознавания и конвертации документов разработаны две версии программного комплекса ABBYY PDF Transformer, позволяющие осуществлять гибкую обработку документов и интеграцию с другими системами. В последнее время компания ABBYY ищет возможности высокопроизводительной автоматизации распознавания и конвергенции документов в формат PDF и из него, а также высокой скорости обработки массивов изображений и централизации управления процессами и интегрируемости с другими системами. С этими задачами справляется программный продукт ABBYY Recognition Server, выпущенный в двух версиях.

Для перевода слов и словосочетаний и повышения качества распознавания путем их проверки разработан электронный словарь Lingvo 12, поддерживающий 10 языков.

Используя упомянутые и другие свои продукты, компания ABBYY осуществила ряд успешных проектов, а именно: автоматизированный ввод машиночитаемых форм налоговых деклараций и справок о доходах в Государственной налоговой службе РФ, ввод платежных документов клиентов Сбербанка РФ, ввод машиночитаемых форм анкеты застрахованного лица и индивидуальных сведений в Государственном пенсионном фонде РФ.

Подводить итоги соревнования двух замечательных отечественных фирм — ABBYY Software House и Cognitive Technologies — в условиях рыночной жизни пока рано. Надеемся на их дальнейшие успехи.