Открытый код в OCR

Новый инструментарий позволит разработчикам встраивать функции оптического распознавания текстов в собственные приложения

Группа сотрудников Санкт-Петербургского государственного университета объявила о первых итогах нового проекта по оптическому распознаванию текстов.

Работа стартовала в октябре прошлого года, и вскоре проект получил поддержку петербургской компании Digital Design.

По словам одного из инициаторов проекта, доцента факультета «Прикладная математика — процессы управления» Валерия Гришкина, идея разработать «открытую» программу возникла как продолжение научных исследований, ведущихся на факультете.

Сегодня имеется ряд известных коммерческих OCR-программ, таких как FineReader, CuneiForm, и других, обладающих превосходными характеристиками. Однако применяемые в них алгоритмы закрыты.

«Практическая ценность проведенных исследований очевидна», — считает директор департамента развития и исследований Digital Design Владимир Габриель.

Несмотря на наличие аналогичных проектов, действительно работающих продуктов с открытым кодом, позволяющих встраивать функции распознавания текста в собственные программные системы, немного.

Особенно остро эта проблема стоит для отечественных разработчиков, так как большинство известных западных аналогов не поддерживают распознавание кириллических текстов.

Для информирования о проекте открыт сайт http://ocr.apmath.spbu.ru, где все желающие могут познакомиться с описанием разработанных алгоритмов и частью программных кодов для их реализации.

Тесты показали почти 100-процентное распознавание отдельных символов, а правильность распознавания текста находится на уровне 85%. Основную долю ошибок вносит алгоритм сегментации символов. Для повышения его качества предполагается дополнить систему обратными связями, которые позволят в случае неустойчивого распознавания отдельных символов проводить повторную сегментацию слов.

Наряду с новым алгоритмом сегментации символов, в стадии исследования находятся работы по обработке более сложных страниц, содержащих отдельные многоколоночные статьи, картинки, заголовки, выполненные другим шрифтом, и т. д. В ближайших планах — существенная переработка апплета, позволяющего посетителю Web-сайта проекта со своего компьютера преобразовать отсканированное изображение в текстовый файл.

«Поддерживая проект OCR с открытым кодом, мы не отвергаем коммерческие продукты», — утверждает директор центра компетенции электронного документооборота Digital Design Владимир Андреев. В настоящее время компания использует в собственном продукте DocsVision систему оптического распознавания FineReader компании ABBYY.

Однако, по его мнению, хотя системы OCR на основе открытого кода могут и не обладать всеми возможностями коммерческих продуктов, их применение для решения специальных задач часто оказывается эффективным за счет более полной и гибкой интеграции с уже работающим программным обеспечением.