Реальность и перспективы автоматического чтения рукописей

Средства естественного общения человека с компьютером по-прежнему продолжают привлекать внимание специалистов информационной индустрии и одним из самых заметных явлений здесь является автоматическое чтение рукописных документов, которое давно прошло стадию экспериментов и превратилось в реальную технологию обработки данных, применяемую государственными и коммерческими организациями.

Сегодня весьма широко распространился оборот — «распознавание рукописного текста» или распознавание рукописи, хотя термин «распознавание», строго говоря, можно отнести лишь к отдельным объектам: символам, графемам и т.д. Точнее будет говорить о процессе автоматического чтения рукописных текстов. Этот процесс состоит из нескольких звеньев и распознавание лишь одно из них. Но для краткости и следуя традициям, будем пользоваться также термином распознавание, применяя его ко всему тексту.

О чем идет речь

Тема чтения рукописных текстов серьезно стала обсуждаться на рубеже 50-х и 60-х годов одновременно с появившимися тогда публикациями по распознанию образов. Первыми крупными проектами были обработка почтовой корреспонденции, перепись населения, анкетирование. Для реализации процесса обработки применялись дорогостоящие аппаратные средства — оптические читающие устройства. Постепенно их стали соединять с управляющими машинами, и в конечном итоге, система автоматического чтения превратилась в объединение сканера и одного или нескольких ПК. Сфера применения технологии расширилась, увеличилась гибкость, упала стоимость, и получили развитие работы и меньшего масштаба, ориентированные на корпоративные нужды.

Однако, вопреки первоначальному ожиданию, прогресс в распознавании шел значительно медленнее, чем развитие компьютерной отрасли в целом. Стало понятно, что чтение слитного рукописного текста еще не достигло необходимого для применения уровня, поэтому практически все реальные проекты использовали специальные машиночитаемые бланки с выделенными знакоместами. Эти знакоместа обозначались точечными рамками или выделялись цветом, не воспринимаемым сканером. Таким образом, задача чтения естественного рукописного текста сводилась к более простой — распознаванию изолированных рукописных символов.

Такая задача имеет вполне приемлемые практические решения, но для получения требуемой надежности приходится вводить ограничения на свободу написания. Наиболее простой путь — введение стилизованного начертания, как на почтовых конвертах не принес ожидаемого успеха, так как человеку не свойственно постоянно и во всем следовать рекомендациям-ограничениям. В дальнейшем, многие почтовые ведомства сделали попытку ослабить требования к стилю написания и достигли заметного успеха, но говорить об окончательном решении проблемы пока не приходится. В условиях неограниченного контингента пишущих очень трудно рассчитывать на их умение и сознательные ограничения при письме. Оказалось, что даже в таких проектах как перепись населения или опрос граждан, где бланки заполняют специально обученные люди, далеко не всегда соблюдается элементарная аккуратность. Таким образом, несмотря на реальные и заметные успехи проектов, построенных на чтении рукописи, проблема повышения надежности распознавания и снижения требований к стилю и аккуратности заполнения далеко не исчерпана. Причем, острее всего она стоит при обработке документов, предназначенных для населения и заполняемых независимо от грамотности, сознательности, возраста и даже состояния пишущих на момент заполнения.

Надежность автоматизированного ввода

Корректная оценка надежности использует два показателя: уровень отказов от распознавания и уровень ошибок. Отказы предъявляются оператору, который вручную выполняет коррекцию. (Такой процесс часто называют верификацией данных). Чем больше устанавливается уровень отказов, тем меньше оказывается ошибок, но во всем нужна мера, например, при уровне отказов 100% система не сделала бы ни одной ошибки, но оператор был бы вынужден ввести все данные вручную. Обычное соотношение — это уровень отказов в несколько раз выше уровня ошибок.

Каковы абсолютные показатели? Естественно, они очень сильно зависят от качества текстов и условий эксплуатации. В реальных, жестких условиях проведения переписи во многих регионах одновременно количество ошибок, по сведениям Госкомстата, в среднем было менее одной на тысячу знаков, а на материалах предварительной переписи, при соблюдении некоторых вполне посильных требований (писать аккуратно и использовать хороший пишущий инструмент) одна ошибка приходилась на несколько тысяч и более знаков. Для увеличения надежности ввода в целом производится автоматический контроль по формально-логическим или орфографическим правилам, которые, по меньшей мере, в несколько раз снижают уровень ошибок. При правильно организованной технологии автоматизированного ввода рукописных данных надежность оказывается существенно выше, чем при чисто ручном вводе, а, учитывая утомляемость операторов во время рабочей смены, это различие может возрасти еще больше.

Качество рукописных символов

Рис.1. «Витиеватые» символы

Итак, надежность распознавания очень сильно зависит от качества изображений символов, которое определяется формой символов или стилем написания и способом выполнения.

Рис. 2. Символы с конфликтным начертанием

Хороший стиль написания означает, что знак по форме легко узнаваем, не содержит лишних деталей (декоративных украшений, рис. 1), но все необходимые элементы присутствуют. Кроме того, форма не должна вызывать конфликтов при определении человеком принадлежности символа ко вполне определенному классу (рис. 2). Реально оказывается, что символы, написанные различными людьми, отличить по классам очень трудно или вообще невозможно.

Рис. 3. Качество выполнения знака

Хорошие по выполнению знаки подразумевают неразрывность штрихов, гладкость краев (отсутствие «бахромы»), отсутствие ложных касаний или полных заплывов (рис. 3). Качество выполнения зависит не только от человека, но и от пишущего инструмента, от бумаги и процесса сканирования. Дополнительные помехи возникают от фона на машиночитаемой форме.

Реально требования к качеству символов полностью не выполняются, поэтому прямые ошибки и конфликтные ситуации устраняются путем логических и словарных проверок и вмешательства операторов.

Базы изображений символов

Разработка системы распознавания, ее тестирование, а также сравнение систем между собой невозможно без баз изображений символов. Идеально, такие базы должны содержать три части:

разнообразные по стилю, но лишенные конфликтов по форме и хорошие по выполнению символы;
конфликтные по форме символы с хорошим качеством выполнения;
символы с нарушением требований к качеству выполнения.

Каждая из этих частей выполняет свою задачу при разработке и тестировании. К сожалению, нам неизвестны корректные по содержанию и доступные разработчикам базы. (Обычно это внутренние базы для разработчиков, выполненные в специальном формате и не предлагаемые для внешнего применения. Разработчики из разных компаний, будучи конкурентами не обмениваются этими данными). Открытая база, предлагаемая американским институтом стандартов NIST, не удовлетворяет этим методологическим требованиям, довольно однообразна по стилям и, к тому же, содержит прямые ошибки. Поэтому пришлось создавать собственную базу путем целенаправленного заполнения и сбора исходных данных, а также непосредственно при выполнении проектов. Сейчас эта база содержит несколько миллионов символов и постоянно пополняется.

Процесс распознавания

Распознавание рукописных символов заметно отличается от аналогичного процесса обработки печатных знаков. Это различие обусловлено высокой вариативностью формы рукописного варианта и методы, принятые для печатного текста, здесь не работоспособны.

Основой методов распознавания, определяющей успех в целом, являются способы описания символов. Не касаясь деталей, можно выделить две составляющих такого описания: описание базовых форм символов в виде структурных элементов и их отношений; задание диапазона изменений параметров элементов и их отношений.

Типы структурных элементов многократно описаны в литературе (например, [1]). В качестве таковых используются отрезки прямых, дуги, выпуклости, вогнутости, пересечения, концы и некоторые другие. Решающим здесь является правильный выбор некоторого минимального набора типа структурных элементов, параметров, описывающих их, и методов измерения. Удача в решении этой задачи целиком зависит от квалификации, опыта и интуиции разработчиков.

Рис 4. Примеры базовых форм

Базовые формы (рис. 4) меняются, когда в символах возникают новые соединения или разрывы штрихов, или же пропадают или появляются некоторые детали на изображениях символов.

Описание базовой формы как списка определенных структурных элементов вместе с таблицами диапазона параметров образует эталон, а набор всех эталонов данного класса представляет полное эталонное описание класса.

В процессе распознавания каждый входной символ представляется аналогичным с базовыми формами образом, а затем находится наилучшее совпадение входного символа и какого-то эталона с точки зрения соответствия их структурных элементов. Если удовлетворительного совпадения нет, то происходит отказ от распознавания. Если два или более эталонов различных классов дают близкое совпадение, то ответ — неопределенный и выдаются несколько гипотез. Для выбора единственного ответа производится более тонкое сравнение, но не на всех эталонах, а только на выдвинутых гипотезах. При этом во внимание принимаются элементы изображения, отличающие похожие начертания разных классов. Например, цифра «З» отличается от «Э» наличием впадины справа. Однако реально такие казалось бы очевидные характеристики бывают настолько неустойчивыми, что приходится прибегать к более тонким и целенаправленным измерениям, зависящим от уже высказанной гипотезы. Мы называем этот механизм «навязыванием». Если и эта процедура не приводит к единственному выбору, то правильная гипотеза определяется в процессе автоматического контроля или вручную оператором.

Для достижения оптимального сочетания соотношения производительность-надежность часто применяют систему двух распознающих «экспертов». Первый работает намного быстрее, но часть входных символов оставляет в виде сомнительных, второй эксперт работает медленнее, но более скурпулезно.

Возможности автоматизации

Несколько слов стоит сказать о том, что собой представляют исходные рукописные документы, пригодные для современных систем ввода. При решении реальных задач по вводу рукописных документов работа идет не с гладким текстом, а с хорошо структурированной информацией: анкеты, квитанции, таможенные декларации и т.п. В них задаются поля с однородными по смыслу данными: фамилии, имена, адреса, суммы платежей, наименования товаров, даты и т.д. Однако чтение такого рода документов осложнено тремя проблемами:

наличием сплошных линий, задающих позиционирование информации, на которые может накладываться текст;
слитным написанием слов, многократно усложняющим задачу выделения отдельных символов;
небрежностью и неоднозначностью написания текстов.

Общепринятым решением, существенно снижающим остроту проблемы, является введение специального вида машиночитаемых структурированных документов, содержащих выделенные знакоместа, на которые наносятся рукописные символы. Эти знакоместа обозначаются точечными рамками или выделяются цветом, не воспринимаемым сканером. Удаление точек является существенно более простой и однозначной проблемой, чем нахождение сплошных линий в традиционных бланках.

Проблема аккуратности написания во многом решается самим способом раздельного размещения символов, заставляющих людей на интуитивном уровне писать более тщательно, чем при слитной скорописи. Помимо рукописных символов в таких бланках часто используются метки, наносимые в виде жирных черточек, галочек, крестов и т.д. Для удобства позиционирования в углах бланков наносятся маркеры, имеющие легко узнаваемые конфигурации в виде углов, квадратов и т.д. В некоторых случаях позиционирование делается по информации общего вида, имеющейся на бланках, однако этот способ менее надежен и требует дополнительного времени для обработки. На рис. 5 приведены примеры машиночитаемых документов для переписи населения и для Единого государственного экзамена).

Рис. 5. Примеры бланков

Машиночитаемые бланки могут тиражироваться типографским способом, как для переписи, или генерироваться и распечатываться на месте по индивидуальным требованиям, как в задаче контроля знаний учащегося.

Возможные решения

Пожелания потребителя относительно системы ввода рукописных текстов достаточно понятны и могли бы быть сформулированы всего в нескольких позициях:

удобство и простота в освоении и в работе;
существенное снижение затрат при вводе;
надежность процесса обработки;
минимальная стоимость системы;
возможность конфигурирования и настройки под заказчика;
возможность быстрой модификации существующей системы, если средств настройки недостаточно для удовлетворения требований потребителя.

Система ввода обычно реализуется в виде программно-аппаратного комплекса, выполняющего завершенный технологический цикл: сканирование бумажных оригиналов; распознавание машиночитаемых бланков; формально-логический и словарный автоматический контроль распознанной информации; ручная верификация данных; запись выходной информации в необходимом формате и ее хранение. В комплекс включаются также средства проектирования машинописных бланков и настройки функций автоматического контроля.

В зависимости от особенностей применения предлагаются диаметрально противоположные по конфигурации решения: с централизованным вводом и высокопроизводительным сканером; с распределенным вводом и сканером с ручной или медленной подачей.

Первый способ пригоден при накоплении больших объемов документов и значительных ограничениях на время ввода (перепись населения, социологический опрос), второй — при обработке данных непосредственно на местах их подачи (прием заявлений от граждан, оценка письменных ответов учащихся).

Централизованный способ обработки был применен для переписи населения 2002 года. Комплекс ввода и обработки «Свод М1» был поставлен в несколько десятков регионов и был задействован в ходе сбора первичных документов.

Распределенный способ обработки применяется для проекта по Единому государственному экзамену, где информация вводится непосредственно на местах ее возникновения, т. е. в учебных заведениях.

Применения

Существующими и потенциальными сферами применения автоматического чтения являются любые области, где ручной ввод рукописных текстов недопустим с точки зрения затрат времени и усилий.

Первая группа применений характеризуются тем, что количество людей, заполняющих документы, может быть велико, но имеет вполне определенные рамки. Сам же документ строго формализован или при приеме документов производится их строгий контроль по качеству текстов. Обычно, это специальные проекты (перепись населения, социологический опрос, прием налоговых деклараций) или корпоративные проекты (медицинские и образовательные учреждения). Особенностью этих проектов является, как правило, возможность тщательной подготовки документов и технологии обработки.

Вторая группа применений более многочисленная. Ее условно можно назвать — применения для работы с гражданами. «Человека с улицы» невозможно ни обучить, ни заставить писать строго согласно требованиям — ему можно только предложить легко понимаемую и просто заполняемую машиночитаемую форму, но стиль реального написания и его качество требуют от системы принципиально более высокой надежности автоматизированного ввода.

Альтернатива автоматическому распознаванию в виде работы оператора по первичным документам или заявлениям граждан создает трудности при массовом обслуживании населения, а другие способы ввода, использующие весьма разнообразные и плохо структурированные печатные документы или персональный доступ в Internet, не способны в обозримое время изменить эту ситуацию.

Примеры работы с населением чрезвычайно многочисленны:

прием страховых заявлений;
прием квитанций о коммунальных и иных платежах;
регистрация автомобилей при постановке на учет и снятии с него, обработка документов о дорожно-транспортных происшествиях;
прием заявлений граждан в организациях самоуправления и многочисленных конторах по обслуживанию жилого фонда;
прием рекламных объявлений;
регистрация населения в паспортных столах;
прием запросов в любых коммерческих фирмах, предоставляющих услуги;
регистрационные палаты всех видов; прием всех видов заявлений и анкет в кадровых агентствах, учебных заведениях, военных комиссариатах и т. д.;
обработка почтовых отправлений;
регистрация приезжих и беженцев;
подготовка документов в нотариальных конторах; прием таможенных деклараций;
прием визовых заявлений; и т.п.

Особенностью этих достаточно разнообразных применений является то, что ввод, как правило, осуществляется на местах и распределенный способ обработки является наиболее подходящим.

В настоящий момент более значительные достижения по внедрению получены в первой группе, однако в последнее время заметен существенный прогресс и во второй, которая характеризуется большей динамичностью.

Следующие шаги

Повышение надежности распознавания символов

Новый уровень надежности распознавания означает улучшение эффективности его применения в традиционных сферах и открывает для использования другие области, ранее считавшиеся неподходящими из-за низкого качества заполнения документов. Как следствие, это означает, с одной стороны, снижение или ликвидацию неприятных последствий из-за проникновения ошибок в выходные данные и уменьшение издержек на ввод, а с другой, значительное расширение рынка применений.

Повышение надежности происходит как путем регулярного улучшения описания знаков на постоянно расширяющейся выборке, так и введением более совершенных методов распознавания и обработки символов.

В планах такой мощный прием повышения качества распознавания как настройка на индивидуальные особенности почерка. Эта операция улучшает помехоустойчивость процесса распознавания, позволяет учесть редко встречающиеся особенности написания и, самое главное, избежать конфликтов близкого написания символов различных классов. Эти конфликты часто встречаются у различных людей, но каждый человек обычно избегает таких написаний в собственном тексте просто на интуитивном уровне, без специального обучения. Настройка происходит автоматически по мере накопления знаний об особенностях почерка. К минусам такого подхода относится его низкая эффективность при малых объемах текстов.

Как некоторый компромиссный вариант может работать схема настройки на наиболее типичные стили для данного региона, данной страны и т. д. Известно, например, что некоторые способы написания очень редко встречаются для одной общности людей и весьма характерны для другой.

Чтение слитных текстов

Оказывается, что даже в машиночитаемых документах, требующих раздельного написания символов людям трудно безукоризненно выполнить это требование. Потому, наряду с повышением надежности обработки изолированных символов, актуальной для продвижения технологии распознавания текстов является задача чтения слов со слияниями знаков. К счастью, в большинстве случаев эти касания знаков являются частичными и редко распространяются на все слово.

Чтение слов со слияниями опирается на два процесса: выделение знаков в слове и их распознавание и проверка всего слова по словарю. При этом приходится проверять все варианты деления и наличия соответствующих слов в словаре. При обработке чисто цифровых записей задача обработки слияний усложняется, однако и там могут быть определенные правила: допустимые значения цифр и чисел, длины записей, контрольные суммы, ограничения на ширину и положение знаков и т.д. Иначе говоря, крайне редко бывают абсолютно бесконтекстные ситуации.

Обработка реальных документов

Реальные рукописные документы заметно отличаются от машиночитаемых:

в слове символы имеют касания;
знакоместа выделяются не для символов, а для одного или нескольких слов;
знакоместа определяются не точечными рамками или нечитаемым цветом, а сплошными черными линиями;
текст может быть написан достаточно небрежно.

К счастью, большинство существующих рукописных документов имеет явно выраженную структуру, а многие символы написаны изолированно, что, по-видимому, интуитивно ассоциировано у людей с разборчивым заполнением документов. Примеры таких документов мы находим в ведомостях, журналах, накладных, путевых листах, формализованных протоколах.

О задаче чтения слов со слияниями мы уже говорили, однако наличие черных позиционирующих линий осложняет задачу. Линии выделяются как объекты, имеющие характерную форму длинных отрезков, которая заметно отличается от изображений символов. Если эти линии накладываются на некоторые из штрихов, образующие символы, то задача распознавания становится неоднозначной и требует перебора вариантов.

В целом, общие подходы к решению задачи чтения реальных рукописных документов или достаточно свободных по форме машиночитаемых бланков вполне понятны и реализуемы. Имеются примеры обнадеживающих экспериментальных результатов, однако практические достижения пока заметно уступают традиционным решениям со строгими машиночитаемыми формами. Созревание рынка для более широкого применения технологий автоматического чтения рукописи будет стимулом для следующего шага, который вызовет перевод научных результатов в практическую плоскость.

Чтение текстов on-line

Эта задача является вполне реализуемой на основе методов, используемых для off-line чтения. Сегодня получены вполне обнадеживающие промежуточные результаты, однако дальнейшая разработка тормозится из-за отсутствия достаточно большого и прогнозируемого рынка потребления таких систем. Пока объем продаж компьютеров с ручным вводом текстов невелик, а качество программ распознавания на русском языке оставляет желать лучшего.

Следует сказать, что для on-line распознавания проблема чтения слитных текстов гораздо более актуальна, чем для off-line, но зато она имеет более устойчивые решения, так как при движении пера имеется информация о порождающей траектории и, стало быть, о последовательности введения отдельных знаков.

ЗАКЛЮЧЕНИЕ

Еще лет десять назад мало кто мог себе представить возможности массового применения систем рукописного распознавания. Компании КРОК удалось создать и внедрить технологию распознавания рукописных документов, которая нашла широкое применение при автоматизации процессов голосования, переписи населения, выполнения различных проектов Госкомстата и Единого государственного экзамена), а также в ряде других проектов для коммерческих и государственных организаций. Созданная технология и отдельные решения на ее основе могут быть настроены на конкретное применение в задачах, опирающихся на чтение рукописных документов.

Литература

К. Фу. Структурные методы в распознавании образов. М.: МИР, 1977

Андрей Шаин (AShain@croc.ru) — заместитель директора департамента информационных технологий компании КРОК, Борис Мазо (bmazo@croc.ru) — руководитель проектов по распознаванию компании КРОК.

Различают два вида технологии распознавания рукописи: традиционное направление чтения бумажных документов, называемое «автономным» (off-line), и более позднее — «оперативное» (on-line), в котором в качестве инструмента используются перо и специальный экран или панель, восприимчивые к движению пера и фиксирующие его траекторию. Знания о траектории дают дополнительную и очень существенную информацию для распознавания. В данной статье рассматриваются только off-line процессы, но многие методы распознавания носят универсальный характер и могут быть успешно перенесены на распознавание в режиме on-line.

История разработки

В компании КРОК удалось собрать вместе специалистов по распознаванию символов, многие из которых были пионерами таких исследований в стране (первый опыт успешного внедрения относится еще к 60-м годам). Базовая технология разрабатывалась в компании ОКРУС, привлекшей специалистов из нескольких организаций, работавших над проблемой обработки текстов. Позднее все полученные наработки были сконцентрированы в КРОК, где они были, в частности, использованы в проектах: ГАС «Выборы», комплекс первичной обработки рукописных документов Всероссийской переписи населения 2002 года «Свод М1», программное обеспечение для проекта по автоматизации ЕГЭ (Единый государственный экзамен).