Компания Cognitive Technologies пошла на нетривиальный шаг. Исходные тексты CuneiForm, ее системы оптического распознавания символов (Optical Character Recognition, OCR), чья последняя коробочная версия вышла в 1999 году, будут открыты, а развитие системы продолжится согласно принципам Open Source. CuneiForm считалась в 90-х годах одним из лидеров как на российском, так и на международном рынке и поставлялась с широким набором сканеров различных производителей. С 2002 года развитие системы было практически прекращено, она лишь встраивалась в некоторые промышленные системы, создаваемые Cognitive. Теперь проект возрожден: компания, вдохновленная примером браузера FireFox и ему подобных проектов, хочет привлечь к развитию системы широкие круги программистов и научной общественности. Так, существуют задачи наподобие распознавания старославянских текстов, на решение которых нет достаточного платежеспособного спроса. Но генеральный директор Cognitive Technologies Владимир Арлазаров считает, что при поддержке компании энтузиасты вполне могут, взявшись, осилить такие задачи. Кроме того, сейчас есть проблема с кириллическими OCR-системами хорошего качества для платформы Linux; кроссплатформенный проект категории Open Source способен снять эту проблему.

Что касается качества распознавания, то еще в 1995 году в Cognitive заявили: точность OCR-системы превышает 99%, и дальнейшее ее повышение возможно, но не является первостепенной задачей. В последние пять–семь лет, как полагают в компании, развитие OCR-систем шло скорее экстенсивно, по пути улучшения распознавания структурно сложных документов, улучшения пользовательского интерфейса, увеличения числа языков распознавания. Поэтому в Cognitive уверены, что CuneiForm с доработанным ядром образца 2000 года будет вполне конкурентоспособна. Система распознает более 20 языков, любые машинописные шрифты, кроме декоративных и рукописных, таблицы любой сложности, умеет полностью сохранять топологию распознанных страниц, включая иллюстрации.

12 декабря CuneiForm (версия под Windows) опубликована на условиях freeware и теперь доступна для скачивания. Это первый этап новой программы развития системы. На втором этапе, к концу января, в Cognitive планируют открыть Web-ресурс на сайте Cuneiform.ru — бесплатное онлайновое распознавание документов для всех желающих. Прогнозируется до 10 тыс. распознаваний на сайте в день к концу 2008 года, хотя это число может быть и значительно увеличено при выходе на международную аудиторию. На третьем этапе, с марта 2008 года, Cognitive Technologies, юридически подготовившись и выбрав лицензию, откроет исходные коды CuneiForm и в качестве координатора начнет подготовку новой версии системы с участием широкого круга желающих.

Проект заявлен скорее как научный и общественный, чем коммерческий. Тем не менее в Cognitive отмечают, что, по прогнозам аналитиков «Финам», к 2010 году объем рынка свободного программного обеспечения в России может достигнуть 200 млн. долл., и компания надеется занять на нем 5-7% за счет оказания услуг, технической поддержки и рекламы. В том числе это касается и обновленного CuneiForm.

Поделитесь материалом с коллегами и друзьями