Глава аналитическо-консалтинговой компании Harvey Spencer Associates, специализирующейся на проблемах сканирования и обработки документов, посетил Россию чтобы «посмотреть на местный рынок документооборота вблизи», а также выступить перед участниками конференции
Харви Спенсер: «Чтобы эффективно распознавать документы, программа должна ?смотреть? на них, как человек»

В рамках ежегодной выставки-конференции Docflow — крупнейшего российского мероприятия, посвященного электронному документообороту, которую с 1995 года проводит компания ABBYY, — Россию посетил Харви Спенсер. Он является основателем и главой авторитетной аналитическо-консалтинговой компании Harvey Spencer Associates (HSA), специализирующейся на проблемах сканирования и обработки документов.

Docflow Спенсер посетил с целью «посмотреть на российский рынок документооборота вблизи», а также выступить перед участниками конференции.

В своем докладе, посвященном настоящему и будущему систем ввода документов, он сообщил, что, по оценкам HSA, за период с 2004-го по 2005 год рынок систем потокового ввода вырос почти на 18%, и до 2009 года будет продолжать расти на 16% в год. По словам Спенсера, сегодня его объем составляет около 1 млрд. долл. и растет он быстрее, чем рынок систем корпоративного управления документооборотом (Enterprise Content Management, ECM), который увеличивается примерно на 10% в год.

Причины подобного роста Спенсер делит на две группы — технического и экономического характера. К техническим причинам относится постоянно развивающаяся инфраструктура компьютеров и сетей, позволяющая проще и быстрее передавать распознанные документы и их изображения, улучшение качества сканирования при снижении его стоимости, а также повышение эффективности работы систем распознавания и ввода.

Рынок подобного программного инструментария сегодня составляет свыше 1 млрд. долл. в ценах конечных пользователей, и к 2009 году, по прогнозам Спенсера, удвоится. К экономическим причинам относится в первую очередь необходимость организаций постоянно сокращать издержки для сохранения конкурентоспособности, в том числе за счет снижения затрат на содержание сотрудников, занимающихся организацией потокового ввода документов.

Как вводить?

По данным HSA, сегодня в мире только на ввод данных в ИТ-системы предприятий тратится ежегодно порядка 30 млрд. долл.

«В США и Европе зарплата служащих, которые вручную вводят данные в корпоративные ИТ-системы, составляет порядка 20 долл. в час, поэтому стоимость обработки одного инвойса обходится в среднем в 6 долл.», — сообщил Спенсер. При этом скорость их работы обычно не превышает 83 знака в минуту, а пресловутый «человеческий фактор» приводит к неизбежному появлению ошибок.

В качестве примера Спенсер привел типичную для любой компании ситуацию: процесс закупки и обработки счета на оплату. В этом случае данные поставщика вносятся в систему, размещается заказ, затем после получения товара или услуги приходит и оплачивается счет от поставщика.

Объем вводимых при этом данных исчисляется сотнями символов, а общее потраченное время на ввод информации относительно одной закупки может достигать нескольких часов. Поскольку количество таких документов определяется несколькими тысячами ежемесячно, затраты на их обработку составляют заметную часть в бюджете организации.

Кроме того, большинство систем распознавания документов способны эффективно работать лишь со структурированной информацией, то есть с набором типовых документов, составленных и размеченных по определенным правилам. Любая же внештатная ситуация в бизнесе вызывает поток нетиповых документов, содержащих неструктурированную информацию, которую приходится обрабатывать вручную.

Решить эту задачу по силам только системам, использующим технологии интеллектуального распознавания данных, которые активно развиваются в последние годы. В идеале, считает Спенсер, такие системы должны работать по той же схеме, что и человеческий мозг, при поступлении документа автоматически проводя его категоризацию и классификацию (определить, структурирована ли содержащаяся в нем информация, к какому типу она относится и т. д.), и только после этого извлекая необходимые данные и передавая их в соответствующие приложения.

«Мощность современных компьютеров позволяет выполнять все эти операции с достаточной скоростью и по приемлемой цене», — убежден Спенсер.

Где вводить?

Еще одной важной тенденцией современного рынка систем ввода данных является отказ от централизации процессов обработки документов.

«Сегодня все меньше организаций ?возит бумагу? для централизованного ввода, предпочитая делать это на месте их возникновения», — сообщил Спенсер. В качестве иллюстрации он привел данные компании Infotrends о поставках документ-сканеров в США: с 2004-го по 2006 год продажи промышленных сканеров увеличились несущественно, что составило менее 50 тыс. единиц в год, тогда как поставки сканеров уровня подразделений за это время выросли более чем вдвое и превысили показатель 400 тыс. устройств в год.

Однако, бумажными документами поток входящей информации не ограничивается: во многих случаях приходится иметь дело с голосовыми или видеозаписями.

К примеру, врач, беседуя с больным, записывает на диктофон его жалобы, которые потом необходимо расшифровать и перевести в текстовый формат.

Но в настоящее время автоматизированные системы по распознаванию голоса пока еще не очень эффективны, поэтому в большинстве случаев этот процесс выполняется вручную; мировой рынок таких услуг составляет примерно 15 млрд. долл.

Еще одна небезынтересная закономерность: все больше организаций на Западе предпочитают в таких случаях пользоваться услугами аутсорсинговых компаний. Так, в США в центральных штатах такая работа стоит примерно вдвое дешевле, чем на обоих побережьях, а по сравнению с Индией или Китаем — в восемь раз. Пересылается необработанная голосовая информация с помощью Internet.

Поделитесь материалом с коллегами и друзьями