ABBYY учит документооборот понимать тексты

По словам Дмитрия Шушкина, одно из «ударных» направлений деятельности ABBYY — потоковый ввод данных в системы корпоративного управления документооборотом
Источник: ABBYY

В ходе ABBYY Data Capture Forum 2015 компания ABBYY официально представила новое направление своей деятельности в корпоративном сегменте, основанное на технологии Compreno.

Корпоративное направление дает ABBYY 60% российского оборота и 80% — зарубежного. В 2014 году бизнес в этой области вырос на 19% (в рублевом выражении). Приблизительно по 25% приходится на госсектор и финансовые учреждения, остальные доходы примерно в равных долях обеспечивают энергетика, нефтегазовый сектор, промышленность, образование, страхование и телеком.

Одно из «ударных» направлений деятельности ABBYY — потоковый ввод данных в системы корпоративного управления документооборотом; как отмечают в IDC, по результатам 2013 года компании принадлежит здесь около 60% российского рынка. Применение этих систем, утверждает Дмитрий Шушкин, директор по корпоративным проектам «ABBYY Россия», экономически выгодно для организаций, у которых хотя бы три сотрудника заняты ручным вводом данных. Показательно, что у такого рода проектов очень короткий срок окупаемости — от трех месяцев; поскольку скорость ввода данных растет от трех до десяти раз, количество ошибок уменьшается в такой же пропорции, а суммарные затраты на обработку информации падают вдвое.

При этом все чаще корпоративному сектору приходится иметь дело с неструктурированными данными, объем которых растет лавинообразно (90% накопленной в мире информации, как полагают в IDC, получено за последние два года), и в обозримом будущем эта тенденция будет только усиливаться: если сейчас в мире существует около 5 тыс. экзабайт данных, то к 2020 году ожидается более 35 тыс. экзабайт, из которых 80%, как и сейчас, будут неструктурированными.

Для работы с ними в ABBYY предлагают свою технологию «понимания и анализа текстов на естественных языках», получившую название Compreno. Как отметил Максим Михайлов, директор департамента ABBYY Compreno, новая разработка компании, в отличие от систем, основанных на статистике и правилах, выполняет полный семантико-синтаксический анализ текста, создает его семантическое представление, извлекает из него «сущности, события и связи между ними». В частности, технология способна определять по контексту смысл многозначных слов, восстанавливать пропущенные слова, определять связи между объектом, выраженным существительным, и заменяющим его местоимением и т. д.

На базе Compreno в данный момент реализовано три решения в виде комплектов разработчика: Intelligent Search SDK, InfoExtractor SDK и Smart Classifier SDK, два последних компания представила в середине марта на конференции AIIM в США. В дальнейшем, как полагает Михайлов, технология будет «все более отчуждаема», и ее можно будет оформить в коробочный продукт.

Сейчас ABBYY Compreno существует в русской и английской версиях (правда, двуязычные тексты она пока обрабатывать не в состоянии). За год, прошедший с анонса Intelligent Search SDK, компания начала 15 проектов по внедрению Compreno, из них пять — в США, остальные — в России, где ведутся работы в Госдуме, «КЭС Холдинге» и ряде других организаций. В компании надеются, что рост корпоративного направления за счет проектов с использованием Compreno составит 20–30% уже в ближайшие годы.