Мировая электронная информация на 80% состоит из текстовых документов. Без надлежащего структурирования невозможно проанализировать даже малую их толику.
Этой проблемой занимается парижское отделение IBM, пытающееся объединить математико-лингвистические подходы к анализу данных с современными возможностями графической навигации.
Технология, получившая название IBM Text Navigator, призвана помочь вам не утонуть в лавине документов, содержащихся в Сети, - от газетных статей и технических отчетов до откликов на купленный товар.
Продукты таких производителей, как Arbor Software и Comshare, основаны на принципе добычи данных. Это более совершенный, нежели просто анализ текста, подход, позволяющий выявить скрытые логические связи в стандартных текстовых документах, таких, например, как кассовые книги.
IBM разрабатывает подобные средства исключительно для конкретных, в основном европейских заказчиков. Первые коммерческие версии программ ожидаются через полтора года.
"Это не просто извлечение нужной информации, - говорит Херб Бад, один из руководителей парижского филиала IBM. - Мы берем исходный текст на естественном языке и по нему строим дерево отношений, позволяющее понять, о чем этот текст".
Одна из недавних разработок предназначалась для автоматизации анализа жалоб клиентов службы "товары-почтой". Средствами текстовой навигации жалобы разбиваются на логические группы, позволяющие лучше разобраться в основных причинах недовольства покупателей.
В США подобная система используется для анализа студенческих работ, присланных на конкурс образовательных проектов для Internet. Более трех тысяч работ, содержащих в общей сложности несколько сотен миллионов слов, были введены в базу данных, в которой затем программа IBM сумела выделить пять основных категорий.
Важным преимуществом технологии IBM является ее масштабируемость. "Большинство существующих алгоритмов "задыхаются" уже при 50 000 объектах, подлежащих классификации, - рассказывает Бад, - в то время как наши алгоритмы справляются с миллионами объектов".
Рыночный успех подобных систем не вызывает сомнения.