Время собирать знания

Михаил Зырянов

Computerworld Россия

В традиционных методах искусственного интеллекта, на которых воспитаны тысячи отечественных специалистов в области компьютерных систем, под знаниями обычно понимается нечто непременно формализованное, пригодное для хранения и обработки в компьютерных экспертных системах в виде наборов правил, семантических, фреймовых сетей или высказываний алгебры логики. А что если попытаться отделить базы знаний от машин логического вывода и предоставить человеку самому работать с базами знаний так, как ему заблагорассудится? Звучит непривычно, но почему бы не попробовать? Оказывается, эта идея не так уж и плоха и совсем не абсурдна, если в качестве знаний взять информацию об информации, хранящейся в корпоративной системе. Именно на такую трактовку знания и способов работы с ним ориентирована технология, которую предлагает фирма Fulcrum Technologies, в настоящее время входящая в состав группы компаний PC DOCS. С рассказом об основных принципах концепции сбора и обработки знаний внутри корпораций выступил на состоявшейся 12 августа встрече с журналистами Хью Трапп, менеджер компании по работе со стратегическими партнерами в Европе.

Эту встречу организовала компания «Весть», один из двух дистрибьюторов Fulcrum в России (вторым является компания TerraLink).

В общих чертах концепция Fulcrum такова. В крупной корпоративной сети на серверах самых разных программных и аппаратных платформ хранится несметное число документов, относящихся к деятельности различных подразделений предприятия. Чтобы найти нужный документ, как правило, требуется немало времени. Значительную помощь здесь может оказать система электронного архива. Но возникают две проблемы. Во-первых, для полнотекстового поиска требуется немало компьютерных ресурсов, а поиск по регистрационным карточкам далеко не всегда дает удовлетворительный результат (регистрационные карточки обычно нужно готовить вручную, но не всегда это делается, в результате значительная часть документов выпадает из поля зрения). Во-вторых, система электронного архива оказывается практически бессильна, когда требуется осуществить семантический поиск. Например, если мы хотим отобрать все, касающееся деятельности нефтяных американских компаний, нам понадобятся документы, в которых фигурируют не только слова «компания», «нефть», «Америка» и «США», но и названия американских штатов и городов, а также синонимичные словосочетания и отдельные слова-синонимы к терминам «компания» и «нефть». Согласитесь, ситуация не из простых.

Fulcrum предлагает установить на каждый из серверов корпоративной сети поисковый сервер SearchServer (поддерживаются платформы NetWare, Windows NT, Unix, Lotus Notes, серверы Web, различных СУБД и др.) и, кроме того, подключить к сети еще один дополнительный выделенный NT-сервер, на котором будет работать ПО Knowledge Network. Основная функция этого сервера «сети знаний» - сбор и хранение информации об информации, которая имеется в компании: о ее логической структуре (поддерживается представление данных в виде иерархии виртуальных папок и каталогов), способах доступа, связях между документами и пр. Когда возникает необходимость найти тот или иной документ, пользователь обращается к серверу «сети знаний», тот в свою очередь передает запрос поисковым серверам, на которых, возможно, содержится нужная информация. Поисковые серверы производят семантический анализ запроса и генерируют набор понятий, связанных в смысловом отношении с теми понятиями, которые упомянуты в запросе. После этого производится выборка, и ссылки на документы вместе с автоматически сгенерированными резюме пересылаются на сервер «сети знаний», а затем и к пользователю. Как видим, концепция являет собой синтез подходов, реализованных в системах электронного архива, системах сетевых каталогов и экспертных системах, основанных на семантических сетях.

Структура знаний (точнее, информации об информации), имеющихся в корпоративной сети, визуализируется в виде «карт знаний». Они представляют собой изображения структур логических папок наподобие тех, что имеются, например, в Windows Explorer. Логические папки «карт знаний» далеко не всегда соответствуют физическим каталогам на серверах сети. Чаще всего, напротив, в эти папки попадают не те документы, которые хранятся вместе, а те, что связаны между собой по смыслу. Таким образом, пользователю предъявляется не физическая структура каталогов сети, как это обычно делается в системах сетевых каталогов, например Novell NDS, а логическая. Кроме того, часть отношений между документами выявляется автоматически путем их семантического анализа. Изменения, добавление и удаление документов отслеживаются автоматически.

Сейчас силами компании ABBYY проведена синтаксическая локализация продукта. На повестке дня - семантическая русификация «сети знаний». По словам президента «Вести» Константина Синюшина, основное препятствие на этом пути заключается в том, что пока нет признанных стандартом де-факто семантических словарей. Для их составления нужна долгая и кропотливая работа; необходимо выделить большие людские и финансовые ресурсы, а прямая выгода от инвестиций в эту деятельность невелика. Поэтому «Весть» предполагает довольствоваться тем, что есть, и намерена выбрать готовый продукт у одной из трех компаний-разработчиков - «МедиаЛингва», «Информатик» и ABBYY.

Примечательно, что серверы SearchServer могут использоваться для обеспечения работы не только «сети знаний», но и других приложений. Эти программные серверы поддерживают SQL-подобный язык запросов и обеспечивают связь посредством интерфейса ODBC. Для независимых разработчиков приложений у Fulcrum имеется инструментальный пакет SearchBuilder. В настоящий момент версии этого продукта созданы для языков программирования Visual Basic/Visual C++, Си и Java.