В середине октября компания «Форс-Центр разработки» анонсировала специализированное решение ROSES (Russian Optimized Secure Enterprise Search) — оптимизированный для русского языка программно-аппаратный комплекс, предназначенный для защищенного поиска информации в условиях корпоративного использования. По данным многочисленных исследований, сотрудники организаций до 80% рабочего времени тратят на поиск информации в корпоративных и внешних источниках, в связи с этим широкое развитие получили программные средства поиска и анализа слабоструктурированных данных (текстовых документов, сообщений электронной почты, электронных таблиц), интегрированные с соответствующими механизмами управления реляционными базами данных. К примеру, штатные поисковые средства СУБД Oracle могут быть использованы в такого рода приложениях, но они недостаточно эффективны при работе с тестами на русском языке, поскольку не учитывают особенностей его лексики и грамматики.

Николай Зезюлинский, директор по развитию бизнеса компании «Форс-Центр разработки», отметил, что проблемы обеспечения поиска данных в крупных организациях связаны не только с многократным ростом объемов информации и трудозатрат на ее поиск, но и с необходимостью жесткого разграничения доступа пользователей к информации внутренних и внешних источников. В связи с этим в «Форс-ЦР» было разработано масштабируемое решение, в котором универсальные возможности полноценного поиска документов на русском языке сочетаются с преимуществами локальных систем, работающих в корпоративных сетях.

В качестве технологического ядра продукта взяты средства защищенного поиска Oracle Secure Enterprise Search, а для обеспечения точности и полноты поиска с учетом особенностей русского языка была привлечена компания RCO, специализирующаяся на решениях в области компьютерной лингвистики и обработки неструктурированных данных, которая разработала морфологический модуль анализа текстов на русском языке. Этот компонент обеспечивает выявление фактов, событий, персон, связей между объектами, специальных терминов, наименований продуктов, организаций, дат, адресов и телефонов, номеров документов, счетов, кредитных карт, единиц измерений и т. д. в электронных документах более 200 форматов. При этом данные могут храниться в разнообразных источниках — файлах, реляционных базах данных, на Web-сайтах и порталах, серверах электронной почты и корпоративных информационных системах. Имеется возможность общего и тематического реферирования, а также автоматической рубрикации и классификации документов.

Одним из важнейших требований к корпоративным информационным системам является возможность разграничения доступа пользователей и обеспечение безопасности. ROSES интегрируется с корпоративными службами каталогов, позволяет персонально настраивать правила, определяющие полномочия пользователей, и предоставлять результаты поиска в строгом соответствии с ними, дает возможность ограничить или полностью исключить доступ в Internet за счет индексирования и кэширования содержания внешних ресурсов. Базовые функциональные возможности комплекса по авторизации доступа, поиску, анализу и предоставлению информации дополняет открытый интерфейс прикладного программирования ROSES, позволяющий разработать механизмы индексирования для доступа к информационным системам и ресурсам компании.

В состав решения, стоимость которого составляет порядка 100 тыс. долл., входит комплект лицензий на программное обеспечение с неограниченным числом пользователей и полностью сконфигурированный и оттестированный специалистами «Форса» стандартный сервер с двумя двухъядерными процессорами, обеспечивающий поддержку индексной базы данных объемом до 1 Тбайт. При установке у заказчика комплекс подключается к корпоративной сети, ему присваивается внутренний адрес, осуществляется синхронизация со службой каталогов и производится настройка и индексирование источников. Решение позволяет строить распределенные масштабируемые системы: при необходимости добавить новую группу источников данных достаточно развернуть очередной поисковый сервер. По мнению разработчика, ROSES может рассматриваться в качестве поискового ядра корпоративных систем крупных и средних предприятий, организаций и государственных учреждений, а также тех компаний, деятельность которых строится на интенсивном использовании Web-технологий и ресурсов Internet.

Поделитесь материалом с коллегами и друзьями