Благодаря повсеместному распространению Интер­нета, пользователи научились искать информацию. Поэтому, сталкиваясь с задачами поиска необходимых данных, они ожидают получить в свое распоряжение не 10 интерфейсов в различных информационных системах (с необходимостью заполнять карточки или, того хуже, строить специализированные запросы), а хорошо знакомую строку поиска, аналогичную Yandex, Google или Bing, позволяющую получить доступ к нужной информации при помощи всего нескольких ключевых слов.

Эта статья как раз посвящена тому, как и для чего можно использовать технологии корпоративного поиска, а именно FAST Search Server for SharePoint. Многие заказчики, успешно использующие корпоративный портал на базе SharePoint, отмечают, что именно совершенствование поисковых технологий является одной из приоритетных задач развития портала. Давайте разберемся, почему.

По оценкам IDC, сотрудники в среднем тратят 9,5 часов в неделю на поиск информации (см. таблицу). Для некоторых задач, связанных с исследованиями и разработкой, поиском решения проблемы, формированием концепции для новой маркетинговой кампании и т. п., поиск может занимать до 50% рабочего времени. Невозможность найти и использовать нужную информацию приводит к тому, что сотрудники создают ее сами, заново изобретая велосипед. Результаты исследований свидетельствуют о том, что работники невольно тратят больше времени на воссоздание существующих знаний, чем на создание новых. Поэтому повышение скорости, релевантности и удобства поиска нужной информации является важнейшим способом повышения производительности труда.

 

Таблица. Затраты на поиск информации по данным IDC

На сегодня корпоративный поиск является единственным инструментом для доступа к любой информации предприятия (структурированной в базах данных и неструктурированной, например, в папках документов). С этой точки зрения он должен применяться на большинстве предприятий как стандартный элемент инфраструктуры ИТ-системы.

Для решения таких задач и предназначен продукт FAST Search Server 2010 for SharePoint. По сути, FAST for SharePoint является надстройкой над SharePoint, но представляет собой отдельный поисковый «движок» и набор готовых веб-частей. С точки зрения пользователя, FAST for SharePoint — невидимый компонент. Для пользователя он проявляется лишь в большем количестве функций в новых веб-частях поиска (в виде Центра поиска FAST) на привычном портале SharePoint.

Ключевые особенности FAST

Сервер поиска FAST обладает рядом важных возможностей, расширяющих «обычные» возможности поиска в SharePoint.

Доступ к информации. FAST позволяет получить доступ к информации вне зависимости от того, где и в каком формате она хранится. Вы можете индексировать документы, расположенные на портале SharePoint, файловых серверах, в общих папках Exchange, веб-сайтах, системах Lotus Notes и EMC Documentum, а также практически в любых других источниках контента, создавая собственные коннекторы при помощи служб Business Connectivity Services. При этом FAST учитывает уровень доступа к документам во внешних системах — на странице результатов поиска пользователь увидит только те элементы, к которым у него есть доступ. FAST способен индексировать более 400 различных типов файлов (включая все форматы Microsoft Office, Adobe PDF, HTML, TIFF и т. д.) на 85 языках. Возможности федеративного поиска позволяют представить результаты, полученные другой поисковой системой (например, Bing) по тому же поисковому запросу.

Обработка контента. Одной из уникальных особенностей FAST является механизм обработки и анализа индексируемого контента (Content Pipeline). В процессе обработки контент как бы проходит несколько стадий, каждая из которых является настраиваемой и расширяемой. Вот некоторые из них: автоматическое выделение метаданных из индексируемого текста (вы можете выделить из текста названия продуктов, клиентов, партнеров и любые другие свойства на основе сопоставления со словарями — как встроенными в FAST, так и собственными); нормализация даты и времени, поиск и устранение дубликатов, лингвистическая обработка текста (например, выделение корней слов и нормализация символов); поиск похожих документов и т. д. Все эти возможности предусмотрены для 45 языков, включая русский. Вы можете добавлять собственные стадии в этот процесс — например, обратившись к сервисам ABBYY для расширенного лингвистического анализа.

Обработка поисковых запросов. Одна из важных задач поисковой системы — возможность понять, чего же хочет пользователь. При вводе нескольких символов запроса система автоматически выдаст подсказку на основе ранее введенных запросов (экран 1). FAST позволяет осуществлять поиск с учетом синонимов, написания запроса на различных языках, а также написания слов с орфографическими ошибками и на основе фонетического сопоставления. FAST поддерживает использование специализированных символов в запросе (например, «*» или «?»), а также логических операторов (AND, OR и т. п.). Наконец, FAST может анализировать введенную фразу, разбивать ее на смысловые блоки и автоматически применять фильтры к результатам поиска: зайдите на сайт http://www.globrix.com, крупнейший онлайн-ресурс Великобритании по продаже и аренде недвижимости, который использует FAST в качестве поискового движка, и введите запрос типа «i want to buy 3 bed 2 bathroom house with garden in London», нажмите кнопку Search, и вы увидите, что к результатам поиска автоматически применены фильтры, соответствующие вашему запросу.

 

Экран 1. Обработка поисковых запросов на примере сайта www.globrix.com

Настройка релевантности поиска. Важнейшим свойством любой поисковой технологии является релевантность найденных результатов, то есть максимальное соответствие результатов поиска запросу пользователя (экран 2). Для повышения релевантности FAST предлагает:

  1. Четыре уровня настройки релевантности (алгоритмизация — разработчик, настройка бизнес-правил — бизнес-менеджер, настройка профилей релевантности — администратор, учет поведения и реакции пользователя — пользователь).
  2. Персонализацию представления результатов пользователю в зависимости от его роли (профиля релевантности) и прав на доступ к контенту.
  3. Семь настраиваемых параметров, определяющих ранг документа в результатах поиска (включая новизну, место расположения документа, количество ранее совершенных переходов к этому документу, контекст использования, метаданные и др.).

 

Экран 2. Настройка релевантности поиска

Работа с результатами поиска. FAST не просто обеспечивает индексацию контента и представление результатов поиска, но и позволяет пользователю эффективно работать с этим контентом прямо на странице результатов поиска. Для этого предусмотрены возможности сортировки по любому из свойств, уточнения (фильтрация) результатов поиска на основе автоматически выделенных метаданных, эскизы документов, предварительный просмотр презентаций PowerPoint прямо на странице результатов поиска, элементы визуальной навигации (слайдеры, диаграммы, контекстные баннеры), возможности связаться с найденным экспертом при помощи Microsoft Lync/Communicator и многое другое.

Производительность и масштабируемость. FAST Search Server 2010 for SharePoint основан на модульной архитектуре, поддерживающей масштабирование отдельных служб для достижения желаемого уровня производительности с учетом следующих аспектов.

  • Количество индексируемого контента. Разбиение на несколько индексов позволяет выполнять индексацию миллиарда документов в пределах одной фермы.
  • Нагрузка запросов. Компоненты сопоставления запросов поддерживают масштабирование с помощью матрицы, основанной на строках/столбцах. Это позволяет обеспечить время ответа менее одной секунды.
  • Задержка индексирования. FAST Search Server 2010 for SharePoint позволяет оптимизировать задержку с момента изменения документа в исходном источнике данных до того момента, когда он становится доступным для поиска.

Сценарии применения FAST

Выделяют два основных направления использования технологии внутрикорпоративного поиска.

  1. Единая система поиска для сотрудников. В компаниях, как правило, используется несколько систем и способов хранения и управления документами. Зачастую документы хранятся в плохо приспособленных для этих задач файловых папках или на персональных компьютерах. В крупных компаниях в различных филиалах может использоваться несколько систем управления документами. В такой ситуации задача систематизировать уже имеющуюся информацию, выработать регламенты и обязательные атрибуты для создания и хранения документов, а также внедрить все эти правила и поддерживать их выполнение представляется трудновыполнимой. Как правило, за нее даже не берутся или быстро прекращают попытки. FAST позволяет объединить информацию в разрозненных источниках данных и, используя возможности обработки контента, систематизировать и структурировать ее по интересующим атрибутам (типы документов, контрагенты, города, авторы, предприятия и пр.), очистить от дубликатов и предоставить эффективные способы работы с найденной информацией на портале SharePoint. Полученная система может быть аналогом базы знаний, позволяющей найти всю имеющуюся в компании информацию.
  2. Поисковые приложения. В любой компании есть подразделения или группы пользователей с особыми потребностями в области поиска информации — например, в исследованиях и разработке, аналитике, маркетинге и PR и т. д. FAST за счет гибкости настройки позволяет создавать приложения, использующие алгоритмы поиска для специализированных задач. Ниже приведены примеры таких поисковых приложений.

Система мониторинга онлайн-ресурсов для сбора информации о тенденциях рынка, предложениях конкурентов, уровне цен, отраслевых событиях, упоминаниях компании в прессе и пр. FAST автоматически обходит и индексирует выбранные веб-ресурсы, классифицирует, группирует и очищает их и предоставляет пользователю удобный интерфейс для работы с результатами такого анализа.

Формирование базы знаний для исследований и разработок. FAST позволяет проиндексировать множество научных баз данных, базы данных патентов, и использовать собственные словари терминов для категоризации результатов поиска. Кроме того, функции поиска экспертов позволяют связаться с людьми, обладающими уникальной экспертизой в определенной предметной области.

Система поиска документов по требованию судебных органов. В этом случае FAST обрабатывает специальные юридически значимые документы, объединяет документы из различных источников в единое целое и позволяет найти и предоставить необходимые данные с минимальными затратами времени.

Система поиска информации по клиентам для отдела продаж. FAST собирает информацию о клиентах из различных источников — баз данных клиентов и продуктов, систем ERP и CRM, электронной почты, коммерческих предложений на файловых серверах и т. д., производит дедупликацию, трансформацию данных для нормализации представления (имена, личные ID), новостей из открытых источников, что позволяет менеджерам по продажам в любой момент иметь точные и полные данные по истории взаимодействия с клиентом и формировать более точные предложения в сжатые сроки.

Роман Щемелев, менеджер по продукту SharePoint, Microsoft Россия