Кто ищет, тот найдет

Попытки создания по-настоящему персонализированного и точного механизма поиска информации в Internet потерпели неудачу. Рон Вайсман, вице-президент отдела международной торговли компании Verity, считает, что, стараясь справиться с неудержимым ростом World Wide Web, разработчики исчерпали все возможные средства. "Сейчас в Internet насчитывается около 130 млн Web-узлов, а через несколько лет их станет в 10 раз больше. Очень трудно предложить технологию поиска, которая справилась бы с такими объемами информации", — заявляет он.

Напротив, благодаря ограниченным размерам интрасетей применение в них новых технологий поиска вполне реально. Поисковые механизмы последнего поколения позволяют присваивать каждому документу признак, характеризующий его содержание, находить информацию по заданным параметрам и отображать результаты поиска в виде графических схем. "Со временем эти механизмы превратятся в инструменты промежуточного уровня, в неотъемлемую часть арсенала средств сбора информации, и тогда пользователям не придется "охотиться" за данными", — говорит Уэйн Эплханс, руководитель группы, специализирующейся на развитии информационных ресурсов в фирме J. D. Edwards.

Компания Forrester Research опросила представителей 50 крупнейших фирм в США и выяснила, что сегодня поиск в интрасетях зачастую производится в "усеченном" виде. Более 60% респондентов сообщили, что они способны искать информацию только на отдельных узлах, а не по всей корпоративной интрасети. Полномасштабный сбор данных возможен лишь в 32% интрасетей. Forrester Research утверждает, что поисковые системы, работающие в тесной интеграции с системой управления знаниями, изменят это соотношение.

"Сад знаний"

Компания J. D. Edwards, выпускающая ПО для поддержки поставок товаров, заканчивает построение интрасети под названием Knowledge Garden 2.0 ("Сад знаний"), которая объединит более 8,2 тыс. сотрудников компании, ее партнеров и клиентов. В этой интрасети будет использоваться средство широкомасштабного поиска.

Для базы данных, предназначенной для поиска в интрасети, группа разработчиков под руководством Эплханса создала файлы с характеристиками каждого из 4,2 тыс. сотрудников компании. Они содержат такие сведения, как имя пользователя, его специальность, профессиональные интересы и задачи (например, сбор сведений о конкурентах или клиентах компании). Затем эта информация была систематизирована по степени важности. "Если вы не классифицируете сведения о пользователях, то поисковая программа даже за миллион долларов вам не поможет", — утверждает Эплханс.

Группа Эплханса использовала в своей работе систему Site Server 3.0 компании Microsoft. Сервер включает в себя инструментальное средство, которое позволяет сформировать на узле словарь, а потом найти и отметить в документах, хранящихся на данном узле, все слова из этого словаря (с помощью мета-тегов). Администратор может открыть диалоговое окно, чтобы пользователь отметил те ресурсы интрасети (например, файл- или Web-серверы), которые он желает охватить поиском. Site Server 3.0 обеспечивает поиск документов, созданных в рамках пакета Office, страниц Web, активных страниц Active Server Pages (ASP) и текстовых файлов.

Новые версии SQL Server и NT тоже будут содержать встроенные средства полномасштабного поиска. "Наша цель — гарантировать возможность поиска в интрасети любого документа, — заявляет Майк Ташен, руководитель группы разработчиков Site Server компании Microsoft. — Мы должны позаботиться и о том, чтобы пользовательский интерфейс поискового механизма был совместим со всеми остальными элементами ПО".

В компании J. D. Edwards авторы публикуемых документов снабжают их мета-тегами и аннотациями. Раскрывающиеся меню в Site Server облегчают эту задачу, выдавая на экран лишь мета-теги, относящиеся к тому подразделению, в котором работает автор. Специалист по анализу информационных ресурсов оценивает документ и регистрирует его в базе данных Knowledge Garden.

Эплханс отмечает, что последующие версии Knowledge Garden, видимо, будут поддерживать расширяемый язык разметки документов (Extensible Markup Language, XML) — новый стандарт консорциума World Wide Web для подготовки Web-документов. Этот стандарт позволяет создавать поля с описанием данных, которые будут использоваться поисковыми механизмами для формирования более точных перечней найденных документов.

Правильный рецепт

В разработке XML принимают участие многие крупные компании, однако г-н Вайсман из компании Verity считает, что для полномасштабного поиска данных в интрасетях этот язык начнет применяться не раньше, чем через два—три года. Тем не менее администраторам интрасетей, которые рассчитывают на XML, не придется ждать так долго. Недавно образованная компания Centraal предлагает поисковую систему для Internet на базе XML, которую можно использовать в интрасети как программу-расширение браузера.

Технология Real Name System (RNS), разработанная компанией Centraal, позволяет ассоциировать ключевые слова с Web-адресами (URL). Как поясняет Кейт Тир, президент и исполнительный директор компании Centraal, вместо того чтобы указывать адрес типа "www.nwfusion.com", пользователь программирует свою поисковую систему так, что данной Web-странице соответствует ключевое слово "Fusion". В результате, для получения документа достаточно набрать одно слово — поисковый механизм сразу соединится с нужной страницей.

Компания Centraal намеревается усовершенствовать технологию RNS, обеспечив возможность централизованного управления. В настоящее время пользователи должны устанавливать программу и заранее созданные списки ключевых слов на настольных системах. При каждом изменении списка приходится по отдельности вносить исправления на каждом компьютере.

Компания Walgreens, владеющая в США сетью фармацевтических магазинов, надеется в течение года внедрить в своей интрасети технологию XML. Пит ван Велин, руководитель группы по поддержке Web-технологий в этой компании, старается убедить сотрудников Walgreens размещать мета-теги в создаваемых ими HTML-документах. Он намерен автоматизировать данный процесс с помощью языка XML, однако еще не выбрал инструмент для присвоения тегов.

Г-н ван Велин отмечает, что без использования тегов нельзя полностью систематизировать информацию, которая накапливается в интрасети, имеющей 10 тыс. пользователей. Его группа разработала набор правил, по которым сотрудники компании будут создавать документы в интрасети, но еще не проводила занятий с персоналом.

"Главный смысл присвоения тегов — повышение точности поиска информации. Если удалось добиться этого, значит, вы все сделали правильно", — говорит Майк Ташен из компании Microsoft. Недавно Microsoft объявила о намерении поддерживать язык XML. В частности, планируется реализовать его поддержку в браузере Internet Explorer 4.0.

Математический подход

Хотя некоторые компании предпочитают, подобно Centraal, создавать списки ключевых слов, опираясь на технологию XML, есть разработчики поисковых механизмов, которые выбирают иные решения. Фирма Autonomy использует для поиска словосочетаний в документах байесовскую логику (Томас Байес, политический деятель и математик, живший в XVIII веке, изучал взаимосвязь между различными переменными). Этот подход позволил разработать механизм, который обеспечивает не просто поиск отдельных слов, но и анализ их значений в документах. Если пользователю нужны сведения о пакете Wolfpack (Microsoft), то результатом поиска не станет информация о жизни волков ("wolf pack" дословно означает "стая волков". — Прим. пер.). Ориентируясь на заранее заданные значения слов, созданная Autonomy система Agentware "поймет", что запрос относится к сфере программного обеспечения.

Другие компании пытаются облегчить процесс поиска с помощью средств визуализации. Недавно образованная фирма Semio предлагает систему, которая просматривает текст в поисках ключевого слова, организует группы связанных с ним терминов и генерирует графическое представление о наличии таких групп в просмотренных файлах. Например, если пользователь задаст ключевое слово "NT", система SemioMap 2.0 укажет ему все документы, в которых встречается это слово, а затем выдаст ссылки на документы, содержащие смежные понятия ("Windows", "Microsoft", "операционные системы"). Благодаря данному подходу можно отображать иерархическую систему поиска информации.

Довольно искать

Эплханс из компании J. D. Edwards полагает, что поисковые системы как независимые инструменты со временем устареют. Им на смену придут механизмы, встроенные в такие платформы, как Windows NT 5.0 и Lotus Notes 5.0. Чтобы люди не тратили время на добывание информации, поисковые системы будут заблаговременно собирать ее в фоновом режиме, основываясь на профессиональных интересах пользователей и заданных ими параметрах поиска. По мнению Эплханса, поисковые системы нового поколения должны обладать следующими свойствами:

? быть более дружественными к пользователю и облегчать процедуру поиска (простого логического поиска уже недостаточно);

? уметь собирать информацию не только внутри интрасети, но и за ее пределами;

? обеспечивать анализ способов поиска данных и предлагать альтернативные варианты, а также распознавать применяемые пользователем методы поиска, запоминать их и создавать на их базе варианты формулировок новых запросов;

? поддерживать такие стандарты, как язык XML.

Конечно, все это обойдется недешево. Согласно исследованиям компании Forrester Research, для внедрения полномасштабной поисковой системы на предприятии с 20 тыс. сотрудников потребуется примерно 234 тыс. дол. В эту сумму входят стоимость ПО и серверов, затраты на развертывание системы и ее поддержку в течение первого года.

Но данная цифра может показаться смехотворно малой по сравнению с расходами на систему управления знаниями, которую предлагает компания Verity. По сведениям Forrester, стоимость такой системы составляет от 300 тыс. до 1,2 млн дол. — без учета зарплаты сотрудников, которые будут следить за правильностью присвоения тегов документам и составления аннотаций.

Что же касается фирмы J. D. Edwards, то на разработку системы Knowledge Garden она потратила чуть больше 600 тыс. дол. В эту сумму входят затраты на программное и аппаратное обеспечение, на поддержание работоспособности системы, проведение консультаций и организацию обучения, а также зарплата персонала. Компания рассчитывает, что использование Knowledge Garden обеспечит ей ежегодную экономию средств в размере 4 млн дол. Согласно предварительным оценкам, в ближайшие три года окупаемость новой системы составит 1811%. Пожалуй, придется долго искать изъяны в столь выгодном решении!

ОБ АВТОРЕ

Сандра Джиттлен (SANDRA GITTLEN) корреспондент журнала — NETWORK WORLD

Сколько стоит поиск

Вот как распределятся затраты компании, которая будет внедрять поисковую систему в своей интрасети. Предполагается, что организация имеет 20 тыс. пользователей в 20 подразделениях, а ее интрасеть содержит 500 тыс. страниц.

Программное обеспечение - 50 000 дол.

- Поиск текстовой информации в Web

- Дополнительные программы, выполняющие поиск данных, которые размещены на файл-серверах и в базах данных Notes

Серверная платформа - 14 000 дол.

- Компьютер с двумя процессорами Pentium II, 256 Мбайт ОЗУ и дисковым массивом RAID емкостью 16 Гбайт

Установка и первоначальный запуск (три чел.-мес.) - 30 000 дол.

- Настройка системы

- Разработка графического интерфейса

- Создание ссылок и их поддержка

Сопровождение системы в течение года (четыре чел.-мес.) - 40 000 дол.

- Техническая поддержка

- Обновление содержания главной страницы (Home page)

- Обучение сотрудников

Итоговая сумма (установка и поддержка системы в течение года) - 234 000 дол.

Источник: Forrester Research

Как выбрать хорошую поисковую систему

Денни Салливан, редактор Web-узла Search Engine Watch, советует при выборе поисковой системы обращать внимание на следующие моменты.

1. Уровень сложности интрасети

Если в вашей интрасети имеется всего один сервер, то поисковая система вам не нужна. Но если поиск информации ведется по 20 узлам, вам потребуется развитая поисковая система, например предлагаемая компанией Verity.

2. Наличие средств управления

Бесплатные средства управления хороши, если вы умеете программировать, но за готовое решение придется платить. Ваш отдел информационных систем работает c перегрузками? Тогда вам больше всего подойдет продукт с возможностями WYSIWYG. Правда, даже такие программы могут оказаться слишком сложными в работе.

3. Форматы используемых файлов

Определите, какие форматы используют ваши сотрудники при создании документов для интрасети - PDF, RTF, форматы электронных таблиц и др. Бесплатные и дешевые системы часто умеют распознавать только ASCII- и HTML-файлы.

4. Способность системы производить поиск по выбранным полям (тегам)

Для обнаружения документов, хранящихся в ином формате, нежели HTML, вам понадобится поисковый механизм, способный читать содержимое полей или мета-тегов. Например, если нужно осуществлять поиск документов только на основе даты их создания, вы должны иметь возможность ограничения набора просматриваемых полей. Если в перспективе вы намерены использовать технологию XML, следует позаботиться о том, чтобы ваша поисковая система поддерживала этот стандарт.

5. Возможность дальнейшего развития

Память на диске необходима не только для хранения документов. Справочные данные тоже занимают немало места - иногда столько же, сколько основные документы. Например, в случае индексирования по принципу местоположения слов в документе справочный файл будет иметь больший объем, чем при обычном индексировании. Старайтесь приобрести такую систему, которая могла бы расти вместе с ростом ваших потребностей.