Search 2.0: огонь по «хвостам» | Открытые системы. СУБД | Издательство «Открытые системы»

Сохраняя оптимизм, не следует игнорировать реальные процессы, сопутствующие росту Сети, которые следует учитывать специалистам, занятым корпоративным поиском.

Процесс 1. По мере роста числа документов в Сети растет среднее число документов в ответ на запрос.

Если расширенный поиск дает 10% попаданий в исходном массиве документов, то он вернет ответ размером в 100 документов для массива из 1000 документов, а тот же запрос, сделанный чуть позднее к массиву, выросшему в два раза, даст уже 200 документов. Возможно, такое количество ответов придет не на каждый запрос — конкретный состав документов со временем может изменяться, могут появляться и исчезать специфические термины, но средний размер списка ответов будет расти экспоненциально, отражая общий рост накопленных данных. Это так называемая проблема «хвостов», которая связана с необходимостью вторичной идентификации результатов поиска (рис. 1). На практике, сделав запрос на поиск нужных вам документов, вы получаете список ответов (иногда это несколько десятков тысяч документов), которые приходится просматривать последовательно, отбирая релевантные, и продолжительность такого процесса может на порядки превышать время первичного поиска. Применяемые разными поисковиками приемы ранжирования списка ответов (первые в списке — «самые» релевантные) не снимают проблему полноты и точности — пропуск нужного документа может больно ударить по карману, поэтому приходится просматривать все, а сокращение «хвостов» возможно только за счет удаления «мусора» и повторно выдаваемых документов.

Рис. 1. Проблема «хвостов» общедоступных (публичных) информационно-поисковых систем

Процесс 2. Количество корпоративных данных растет экспоненциально.

Если вспомнить 90-е годы прошлого столетия, когда общедоступный Internet только начинал раздвигать свои границы, пресса сообщала о накоплении в сети 10 млн. страниц, 100 млн. страниц, 1 млрд. страниц и т.д., а сегодня многие корпоративные сети уже соизмеримы с Internet 90-х годов. За прошедшие годы мы научились быстро искать и находить нужные документы в столь внушительных массивах — время поиска не растет пропорционально объему накопленной информации (если вообще растет), но проблема «хвостов», унаследованная от публичных информационно-поисковых систем, стала более острой, поскольку пропуск искомого документа может оказаться фатальным для предприятия.

К счастью, возможности хоть как-то решать проблему «хвостов» в корпоративных поисковых системах и уж, конечно, в системах управления контентом предприятия (Enterprise Content Management, ECM) значительно шире. Однако заметим, что сегодня все эти решения носят паллиативный характер — они не направлены на устранение первопричины (экспоненциального роста объема данных), а являются лишь попыткой устранить «симптом большого хвоста». Тем не менее шансов избежать «информационного коллапса» или хотя бы отсрочить его наступление у корпоративных систем больше, чем у публичных.

Единственный релевантный ответ — это когда в ответ на запрос поисковик возвращает самые релевантные ответы на первой странице результатов. Ранние разработки такой «релевантности» основывались исключительно на содержимом самих документов, а позднейшие добавили еще и внешние характеристики, такие как ранжирующие ссылки у Google. Но поскольку объем данных растет экспоненциально, то проигрывают все. И дело не в том, что нет хороших алгоритмов, дело в том, что с ростом массива документов даже самые релевантные документы могут не поместиться на первой странице. Поэтому классический «единственный релевантный ответ» обречен.

Вместе с тем, если проанализировать содержимое списка ответов любой публичной информационно-поисковой системы, то легко обнаружить большое количество повторов — наличие одинаковых документов (дубликатов) на разных сайтах в Сети неизбежно приводит к увеличению списка результатов. Для того чтобы избавиться от этих повторов, необходимо ответить на вопрос, что такое дубликат. Является ли дубликатом копия предыдущего в списке ответов документа, если окружающие его данные на странице сайта отличаются от предыдущих? Например, два электронных магазина предлагают вам одну и ту же книгу, но по разной цене. Для системы Google это очень непростая задача, а вот для корпоративной информационно-поисковой системы — вполне посильная. В корпоративной системе ‘дедупликация’ может стать рутинной процедурой, в которой заинтересованы все.

Заплатки для отсрочки

Поисковики стали включать сегодня внешние по отношению к документам данные для оценки их релевантности запросу, например Google использует ранжирующие ссылки, принимая во внимание число других сайтов, связанных с найденной страницей. Видимо, его разработчики исходят из предположения, что большее число ссылок делается на более релевантную страницу. Другие стали учитывать количество предыдущих просмотров документов в списке результатов. Если каждый набравший конкретный запрос обязательно просматривал документ № 3, то этот документ, скорее всего, очень важный, и его следует размещать выше в списке ответов. Другие поисковики работают с «контекстом», пытаясь понять мотивацию ваших предыдущих обращений или ваши функции в корпорации.

Все это прекрасно, однако внутри корпоративной сети такие усилия оказываются неэффективны. Ранжирующие ссылки от Google не помогают внутри корпорации, поскольку ссылки на страницы продиктованы организационной структурой предприятия или ее корпоративными устремлениями и не отражают отношения между пользователями. Кроме этого, оплата публичной поисковой системе высокого места в списке ответов в рамках систем ECM уже не работает. Но по своей сути все эти усилия по-прежнему лежат в русле логики единственного релевантного ответа.

Безусловно, даже общественный портал Google стремится давать сегодня подходящие ответы на большинство запросов, но если вы ищете то, что не совпадает с интересами большинства, или вы не можете подобрать правильные термины при составлении запроса, то Google может страницу за страницей выдавать «мусор». Экспоненциальный рост не по зубам даже ранжированию от Google.

«Бантики» на «хвост»

Поскольку ни один поисковик не может решить проблему большого «хвоста» и гарантировать, что «наилучший» ответ непременно окажется первым в списке результатов, то самое большее, что они могут, — предоставить удобные инструменты, способные показать пользователю, какая информация ему доступна в списке ответов, и дать средства навигации в этом хаосе.

В результате список найденных документов превращается в интерактивный инструментарий, который может показать, какие типы данных предложены пользователю в качестве ответов, и позволяют быстро ориентироваться в этих данных. В некоторых случаях обработанный этими инструментами список результатов может содержать даже полный ответ на ваш запрос.

Кратко рассмотрим навигационные средства для корпоративных поисковиков подобных «Search v.2». Приведенные примеры не есть попытка сопоставить функции конкретных поисковиков, они нужны только как иллюстрация тех направлений, в которых развивается углубленный поиск (Drill Down Search).

Текстовые навигаторы углубленного поиска. Наиболее общими являются средства итеративного поиска элементов в результатах поиска. Если их правильно применять, то они оказываются весьма полезными. И хотя углубленный поиск требует от пользователя дополнительных интеллектуальных усилий, большую часть реальной работы вполне можно автоматизировать. Например, извлечь элементы, связанные с именем собственным, затем элементы, связанные с географическим местоположением, либо сформулировать предположение о правильном написании, а затем применить предметно-ориентированную таксономию, которая сведет триаду «персона, организация, событие» в обзор подборок из уже выбранных документов. В самом запросе можно управлять глубиной поиска. Если, к примеру, вам нужен отчет о продажах за 2006 год, то его бесполезно искать среди документов, опубликованных в 2005 году или в более ранние годы. Правда, выяснение даты публикации для документов, накапливаемых в системе Google, может оказаться неразрешимой проблемой, но для корпоративных систем ее решение вполне реально.

Нетекстовые предположения. Современные поисковики способны ссылки на мультимедийные элементы, относящиеся к поисковому запросу, выдавать на экран в виде небольших графических изображений. Так, поисковый запрос, содержащий фамилию, подобную фамилии поп-звезды, может в списке ответов приводить картинки обложек записанных хитов, временную диаграмму ее рейтинга на рынке и т.п., в зависимости от условий поиска.

Агрегирование фактов. В примере:

George Herbert Walker Bush was the 41th President of the USA
George W. Bush was the 43th President of the United States
US landscaping revenues are approximately $40 billion annually

система пытается свести воедино разрозненные факты, относящиеся к запросу: ‘President George Bush’. Может показаться, что это проблема для искусственного интеллекта, но все проще. Вслед за извлечением элементов и предложений-существительных идет извлечение фактов, и если достаточное количество статей упоминает некий факт и определенный процент может быть нормализован до обобщенной формы, то система строит свидетельства в поддержку этого факта. В примере система разбила ‘George H. W. Bush’, ‘George W. Bush’ и ‘United states’ по словарным статьям, а 41st president и 43rd president были распознаны по ним, как предложения-существительные. Это не анализ структуры предложений для последующего сбора фактов — просто система смогла просмотреть тысячи документов, содержащих почти идентичную информацию; некоторое количество документов, возможно, даже содержали одинаковый набор слов, а другие документы были использованы для статистического подтверждения приведенных в них свидетельств. Прекрасно, когда так все удачно получается, однако это происходит далеко не всегда, особенно для сложных запросов.

Один из подходов, позволяющих такие фокусы, не прибегая к услугам искусственного интеллекта, заключается в том, что разработчики используют простой морфологический анализ предложений двумя способами. Вместо отдельных слов они ищут многословные фразы, используя различные приемы; эти словосочетания могут быть непосредственно подвергнуты статистическому анализу. В то же время, они разбивают документы на мелкие части, анализируя статистические корреляции на уровне параграфа и предложения.

Будут ли востребованы подобные усовершенствования — решать рынку, но, скорее всего, некоторые технологии извлечения фактов наверняка найдут своих почитателей и среди пользователей корпоративных систем.

Визуализация и определение эмоциональной окраски. С помощью красочных демонстраций разработчики преподносят автоматически генерируемые графики, показывающие тысячи отобранных в результате выполнения запроса документов. Эта технология использует статистические методы анализа извлеченных слов, фраз и других элементов, аналогичные уже рассмотренным методам. Первый прием — визуализация с помощью семантической карты на основе контекстного индекса — облако связанных между собой слов (рис. 2, вверху). Перенос курсора с одного слова на другое, отражая ваше предпочтение, изменяет картинку и по-новому ранжирует список выбранных документов. Полезно ли это и работает ли вообще? Станет ли привычным ориентироваться в результатах поиска столь экзотичным способом? Нет конкретного ответа, однако нам уже не раз демонстрировали множество приемов, которые не находили применения на практике. Этот скептицизм можно развеять только тогда, когда программисты станут работать теснейшим образом с потенциальными пользователями. Реальная конкуренция в корпоративном пространстве способна стимулировать много полезных начинаний.

Рис. 2. Визуализация результатов поиска

Анализ эмоциональной окраски высказываний в отношении производителей, событий, фактов — еще один пример визуализации на основе статистического простейшего анализа контекста результатов поиска. Способность некоторых систем распознавать эпитеты, которыми сопровождаются обсуждения событий, и визуализация этой статистики — одно из таких начинаний (рис. 2, внизу). Так, оттенками красного цвета окрашены документы, в которых преобладают отрицательные эпитеты.

***

Ситуация может показаться безысходной, однако следует сохранять оптимизм — неизвестны причины роста объемов информации, поэтому у нас нет рычагов воздействия на него. Возможно, со временем все как-то стабилизируется либо мы дождемся появления масштабируемых коммерческих квантовых вычислителей и алгоритмов, которые создадут принципиально иные механизмы поиска в океане информации.

Вадим Ефремов (VEfremov@hetnet.ru) — советник генерального директора компании «ГЕТНЕТ Консалтинг» (Москва).