Врезка 1

Организация интерфейсов в поисковых системах

Вагиф Касумов

Физическое развитие Internet, увеличение объема информации, доступной через Сеть, а также расширение круга пользователей ставит задачу эффективного использования ресурсов и каналов. В данной статье рассматриваются вопросы организации интерфейса между пользователем, поисковой системой и сетевыми ресурсами, а также обсуждаются методы изменения эффективности канала связи.

В связи с большим объемом функциональных возможностей и непрерывным развитием информационных и компьютерных сетей, сервис, предоставляемый Internet, становится все более труднодоступным для широкого круга пользователей. Это можно объяснить тем, что доступ к большинству информационных систем осуществляется через интерфейс с меню, в котором пользователь ограничен определенными системными рамками, что противодействует повышению производительности. С другой стороны, меню успешно применяется в тех случаях, когда пользователь непосредственно работает с одним или небольшим числом информационных ресурсов.

Одна из услуг Сети - поиск информации, выполняемый поисковыми системами (ПС). Эффективность ПС зависит от методов организации поиска, обнаружения источников и их индексирования, организации пользовательского интерфейса [1-2]. Однако эффективность зависит также и от интерфейсов с пользователем и системными ресурсами. Это особенно заметно для ПС с географически распределенной структурой [3].

Интерфейс пользователя (ИП) - это граница, на которой пользователь и система осуществляют взаимодействие между собой. Особенности ПС вытекают из "интеллекта" пользовательских рабочих мест. Для "тупых" терминалов все функции взаимодействия пользователя с системой возлагаются на узел, к которому терминал прикреплен, или на другие узлы сети. Для "умных" рабочих мест ИП реализуется непосредственно на станции (Netscape, Explorer и т.п.). Если синтаксический аспект разработки ИП не находит обычно детального анализа (считается, что синтаксические вопросы в распределенной обработке не порождают принципиально новых задач, связанных с технологией распределенной обработки), то вопрос о семантическом аспекте реализации ИП в ПС выглядит гораздо шире и сложнее. Во-первых в ПС объем информационно-программных ресурсов слишком большой, что исключает возможность знакомства или запоминания пользователем каких-либо признаков организации информации, серверов или БД. Во-вторых, распределенность и динамичность ресурсов отделяет пользователей от сетевых адресов и форматов обращения к данным. По этим причинам семантический аспект реализации ИП в ПС считается определяющим фактором для разработчиков. С другой стороны, ИП не является самостоятельным продуктом, а образует часть прикладных программ (ПП) и сетевых серверов, следовательно, рекомендации и правила, выработанные для разработки ИП одновременно являются и требованиями (или ограничениями) для прикладных программистов.

Составные компоненты системы общения

Распределенные системы, в частности ПС, могут иметь в своем составе следующие интерфейсные средства [3]:

? интерфейс пользователя с поисковой машиной (ПМ);

? интерфейс ПМ с системными ресурсами;

? интерфейс пользователя с сетевыми ресурсами (браузеры и т.п.).

К этим средствам предъявляются следующие требования:

? максимальная приближенность к естественному языку;

? максимальная полнота и гибкость;

? независимость от архитектуры системы и организации сетевых ресурсов;

? высокая реакция системы и высокая надежность;

? синтаксическая и семантическая устойчивость.

Для учета данных требований в ПС должен быть использован интеллектуальный ИП, который может иметь двухуровневую структуру. На первом уровне пользователю предоставляется специальный словарь для общения с ПМ, в результате чего выясняются имена ресурсов, по которым должен быть реализован пользовательский запрос. На втором уровне пользователю предоставляются средства общения с сетевыми серверами для полного удовлетворения его запроса. Общая структура системы общения в ПС представлена на рис.1.

Как обычно ПМ (по крайней мере ее интерфейсные программы) располагается во всех серверах обслуживания пользователей, и, следовательно, может отсутствовать географическая разобщенность между пользователем и ПМ. Однако, СР, как правило, разбрасывается по узлам сети и часто пользователь и СР оказываются географически рассредоточенными. Таким образом, интерфейсы И₂ и И₃ должны обладать быстродействием ведения диалога. ПМ через интерфейс И₂ устанавливает связь между пользователем и соответствующим СР с помощью заранее подготовленных запросов, который выполняется один раз перед установкой сеанса между пользователем и СР, после чего начинается взаимодействие пользователя с СР через интерфейс И₃. Однако И₂- это диалог и чем больше расстояния между пользователем и СР, тем менее эффективным будет взаимодействие из-за низкого коэффициента использования канала связи. Одним из способов устранения этого недостатка является вызов программы диалога на узел пользователя для оформления запроса. Однако это дает положительный эффект лишь в том случае, когда пользователь имеет множество запросов. Для одноразовых запросов такая пересылка монитора диалога из узла в узел является нерациональным усложнением управления системой.

Структура интерфейса и эффективность канала связи

При переходе от локальной обработки к распределенной вопрос структурной организации интерфейса пользователя и технология его взаимодействия с пользователем в распределенной среде имеет определенное значение. Наличие разнообразных СР, а также постоянная наращиваемость последних предопределяет целесообразность применения в ПС интерфейса пользователя с СР как с установлением соединения (on-line) так и без него. Эти типы интерфейса придерживаются двух противоборствующих подходов. Во-первых, если общение пользователя с СР будет проводиться в режиме on-line, то канал связи между пользователем и СР будет излишне загружен, и, следовательно, стоимость общения будет высока. Кроме того, даже в ПС с малым коэффициентом загрузки, но с высоким коэффициентом распределенности, это обстоятельство может привести к резкому снижению эффективности системы в целом. С другой стороны, если для формирования запроса переслать программу диалога в узел пользователя (в режиме off-line), то в этом случае усложняется системное управление и канал будет излишне загружен пересылкой части СР (программы диалога). Здесь возникает вопрос, какой из этих двух вариантов диалога с точки зрения эффективного использования средств связи рационален. Для исследования этого вопроса на рис.2 приведено схематическое описание интерфейса пользователя для обоих вариантов [3].

На рис.2 справа от процедур приведены обозначения времен соответствующих процессов. Видно, что время, затрачиваемое на взаимодействие пользователя с СР для обоих случаев определяется суммой времени, затрачиваемых на выполнение отдельных процедур. Учитывая специфические особенности по отношению к каналу связи и исключая общих членов (время на установление связи, время на обработку запроса и время на отправки ответа) получим, что время взаимодействия без пересылки программы диалога T^б/п измеряется значением t^ф.з, время взаимодействия с пересылкой программы T^с/правно сумме t^в.п и t^от.з.

Время формирования запроса качественно пропорционально количеству поисковых признаков N^q в запросе и интенсивности запросов l, так как при вызове программы диалога пользователь может формировать не один, а несколько запросов. Если t - время, которое затрачивается пользователем на подготовку части запроса, определяемой одним поисковым признаком, то T_с^б/п=tN^ql.

Время вызова программы диалога можно определить как отношение средней длины программы диалога L^д.п на пропускную способность канала С. Аналогичным образом время отправления запроса определяется как отношение средней длины запроса L^з на пропускную способность канала С. Таким образом, T_с^с/п=(L^д.п +L^з)/С.

Таким образом, можно делать вывод, что временная разница DT=T_с^б/п-T_с^с/п будет расти пропорционально интенсивности запросов, так как в этом случае время взаимодействия с пересылкой не зависит от интенсивности запросов, а время взаимодействия без пересылки пропорционально интенсивности запросов l.

Можно также сказать, что при слишком большой интенсивности запросов временная разница DT стремится к бесконечности. Другими словами, эффективность использования каналов связи при интерфейсе пользователя с распределенной структурой растет пропорционально росту интенсивности пользовательских запросов.

Приведем сравнительный расчет параметров для академической сети Азербайджана. Среднее число поисковых признаков в запросе N^q равно 5. Доля времени на формирование части запроса на один признак t=5с. Пропускная способность канала С=33.6Кбит/с.╩4000Байт/с. Средняя длина программы диалога L^д.п=25.6 Кбайт и средняя длина запроса L^з=64 байт. Тогда T_с^б/п=25 сек. и T_с^с/п╩6 сек.

Теперь проанализируем временную разность DT в зависимости от нагрузки системы на примере сети с данными параметрами. На рис.3 приведены результаты сравнительного расчета времени реакции системы, для различных вариантов реализации интерфейса пользователя, проведенного на имитационной модели упомянутой сети. Параметр r характеризует географическую распределенность нагрузки и определен как процентное отношение интенсивности запросов к системе, реализуемых географически удаленными СР, на общую интенсивность запросов. Кривые, расположенные слева от заштрихованных областей соответствуют локальным пользовательским интерфейсам, а расположенные справа - распределенным интерфейсам. В четвертом случае кривая одна (оба кривые совпадают), так как отсутствует поток распределенных запросов.

Таким образом на примере академической сети подтверждается теоретический вывод о прямой зависимости временной разности DT от нагрузки системы. Однако, поскольку эта зависимость неявная, следует дать анализ ее графической иллюстрации. Во-первых, линейность зависимости временной разности от интенсивности запросов не видна, т.к. кривые описывают время реакции системы, которая включает в себя также времена задержек в каналах. Во-вторых, главным воздействующим параметром на временную разность DT является не сама нагрузка, а ее часть, определяемая долей распределенных пользовательских запросов r_i, i=1,2,3 и, следовательно, заштрихованная область, ширина которой соответствует указанной разности, сужается слева направо, и в случае r_i=0 полностью исчезает. Наконец, изменение ширины заштрихованной области в пределах каждого случая соответствует изменению временной разности в зависимости от нагрузки.

Описание поискового алгоритма

Интерфейс И₃ предназначен для предоставления пользователю нужного ему СР для удовлетворения своего запроса. Важным здесь считается тот факт, что пользователь не имеет подробного представления об информационном обеспечении системы - он только знает, что ему нужно. Стоимость использования сетевых и системных ресурсов, а также каналов связи очень высока. Одновременное обслуживание многочисленного потока запросов пользователей приводит к перегрузке информационных сетей, сетевых ресурсов и каналов связи и, в конечном счете, производительность информационных систем, в.т. поисковых систем сильно снижается. Поэтому ПС помимо удовлетворения запросов пользователей, должны решать проблему оптимальной адресации запросов пользователей к источникам и другим информационным системам [4].

Для организации интерфейса типа И₃ используются браузеры и поисковые машины, которые по своему принципу построения являются базами данных, содержащих информацию о СР и об их адресах расположения. Сегодня появилась тенденция использовать базу знаний об информационных ресурсах системы. В этом случае пользовательский запрос формально можно представить четверкой [3] Z={R,S,T,P}, где R - множество объектов, S - множества свойств, T - временные, а P - пространственные характеристики объекта. Так, например, запрос о том, каковы были расходы предприятий из бюджета I квартале 1991 г. по нефтедобывающей промышленности, по данной модели представляется в следующем виде: z_i - запрос, r_i - предприятие, s_i - бюджетные расходы, t_i - 1 кв. 1991 г., p_i - нефтедобывающая промышленность.

Однако полное перечисление прелагаемой модели для Internet, оказывается практически невозможным. Хотя не все комбинации {R,S,T,P} определяют запросы, однако, для семантической устойчивости диалога бессмысленные комбинации должны быть обеспечены соответствующими системными ответами пользователю. Кроме того, в этом случае включение в систему новых СР потребует доработки интерфейсных программ.

Положение облегчается, если вместо полного описания используется база знаний о запросе. Для представления такого типа знаний используем реляционную модель с нечеткими элементами - отношения нечеткого предпочтения СР по объектам, свойствам, временным и пространственным характеристикам. Это отношение представляется функциями важности этих характеристик для СР: j_R, j_S, j_T и j_P, значения которых лежать на числовой оси [0,1].

С другой стороны, соответствие СР к объектам, свойствам, временным и пространственным характеристикам можно представить нечеткими отношениями, определяемые функциями соответствия m_R, m_S, m_Tи m_P, которые получают значения в пределе [0,1].

Таким образом, выбор требуемой СР сводится к выбору наиболее соответствующей СР заданному списку элементов из {R, S, T, P}. На языке нечетких множеств данная задача сводится либо к выбору эффективных альтернатив, либо к многокритериальной оптимизации с нечеткими критериями, которая решается минимаксным методом.

Для определения значений j и m применяется метод экспертных оценок, и во время эксплуатации их значения подвергаются адаптации - обучению методом поощрения и штрафов. Если при выборе пользователь не находит искомого ответа, то ему предоставляется возможность возврата и формирования нового списка из элементов {R, S, T, P}. Если при повторном заходе к системе с новым списком элементов запрос пользователя будет удовлетворен, то осуществляется сравнение нового списка со старым и определяются исключенные из нового списка элементы. Затем отношения между СР и исключенными элементами подвергаются штрафованию.

Выбор наилучшего направления поиска

Информационные ресурсы Internet насколько объемны и динамичны, что даже непрерывная адаптация БЗ в поисковых машинах не обеспечивает единственность выбора направлений поиска в Web пространстве. Другими словами ПМ всегда предоставляет пользователям не одно, а множество направлений поиска по введенному набору признаков, в частности ключевых слов.

Для осуществления наилучшего выбора направлений поиска определим оценку релевантности следующим образом. Пусть ПМ содержит таблицу отношений поисковых признаков к направлениям, в частности к Web-сайтам в виде двухмерной матрицы ||k_ij||_nxm, где k_ij - неотрицательные числа (рис.4), характеризующие вес i-го признака к j-му направлению, которые вычисляются на основе соответствующих наборов степеней соответствия поисковых признаков к Web-сайтам, т.е. если z_ij - коэффициенты важности поисковых признаков для Web-сайтов, тогда k_ij можно выразить как отношение z_ij на сумму коэффициентов важности признаков к Web-сайтам по всем направлениям.

Выбор направления поиска сводится к определению значений (или значимости) направлений m_j, j=1,2,┘,m по совокупности поисковых признаков, которые определяются как сумма весов признаков для направлений k_ij по всем направлениям. Здесь m_jхарактеризуют способности Web-сайтов удовлетворить запросы.

С другой стороны определим также запрос пользователя как набор чисел S={s_i,i=1,2,┘,n}, соответствующих важности ключевых признаков в запросе пользователя. Если l_ij- среднеквадратичное отклонение запроса от направлений по отдельным признакам, тогда значимости направлений выбора l_jдля запроса пользователя можно определить как сумма l_ij для всех i. Отклонение направлений от запроса определяется с учетом значимостей направлений для запроса и суммарных весов признаков для направлений по следующей формуле: r_j=l_j/(m_j-l_j), j=1,2,┘,m. Чем меньше r_j, тем больше степень релевантности направления к запросу.

Для демонстрации адекватности предложенного алгоритма приведем пример. Пусть W={w₁,w₂,w₃,w₄,w₅} - Web-сайты в системе (m=5), которые определяются поисковыми признаками T={t₁,t₂,t₃,t₄,t₅} (n=5). Коэффициенты важности признаков для Web-сайтов задается следующей матрицей:

Важность этих признаков в пользовательском запросе задается вектором:

S={0.9, 0, 0.9, 0.95, 0.6}.

Получим следующую матрицу весов поисковых признаков для направлений:

Среднеквадратичное отклонение запроса от направлений по отдельным признакам имеет вид: {l_j}_m={0.48, 0.48, 0.39, 0.19, 0.32}.

Значимости направлений по совокупности поисковых признаков m_j, j=1,2,┘,m получают следующие значения: {m_j}_m={0.72, 0.80, 0.73, 1.47, 1.29}.

Таким образом, отклонение направлений от запроса в целом будет:

{r_j}_m={2, 1.5, 1.13, 0.15, 0.34}.

Видно, что третье направление имеет минимальное отклонение и это направление является наиболее релевантным запросу пользователя.

Об авторе:

Вагиф Касумов, Информационно-Телекоммуникационный Научный Центр Академии Наук Азербайджана. С ним можно связаться по адресу: vagif@dcacs.ab.az

Литература

[1] Храмцов П. Моделирование и анализ работы информационно-поисковых систем Internet. Открытые Системы. Москва. № 6. 1996. http:/www.osp.ru/os/1996/06/46.htm

[2] V.N.Gudivada. Information search on World Wide Web. Compouter Weekly. Moscow. № 35. 1997. pр.19-21, 26,27.

[3]. Abbasov A., Alguliev R., Gasumov V., Aliyev E. System management for large computer network: exprience on design and creation of the Azerbaijan Republic Information Computer Network. Proceedings of INET'93. San Francisco. 1993. pp.A27-A32.

[4] Романенко А.Г. Адресация запросов в распределенных информационных системах и сетях. Информационный поиск. НТИ. Москва, Сер.2, № 5, 1988, стр. 7-14.