Рассматриваются три типичных метода хищения данных: добронамеренные сотрудники, нацеленные атаки извне и мстительные сотрудники. Наряду с обзором способов противодействия даны конкретные советы по предотвращению взлома.
Открытые системы :: Системы управления базами данных
Контекст при поиске в Web
Механизмы поиска в Web, как правило, рассматривают запросы на поиск изолированно друг от друга.
Стив Лоуренс
Механизмы поиска в Web, как правило, рассматривают запросы на поиск изолированно друг от друга. Следующее поколение механизмов поиска сможет более активно использовать информацию о контексте, либо прямо или косвенно сообщаемую пользователем, либо получаемую за счет реализации дополнительной функциональности.
Введение
По мере распространения Web все шире и шире становятся представлены разные слои общества. По сравнению с базами данных, используемых в традиционных системах извлечения информации, Web намного разнообразнее как по содержимому, так и по структуре.
Современные механизмы поиска в Web аналогичны по своему действию традиционным системам извлечения информации [57]. Механизмы поиска в Web способны предоставлять длинные списки подходящих документов в ответ на многие запросы пользователей, и новые методы совершенствуют упорядочивание результатов поиска [8, 10, 21, 36, 41]. Однако в действительности интерес для пользователя представляют лишь очень немногие из результатов, полученных в ответ на запрос [6, 50]. Какие из документов окажутся полезными, зависит от контекста запроса, например, от образования, области интересов и опыта пользователя, а также от информации, предлагаемой в рамках текущего запроса. Нужны ли пользователю компании, продающие данный продукт, или техническая информация о продукте? Хочет ли пользователь попасть на сайт, где он уже был, или его интересуют новые сайты?
Такие механизмы поиска, как Google и FAST, как никогда раньше упрощают доступ к информации и широко применяются в Web. Исследование, проведенное GVU, показало, что около 85% людей обращаются к поисковым системам для того чтобы локализовать информацию [31], и многие механизмы поиска поддерживают согласованное упорядочивание ведущих сайтов, к которым пользователи обращаются в Web [48]. Однако основные механизмы поиска в Web имеют существенные ограничения - зачастую они предлагают устаревшую информацию, индексируют лишь часть доступной в Web информации, не индексируют документы, для доступа к которым необходима аутентификация, и многие документы остаются за рамками поиска, а кроме того, сайты индексируются неодинаково [42, 43].
Определение контекста в поисковых запросах
Механизмы поиска в Web, как правило, рассматривают запросы на поиск изолированно друг от друга. Результаты, полученные в ответ на данный запрос, идентичны, не зависят от пользователя или контекста, в котором пользователь создавал запрос. Контекстная информация может быть предоставлена пользователем в виде ключевых слов, добавляемых к запросу. Например, при поиске домашней страницы конкретного человека можно добавить к запросу такие ключевые слова, как «home» или «homepage». Однако возможности предоставления контекста в таком виде сложны и ограничены. Единственный способ добавить хорошо определенную контекстную информацию в поисковый запрос предлагается в механизме поиска, который специально рассчитан на обработку таких данных.
Явное добавление контекстной информации
Проект Inquirus 2 института NEC Research Institute [29, 30] запрашивает контекстную информацию, что сейчас реализовано в виде указания категории требуемых данных. Помимо формирования запроса из ключевых слов пользователи выбирают категорию, например, «personal homepages» (персональные домашние страницы), «research papers» (научные статьи) или «general introductory information» (общая предварительная информация). Inquirus 2 представляет собой механизм метапоиска, который действует на уровень выше обычных поисковых систем. Inquirus 2 пытается, используя данные запроса вместе с контекстной информацией, найти подходящие документы с помощью обычных механизмов поиска в Web. Контекстная информация необходима для выбора тех механизмов поиска, которым передается запрос, для модификации запросов и для определения принципов упорядочивания полученных документов.
Например, запрос на научные статьи по теме «машинное обучение» может трансформироваться в рассылку нескольких запросов к механизмам поиска. Один из таких запросов может быть изменен за счет добавления ключевых слов, которые позволяют уточнить запрос, указав, что требуются именно научные статьи, например, ключевые слова «abstract» («резюме») или «references» («библиография»). Другой запрос может быть идентичен исходному, если преобразования ничего не дают. Inquirus 2 подтвердил свою высокую эффективность по уточнению результатов поиска в пределах предопределенных категорий. Последнее исследование, связанное с Inquirus 2, касается интеграции методов обучения, позволяющие автоматически модифицировать запросов [18, 28].
Автоматическое получение контекстной информации
Inquirus 2 может значительно увеличить точность поиска, но требует, чтобы пользователь явно указал контекстную информацию. А нельзя ли автоматически выяснить контекст? Именно такую цель ставят перед собой авторы проекта Watson [11, 12, 13].
Watson пытается моделировать контекст для информации, требующейся пользователю, опираясь на содержимое документов, которые пользователь ранее редактировал средствами Microsoft Word или просматривал в Internet Explorer. Документы, которые пользователь редактирует или просматривает, анализируются с помощью эвристического алгоритма, поддерживающего весовые коэффициенты, которые призван выявлять слова, отличительные для содержимого документов. Watson меняет запрос в зависимости от содержимого редактируемых или просматриваемых документов и передает модифицированный запрос механизмам поиска в Web, тем самым автоматически добавляя контекстную информацию в запрос.
Watson не только позволяет формулировать подобные запросы явно, но и действует в фоновом режиме, постоянно осуществляя поиск документов в Web, связанных с материалами, которые редактирует или просматривает пользователь. Аналогичным образом работает и Remembrance Agent [54, 56], индексирующий определенные файлы, такие как сообщения электронной почты и научные статьи, и постоянно ведет поиск связанных документов, пока пользователь работает с документом в редакторе Emacs. К аналогичным проектам относятся: Margin Notes [55], который переписывает Web-страницы, включая в них ссылки на соответствующие персональные файлы; Haystack [1], цель которого состоит в создании множества взаимосвязанных «стогов», или хранилищ персональной информации; программа Autonomy?s Kenjin (www.kenjin.com), которая автоматически предлагает содержимое локальных файлов или файлов из Web с учетом документов, которые пользователь просматривает или редактирует. Кроме того, к аналогичным решениям можно отнести агентов Fab [4], Letizia [47], WebWatcher [3] и Syskill and Webert [51], изучающих область интересов пользователя с тем, чтобы предложить ему соответствующие Web-страницы.
Персонифицированный поиск
Следующий этап - персонификация поиска, т. е. использование механизма поиска, которому известно все о предыдущих запросах пользователя и сфере его интересов и данный механизм способен согласовывать результаты запроса с этими данными. Так, к примеру, в ответ на запрос «Майкл Джордан» ссылки на информацию, связанную с профессором, работающим в области информатики и статистики, будут иметь более высокий приоритет, чем ссылки на данные об известном баскетболисте, если такое упорядочивание больше отвечает интересам конкретного пользователя.
Такой персонифицированный поисковый механизм может размещаться или на сервере, или на клиенте. Серверный механизм поиска, такой как Google, способен отслеживать предыдущие запросы пользователя и выбранные им документы, а затем на основе этой информации сделать вывод о сфере его интересов. Например, если пользователь часто ищет материалы, связанные с компьютерами, тогда ссылка на домашнюю страницу ученого при ответе на запрос «Майкл Джордан» получит высокий приоритет, даже если раньше пользователь никогда не инициировал подобный запрос.
Персонифицированная служба поиска на клиенте отслеживает все редактируемые и просматриваемые пользователем документы для того, чтобы составить наилучшую модель пользовательских интересов. Клиенты могут модифицировать запросы с тем, чтобы помочь извлечь документы, соответствующие данному контексту, но при этом трудно полностью учесть всю сферу интересов пользователя. Watson и Kenjin представляют собой примеры персонифицированных механизмов поиска в Web, размещаемых на клиенте. Сейчас Watson и Kenjin извлекают контекстную информацию только из документа, который в данный момент просматривает или редактирует пользователь.
Принимая во внимание, что затраты на работу полномасштабного механизма поиска и так уже очень высоки, можно сделать вывод, что, скорее всего, полномасштабная персонификация на сервере сейчас обходится слишком дорого для основных механизмов поиска в Web. Большинство таких механизмов (исключение составляет лишь Northern Light) даже не предлагают службу уведомления, которая сообщала бы пользователям о появлении новых страниц, соответствующих конкретным запросам. Некоторые Internet-компании уже предлагают значительный объем памяти индивидуальным пользователям. Например, DriveWay (www.driveway.com) и Xdrive (www.xdrive.com) предоставляют каждому пользователю дисковое пространство емкостью до 100 Мбайт.
Одна из важнейших проблем, связанных с персонифицированными службами поиска состоит в том, что пользователи часто рассчитывают на неизменность, т. е. им хотелось бы получать одни и те же результаты в ответ на одни и те же запросы. Но персонифицированный механизм поиска может возвращать разные результаты в ответ на один и тот же запрос как для разных пользователей, так и для того же пользователя по мере того, как система больше узнает о его пристрастиях. Еще один важный вопрос, о котором здесь ничего не говорилось, - это вопрос конфиденциальности, поскольку многие стремятся ограничить возможности хранения и использования персональной информации механизмами поиска.
Чего хочет пользователь
Все чаще при поиске в Web используется методика, позволяющая прогнозировать контекст пользовательских запросов. Поисковые машины Excite (www.excite.com), Lycos (www.lycos.com), Google (www.google.com) и Yahoo (www.yahoo.com) предлагают специальные функции для определенных видов запросов. Например, запросы к Excite и Lycos с указанием имени художника или названия компании, порождают дополнительные результаты, которые непосредственно связаны с художником или компанией. Недавно Yahoo добавила аналогичную функциональность и предоставляет специализированные результаты для множества различных типов запросов, например, если в запросе встречается символ акции, то предлагаются котировки ценных бумаг и ссылки на информацию о компании, а имена игроков связываются с информацией о команде и лиге. Подобный же эффект при обращении с запросом в Yahoo вызывает упоминание моделей автомобилей, праздников, музыкантов, крупных городов, названий лекарственных средств и препаратов, знаков Зодиака, пород собак, авиакомпаний, магазинов, телевизионных шоу и национальных парков. Google идентифицирует запросы, которые выглядят как названия улиц в США и предлагает прямые ссылки на карты. Точно также Google отслеживает запросы на последние новости и предоставляет ссылки на соответствующие статьи, когда те найдены, обоснованно предполагая, что пользователя могут интересовать новости.
Комментарии:
Для того, чтобы оставить комментарий авторизуйтесь или зарегистрируйтесь.