Маркетинг

Больше данных – меньше проблем!


Новые системы хранения данных для компаний малого и среднего бизнеса. Узнайте подробности и задайте вопросы на on-line-семинаре IBM




White Papers

45% руководителей компаний считают информацию ключевым стратегическим ресурсом, но лишь 7% уверены, что смогут успешно использовать ее для роста.

Рассматриваются три типичных метода хищения данных: добронамеренные сотрудники, нацеленные атаки извне и мстительные сотрудники. Наряду с обзором способов противодействия даны конкретные советы по предотвращению взлома.

Открытые системы :: Системы управления базами данных

Контекст при поиске в Web

в buzz в мой мир в twitter версия для печатисохранить в pdf

Механизмы поиска в Web, как правило, рассматривают запросы на поиск изолированно друг от друга.

Стив Лоуренс

Механизмы поиска в Web, как правило, рассматривают запросы на поиск изолированно друг от друга. Следующее поколение механизмов поиска сможет более активно использовать информацию о контексте, либо прямо или косвенно сообщаемую пользователем, либо получаемую за счет реализации дополнительной функциональности.

Введение

По мере распространения Web все шире и шире становятся представлены разные слои общества. По сравнению с базами данных, используемых в традиционных системах извлечения информации, Web намного разнообразнее как по содержимому, так и по структуре.

Современные механизмы поиска в Web аналогичны по своему действию традиционным системам извлечения информации [57]. Механизмы поиска в Web способны предоставлять длинные списки подходящих документов в ответ на многие запросы пользователей, и новые методы совершенствуют упорядочивание результатов поиска [8, 10, 21, 36, 41]. Однако в действительности интерес для пользователя представляют лишь очень немногие из результатов, полученных в ответ на запрос [6, 50]. Какие из документов окажутся полезными, зависит от контекста запроса, например, от образования, области интересов и опыта пользователя, а также от информации, предлагаемой в рамках текущего запроса. Нужны ли пользователю компании, продающие данный продукт, или техническая информация о продукте? Хочет ли пользователь попасть на сайт, где он уже был, или его интересуют новые сайты?

Такие механизмы поиска, как Google и FAST, как никогда раньше упрощают доступ к информации и широко применяются в Web. Исследование, проведенное GVU, показало, что около 85% людей обращаются к поисковым системам для того чтобы локализовать информацию [31], и многие механизмы поиска поддерживают согласованное упорядочивание ведущих сайтов, к которым пользователи обращаются в Web [48]. Однако основные механизмы поиска в Web имеют существенные ограничения - зачастую они предлагают устаревшую информацию, индексируют лишь часть доступной в Web информации, не индексируют документы, для доступа к которым необходима аутентификация, и многие документы остаются за рамками поиска, а кроме того, сайты индексируются неодинаково [42, 43].

Определение контекста в поисковых запросах

Механизмы поиска в Web, как правило, рассматривают запросы на поиск изолированно друг от друга. Результаты, полученные в ответ на данный запрос, идентичны, не зависят от пользователя или контекста, в котором пользователь создавал запрос. Контекстная информация может быть предоставлена пользователем в виде ключевых слов, добавляемых к запросу. Например, при поиске домашней страницы конкретного человека можно добавить к запросу такие ключевые слова, как «home» или «homepage». Однако возможности предоставления контекста в таком виде сложны и ограничены. Единственный способ добавить хорошо определенную контекстную информацию в поисковый запрос предлагается в механизме поиска, который специально рассчитан на обработку таких данных.

Явное добавление контекстной информации

Проект Inquirus 2 института NEC Research Institute [29, 30] запрашивает контекстную информацию, что сейчас реализовано в виде указания категории требуемых данных. Помимо формирования запроса из ключевых слов пользователи выбирают категорию, например, «personal homepages» (персональные домашние страницы), «research papers» (научные статьи) или «general introductory information» (общая предварительная информация). Inquirus 2 представляет собой механизм метапоиска, который действует на уровень выше обычных поисковых систем. Inquirus 2 пытается, используя данные запроса вместе с контекстной информацией, найти подходящие документы с помощью обычных механизмов поиска в Web. Контекстная информация необходима для выбора тех механизмов поиска, которым передается запрос, для модификации запросов и для определения принципов упорядочивания полученных документов.

Например, запрос на научные статьи по теме «машинное обучение» может трансформироваться в рассылку нескольких запросов к механизмам поиска. Один из таких запросов может быть изменен за счет добавления ключевых слов, которые позволяют уточнить запрос, указав, что требуются именно научные статьи, например, ключевые слова «abstract» («резюме») или «references» («библиография»). Другой запрос может быть идентичен исходному, если преобразования ничего не дают. Inquirus 2 подтвердил свою высокую эффективность по уточнению результатов поиска в пределах предопределенных категорий. Последнее исследование, связанное с Inquirus 2, касается интеграции методов обучения, позволяющие автоматически модифицировать запросов [18, 28].

Автоматическое получение контекстной информации

Inquirus 2 может значительно увеличить точность поиска, но требует, чтобы пользователь явно указал контекстную информацию. А нельзя ли автоматически выяснить контекст? Именно такую цель ставят перед собой авторы проекта Watson [11, 12, 13].

Watson пытается моделировать контекст для информации, требующейся пользователю, опираясь на содержимое документов, которые пользователь ранее редактировал средствами Microsoft Word или просматривал в Internet Explorer. Документы, которые пользователь редактирует или просматривает, анализируются с помощью эвристического алгоритма, поддерживающего весовые коэффициенты, которые призван выявлять слова, отличительные для содержимого документов. Watson меняет запрос в зависимости от содержимого редактируемых или просматриваемых документов и передает модифицированный запрос механизмам поиска в Web, тем самым автоматически добавляя контекстную информацию в запрос.

Watson не только позволяет формулировать подобные запросы явно, но и действует в фоновом режиме, постоянно осуществляя поиск документов в Web, связанных с материалами, которые редактирует или просматривает пользователь. Аналогичным образом работает и Remembrance Agent [54, 56], индексирующий определенные файлы, такие как сообщения электронной почты и научные статьи, и постоянно ведет поиск связанных документов, пока пользователь работает с документом в редакторе Emacs. К аналогичным проектам относятся: Margin Notes [55], который переписывает Web-страницы, включая в них ссылки на соответствующие персональные файлы; Haystack [1], цель которого состоит в создании множества взаимосвязанных «стогов», или хранилищ персональной информации; программа Autonomy?s Kenjin (www.kenjin.com), которая автоматически предлагает содержимое локальных файлов или файлов из Web с учетом документов, которые пользователь просматривает или редактирует. Кроме того, к аналогичным решениям можно отнести агентов Fab [4], Letizia [47], WebWatcher [3] и Syskill and Webert [51], изучающих область интересов пользователя с тем, чтобы предложить ему соответствующие Web-страницы.

Персонифицированный поиск

Следующий этап - персонификация поиска, т. е. использование механизма поиска, которому известно все о предыдущих запросах пользователя и сфере его интересов и данный механизм способен согласовывать результаты запроса с этими данными. Так, к примеру, в ответ на запрос «Майкл Джордан» ссылки на информацию, связанную с профессором, работающим в области информатики и статистики, будут иметь более высокий приоритет, чем ссылки на данные об известном баскетболисте, если такое упорядочивание больше отвечает интересам конкретного пользователя.

Такой персонифицированный поисковый механизм может размещаться или на сервере, или на клиенте. Серверный механизм поиска, такой как Google, способен отслеживать предыдущие запросы пользователя и выбранные им документы, а затем на основе этой информации сделать вывод о сфере его интересов. Например, если пользователь часто ищет материалы, связанные с компьютерами, тогда ссылка на домашнюю страницу ученого при ответе на запрос «Майкл Джордан» получит высокий приоритет, даже если раньше пользователь никогда не инициировал подобный запрос.

Персонифицированная служба поиска на клиенте отслеживает все редактируемые и просматриваемые пользователем документы для того, чтобы составить наилучшую модель пользовательских интересов. Клиенты могут модифицировать запросы с тем, чтобы помочь извлечь документы, соответствующие данному контексту, но при этом трудно полностью учесть всю сферу интересов пользователя. Watson и Kenjin представляют собой примеры персонифицированных механизмов поиска в Web, размещаемых на клиенте. Сейчас Watson и Kenjin извлекают контекстную информацию только из документа, который в данный момент просматривает или редактирует пользователь.

Принимая во внимание, что затраты на работу полномасштабного механизма поиска и так уже очень высоки, можно сделать вывод, что, скорее всего, полномасштабная персонификация на сервере сейчас обходится слишком дорого для основных механизмов поиска в Web. Большинство таких механизмов (исключение составляет лишь Northern Light) даже не предлагают службу уведомления, которая сообщала бы пользователям о появлении новых страниц, соответствующих конкретным запросам. Некоторые Internet-компании уже предлагают значительный объем памяти индивидуальным пользователям. Например, DriveWay (www.driveway.com) и Xdrive (www.xdrive.com) предоставляют каждому пользователю дисковое пространство емкостью до 100 Мбайт.

Одна из важнейших проблем, связанных с персонифицированными службами поиска состоит в том, что пользователи часто рассчитывают на неизменность, т. е. им хотелось бы получать одни и те же результаты в ответ на одни и те же запросы. Но персонифицированный механизм поиска может возвращать разные результаты в ответ на один и тот же запрос как для разных пользователей, так и для того же пользователя по мере того, как система больше узнает о его пристрастиях. Еще один важный вопрос, о котором здесь ничего не говорилось, - это вопрос конфиденциальности, поскольку многие стремятся ограничить возможности хранения и использования персональной информации механизмами поиска.

Чего хочет пользователь

Все чаще при поиске в Web используется методика, позволяющая прогнозировать контекст пользовательских запросов. Поисковые машины Excite (www.excite.com), Lycos (www.lycos.com), Google (www.google.com) и Yahoo (www.yahoo.com) предлагают специальные функции для определенных видов запросов. Например, запросы к Excite и Lycos с указанием имени художника или названия компании, порождают дополнительные результаты, которые непосредственно связаны с художником или компанией. Недавно Yahoo добавила аналогичную функциональность и предоставляет специализированные результаты для множества различных типов запросов, например, если в запросе встречается символ акции, то предлагаются котировки ценных бумаг и ссылки на информацию о компании, а имена игроков связываются с информацией о команде и лиге. Подобный же эффект при обращении с запросом в Yahoo вызывает упоминание моделей автомобилей, праздников, музыкантов, крупных городов, названий лекарственных средств и препаратов, знаков Зодиака, пород собак, авиакомпаний, магазинов, телевизионных шоу и национальных парков. Google идентифицирует запросы, которые выглядят как названия улиц в США и предлагает прямые ссылки на карты. Точно также Google отслеживает запросы на последние новости и предоставляет ссылки на соответствующие статьи, когда те найдены, обоснованно предполагая, что пользователя могут интересовать новости.


15.12.2000г


Комментарии:


Для того, чтобы оставить комментарий авторизуйтесь или зарегистрируйтесь.

Новости ОСП-ТВ - 03.09.10


30/05/2007 №04

Миражи интеграции
Герман Хохлов
ИТ-рынок наконец-то осознал необходимость интеграции приложений — интеграционные платформы сегодня на пике популярности, а еще пару лет назад приходилось убеждать, что интегрировать лучше «на шине», чем с помощью прямых интерфейсов. Однако сегодня ожидания от внедрения интеграционных платформ часто значительно превосходят их реальные возможности. Мало того, встречаются даже случаи, когда шины рассматриваются как волшебные палочки, решающие все проблемы автоматизации и бизнеса. Интеграция приложений и интеграционные платформы постепенно становятся существенной статьей ИТ-бюджета.
Виртуализация: за и против
Александр Замятин
Сегодня технологии виртуализации вызывают большой интерес со стороны всех участников ИТ-рынка — все больше заказчиков видят в ИТ реальный инструмент бизнеса и все меньше внимания потребители информационных услуг уделяют оборудованию и программным средствам, на которых будет выполняться интересующая их задача. ИТ-инфраструктура все чаще оценивается как единое информационное поле, позволяющее получать, структурировать, обрабатывать и хранить необходимую компании информацию. Концепции виртуализации, начавшие развиваться около 40 лет назад, стали ответом на эти требования, однако виртуализация таит в себе не только преимущества.
Scrum: гибкое управление разработкой
Михаил Борисов
В большинстве случаев программирование — сложный, слабо определенный процесс, требующий от разработчиков творческого подхода. Различные agile-технологии позволяют организовать процесс постепенного приближения к цели проекта путем проведения циклов испытаний с корректировкой последующих, основанных на анализе результатов предыдущих. Scrum — одна из первых методологий циклического наращивания функциональности и корректировки хода проекта на основе анализа обратной связи от пользователей. Методология Scrum устанавливает правила управления процессом разработки и позволяет использовать уже существующие практики кодирования, корректируя требования или внося тактические изменения. Использование этой методологии дает возможность выявлять и устранять отклонения от желаемого результата на более ранних этапах разработки программного продукта.
Метрики управления качеством защиты приложений
Гуннар Петерсон, Элизабет Николс
Функциональность Web-приложений и их пользовательская база развиваются одновременно с ростом угроз, и хотя специальное оборудование (например, сетевые экраны) играет важную роль в деле защиты приложений, для обеспечения их полной безопасности одного оборудования недостаточно. Все эти устройства обеспечивают защиту хостов и средств связи, но почти бессильны перед атаками на сами программные модули или дизайн (интерфейсные экраны) приложения, поэтому предприятия должны сосредоточиться на усилении защиты Web-приложений. Однако здесь сразу появляется ряд вопросов. Какие проблемы могут возникнуть у моих программ? Насколько установленные приложения уязвимы перед лицом наиболее общих угроз? Какие изменения в цикле разработки программного обеспечения могут повлиять на защиту этих уязвимых мест?
Комбайн автоматизации
Александр Александров
Корпоративные платформы управления бизнес-процессами претендуют на то, чтобы, отделив логику выполнения процессов от их программной реализации, включить в единый цикл взаимодействие людей, потоки документов, распределенные информационные системы и базы данных. Когда появился такой «комбайн» с возможностью объединения анализа и моделирования процессов, управления действиями людей и работой информационных систем при обеспечении мониторинга и оптимизации производительности на протяжении жизненного цикла процессов, потребовалось переосмысление организации системы управления бизнес-процессами.
BPM со всех сторон
Наталья Дубова
Ежегодная конференция «Управление бизнес-процессами на предприятии: интеграция в корпоративные системы» вновь собрала полную аудиторию. С чем связан повышенный интерес к BPM и какие решения в данной области предлагаются сегодня отечественному бизнесу? Дисциплина управления бизнес-процессами сложилась в последнее десятилетие в ответ на неэффективную организацию бизнеса по функциональным подразделениям и избыточную сложность предлагаемых подходов к реинжинирингу бизнес-процессов, обычно предписывающих полную и одномоментную перестройку процессов из состояния «как есть» в состояние «как должно быть».
Транзакционная память — первые шаги
Леонид Черняк
Память современных компьютеров в принципе отличается от легендарных ферритовых колечек только своей емкостью и быстродействием: она последовательна по своей природе. С появлением многоядерных процессоров возникает необходимость в альтернативных решениях. Возможно, таким решением станет транзакционная память.

Содержание

Обучение

Разработчику

Книги

Системы управления базами данных

Советы и мнения

Интернет

Операционные системы

Современные архитектуры

Книжная полка ОС

Академия ОС

Программная инженерия

Безопасность

Приложения

Разное

Платформы

От редакции



Эта рубрика в архиве
Список номеров за



Инфозоны

Adaptive World

Информационные решения компании HP

Новости

Компания HP лидирует в списке TOP500

Практикум

Анализ, синтез и виртуализация

Тенденции

HP-UX: 25 шагов на пути к виртуализации бизнес-критичных задач

Виртуализация

Cовременные сетевые системы хранения и виртуализация в реальном мире
OSP.RU :: Написать письмо.