Поисковая футурология.

На наши вопросы ответили руководитель отдела веб-поиска «Яндекса» Александр Садовский, руководитель группы мультимедийных поисковых сервисов «Яндекса» Дмитрий Беляев, специалист отдела качества поиска Google Владимир Офицеров, руководитель команды разработчиков «Нигма.РФ» Владимир Чернышов.

Возможны ли революции в интернет-поиске? Какая из не реализованных пока технологий, по вашему мнению, могла бы претендовать на это звание в ближайшие годы?

Александр Садовский («Яндекс»)

Александр Садовский, руководитель отдела веб-поиска «Яндекса» Революции очень сложно предсказывать. На то они и революции — с неожиданной сменой парадигмы. Поэтому я назову тенденции, которые скорее всего сохранятся в ближайшие годы.

Самая заметная из них — усиление мобильного направления. Сотовый телефон становится все мощнее, расширяются способы ввода информации, например, появились речевой ввод, поиск по образцу фотографий, поиск по штрихкоду — как в том же «Яндекс.Маркете». В тех случаях, когда для выхода в Интернет удобно пользоваться мобильным телефоном, люди будут предпочитать его даже рабочим компьютерам.

Поиск продолжит развиваться в сторону лучшего понимания социального окружения пользователя. Иногда полезно найти не только «знания», но и их носителя. Например, ссылки на статьи с турсайтов о Греции — это просто информация, а запись моего друга о поездке в Афины дает еще возможность перезвонить и узнать много дополнительных подробностей.

Есть тренды, связанные с интерфейсами. Уже сейчас очевидно, что представленные в виде «10 ссылок на странице» устарели. Ряд запросов требует другой подачи информации. «Большой» веб-поиск способен отображать ответ в столь же структурированном виде, как по товарным запросам это делает «Яндекс.Маркет», — с возможностью фильтрации, сортировки, со статистикой цен и т. д.

Получит продолжение еще одна тенденция — поиск в режиме реального времени. Люди ждут, что событие, очевидцем которого они стали, уже в тот же момент должно находиться в поиске. И потому правилом хорошего тона в ближайшие годы станет индексация нового за секунды.

И конечно, очень много внимания будет уделяться тому, что интересует пользователя в том контексте, в котором он находится.

Владимир Офицеров (Google)

Современные поисковые машины основаны на статистическом анализе текста, ссылок и поведения пользователей. Сейчас такой подход работает достаточно хорошо, но пока он имеет мало общего с тем способом анализа и восприятия информации, который свойствен человеку. Когда машина оценивает соответствие документа запросу, она сравнивает слова в заголовках, тексте и ссылках. Мы же просто пытаемся понять его смысл. Следующий шаг в улучшении поисковых машин, скорее всего, будет связан именно с пониманием информации. Уже сейчас эксперименты в этой области ведутся во многих исследовательских институтах и лабораториях. Интересный пример — система Never Ending Language Learner (NELL). Она самостоятельно обрабатывает информацию из Интернета, сравнивает источники, анализирует их и понимает разницу между мнением и фактами. Примерно так же учатся и люди.

Владимир Чернышов («Нигма.РФ»)

Да, конечно, революция возможна. Мы в «Нигме» как раз и занимаемся реализацией прорывных поисковых технологий. Сейчас поисковые системы на запрос пользователя выдают ссылки на сайты, саму же информацию людям приходится искать внутри веб-страницы. Я считаю, что будущее за такой информационной моделью, когда пользователь сможет получить ответ прямо в результатах поиска с учетом своих интересов и географического местоположения.

Современные крупные поисковики обзаводятся все большим количеством дополнительных сервисов, постепенно превращаясь в своеобразные порталы. Есть ли перспективы у «чистых» поисковиков или же будущее за порталами, в которых интернет-поиск — только одна из доступных функций?

Александр Садовский («Яндекс»)

Портальность крупных поисковиков связана не только с тем, что с помощью разных сервисов легче удерживать пользователя, но и с тем, что это дополнительный источник структурированной информации, сильно повышающей качество поискового ответа.

Поисковики, у которых нет, например, карты, сильно проигрывают. Когда человек ищет улицу, «Яндекс» знает, что он хочет найти именно географическое наименование, потому что способен легко составить список топонимов. «Яндекс» может в выдаче показать нужный кусок карты и, таким образом, сразу дать ответ. Портал, не имеющий карты, такой запрос обработать не сможет. И потому у «чистых» поисковиков существует выбор: либо покупать эту информацию у других, что очень сложно и дорого, либо самим становиться порталами. В противном случае остается только занять узкую нишу специализированного поисковика.

Владимир Офицеров (Google)

Сейчас уже нельзя встретить крупную поисковую систему, которая предлагала бы только поиск. Понятно, что и через поиск можно легко узнать последние новости, найти нужные картинки и т. д. Зачем совершать лишние действия — вводить поисковый запрос, просматривать результаты, корректировать запрос, — если есть возможность просто воспользоваться дополнительными сервисами, доступными на всех основных поисковых системах? Именно поэтому количество сервисов и инструментов постоянно растет и поисковики постепенно становятся площадками, которые стараются предоставить пользователям как можно больше возможностей: поиск по новостям, блогам или картинкам, встроенный переводчик или функцию предпросмотра страниц.

Владимир Чернышов («Нигма.РФ»)

Когда-то крупный портал Yahoo! был лидером поискового рынка, но появился Google, предложивший более качественный поиск, и лидерство перешло к нему. Замечу, что в то время у Google не было ни одного портального сервиса, даже почты. Качество поиска — вот то, что действительно важно для пользователей.

Характерной тенденцией последних лет стало появление большого количества специализированных тематических интернет-поисковиков. Как вы считаете, вертикальные и универсальные поисковики — конкурирующие или дополняющие друг друга технологии? Пользуетесь ли вы специализированными поисковиками?

Александр Садовский («Яндекс»)

Мы запустили первые вертикальные поиски 10 лет назад, и в настоящее время у нас есть более 20 вертикалей, интегрированных в большой поиск. Только за эту осень у нас появилось еще несколько, к примеру, «Работа», «Недвижимость» и т. д.Пользователь желает находить нужную информацию быстро и легко. Ему комфортно, когда он имеет единую точку входа и не думает о том, какой именно сервис должен сейчас использовать, чтобы отыскать требующиеся сведения. Человек способен запомнить два-три вертикальных поиска, но не может держать в уме 50. Поэтому, если ставить вопрос о том, заменит ли набор хороших вертикальных поисков универсальные поисковики, то ответ — нет. Это неудобно.

Другое дело, что качественный вертикальный поиск иногда выполняет свою функцию лучше универсального. Например, в поиске по законодательству «Консультант Плюс» и «Гарант» справляются со своей задачей лучше любой «большой» поисковой системы.

Владимир Офицеров (Google)

Тематические и универсальные поисковые системы скорее дополняют друг друга. Например, Kinopoisk.ru ищет только фильмы и делает это очень хорошо. Поэтому у него есть своя сформировавшаяся группа пользователей. Однако когда им потребуется узнать точный адрес магазина, телефон справочной или выбрать подарок на день рождения друга, они воспользуются Google или другой универсальной поисковой системой.

Владимир Чернышов («Нигма.РФ»)

Владимир Чернышов, руководитель команды разработчиков «Нигма.РФ» Это дополняющие друг друга технологии. У пользователей есть разные потребности, и поисковики будущего станут стремиться охватить все возможные сферы интересов людей. Для этого универсальные поисковики иногда будут использовать и вертикальные технологии поиска.

Не секрет, что многие крупные поисковики собирают информацию о пользователях, их интересах и поисковых запросах. Конечно, это позволяет реализовать ряд дополнительных функций, однако у части пользователей подобная деятельность вызывает обоснованное беспокойство. Каким, по вашему мнению, должен быть оптимальный баланс между анонимностью пользователя и «осведомленностью» интернет-поисковика?

Александр Садовский («Яндекс»)

Статистические данные о пользователях собираются для того, чтобы лучше отвечать на запросы. Например, чтобы находить релевантную информацию по локальным запросам, таким как «пицца на дом» и т. п., поисковику необходимо знать регион, откуда задан вопрос.

Конечно, пользователям важно, чтобы собранные данные были надежно защищены сервисом и не употреблялись в незаконных целях. Мы понимаем это и отразили эти моменты в нашем «Соглашении о конфиденциальности».

Владимир Офицеров (Google)

Многие пользователи не хотят, чтобы информация, например, об их поисковых запросах или посещаемых сайтах сохранялась в Сети, считая это нарушением конфиденциальности личных данных. Однако именно подобная информация позволяет поисковым системам анализировать активность пользователя и, таким образом, подстраиваться под его запросы, чтобы выдавать более релевантные результаты поиска.

Мы считаем, что каждый пользователь имеет право самостоятельно решать, будет ли информация о его сетевой активности доступна для анализа. Если он не возражает, то система, со своей стороны, сделает все возможное, чтобы работа была максимально прозрачной и понятной для него. При сборе персональных данных учитываются все требования как европейских, так и российских законов о защите конфиденциальной информации. Кроме того, в конце прошлого года мы запустили сервис «Личный кабинет». Он позволит пользователям просматривать и контролировать данные, связанные с персональными аккаунтами Google.

Владимир Чернышов («Нигма.РФ»)

Конечно, поисковики работают с запросами пользователей, иначе невозможно оценить релевантность, качество работы поисковых алгоритмов, персонализировать поиск и понять потребности живых людей. Думаю, что поисковик должен спрашивать пользователя, в каком режиме он хочет искать. Если в анонимном, то будут ограничены некоторые функции (например, персонализация), если в публичном, то поисковик будет применять пользовательские данные, чтобы предложить ему более качественные результаты.

Вот уже несколько лет идет развитие технологий «семантического веба» (Semantic Web), который иногда называют «Веб 3.0». Каковы перспективы использования таких технологий в современном интернет-поиске? Увидим ли мы в ближайшие годы на пользовательском рынке автоматические программы-агенты для сбора и анализа информации или же, как и прежде, основными участниками поиска будут пользователи-люди и привычные поисковые системы?

Александр Садовский («Яндекс»)

Проблема извлечения структурированной информации стоит перед всеми поисковыми системами. Ее решают, как правило, одним из двух способов.

Первый — это майнинг (mining), «умные» программы извлекают информацию из страницы и, анализируя ее, понимают, что вот эти слова — скорее всего фамилия и имя человека, а вот это — название организации, и т. д. Таким образом создаются пресс-портреты на «Яндекс.Новостях».

Второй подход — получение информации в структурированном виде от владельца сайта или веб-мастера в виде XML-фида либо микроразметки, позволяющей поисковику «положить» ее в отдельную ячейку и знать, что это, скажем, фамилия и имя. У нас есть открытая программа по сбору таких данных (content.webmaster.yandex.ru), реализующаяся через «Яндекс.Веб-мастер». В то же время, по нашему опыту, большинство веб-мастеров не размечают свой сайт для поисковой системы.

Поэтому полное покрытие можно обеспечить только с помощью майнинга. Другое дело, что такой способ требует существенных усилий по написанию программы, которая «умным» образом извлекает нужную информацию. Так что, скорее, в этой области будет плавное улучшение, а не внезапный скачок.

Владимир Офицеров (Google)

К сожалению, в индустрии не накопилось достаточно сайтов и пользовательских интерфейсов, чтобы полностью реализовать возможности семантической аннотации веб-страниц. Хотя уже сейчас можно говорить о существенном прогрессе в области расширенных снипеттов, где более подробная информация об объекте поиска помечена при помощи семантических аннотаций и выводится в результатах поиска. Однако сейчас всего несколько категорий имеют хорошее покрытие, например товары и рецепты. В ближайшее время мы ожидаем дальнейшего увеличения покрытия расширенными снипеттами сайтов, на которых представлена структурированная информация (расписания, мероприятия, часы работы и т. д.). Дальше пока загадывать рано.

Владимир Чернышов («Нигма.РФ»)

Я считаю, что перспектива — это поиск по базам данных, а не «семантический веб». Поисковики должны научиться искать по базам данных, а не просто находить страницы из Интернета, но в то же время бессмысленно требовать от веб-мастеров понимания таких слов, как «онтология» (раздел философии, изучающий бытие). Нужно, чтобы поисковики сами умели восстанавливать структуру баз данных — именно этим мы и занимаемся в «Нигме».

За последние годы пользовательские интерфейсы крупных поисковиков заметно усовершенствовались, однако и сейчас выдача — это все тот же привычный текстовый список ссылок. Можно ли ожидать в этой области радикальных изменений или же и в течение следующих 10 лет простым спискам выдачи ничто не угрожает?

Александр Садовский («Яндекс»)

Как я уже отмечал, «список 10 ссылок» по большинству пластов запросов кардинально изменится в ближайшие годы. Например, если человек ищет гостиницу, в будущем он получит возможность сразу выбрать ее ценовой класс, определить другие параметры (допустим, наличие Интернета), после этого перейти на нужные два-три сайта и сделать окончательный выбор. Принцип может быть похож на поиск в «Яндекс.Маркете» или «Яндекс.Работе».

Первые шаги в этом направлении уже сделаны — например, по запросу «гостиница» в «Яндексе» по некоторым ссылкам в выдаче видны категория отеля и контакты.

Владимир Офицеров (Google)

По большинству запросов быстрый результат можно получить и через обычные поисковые сервисы. Однако бывают случаи, когда поиск нужной информации требует посещения десятков веб-сайтов. Для решения таких проблем разрабатывается множество сервисов. Например, мы сейчас совершенствуем систему Google Squared, которая собирает релевантную информацию в Интернете и выводит результаты в виде детализированных электронных таблиц. Каждое поле таблицы сопровождается ссылкой на первоисточник, из которого были взяты данные или изображения, позволяя сразу же перейти на нужный сайт.

Владимир Чернышов («Нигма.РФ»)

Мы в «Нигме» занимаемся разработкой качественно новых поисковых технологий, позволяющих находить информацию уже на странице результатов поиска. В этом плане мы уже многого достигли. Например, наша поисковая подсказка научилась отвечать на вопросы, связанные с фактами. Также мы стали выдавать пользователю информацию в виде удобных таблиц. К примеру, если человеку нужен список всех авиакомпаний России, то «Нигма» выдаст сразу их перечень с дополнительной информацией: официальными сайтами, основными пунктами назначения и т. д.

Мультимедиапоиск — что дальше? Станут ли универсальные поисковики в будущем по-прежнему в основном опираться на текст аннотаций к видеороликам или же стоит ожидать новых возможностей? Какие возможности будущего мультимедиапоиска вам представляются наиболее перспективными?

Дмитрий Беляев («Яндекс»)

Развитию технологий поиска по мультимедийным запросам способствует широкое распространение мобильных устройств, позволяющих фотографировать, записывать видео и звук. Если помечтать, то в будущем им на смену могут прийти устройства, которые умеют работать непосредственно со зрительными образами, возникающими в наших головах. И тогда нам не понадобятся какие-либо дополнительные устройства — все, что мы видим своими глазами, может использоваться как поисковый запрос.

Владимир Офицеров (Google)

В идеале поиск по видео будет осуществляться по контенту ролика, а не по заголовкам и тегам, расставленным пользователями, но сейчас эта возможность еще не реализована. Мы в Google постоянно работаем над тем, чтобы решить эту задачу, однако называть конкретные сроки пока рано.

Владимир Чернышов («Нигма.РФ»)

Системы автоматического определения содержимого мультимедиа обречены на провал. Зачем делать алгоритм, если в Интернете «живут» миллионы людей, которым больше нечем заняться? Поиск должен быть основан на той информации, которую выкладывают в Интернет пользователи и веб-мастера.