От информационно-поисковых систем к корпоративному поиску

Превращение World Wide Web в универсальный источник информации и знаний с неизбежностью приводит к появлению новых технологий работы с контентом, к конвергенции науки об информации с компьютерной наукой.

Использование поисковых машин чаще всего бывает вызвано необходимостью в получении информации, являющейся ответом на конкретный вопрос, и гораздо реже стимулируется желанием найти определенный документ, то есть данные. Если, скажем, вы ищете расписание поездов, то вас интересует время отправления или прибытия поезда, а не расписание как таковое. В этом — суть различия между информацией (или контентом) и данными как носителем этой информации.

В компьютерном мире до сих пор не уделялось достаточного внимания определению различий между информацией и данными. Более того, теория передачи сигналов Клода Шеннона воспринимается как единственно правильная теория информации, хотя помимо нее существуют десятки теорий и сотни альтернативных определений информации. Ограничение шенноновского подхода и всех последующих построений, на нем базирующихся, заключается в том, что в качестве поставщика и потребителя информации рассматривается машина, для которой действительно нет различий между данными и информацией.

Информационно-поисковые системы

Лет 40-50 назад англоязычный термин Information Retrieval (IR) переводили на русский язык как «информационный поиск», а соответственно, системы этого класса называли информационно-поисковыми системами (Information Retrieval System, IRS). Разумеется, в те далекие времена информационно-поисковые системы обычно строились без компьютеров, и в них использовались ручные процедуры индексирования документов, создания тезаурусов и дескрипторов. Но, что чрезвычайно важно, эти «античные» системы предназначались для выделения информации (именно информации и именно выделения) из разных бумажных документов или, в лучшем случае, их копий на микропленке. «Выделение» — это более точное значение слова retrieval.

В энциклопедиях IR определяется как искусство (!) и наука поиска информации в документах, поиска собственно документов и описывающих документы метаданных в базах данных (в том числе сетевых). Подмножеством IR является выделение информации в тексте (Text Retrieval, TR) и выделение информации в документах (Document Retrieval, DR). Термин Information Retrieval был предложен в конце 40-х годов американским ученым Кельвином Муерсом, специалистом в области теории информации и автором законов работы с информацией. Его законы (Mooers? Law) не следует путать с более известными законами Мура, постулирующими монотонное удвоение плотности транзисторов (Moore?s Law). Позже Муерс предложил своеобразный язык программирования TRAC (for Text Reckoning And Compiling), специально предназначенный для работы с текстами. Он не получил широкого распространения, но был чрезвычайно высоко оценен Тедом Нельсоном, автором современного подхода к гипертекстам.

Сегодня первые системы IR представляются наивными попытками выделения информации и знаний из массивов данных на бумажных носителях, предпринимавшимися при отсутствии должно аппаратного и программного обеспечения, а потому обреченными на весьма скромные успехи. В качестве средства автоматизации поиска в отдельных случаях применялись громоздкие сортировочные механические устройства, которые оперировали специальными перфокартами, были дороги и малоэффективны. Но, строго говоря, попытки механизировать процесс работы с информацией (еще раз подчеркнем — с информацией, а не с данными) предпринимались еще раньше, лет за пятнадцать-двадцать до появления IR. Некоторые исследователи предсказывали возможность реальной автоматизации методов работы с информацией.

Из самых ранних средств автоматизации известны проекты Пола Отле и Эмануэля Гольдберга, выполненные в период между Первой и Второй мировыми войнами. Наибольшую популярность приобрела гипотетическая машина Memex (Memory Extender), предложенная Ванневаром Бушем в 1945 году. Однако до появления современных компьютеров не было практической возможности создать устройства, автоматизирующие доступ к данным. Первая в современном представлении информационно-поисковая система Intelligent Information Access Project была разработана в исследовательском центре Xerox PARC — одной из колыбелей современных компьютерных систем. В этой системе впервые был реализован принцип получения результатов по введенному запросу (query in, results out, QIRO).

Мы напоминаем о когда-то существовавших системах IRS лишь для того, чтобы подчеркнуть различие между поиском как автоматизированной процедурой и выделением требуемой информации в найденных документах. Суть состоит в следующем.

Выделение информации — это деятельность человека, использующего поисковую машину. Она является интерактивной, итерационной и связана с другими видами интеллектуальной деятельности человека.
Пользователь ищет не документы как таковые, а их содержимое для каких-то собственных целей, обучения, принятия решений.
Пользователь нуждается в доступе к разным источникам данных, чтобы получить всеобъемлющее представление об объекте поиска.
Какими бы совершенными ни были аппаратное и программное обеспечение, используемые человеком, они остаются инструментами, а интеллект является атрибутом пользователя.

Существует ли интеллектуальный поиск?

Представьте себе, что вы пришли в ресторан, где вместо расторопного официанта, который должен предложить меню с перечнем блюд и напитков, вас ожидает компьютер с поисковой системой (назовем ее Booooble), а обсуживающий персонал настолько туп, что управляется только с помощью мыши. Скорее всего, такой способ обслуживания вас не удовлетворит. Но ведь именно так работают миллионы пользователей Глобальной сети, поскольку содержимое World Wide Web складывается стихийно, а для обнаружения нужных сведений кроме поисковых машин практически никаких инструментов нет. Единственной формой взаимодействия человека с компьютером остается оконный интерфейс, изобретенный 40 лет назад, в сочетании с его ровесницей мышью и почти 150-летней клавиатурой.

В сложившейся ситуации наиболее естественным методом разрешения проблемы доступа становится повышение качества работы поисковых систем. В идеале, они когда-то обретут разумность, а пока будущая идеальная форма поиска получила название «интеллектуальный поиск». Правда, пока неизвестно, как идти к этой желаемой цели; невозможно даже четко сформулировать, что же такое «интеллектуальный поиск». К примеру, Илен Славик, один из руководителей компании Cuadra Associates, специализирующейся на средствах работы с корпоративными данными, констатирует: «Все используют собственные определения интеллектуального поиска».

В подтверждение этой мысли можно упомянуть октябрьский номер журнала Computer за 2005 год, в котором опубликовано несколько статей, объединенных темой поиска, в том числе интеллектуального. Каждый из авторов тематической подборки подошел к проблеме с наиболее близких ему позиций; а в результате на страницах уважаемого журнала образовался конгламерат разнородных мнений, не связанных между собой подходов к интеллектуальному поиску. Их спектр начинается с особенностей поиска в еще не существующей Семантической Сети (Semantic Web), а заканчивается подходами на основе совместной (коллаборативной) работы пользователей, позволяющей объединить их интеллект. Даже предисловие редактора сводится к перечислению «предметов» статей и не содержит необходимого обобщения от лица составителя. Появление подобного выпуска авторитетного журнала свидетельствует, с одной стороны, об актуальности проблемы, а с другой об отсутствии целостного взгляда на нее.

Обсуждение проблемы интеллектуального поиска на русском языке осложнено тем, что в отечественной терминологии, к глубочайшему сожалению, отсутствует жизненно необходимое разделение областей знания на науки об информации (information science) и науки о вычислениях (computer science). У нас доминирует рожденное в 80-е годы название «информатика». Стоит напомнить, что в 50-е и 60-е годы в СССР науки об информации, именовавшиеся информатикой, занимали весьма достойное место, хотя их развитие и было затруднено спецификой социального устройства общества. Однако все сводилось, в конечном счете, к научно-технической информации. Произошедший в последующие годы разворот к работе с данными и узурпация названия привели к тому, что многое из накопленного оказалось если не потерянным, то невостребованным, а культура работы с информацией была утеряна. Сегодня для большинства пользователей важнее потребление информационных сервисов, а не обеспечивающие его технологии, и, соответственно, нелепость этого становится особенно очевидной.

Наконец, есть еще один подводный камень глобального масштаба — неразвитость теории информации. Невозможно говорить о единой теории информации, связывающей воедино данные, информацию и знание. Можно обнаружить десятки и сотни порой противоречащих друг другу определений того, что является информацией. Отдельно существует принятая в технике теория информации, которую справедливо было бы назвать «теорией передачи и (может быть) хранения данных», есть множество подходов к информации с философских и кибернетических позиций. Но ни один из них не используется в качестве теоретической основы поисковых систем; теория ограничивается, прежде всего, лингвистикой и методами раскопки текстов (text mining).

В результате опережающего развития технологий поиска по сравнению с методиками работы с контентом образовался заметный разрыв между техникой работы с данными (поиском) и способностью работать с контентом, заложенным в этих данных. В итоге существуют два параллельных мира: один уходит корнями в information science, а другой — в computer science, и между ними практически нет общей границы. Контент плохо поддается структуризации, а потому неудобен для поиска. Напротив, структурированные данные удобны для поиска, но из них чрезвычайно сложно выделить информацию. Опираясь на интуицию, эксперты приходят к выводу о порочности нынешней ситуации, но о каком-либо серьезном переосмыслении проблем данных и контента пока речь не идет. Показательно высказывание Сьюзан Фельдман, ведущего аналитика IDC, специализирующейся на технологиях работы с контентом: «Сегодня весь поисковый рынок устремился в область конвергенции контента с данными, поскольку, в конечном счете, ценность имеет информация».

Правда, в нынешних поисковых машинах все же обнаруживаются отдельные элементы интеллектуальности. К ним относится возможность использования «звездочки» в запросах Google, которую поисковик заменяет словом, соответствующим контексту. Еще большим интеллектом обладает специализированная машина, предназначенная для поиска отвечающих вкусу пользователя музыкальных или литературных произведений Gnooks (www.gnooks.com). На основании предшествующих запросов она определяет предпочтения и при следующих обращениях делает наиболее адекватные предложения. Еще один подход к повышению эффектности поиска реализуется в специализированных поисковых машинах, настроенных на поиск документов в определенном подмножестве Web. В качестве примера можно указать систему Scirus, ориентированную на поиск научной информации (www.scirus.com).

Радикальным решением многих — если не большинства — проблем интеллектуального поиска может стать Semantic Web. Основные идеи построения нового поколения Web были выдвинуты в 1999 году Тимом Бернесом-Ли, разработчиком существующей Всемирной Паутины. Одна из них заключается в том, чтобы с помощью средств разметки на основе языка XML снабжать документы описаниями — так называемыми «онтологиями». Они должны содержать дайджест содержимого, адаптированный для чтения приложениями, которые теперь называют «интеллектуальными агентами». Хотя за прошедшее время были разработаны многочисленные отраслевые стандарты и языковые средства, до практической реализации Semantic Web еще очень далеко.

Энциклопедии от античности до Wikipedia

Систематизация информации была необходима всегда, и именно она породила энциклопедии. Такой способ упорядочения знаний, как энциклопедия, был предложен еще в далекой древности и остается актуальным сейчас.

Близкую роль могут играть специализированные порталы, которые также становятся серьезными аккумуляторами знаний. Яркий пример — портал www.brint.com, который вот уже более десяти лет ведет Йогеш Малхотра. Можно утверждать, что сегодня это — лучший в мире концентратор в области технологий управления бизнесом и знаниями. В качестве примера еще одного энциклопедического портала можно указать «концентратор знаний» StartLearning (www.startlearningnow.com).

Несмотря на его греческую этимологию термин «энциклопедия» появился только в XVI веке и буквально переводится как «круг знаний». Впрочем, прообразы энциклопедий можно обнаружить в Древнем Египте и Древнем Китае; в Европе они появились в начале прошлого тысячелетия, но в современном представлении стали издаваться после изобретения книгопечатания в эпоху Ренессанса. Полиграфия обеспечила первый серьезный технологический прорыв в деле упорядочения знаний, и в течение многих лет ни одна серьезная (в том числе домашняя) библиотека не обходилась без многотомной энциклопедии. Но постепенно бумажные энциклопедии теряют свое значение как справочные издания; скорее, они превращаются в сборники статей, подобные популярной детской энциклопедии «Аванта+». Сейчас даже великие энциклопедии, скажем, Британская или Большая Российская, переводятся в цифровую форму. Мало того, появляются новые энциклопедии Encarta (Microsoft), Большая энциклопедия Кирилла и Мефодия, портал «Рубрикон» и др. Эти и другие подобные издания являются традиционными по существу, но электронными по форме.

С точки зрения поиска информации самым интересным феноменом XXI века стала Википедия (Wikipedia) — многоязычная свободно распространяемая энциклопедия, базирующаяся на технологии wiki (http://wikipedia.org). Проект, основанный фондом Wikimedia Foundation, стартовал совсем недавно, 15 января 2001 года. Однако уже имеются версии более чем на 110 языках, а в совокупности Википедия содержит 2 млн. статей. Наиболее полный, естественно, — английский вариант (772 892 статей), второй по численности — немецкий (303 966), а далее в порядке убывания следуют французский (176 385), японский (147 833), польский (138 922) и итальянский (114 414). В русской версии пока имеется только 35 265 статей, и она занимает тринадцатое место.

За короткий, даже по меркам Internet, период усилиями независимых добровольных редакторов был создан удивительно удобный источник знаний, наличие в котором гиперссылок делает его эффективным способом доступа к ресурсам Сети. Во многих случаях он обеспечивает более удобный доступ к нужным источникам знаний, чем поисковые системы. Википедия не может рассматриваться как альтернатива поисковым машинам, но уже в ее нынешнем виде она полноценно их дополняет.

Менее масштабный по числу участников и менее популярный, но не менее значимый энциклопедический проект «Библиотека знаний Сyc» разрабатывается компанией Cycorp под руководством Дага Лената (см. www.osp.ru/os/2002/11/018.htm). Это — один из немногих продуктивных наследников эпохи увлечения искусственным интеллектом. Вот уже почти два десятилетиия проект реализуется силами всего 60 человек, среди которых — специалисты в разных областях знаний, математики, философы, лингвисты. Цель их работы состоит в создании всеобъемлющей базы знаний Cyc (по разным источникам, от одного до двух миллионов статей). На практике Cycorp предоставляет разработчикам базис для создания интеллектуальных поисковых систем. Сначала состоялось внедрение на сайте HotBot, а в 2002 году образовалась компания 360 Powered, которая специализируется на поставке поисковых систем для корпоративных приложений и также опирается на достижения проекта Cyc.

Лицензия на OpenCyc соответствует GNU Library General Public License или даже имеет меньшие ограничения. Следующее по объему подмножество библиотеки, ResearchCyc, может использоваться исключительно в исследовательских целях. В полном объеме, для применения в коммерческих приложениях, Cyc Knowledge Base может быть лицензирована, причем условия лицензирования носят индивидуальный характер.

Как бы то ни было, пока Cyc нельзя рассматривать с прагматической точки зрения. В мартовском номере за 2005 год весьма авторитетного журнала TechnologyReview.com (издается Массачусетским технологическим институтом) можно найти следующее утверждение: «Не исключено, что Cyc достигнет высокого уровня развития и станет основой бесчисленного числа программных приложений, но на это может потребоваться еще лет двадцать».

Задачи корпоративного поиска

По данным Forrester Research, такого же мнения придерживаются свыше 80% руководителей крупных компаний. В отчете IDC «Расплата за невозможность обнаружить информацию» (The High Cost of Not Finding Information, 2003) приведены следующие данные. На средних предприятиях прямые убытки, вызванные потерей времени из-за неудобства работы с информацией, в пересчете на одного работающего с информацией (knowledge worker) оцениваются в 2,5-3,5 тыс. долл.

Потеря времени сотрудников — не единственный источник убытков. Любому поработавшему с поисковыми машинами понятно: есть определенный предел, по достижении которого люди прекращают дальнейший поиск информации и приходят к выводу, что они уже достаточно информированы. Недостаточная информированность приводит к ошибочным решениям, недооценке или переоценке рисков. Косвенные убытки, возникающие из-за принятия недостаточно обоснованных решений, количественной оценке не подлежат, но интуитивно понятно, что они — на порядки значительнее.

В связи с этим возникает отдельная проблема поиска информации в корпоративных ресурсах, которая получила название корпоративный поиск (enterprise search, ES). Ее решение распадается на несколько задач:

организация каталогизации контента;
обеспечение поиска на внешнем Web-сайте, в Internet;
обеспечение поиска на внутренних Web-сайтах, в интранет-сетях;
обеспечение системы поиска во внутренних документах организации, архивах электронных писем, базах данных и других источниках.

Пока решение задач корпоративного поиска в основном ограничено работой с текстовыми документами, но со временем она может быть распространена на видео- и аудиофайлы.

Корпоративный поиск заметно отличается от более привычного поиска в Internet по целому ряду свойств — прежде всего, по критериям оценки качества результатов поиска. В Глобальной сети выбор осуществляется из огромного числа документов, так или иначе соответствующих запросу. Причем сам пользователь отдает предпочтение тем из них, которые он считает наиболее близкими своим требованиям, то есть результат поиска чаще всего имеет приблизительный характер. Напротив, при поиске в корпоративной интранет-сети необходим не какой-то «подходящий» ответ, а вполне «точный», то есть он должен полностью соответствовать запросу. Некоторые авторы отмечают, что работу с корпоративным контентом точнее определяет термин не поиск (search), а обнаружение (finding).

Кроме того, в Internet и интранет-сетях по-разному формируется контент. Internet отражает коллективное творчество множества авторов, свободных в публикации контента, а авторы интранет-сетей отражают в собственных публикациях свое предназначение. Интранет-сети более «чувствительны» к созданию контента, в них нет свободы публикации — только определенные работники имеют на это право.

Наконец, структура документов — совершенно иная. В интранет-сетях велик процент данных, хранимых на почтовых серверах, в базах данных, и они чаще всего не связаны между собой гиперссылками. Последние имеются не более чем у 10% документов, поэтому такие популярные алгоритмы управления контентом, как PageRank или HITS, в данном случае малоэффективны. Из множества имеющихся на рынке поисковых машин лишь малая часть может быть адаптирована к условиям работы в корпоративных системах. Большинство поисковых машин не способны работать со всем разнообразием корпоративных источников информации, в том числе с СУБД, почтовыми форматами и форматами хранения документов, с соблюдением приемлемого уровня безопасности.

Таким образом, что для работы в интранет-сетях требуются иные поисковые механизмы, чем для поиска в Web.

Перспективы корпоративного поиска

Сегодня еще рано говорить об установившихся тенденциях в области корпоративного поиска: ситуация очень динамична, и каждый год рождаются новые решения.

В 2003 году компания Google предложила корпоративному сегменту рынка поисковую приставку Google Appliance. Аналогичные устройства выпускают компании Thunderstone и Index Engines. Они просты в использовании, но по своей функциональности не выходят за рамки обычных поисковых машин для Web, поэтому их применение ограничено корпоративными сайтами. Их возможности пока нельзя сравнивать с продуктами компаниями, традиционно работающих на рынке корпоративного поиска и входящих в так называемую «большую поисковую четверку»: Autonomy, Convera, FAST Search & Transfer и Verity. Правда, по утверждению Google, готовящаяся к выпуску приставка Appliance Version 5 приблизится по функциональности к системам перечисленных компаний.

В 2004 году на волне увлечения бизнес-процессами появились поисковые продукты, нацеленные на поиск в определенном специализированном контенте (context-sensitive search). В этом направлении преуспели небольшие компании Endeca и TrippleHot (последняя в 2005 году была приобретена корпорацией Oracle). Сужение области поиска позволяет повысить его качество в заданном сегменте. Еще одну тенденцию корпоративного поиска определили XML и Web-сервисы. Под их влиянием стала стираться прежде жесткая граница между работой со структурированными данными, хранящимися в базах данных, и неструктурированными (текстовые документы, презентации в PowerPoint, электронные письма). В этом направлении успешно действуют специализирующаяся на технологиях XML компания Diesel Point и известные работами в области управления знаниями Open Text и Hummingbird.

Вероятнее всего, в будущем ключевым термином станет раскопка текстов (text mining), иногда называемая аналитикой текстов (text analytics) или раскопкой контента (content mining). А значит, в перспективе мы станем свидетелями конвергенции науки об информации и компьютерной науки.

Информатика

Информатика (information science) как наука об информации не является частью или ответвлением науки о компьютерах (computer science). Ее предметом является изучение методов структурирования, создания, манипулирования, выделения, распределения и распространения информации между людьми, в организациях и в информационных системах. На нынешнем витке технологической эволюции основное внимание информатики сосредоточено на взаимодействии человека с компьютером (human computer interaction) и на том, как люди могут генерировать, искать и использовать информацию. Существуют несколько образных определений информатики, в том числе «искусство, наука и человеческие аспекты ИТ», «изучение приложений и социальных последствий технологий», «изучение структуры, поведения и взаимодействия естественных и созданных вычислительных систем».