Новая жизнь старой теории

Подавляющему большинству из нас термин «байесовский» знаком в связи с технологиями, предназначенными для фильтрации спама. (Очень удачное введение в эту тему можно найти в материале Александра Якутского «С Байесом наперевес»). Однако фильтрация представляет собой малую часть от области применения этого подхода. Он может применяться шире, интересные результаты имеются уже сегодня, и есть большие перспективы на будущее. На основе байесовского подхода может быть создано новое поколение программ для работы с данными, поступающими из реального мира, и, что важнее всего, этот тип программного обеспечения может способствовать преодолению дистанции между данными и информацией, превращая потоки данных в полезные для потребителя сведения.

Как следует из названия, появлением этого математического аппарата мы обязаны Томасу Байесу, английскому математику и потомственному священнику-кальвинисту. Он родился более 300 лет назад, в 1702 году, совмещал пасторскую и богословскую деятельность с занятиями наукой, что было характерно для Англии того периода. За свои труды он был избран в члены Лондонского Королевского общества, но при жизни не опубликовал ни одной работы по математике. Прижизненно напечатанные материалы, вышедшие из-под его пера, относились главным образом к естественным наукам и теологии. А обессмертившая его имя работа An Essay Towards Solving a Problem in the Doctrine of Chances («Эссе о решении проблем в теории случайных событий»), наряду с рассуждениями об астрономии и электричестве, была найдена наследниками в одной из записных книжек, оставшихся после его смерти. По традиции того времени она была сформулирована в форме ответа преподобного Томаса Байеса на работу Doctrine of Chances («Теория случайных событий»), опубликованную на несколько лет раньше другим математиком, французом по происхождению Абрахамом де Муавром.

В своей работе Байес дал собственную интерпретацию теории вероятностей, предложив модель, служащую не просто для оценки вероятности исхода испытания, а для предсказания результата некоторого события в условиях неопределенности. В отличие от классических подходов к вероятности, представленная в эссе теорема, известная теперь как теорема Байеса, опирается на предысторию событий, учитывая знания о предшествующих исходах и их связь с вероятностью новых наблюдений. При публикации «Эссе…» комментатор дополнил его богословскими рассуждениями, не имеющими для современного читателя особого смысла. Все остальное сохраняет свое значение и поныне: теорема Байеса связывает вероятность еще не совершившихся событий со знанием о предшествующем, иначе говоря, связывает прошлое с настоящим.

Формальная запись теоремы совсем не сложна, гораздо сложнее стоящая за ней философия.

В первом приближении байесовские идеи близки обыденному сознанию. В каждодневной жизни мы тем или иным способом, никак не формулируя ее, набираем статистику, позволяющую делать суждение о вероятности ожидающих нас событий. Это называют жизненным или профессиональным опытом. В приближении к приведенной формуле теорему Байеса часто иллюстрируют таким примером. Некий повар фаст-фуда принимает заказы в условиях шума, а потому воспринимает их с искажениями. Если заказ сделан на блюдо t, то может принять его за блюдо y. У посетителей блюда пользуются разным спросом, P(t) — вероятность заказа блюда t, вероятность ошибки y для данного t равна P(y|t), а вероятность услышать верный заказ равна P(t|y). Вероятности P (y) и P(y|t) являются знанием условий. Свой современный вид, как и нынешнее имя, теорема приобрела в трудах Пьера-Симона Лапласа. (Серьезное математическое введение в предмет можно найти в работе Сергея Шумского «Байесова регуляризация обучения»).

Новая жизнь старой теории Теорема Байеса всегда оставалась одним из самых спорных вопросов в математической статистике. Полемика, связанная с ее практической применимостью, не затихает до сих пор. Основные аргументы противников байесовской статистики сводятся к тому, что они считают теорему бесполезной из-за произвольности выбора априорных вероятностей, и, наоборот, приверженцы байесовского мировоззрения доказывали его преимущества перед традиционным, частотным. Собственное название «байесовский» (Bayesian) вошло в оборот в 1950 году, а приверженцы учения Байеса назвали его «байесианизмом». На долгое время эта теорема была практически исключена из статистических исследований. Но существуют объективные предпосылки к байесовскому взгляду на вероятность, а потому в 30-е годы XX века к идеям, близким к воззрениям Байеса, независимо друг от друга пришли еще и итальянец Бруно де Фенентти, и англичанин Фрэнк Рамсей. На протяжении десятилетий обсуждение аргументов за и против было уделом математиком и философов, оно не выходило за пределы академической среды; действительным же поворотным пунктом в истории математического наследия Томаса Байеса стали сравнительные исследования по оценке результативности медицинских препаратов, проведенные в 60-е и 70-е годы компанией Pfizer с использованием байесовской и небайесовской статистики. Последующие исследования показали, что байесовские подходы с равным успехом могут быть применены в истории, археологии, но, возможно, наилучшие перспективы у машинного обучения. Можно говорить о полной реабилитации взглядов Байеса: теперь он в некотором смысле стал культовой фигурой; его могила восстановлена и стала своеобразным местом поклонения.

О нынешнем месте байесовских подходов можно судить хотя бы по тому, что в 2006 году в Европе стартовал исследовательский проект Bayesian Approach to Cognitive Systems. Его цель — оценить применимость теоремы Байеса к созданию искусственных систем, способных решать сложные задачи в реальных условиях. Предполагается, что результатом станет появление реальной перспективы для создания роботов, способных к анализу окружающей среды, к накоплению и интерпретации знаний. В будущем проект может иметь грандиозные последствия, но и сейчас есть практические результаты помимо антиспамовских фильтров. Речь идет, прежде всего, о работах компаний Autonomy и Microsoft. В этой узкой области их вес обратно пропорционален масштабу компаний. Вся деятельность Autonomy связана с обработкой данных байесовскими методами, а это ни много ни мало 1300 ее сотрудников по всему миру. В Microsoft такого рода задачами занимается группа, насчитывающая несколько десятков исследователей.

Возобновление интереса к байесовским методам объясняется изменениями в технологиях работы с данными, которые сегодня можно обеспечить необходимыми вычислительными мощностями и снабдить достаточными объемами априорных данных для обучения систем и прогнозирования. Аргументы в пользу перспективности этих методов таковы. Имеется достаточная мощность процессоров и большие объемы памяти. Эволюция Web обеспечила достаточную коммуникабельность, базовые сервисы и контент. Идет активное накопление данных с использованием различного рода датчиков и в процессе интерактивного взаимодействия людей с машинами.

У того, кто вовремя осознал потенциал байесовских подходов, был прекрасный шанс преуспеть. Реабилитацией идей Томаса Байеса занимались многие, но больше всех — и с наибольшим выигрышем для самого себя — на этом поприще продвинулся Майкл Линч, основатель и генеральный директор Autonomy. Его называют британским Биллом Гейтсом. Создавая программное обеспечение для работы с неструктурированными данными и для управления знаниями, Линч стал миллиардером. К использованию наследия Томаса Байеса он пришел в процессе работы над диссертацией, тема которой была связана с распознаванием образов. Впрочем, Линч — скорее предприниматель, чем ученый. Его заслуга в том, что он смог привлечь к созданию соответствующего программного обеспечения выдающиеся умы Кембриджа. А затем, в 1991 году, взяв в кредит 2 тыс. фунтов, он создал компанию Cambridge Neurodynamics, от которой через пять лет и отпочковалась Autonomy. Первая компания занималась, как нетрудно догадаться, нейронными сетями, в последующем, в 2005 году она была куплена Autonomy. Линч не лишен амбиций, он верит в будущее Autonomy и уверен, что его компания станет «Oracle неструктурированных данных».

Путь, избранный Линчем, ему подсказали его философские взгляды. Он считает, что сознание людей в большинстве своем деформировано заложенной в них классическим образованием физической картиной мира, в результате чего, по его мнению, стандарт научного мышления избыточно подчинен материалистическому мировоззрению. Весь ХХ век был веком физики, но, по Линчу, людям важнее понять не то, как устроен окружающий их мир, а то, как они воспринимают этот мир, каков он в их ощущениях, поэтому наука о распознавании образов окружающего мира не менее важна, чем физика.

Но, так или иначе, мир материален. Создание и успех Autonomy оказались возможными еще и потому, что с середины 60-годов вокруг Кембриджского университета складывается область, которую, следуя очевидной аналогии, стали называть «Кремниевым торфяником» (Silicon Fen). Здесь сосредоточено свыше тысячи наукоемких предприятий (крупнейшие из них — ARM и Autonomy) и значительная часть британских венчурных фондов. Один из них, APAX, возглавляемый сэром Рональдом Коэном, вложил в детище Линча 5 млн фунтов и получил миллиард. (Сам Коэн — фигура преинтереснейшая; родившийся в 1945 году, выходец из депортированной из Египта президентом Насером еврейской семьи, он стал одним из самых богатых и влиятельных людей Великобритании.) Уже в 1998 году Линч стал первым в Британии компьютерным миллиардером. На тот момент цена одной акции Autonomy составляла 30 фунтов, но потом в результате известных событий она упала ниже 80 пенсов. Из компании ушли ученые, начались сложные времена, но все обошлось, и сегодня ее капитализация превышает 2 млрд фунтов и растет невероятно высокими темпами.

Линч объясняет свой успех так: «Компьютерные специалисты с традиционным мышлением привыкли к черно-белой картине мира, но люди думают иначе, им нужны технологии, способные хотя бы различать оттенки серого, Байес понял это 250 лет назад». Свой подход к компьютерным системам он называет «осмысленным» (meaning-based computing), понимая под этим способность машины делать что-то, руководствуясь смыслом, содержащимся в текстовых документах, в голосовых сообщениях или других типах контента. В этих неструктурированных по сравнению с обычными СУБД данных содержится свыше 85% всей корпоративной информации.

Одной из технологий, реализующих осмысленные вычисления, является система корпоративного поиска. Компания Autonomy признана одним из ведущих поставщиков решений, а может быть даже и лидером среди создателей этого типа приложений. Корпоративный поиск является важнейшей частью более широкой платформы — слоя интеллектуального оперирования данными (Intelligent Data Operating Layer, IDOL). Ее общей теоретической основой является комбинация байесовских логических выводов и теория информации Клода Шеннона. Этому предмету посвящена книга Дэвида Маккея «Теория информации, логический вывод и алгоритмы обучения» (Information Theory, Inference, and Learning Algorithms). Средства IDOL используются для работы с неструктурированными данными в контакт-центрах, в системах управления отношениями с клиентами и управления знаниями, в корпоративных порталах, системах бизнес-анализа и ряде других приложений, например для поиска книг в библиотеках.

О функциональных возможностях предложений от Autonomy можно судить по перечню основных направлений, который сложился в результате развития программных продуктов собственной разработки и тех, которые были получены вместе с приобретенными компаниями: IDOL 7 Enterprise Search (корпоративный поиск); ZANTAZ IDOL for Managing Risk (управление рисками); Varage IDOL forb Audio & Video Search (поиск в аудио- и видеофайлах); etalk IDOL for Call Center CRM (поддержка контакт-центров и систем управления отношениями с клиентами); CARDIFF IDOL for Business Process Management (управление бизнес-процессами); meridio IDOL for Record Management (управление записями).

Несложно догадаться, что в технологиях, разрабатываемых Autonomy наряду с такими компаниями, как FAST, Convera, Endeca и им подобными, особую заинтересованность проявляют спецслужбы всего мира, это обстоятельство особо не скрывается, но и не афишируется. Что касается Autonomy, то ее связь с разведывательным сообществом активно обсуждалась мировой прессой в 2003 году в связи с обоснованием доводов в пользу начала войны в Ираке. Утверждалось, что практически все крупнейшие разведки мира являются клиентами этой компании, что на них приходится как минимум треть ее дохода.

Единственным известным конкурентом Линчу (не в бизнесе, а в части использования байесовских методов) можно назвать Эрика Горвица из исследовательского центра Microsoft в Редмонде. Созданная его группой Adaptive Systems and Interaction система с многозначительным названием JamBayes признана журналом MIT Technology Review одной из десяти самых перспективных разработок. Она выполнена в рамках более крупного научного проекта Modeling Surprise (то есть «моделирование непредвиденных ситуаций»). Задача этого проекта — комбинирование сбора и обработки больших массивов данных, плюс моделирование человеческой психологии в сочетании с машинным обучением. Те, у кого стоит Windows Vista, уже пользуются достижением этой группы, это Superfetch, средства предикативного вызова приложений на основании анализа предыстории работы пользователя.

Главная руководящая идея Горвица — обеспечение прогноза, который был и остается необходимым на протяжении всей истории человечества, недаром древние обращались к оракулам и прорицателям. Но прогноз может быть и научным, этим занимаются в Microsoft Research. Горвиц предупреждает, что не рассматривает свои методы как хрустальный шар, через который можно увидеть будущее: «Мы считаем, что наши методы применимы к ситуациям, которые оказались неожиданностями в прошлом, и их моделирование может способствовать предсказанию непредвиденных ситуаций в будущем». Они могут быть полезными в широком диапазоне человеческой деятельности, от здравоохранения до военной стратегии, политики и финансовых рынков. Методология, которую используют Горвиц и его коллеги, изложена в статье Machine Learning, Reasoning, and Intelligence in Daily Life.

Первым практическим приложением стал программный продукт SmartPhlow для ПК и устройств типа Microsoft PocketPC, позволяющий предсказывать дорожную ситуацию в Сиэтле, в пригороде которого расположена штаб-квартира Microsoft. Этот преемник JamBayes позволяет включить в прогноз факторы, неизвестные водителю, и сделать его точнее. В их числе имевшие место дорожные инциденты, прогноз погоды, спортивные события и даже визиты официальных лиц. Алгоритмы прогнозирования основываются на методах байесовского моделирования. В 2005 году корпорация Microsoft лицензировала эту разработку компании Inrix, и теперь под именем Inrix Traffic она доступна на устройствах Windows Mobile. Начинается применение технологий, разработанных группой Adaptive Systems and Interaction, в приложении к крупным транспортным проектам.

Корпоративный поиск

В исторических архивах имеется обработанная часть, где документы описаны, а для доступа к ним служат каталоги. Для работы же с необработанными документами приходится использовать поисковые методы.

Леонид Черняк,«Открытые системы», № 07, 2007