наверх

«Открытые системы» , № 02, 2006 184 прочтения

Кому нужен «совершенный» поиск?

Один из вариантов ответа вполне очевиден - тем, кто занимается разведкой или поиском доказательств преступлений.

Вадим Ефремов

Один из вариантов ответа вполне очевиден — тем, кто занимается разведкой или поиском доказательств преступлений. Попытаемся с помощью открытых информационных источников и «несовершенного» поиска проанализировать функционал поиска «умного», а попутно поговорим о методах финансирования разработок в области информационного поиска на Западе.

Как попасть в разведку

Воспользуемся информацией на сайте In-Q-Tel — венчурной фирмы, финансируемой ЦРУ и в течение длительного времени делающей значительные инвестиции в развитие технологий управления знаниями. Что ею движет? Что она ожидает получить от этих инвестиций? Глава In-Q-Tel Грег Пепус видит миссию своей организации в поиске и инвестировании тех компаний, чьи перспективные технологии могут обеспечить решение задач разведывательного сообщества. Чтобы узнать, какие именно компании поддерживала In-Q-Tel, достаточно воспользоваться услугами www.archive.org — цифровой библиотеки всех сайтов Сети. В ней имеется «машина времени», позволяющая увидеть, какими были Web-сайты несколько лет назад. К примеру, в сентябре 2001 года на сайте In-Q-Tel появилось объявление, призывающее инновационные компании присылать свои бизнес-планы с описанием технологических достижений «в одной из наших приоритетных областей». После трагических событий 11 сентября In-Q-Tel получила беспрецедентное количество предложений, связанных с инновациями в области информационного поиска, что, как указывалось на сайте, «дало In-Q-Tel прекрасную возможность выполнять свою миссию и задачи, поставленные ЦРУ».

С мая 2002 года по декабрь 2005-го число инвестируемых фирм растет, а некоторые из них упоминаются на протяжении нескольких лет, что свидетельствует о долгосрочных вложениях в коммерческие компании из государственных источников, причем многие из компаний-фигурантов предлагают решения в области «совершенного» поиска. Примечательно, что в списке не числятся EMC, IBM, FileNet, Open Text, Stellent и Hummingbird — лидеры в области систем управления контентом предприятия (enterprise content management, ECM), которые сегодня, согласно исследованиям Gartner (Magic Quadrant for Enterprise Content Management, November 2005), определяют погоду в данной области. Однако это вовсе не означает, что их решения не используются разведсообществом США, а сами они не финансируются из государственного бюджета.

Обратившись к источнику, информирующему американских налогоплательщиков о финансировании фундаментального проекта IBM UIMA (Unstructured Information Management Architecture), можно обнаружить, что, корпорация получает средства от Пентагона. В описаниях проектных решений для другого фундаментального проекта корпорации, MARVEL (система мультимедийного анализа и поиска, www.research.ibm.com/marvel/details.html), рассказывается, что исследования начались с распознавания факта запуска ракет. Это косвенно подтверждает участие IBM в создании систем раннего оповещения о вероятном ракетно-ядерном нападении. А компания SRD, которая многократно упоминается на сайте In-Q-Tel, недавно стала подразделением IBM.

Из объяснений налогоплательщикам, почему финансировались именно эти разработки и почему выбор пал именно на эти фирмы, видно, что существует несколько каналов финансирования частных компаний из государственного бюджета. Интересна мотивация, которую приводит Пепус, объясняя причины выбора тех или иных организаций (см. таблицу).

В логове разведсообщества

Налогоплательщики могут ознакомиться не только с мотивацией выбора той или иной компании, но и с оценкой качества решений, приобретенных на их средства. Такую оценку можно найти, например, на сайте www.military-information-technology.com. Из его информации следует, что Разведывательное управление Министерства обороны США (РУМО) помимо собственных данных использует сведения, поступающие из ЦРУ, АНБ и других ведомств; для их анализа невозможно обойтись без «умного» поиска. Уникальные требования аналитиков военной разведки заставляют выделять применяемые ими технологии поиска информации из массовой продукции. Они включаются в подгруппу технологий, обеспечивающих развитое управление и динамическую навигацию, полноту и точность поиска. РУМО, один из крупнейших на планете «аккумуляторов» информации, отвечает за сбор и анализ сведений, поступающих из многочисленных источников и представленных на разных языках, и это действительно грандиозная задача. Источники развединформации на местах предоставляют материалы аэрофотосъемки, агентурные сведения, результаты инспектирования и рекогносцировки, получаемые от множества датчиков и надземных платформ, перехваченные информационные сигналы, результаты спутниковой разведки, фото- и видеодокументы. Об объемах информации, собираемой из открытых источников, даже говорить не приходится.

В дополнение ко всему этому РУМО управляет глобальной инфраструктурой информационных систем. Последние способны снабжать оперативной информацией (в том числе совершенно секретной) оперативные подразделения в любой части света, а также аналитической информацией — руководителей. РУМО также должно координировать совместное использование секретной информации множеством других агентств и организаций.

Для анализа данных РУМО использует большой набор технологических инструментов, поставляемых компаниями Endeca Technologies, Basis Technology, Inxight Software, Insightful, Attensity, Convera, NetOwl и Clearforest. Акцент делается на семантическом поиске, который позволяет совершенствовать традиционный поиск в Internet с помощью специальных ссылок и определений, обеспечивающих обнаружение искомой информации. Такой поиск выходит за пределы традиционных гиперссылочных связей и действует совсем в другой области отношений между ресурсами.

Данные инструменты поддерживают работу со многими языками. Они обеспечивают совместное использование интегрированных знаний с помощью извлечения сущностей, сбора и анализа текстовых материалов с применением машинного распознавания семантического значения текстов. Для решения своих специфических задач РУМО задействует и сложные поисковые предписания при поиске в терабайтных массивах данных. Далеко не каждая поисковая машина способна выполнять такие запросы — из-за проблем масштабирования.

РУМО приобрело корпоративную лицензию на RetrievalWare компании Convera — масштабируемую платформу поиска и извлечения знаний из структурированных и неструктурированных данных. RetrievalWare содержит компонент, обеспечивающий категоризацию и динамическую классификацию. Еще один инструмент, ProFind производства Endeca, поддерживает поиск с сопутствующими навигацией, интеграцией, выявлением и анализом данных с помощью встроенных модулей интеллектуального анализа и управления знаниями. Аналитику уже не нужны уточняющие запросы для дальнейшей очистки результатов поиска — механизм Endeca динамически покажет все последующие уточнения. В Endeca встроено серверное приложение Rosette Linguistics Platform, разработанное Basis Technology. Оно используется для обработки и извлечения информации из документов, созданных на разных языках. Например, задействуются такие модули, как определитель языка документа и модуль извлечения сущности (он, собственно, и извлекает информацию из документа).

Работа с множеством языков является существенной частью поисковых процессов разведывательного сообщества. Идентификация языка — первый шаг к определению способа дальнейшей работы с документом. Модули Rosette позволяют аналитикам осуществлять поиск среди иноязычных файлов, расположенных на жестких дисках и съемных носителях, для обнаружения банковских счетов, номеров телефонов, адресов электронной почты, кличек и т.п.

В частности, модули Rosette обеспечивают взаимодействие стандартов транслитерации, принятых разными ведомствами. Для устранения конкуренции между этими стандартами организована рабочая группа Intelligence Community Metadata Working Group, которая отвечает за разработку стандартов маркировки всех данных, используемых в системах РУМО. С помощью продуктов Endeca маркируются унаследованные данные, а на основе полученных метаданных создается вспомогательный навигатор. Собственно, метаданные и являются последовательными навигациями.

Для управления аналитическим поиском и извлечением разведывательной информации из источников неструктурированных данных служит поисковая машина InFact. Она способна определять существительные, глаголы и дополнения в каждом предложении и так организовывать данные, чтобы упрощался анализ отношений между сведениями из разных документов. Это помогает осмысливать неочевидные связи, выявлять деятельность террористических организаций, определять их географическое местонахождение, прослеживать финансовые потоки и получать другие сведения.

Многие обычные поисковые машины, скажем Google, применяют булеву логику при выполнении запросов для сложных и длинных поисковых предписаний, однако при составлении сложных запросов этого недостаточно. Так, с помощью поискового языка InFact Query Language (IQL) можно тремя словами выразить то, что потребовало бы двадцати строк при использовании булевой логики.

В РУМО применяется и сервер SmartDiscovery Analysis Server компании Inxight Software, который «понимает» документы на многих языках, с помощью средств визуализации показывает отношения и тенденции. В SmartDiscovery задействуются технологии анализа текстов и визуализации, разработанные исследовательским центром Xerox. Кстати, поисковая платформа LinguistX этой компании используется в Yahoo. РУМО приобрело пять модулей SmartDiscovery (управления поиском, обобщения, категоризации и рубрицирования, извлечения сущностей и фактов), а также SmartDiscovery ThingFinder и программное обеспечение визуализации Inxight StarTree.

ThingFinder, приложение, которое при анализе текста автоматически выявляет и маркирует более 30 типов сущностей, в состоянии извлекать сущности на 20 языках и визуализировать их. Продукт SmartDiscovery был разработан для массовой параллельной обработки обращений с применением XML-интеграции и пользовательского интерфейса на основе Web-сервисов.

Компания Basis Technology работает во взаимодействии с BrightPlanet, которая интегрировала Rosette в свой продукт Deep Query Manager (DQM). Он представляет собой управляющую платформу и навигационный поисковик, используемые в многоязычном поиске и обработке его результатов. DQM может экспортировать контент на языке XML в иные приложения и интегрировать свою функциональность в другие программы, использующие BrightPlanet API.

В пятой версии DQM появились возможности сбора и обработки документов, хранящихся в недрах «скрытой Сети» (invisible Web); так называют набор Web-страниц, генерируемых самими сайтами и доступных пользователям, но скрытых от традиционных поисковых машин. Программы сканирования Сети традиционных поисковиков просто не могут попасть на большинство страниц динамического сайта, которые генерируются «на лету».

Примечательно, что среди поставщиков технологий «совершенного» поиска нет университетов и государственных исследовательских центров — все основные технологии разработаны частными компаниями.

Оргвыводы

К сожалению, пройти всю цепочку, от производителя до конечного потребителя технологий совершенного поиска, оказалось возможным только для США. Какие технологии внедряют отечественные силовики и как патриотически настроенный российский бизнес может помочь им в борьбе с терроризмом, неизвестно. Зато известно, что «свободный» (дикий) рынок способен породить разве что «попсу», а для поддержки среды разработки высоких технологий требуется участие государства. Наибольшего эффекта, как показывает пример оснащения американских спецслужб, можно достичь только при взаимодействии государства с бизнесом. Конечно, важно и то, как налажен контроль над государственными инвестициями в бизнес. Другими словами, необходимо, чтобы конкретные чиновники отчитывались перед налогоплательщиками — в том числе и теми, кто работает в сфере высоких технологий.

Вадим Ефремов (VEfremov@hetnet.ru) — советник генерального директора компании «Гетнет консалтинг» (Москва).

Страница 1 2

Комментарии


26/04/2012 №03

Анонс содержания
«Открытые системы»

Подписка:

«Открытые системы»

на месяц

c