Computerworld, США

Компаниям все чаще приходится сталкиваться с наборами неструктурированной информации, хранящейся на различных носителях

Информация — кровь, текущая по жилам современного предприятия, это ни для кого уже не секрет. Но по мере того как организации извлекают все больше информации из различных источников и приложений, ее становится труднее обрабатывать.

Известно, что делать с базами, киосками и хранилищами данных, поскольку информация здесь хорошо упакована и структурирована. Но компаниям все чаще приходится сталкиваться с наборами неструктурированной информации, хранящейся в библиотеках документов, электронных таблицах, архивах электронной почты и систем мгновенной передачи сообщений, в электронных формах и записях, на общедоступных Web-страницах и в коммерческих информационных службах.

В дискуссиях, развернувшихся вокруг всех этих вопросов, присутствуют два ключевых момента. Первый связан с неструктурированной природой информационного наполнения. Организации вынуждены обрабатывать потоки случайно «разбросанного» текста, вместо того чтобы иметь дело с тщательно выстроенными и достоверными полями, такими как в «нормально» управляемых системах.

Вторая особенность заключается в том, что компании получают информацию из различных источников, находящихся как внутри, так и вне предприятия. Каждому источнику данных присуща собственная организация и формат. Большинство из них предназначено для решения какой-то конкретной автономной задачи и не интегрировано с другими наборами данных. Таким образом, репозитарии напоминают независимые друг от друга, хаотично разбросанные хранилища. Заставить их работать совместно довольно непросто.

Число информационных баз постоянно увеличивается. Возникает потребность в использовании новых источников без переписывания приложений и инструментальных средств.

Решение, которое сразу приходит на ум, заключается в консолидации всех данных в единую универсальную базу или хранилище. К сожалению, создание подобного централизованного репозитария — процесс медленный и дорогостоящий. Поддержка и обновление подобного хранилища превращается в работу, которая любому системному администратору покажется сущим кошмаром. Причем здесь даже не затрагиваются вопросы масштабируемости и владения информацией. Ясно, что для реализации подобных проектов нужна более совершенная и эффективная стратегия.

Повышение управляемости

Интеграция информации предприятия (Enterprise Information Integration, EII) — вот цель, в рамках которой должна разрабатываться соответствующая стратегия. Для решения поставленной задачи предлагаются разные подходы. Сделать сегодня ситуацию более управляемой можно с учетом трех основных факторов:

  • Расширение сферы применения технологии XML, которой отводится роль межплатформенного стандарта.
  • Удешевление и повышение емкости систем хранения наряду с переходом к использованию более быстрых и мощных процессоров.
  • Появление новых инструментальных средств, помогающих решать поставленные задачи.

Продукты EII позволяют по мере необходимости объединять данные, полученные из различных источников. Соответствующие задачи решаются путем создания служб промежуточного уровня (программного обеспечения промежуточного слоя), обеспечивающих доступ к информации стандартным способом, не требующим непосредственного взаимодействия с каждым отдельно взятым базовым источником данных.

Термин EII получил свое название по аналогии с интеграцией приложений предприятия (Enterprise Application Integration, EAI) — набором давно известных технологий, предназначенных для связывания приложений. Однако решения EII по сравнению с традиционными EAI в большей степени сервисно-ориентированные.

Технология XML сегодня, пожалуй, — главная сила, способствующая дальнейшему продвижению EII. Дело в том, что XML позволяет снабжать данные признаками (тегами) — форматирующими, информационными или теми и другими сразу — как в процессе создания, так и позже. Наборы тегов можно расширять и модифицировать, адаптируя их фактически к любой области знаний.

Кроме того, следует принять во внимание намерение корпорации Microsoft сделать XML основным форматом хранения данных для пакета прикладных программ, который станет наследником Office 2003.

Помимо XML современные приложения EII выстраиваются, как правило, вокруг репозитариев метаданных и специальных соединительных звеньев — коннекторов, связывающих их с этими репозитариями.

Репозитарии метаданных

Для того чтобы иметь практическую направленность, системе EII недостаточно быть просто еще одним хранилищем данных. Она должна обеспечивать своевременное извлечение информации по мере возникновения такой потребности и делать это оптимальным в конкретной ситуации образом. Простейший способ решения данной задачи заключается в создании и поддержке репозитария метаданных — детально проработанного каталога, описывающего доступность данных, способы их хранения, местоположение и отношения между отдельными информационными компонентами.

Благодаря метаданным появляется возможность уменьшить избыточность, исключить ненужные процедуры перемещения и преобразования данных, обеспечив тем самым потенциальную экономию времени и денег.

Первые системы метаданных представляли собой файловые словари. Впоследствии их вытеснили репозитарии, построенные на основе систем реляционных баз данных. Современный репозитарий метаданных на базе XML позволяет архитектору информационной системы обращаться к различным источникам данных, распределенным внутри организации и даже находящимся за пределами ее межсетевого экрана.

Большинство продуктов EII поставляются сегодня с набором инструментальных средств, обеспечивающих доступ к «стандартному» набору репозитариев. Однако интеграция почти всегда предполагает некую настройку, поэтому следует заранее подумать о создании новых коннекторов или модификации уже существующих.

Некоторые системы EII предполагают одностороннее взаимодействие с данными — просто надо найти то, что требуется, и объединить это с другими источниками — в то время как иные поддерживают интерактивный режим работы и обеспечивают двунаправленный обмен информацией при поиске и обработке данных.

И наконец, информация нужного типа (документы транзакций, мультимедийные файлы, графика, видео или технические данные) оказывает влияние на характер взаимодействия и организации связи.

Соответственно, продукты EII могут иметь совершенно разные наборы коннекторов в зависимости от той области знаний, на которую они ориентированы.


Как ни называй…

Влиянию моды подвержено практически все, в том числе и слова, и даже специальные термины. Сейчас мода на аббревиатуру EII, как недавно была на такие названия, как виртуальные базы данных, брокеры виртуальных данных, объединенные системы обработки запросов, управление объединенными данными и интеграция корпоративного контента. Впрочем, в мире слов в роли кутюрье может выступить едва ли не каждый. На месте EII могло бы оказаться любое словосочетание, собранное из слов в приведенных ниже столбцах. Поупражняться в этой нехитрой комбинаторике может любой