XML помогает извлекать информацию

Данные в XML лучше отражают действительную картину мира

Вне зависимости от того, насколько тщательно и искусно был составлен запрос, некоторые результаты не имеют никакого отношения к интересующей пользователя тематике. Неточность извлечения информации просто приводит в отчаяние рядового пользователя, а профессионалам обходится весьма недешево.

Когда компьютер предлагает некорректный ответ на запрос, причин тому может быть несколько, например, короткое замыкание или ошибка в программе. Но, как правило, в большинстве некорректных ответов «виноваты» сами данные.

Сейчас в базах данных используются списки ключевых слов и индексы, которые позволяют ускорить выборку информации. Вместо поиска необходимых данных при составлении запросов обычно предполагается, что будет вестись поиск основных ключевых слов и индексированных данных.

Для того чтобы механизм поиска информационного наполнения работал корректно, системы должны изменить способ представления и управления данными. Современная схема, предполагающая манипулирование строками, столбцами и индексами, необходима для того, чтобы преодолеть ограничения производительности современных компьютеров.

Но будущие системы смогут хранить все информационное наполнение в памяти и сканировать его с помощью огромного массива суперкомпьютеров, так что никаких индексов и ключевых слов не потребуется. Непосредственный поиск будет выполняться в реальном времени, обходясь без создания индексов. Емкие буферы в оперативной памяти и твердотельные диски уже используются для ускорения извлечения информации. Часть перспективных решений требует увеличения уровня использования высокоскоростных систем хранения данных.

Имея это в виду, разработчики современных решений должны использовать такие структуры данных, с которыми работают имеющиеся методы извлечения информации, но прибегать также к возможностям сверхэффективных серверов.

Ориентированные на будущее приложения извлечения информационного наполнения опираются на все исходные данные, не анализируя, насколько актуален каждый из элементов данных или каковы возможности поиска по нему. Приложение не должно отвергать данные просто потому, что они не совсем соответствуют жесткой структуре базы данных. Если вы считаете, что некоторые фрагменты данных могут быть важными, найдите способ сохранить их и побеспокойтесь о том, чтобы их затем можно было извлечь.

Современные решения открывают путь к использованию иерархических баз данных с гибкой схемой. Переход на подобные решения стимулирует и быстрое распространение XML. Эта платформа обладает всеми качествами, необходимыми для поддержки мощных систем выборки информационного наполнения, за исключением одного — производительности.

Данные XML иерархические, и потому лучше отражают действительную картину мира, нежели двумерная структура реляционных баз данных. Она создает порядок за счет применения структурных правил, но только XML допускает изменение этой структуры. Это неотъемлемая составляющая приспособляемости, которой сложно управлять с помощью современной технологии базы данных.

Благодаря своей гибкости XML собирает данные приложений для последующей их выборки с помощью более совершенных систем. Современные приложения могут без труда смешиваться с данными XML для заполнения реляционных баз данных, как это делается в IBM WebSphere при создании профиля покупателей на узлах электронной коммерции. Некоторые базы данных могут даже использовать реляционные ядра для хранения иерархических данных. Технология Data Shaping корпорации Microsoft способна оперативно преобразовывать реляционные данные в иерархические.

В ближайшие два — пять лет базы данных будут естественным образом представлять информационное наполнение в расширяемой, иерархической форме. Если приложения выборки данных, имеющиеся у потребителя, создавались с учетом этих возможностей, то ему не составит труда перейти на более совершенные системы.

Корпоративные пользователи тоже выиграют от сокращения времени выборки данных, и сложностей с поиском информации станет намного меньше.

Извлечение информации

Некорректная работа механизмов поиска может стать причиной самых серьезных проблем — от потери в бизнесе до судебного разбирательства. Подготовьте свою компанию к появлению более крупных и быстрых систем извлечения информационного наполнения, которые в конечном итоге позволят выполнять эффективный полнотекстовый поиск данных. А пока используйте XML в качестве модели для структурирования своих бизнес-данных и готовьтесь к переходу на иерархические базы данных, которые должны появиться на рынке в ближайшие два — пять лет.