Извлечение образцов данных инструментами поиска данных

Анализируя данные об обращениях клиентов в один из центров технической поддержки, Стивен Браун выявил интересную вещь: двое сотрудников центра постоянно решали проблемы клиентов с меньшими, чем остальные, затратами.

После обсуждения полученных результатов с руководством Браун выяснил причину: эти люди преуспевают прежде всего потому, что знают кое-что о самых разных продуктах, выпускаемых компанией, в то время как другие изучили лишь часть из них, причем досконально.

Благодаря своим разносторонним знаниям столь продуктивно работающие сотрудники имели возможность помогать клиентам - вне зависимости от характера решаемой проблемы - по телефону. Их коллеги гораздо чаще прибегали к дорогостоящим средствам, например посылали новые детали или отправляли на место техников.

Сделав это открытие, компания Брауна - Automatic Data Processing (ADP) - перестроила программу подготовки для новых сотрудников в главном центре поддержки аппаратного обеспечения.

Математический подход

Своим открытием Браун обязан программному продукту для добычи данных компании DataMind, в котором используется оригинальная технология сетевых агентов. В других аналогичных продуктах для выявления сложных образцов или моделей данных используются иные статистические методы и подходы, основанные на искусственном интеллекте, в частности нейронные сети.

По словам Герберта Эделштейна, президента консультативной компании Two Crows, которая специализируется на добыче данных, некоторые из этих статистических методов применяются уже десять лет, но до сих пор они работали с относительно небольшими объемами данных: с десятками сотен строк.

Новое поколение программных инструментов обещает изменить эту ситуацию. Внешний графический пользовательский интерфейс открывает перед вами возможность добычи данных, в то время как недорогое средство обработки данных позволяет производить раскопки данных в более крупных массивах - объемом примерно до 60 Гбайт.

Новые инструменты автоматизируют процесс поиска образцов в массивах данных и создания перспективных моделей. Большинство из них будет работать с различными операционными системами и базами данных, однако они используют оригинальные алгоритмы или оригинальные адаптированные варианты общих алгоритмов.

Чтобы воспользоваться этими инструментами, необходимо сначала правильно выбрать и извлечь из хранилища или системы определенный массив очищенных и обработанных данных. После этого инструменты сформируют на их основе перспективные модели.

Добыче данных придается особое значение, так как совершенствование этого процесса обусловит многомиллионные инвестиции в развитие хранилищ данных, что в конечном счете приведет к увеличению доходов. По словам Эделштейна, стоимость программных средств добычи данных колеблется от "пятисот долларов до сотен тысяч".

Кроме сложности процесса добычи данных трудности вызывает и очень часто возникающая необходимость преобразовывать данные, даже уже очищенные и трансформированные как часть определенного хранилища данных.

Время и деньги

Так, в реляционной базе данных обычно имеется область "состояний" ("state" field) с 51 значением, однако многие алгоритмы добычи данных не распознают этих значений.

"Приходится устанавливать их в виде 51 отдельного элемента данных", - объяснила архитектор информационных систем Пола Торнтон, которая работает в компании MCI над проектом добычи данных.

Несмотря на все трудности, многие компании намереваются протестировать возможности тех или иных инструментов добычи данных.

В этом году компания LTV Steel планирует оценить эффективность инструментов, разработанных институтом SAS (Enterprise Miner, который должен быть выпущен в четвертом квартале) и компанией Unica Solutions (Pattern Recognition Workbench Pro+, который уже поступил в продажу).

При этом компании LTV может пригодиться имеющийся у нее опыт статистического моделирования. С 1991 года она имеет на мэйнфрейме IBM 3090 хранилище объемом в 1 Гбит.

Используя статистические массивы института SAS, компания LTV Steel проводит добычу и анализ информации о производстве стали с тем, чтобы выявить внутренние причины проблем, возникающих в процессе производства. Эта программа уже помогла сэкономить 16,8 млн. долл.

В 1994 году LTV потребовалось выяснить, почему обесцвечивается поверхность множества стальных колец, производимых на одном из ее заводов в восточной части города. Доля брака на этом заводе составляла 7-8%. Компания сравнила данные по этому заводу с данными на аналогичном предприятии в западной части города, где доля брака составляла всего 2-3%.

Было обнаружено, что завод в западной части города раз в два года проводил капитальный ремонт своих сталеплавильных печей, а завод в восточной части города капитального ремонта не проводил никогда.

В компании сделали прогноз, что через три месяца доля брака составит 15%. Так и случилось. После этого прогнозам "компьютерщиков" стали доверять.

По подсчетам LTV, за счет проведения капитального ремонта завод в восточной части города сможет экономить до 5 млн. долл. ежегодно.

Использовать новые инструменты хотели бы и в телекоммуникационной компании MCI. Однако, по словам старшего сотрудника отдела информационных технологий Генри Герцмана, ни один из 25 протестированных продуктов не отвечает ее потребностям.

Причина заключается в том, что ни один из них не рассчитан на массивы данных объемом в 200 Гбайт и ни один из них не сможет работать как на машинах с массивной параллельной обработкой (MPP), так и с симметричной мультиобработкой (SMP).

Хранилище данных компании MCI работает со 100 процессорами SP2 от IBM в среде MPP. В то же время около десятка киосков данных (data mart) выполняются на различных типах серверов корпорации Sun Microsystems в среде SMP.

Положительные примеры

Пока MCI пытается подыскать подходящие инструменты, другие компании, например ADP, в которой и работает Стивен Браун, с успехом используют в менее сложных ситуациях инструменты, предлагаемые уже сейчас. Браун выполняет DataMind на автономном ПК.

Перед началом работы с DataMind Браун берет данные из собственной системы обработки транзакций и переводит их в файловый формат Data Interchange Format. Затем он направляет их в электронную таблицу Microsoft Excel. Используя Excel, Браун обрабатывает одни поля данных, очищает другие и проводит некоторые вычисления.

Различие между приложениями ADP и MCI помогает представить, какое будущее ждет процесс добычи данных: безусловно, стоит ждать появления самых разных инструментов, начиная от наиболее устойчивых к ошибкам, сложных и трудных в использовании до менее надежных и более понятных.