Определение
Добыча данных — это процесс поиска взаимосвязей и шаблонов среди больших объемов информации, хранящихся в базах данных. Для этого используется особый инструментарий, в основу которого положены алгоритмы «просеивания» данных с целью поиска взаимосвязей

Добыча данных. Скорее всего, вам приходилось о ней слышать. Или, возможно, вы слышали о хранилищах данных. Концепции добычи данных и хранилищ данных тесно связаны между собой. Именно в хранилищах накапливаются данные, которые затем подвергаются анализу. Процедура добычи данных предполагает сортировку собранной информации с целью выявления интересных и полезных взаимосвязей.

Возможно, понимание того, что представляет собой добыча данных, окажется для вас крайне важным. Френк Джиллет, аналитик компании Forrester Research, утверждает, что в следующие два года резко — почти в четыре раза — возрастет число ИТ-проектов, связанных с добычей данных.

Все начинается с загрузки подробной информации о происходивших событиях, что просто необходимо для поиска сколько-нибудь ценных связей. Затем вам нужно определить, какую конкретную проблему вы намерены решать. К примеру, вам требуется ускорить подготовку ответов на запросы, присылаемые по электронной почте, найти клиентов, имеющих закладные, или увеличить объем продаж бакалейных товаров.

Чтобы проанализировать все эти данные, потребуется специальный инструментарий добычи данных, основанный на алгоритмах, которые позволяют сканировать информацию в поиске определенных шаблонов (например, так можно обнаружить, что покупатели, берущие в супермаркете хлеб с маслом, почти всегда прихватываю к ним еще и варенье).

Большинство инструментальных средств добычи данных получают информацию в виде обычных плоских файлов, которую затем они сортируют. Поэтому данные извлекаются из баз данных и помещаются в плоские текстовые файлы. Затем начинается сам процесс добычи данных.

Разные инструментальные средства организованы по-разному. Одни работают на настольном компьютере, другие — в архитектуре клиент-сервер. Часть из них, например, программная система компании Right Point Software, реализует один алгоритм, выполняющий только один вид поиска. Другие, такие как программный продукт корпорации SAS Intstitute, включают в себя пакет из нескольких алгоритмов.

«Несмотря на то что добыча данных дает ощущение, что данные можно перелопачивать как угодно, все же следует иметь хотя бы общее представление о том, к чему, собственно, должен привести анализ, — считает Уэйн Экерсон, вице-президент Data Warehousing Institute. — Выбирать параметры следует очень тщательно».

Четкая линия

Если не определен ключевой параметр, можно и не найти тех взаимосвязей, на которые вы рассчитывали, поскольку, как заметил Экерсон, обилие параметров скорее всего дает слишком расплывчатые результаты. Чрезмерно полагаясь на возможности инструментария, можно оказаться в двусмысленном положении.

Существуют и другие аспекты, способные породить проблемы, если не принять меры в самом начале. Как подчеркнул Херб Эдельштейн, аналитик компании Two Crows, должен быть человек, способный взять на себя обязанности эксперта по добыче данных.

«Считать, что добычу данных можно выполнять безо всякой подготовки в области статистики или добычи данных — верх самонадеянности», — отметил он.

Самое главное — это правильно выбрать, какие данные для какого поиска следует предоставить. Из чрезмерного количества данных нельзя извлечь удовлетворительных результатов, поэтому выбор необходимо сделать, отдавая себе отчет в том, что может повлиять на бизнес. Например, руководитель проекта, специалист в области статистики, может не понять, что возраст потребителя не столь важный признак, как соотношение возраста и дохода.

С другой стороны, если руководитель проекта имеет только статистическую и деловую подготовку, он может не понять, какое значение играют такие параметры, как требования к хранению, транспортировке и обслуживанию. Некоторые проекты закончились неудачей именно потому, что слишком много внимания уделялось подготовке данных, а не совершенствованию модели добычи данных.

«Фундамент — это данные, — считает Эдельштейн. — Конечно, настоящий вопрос добычи данных состоит в том, что вы собираетесь с ними делать. Но так или иначе при отсутствии данных все, что у нас есть, — не более чем личное мнение».

Только факты
Аналитические средства хранилищ данных

Все начинается с гипотезы. Затем оставляются те данные, которые эту гипотезу поддерживают. Например, вы обращаетесь в хранилище данных с запросом о потребителях, делающих самые большие покупки, поскольку считаете, что сможете найти среди них тех, кто вероятнее всего покупает дорогие товары.

против

Добычи данных

Теорию создает процесс. Инструментарий обрабатывает данные с целью найти людей, которые скорее всего купят дорогие товары. Возможно, они и раньше покупали дорогие товары, а может быть и нет. Вы можете воспользоваться полученными данными и предложить свои продукты конкретным покупателям, которые были найдены вашим инструментарием.


Все дело в картах

Сеть супермаркетов Dick?s Supermarkets использует инструментарий добычи данных компании Datasage для того, чтобы получать информацию со специальных скан-карт покупателей. Эти данные позволяют компании выявить взаимосвязи между товарами и привычным для клиентов списком покупок.

Кеннет Робб: «Вы должны обеспечить целостность своих данных, поскольку это крайне важно для принятия обоснованных решений»
Кеннет Робб — первый вице-президент по маркетингу компании Brodbeck Enterprises, обслуживающей сеть из восьми магазинов, рассказал об этом проекте корреспонденту еженедельника Computerworld.

Что добыча данных дала Dick?s Supermarkets?

Она позволила компании больше узнать о своих покупателях и лучше торговать, то есть более эффективно использовать инвестиции в маркетинг и товары.

Что лежит в основе хорошей программы добычи данных?

Вы должны обеспечить целостность своих данных, поскольку это крайне важно для принятия обоснованных решений. Собственно, мы предложили своим покупателям использовать скан-карты при каждой покупке, и благодаря этому имеем точные и полные данные о том, что происходит в наших магазинах.

Как вам удалось убедить своих клиентов пользоваться такими картами, и насколько успешной оказалась эта идея?

Мы разработали несколько льготных программ для покупателей, пользующихся этими картами. Мы раздаем подарки, такие как газонокосилки и компьютеры... Сейчас 90% всех покупок в наших магазинах совершаются с использованием этих карт.

Смогли ли вы выявить некоторые общие тенденции, изучая структуру продаж?

Мы выяснили, что на долю 45% наших покупателей приходится почти 90% наших продаж. Благодаря этой информации мы можем предложить большие скидки нашим самым активным покупателям. Таким образом, сотрудничество с нами будет выгодно основным нашим клиентам.

Что еще удалось обнаружить?

Мы проанализировали данные о покупках за полтора года и выявили основные корреляции между товарами. Так, в наших магазинах чаще всего покупают одновременно йогурт и мюсли, а также упаковки с пирожными и пакеты молока. Поэтому мы поместили йогурт и мюсли на соседних полках. Разница в объемах продаж при таком размещении товара и обычном составила около 60%.