PolyAnalyst 4.1 — недорогой инструментарий добычи бизнес-данных

Большинство компаний — чаще всего сами того не ведая — обладают виртуальной золотой жилой. Стоит только копнуть — и богатейшие данные, накопленные в процессе обработки мириадов транзакций, превратят эти компании в гибкие, оперативные и более прибыльные организации.

Однако на деле все оказывается гораздо сложнее. Решая задачу извлечения полезной информации, пользователь должен балансировать между необходимостью выявить полезные структуры данных из общей массы текстов и цифр, создаваемых в процессе работы предприятия, и опасностью заблудиться в дебрях математической статистики, от которой полагается ждать требуемых результатов. Тем специалистам, которые узнали в этом гипотетическом пользователе себя, можно порекомендовать PolyAnalyst 4.1, новейшую версию средства добычи данных компании Megaputer Intelligence.

При всем многообразии полных решений добычи данных (здесь особо следует отметить IBM с ее Visual Warehouse и Oracle с Express) система PolyAnalyst значительно превосходит конкурентов по качеству «разведки» данных и отличается эффективными алгоритмами. Этот автономный продукт легко использовать, он без труда настраивается на разнообразные бизнес-среды и, наконец, отличается весьма невысокой ценой.

Намывание золота

Пожалуй, одна из наиболее впечатляющих характеристик PolyAnalyst — число решаемых им задач добычи данных. Это средство предоставляет 11 функций «разведки» данных, что фактически исчерпывает список наиболее востребованных задач — от выявления простых взаимоотношений двух полей (как размер скидки влияет на объем заказов?) до обнаружения значительно более сложных взаимозависимостей (какие из производимых компанией N продуктов чаще всего покупают вместе?).

PolyAnalyst может получать доступ к реляционным базам данных через ODBC, а также к базам данных для настольных машин, таким как Microsoft Access и Excel, и к текстовым данным. Он обладает средствами прямой связи с репозитариями данных OLAP-систем IBM Visual Warehouse и Oracle Express, обеспечивающими удобный доступ к заранее определенным кубам данных.

Кроме того, PolyAnalyst предоставляет в распоряжение пользователей исчерпывающий набор подсистем анализа данных, оснащенных простыми графическими интерфейсами типа «укажи и нажми». В клиент-серверной версии результаты сканирования данных загружаются на сервер. Продукт позволяет создавать HTML-отчеты, выводить формулы на основании устойчивых закономерностей, импортировать и объединять данные из многочисленных структур, таких как электронные таблицы, реляционные базы данных и тексты.

Как разгрызть большой орех?

Извлечение информации из данных происходит значительно легче, если использовать постепенный подход, то есть, например, получить обобщенную картину набора данных и затем производить бурение, чтобы установить те или иные конкретные детали. Скажем, если анализ данных выполняется с целью оптимизировать сроки обновления складских запасов, следует выработать обобщенную картину движения товаров на складе, после чего идентифицирововать дорогостоящие, хранящиеся в избыточном количестве товары или те, которые обновляются медленнее всего. Избрав эту информацию в качестве отправной точки, можно сосредоточиться на таких деталях, которые более всего влияют на прибыль, и предпринять действия в отношении именно этой номенклатуры.

Функция Summary Statistics очень полезна как раз на этой стадии получения первоначального представления о данных. Она группирует информацию в соответствии с разбросом значений каждого поля и вычисляет статистические показатели, такие как отклонение, частота и средние значения. В сущности, эти операции аналогичны составлению эскизного проекта при перепланировке жилья — это только наметки проекта, предполагающие, что вся работа еще впереди.

Отчет Summary Statistics будет как нельзя кстати при анализе новых наборов данных, так как позволяет быстро обследовать «границы» информации. Можно получить, скажем, сводки продаж по перечню продуктов, заказанных отдельным клиентом, общий объем продаж или периоды повышенной покупательской активности.

Анализ деталей

Функция Summary Statistics, предоставляющая полезные обзоры данных, тем не менее не дает информации, которую можно непосредственно использовать в бизнесе. Для этого нужен другой компонент — Find Rule.

Одна из целей добычи данных — найти математическое выражение, точно описывающее существующие закономерности, которое поможет анализировать данные для составления прогнозов или планирования инициатив. На языке специалистов по добыче данных это называется «найти правило».

И именно это составляет сильную сторону PolyAnalyst. Такие возможности реализованы в подсистеме Find Rule. Она представляет результаты добычи данных в виде математического выражения, которое можно использовать при составлении прогнозов.

Удобный для чтения отчет, подготовленный подсистемой Summary Statistics системы PolyAnalyst 4.1, дает пользователю текстовую информацию и графики, помогающие освоиться с новой базой данных

В отличие от других инструментов добычи данных PolyAnalyst не требует от пользователя вводить возможные формулы. Он автоматически генерирует гипотезы на базе данных и возвращает нужные уравнения и оценки точности. Надо ли говорить, насколько это экономит время специалистов, анализирующих данные, и снижает риск выбора некорректного выражения.

К недостаткам можно отнести только поддержку лишь Windows-платформы, а также невозможность объединения данных из различных баз данных в единый набор для просмотра. Это создает неудобства при одновременном анализе нескольких групп информации.

Этим, впрочем, список недостатков PolyAnalyst ограничивается. Зато это средство отличается гибкостью, простотой использования, мощными инструментами анализа данных и невысокой ценой, которые безусловно оправдывают данную ему оценку — «очень хорошо».


PolyAnalyst 4.1

Этот недорогой инструментарий добычи данных общего назначения способен в автономном режиме выявлять взаимоотношения данных, что позволяет экономить время и деньги. Продукт позволяет выводить многочисленные бизнес-показатели, такие как линейная регрессия, конструкции типа «если — то», или проводить анализ потребительской корзины. Продукт обладает дружественным графическим пользовательским интерфейсом, встроенной поддержкой OLE DB для добычи данных и средствами связи COM.
Достоинства: настройка на многочисленные сценарии анализа данных; низкая цена; модульность позволяет выбирать требуемые подсистемы обработки данных; мощная подсистема Find Rule представляет данные как критически важные для бизнеса математические выражения
Недостатки: поддерживается только платформа Windows; ограниченные возможности выявления структуры данных
Цена: от 2300 до 14 900 долл., в зависимости от выбранного алгоритма; инструментарий разработчика 16 000 долл. плюс компоненты
Производитель: Megaputer Intelligence, www.megaputer.com
Платформы: Windows 95/98/2000, Windows NT