Однако поскольку основная масса данных вводится в системы вручную, то возникают проблемы, мешающие полноценно использовать накопленную информацию. Основной источник такого «мусора» — формы в Интернете, заполняемые клиентами. Они вообще не имеют смысла, как, например, случайно набранные символы либо заведомо недостоверный, но похожий на правду набор букв («фжыщшао» в качестве названия города или «превед кросавчег« вместо ФИО). Кроме того, те, кто набирает текст, делают ошибки и опечатки. А иногда различные написания одного и того же слова являются легитимными (в частности, имена Наталья и Наталия, Кирил и Кирилл) или, наоборот, одинаковые слова в разных контекстах различаются по смыслу («Тверская», скажем, может быть названием, как улицы, так и области).

В разных базах контактные данные хранятся различными способами. Так, ФИО может быть либо представлено одним полем и написано в порядке фамилия+имя+отчество, либо разделено. Способов задавать телефоны еще больше: с кодами страны и городов или без них, с разделителями различных видов, с добавочными номерами, с указанием многоканальных линий, с разделением разных телефонов и т.д.

А вот рекордсмен по нестандартности — почтовые адреса. Они везде хранятся в разном виде в основном из-за большого пространства адресной информации и отсутствия государственного стандарта на их написание. Есть только рекомендации Почты России и налоговая база данных КЛАДР, но они не имеют статуса стандарта.

Также в разные базы зачастую оказываются занесены одни и те же сведения, но на русском языке, на английском и на местном (для некоторых регионов РФ). Кроме того, встречается информация, записанная с использованием транслитерации.

Немало возникает и других проблем, мешающих полноценно использовать данные, т.е. анализировать их, консолидировать, обогащать и применять, в частности, при проведении маркетинговых исследований и составлении статистических отчетов.

Идентификация уникальных клиентов

Поскольку, как уже было сказано, отдельные слова можно написать по-разному, при вводе информации случаются ошибки и опечатки, а также неполные данные, то сложно идентифицировать уникальность контакта. В большинстве крупных БД один человек присутствует много раз, причем относящиеся к нему сведения, строго говоря, не равны и отсеять их с помощью простых фильтров не удается. Порой бывает непросто, например, идентифицировать людей, живущих в одной квартире, в одном доме или районе.

Нередко в организациях существует по нескольку независимых БД, и рано или поздно у их сотрудников возникает необходимость посмотреть на обслуживаемых ими клиентов с разных точек зрения с учетом различных характеристик — от адреса и средств связи до ассортимента покупаемых товаров, частоты обращений в службу сервиса и проч. При различных формах представления информации в разных базах данных объединить ее довольно трудно.

Если вы не собираетесь использовать контактную информацию для связи, то, значит, зря собирали и хранили ее. Однако даже наличие в базе ФИО, адресов и телефонов не гарантирует возможности связи. Те, кто занимается обзвоном и рассылками, знают, что около 50% указанных клиентом адресов и телефонов просто не существует.

Разумеется, личную телефонную книжку можно привести в порядок за один вечер. Даже несколько сотен записей можно обработать вручную. А вот сроки, необходимые для такой обработки БД, содержащих тысячи и даже миллионы записей, превышают период времени, в течение которого сохраняется актуальность самих данных. Кроме того, информация может поступать и изменяться в реальном времени, а также быть востребована сразу же после прихода, из-за чего обработка вручную недопустима.

Да и качество такой обработки неприемлемо низкое: вряд ли человек, живущий не в Москве, сумеет правильно обработать адрес «варшафка 125» или за разумное время педантично описать, что на что заменено и почему.

Хорошая новость: проблемой «мусорных» данных занимаются уже 40 лет, и есть множество продуктов, способных очистить, стандартизировать и консолидировать сведения, объединяя или удаляя дубликаты. Плохая новость: задача очистки данных объективно сложна, поскольку наряду с умными алгоритмами требуются объемные справочники с проверенной информацией и множество связанных подходов к различным видам источников данных. Поэтому заслуживающие внимания системы стоят дорого, а к аппаратуре и обслуживающему персоналу предъявляются соответствующие требования. Однако для того вида бизнеса, рост которого непосредственно связан с достоверностью информации о клиентах, цена системы вряд ли будет препятствием, о чем свидетельствует расширение рынка продуктов CDI (Customer data integration) — интеграция клиентских данных и Data Quality (качество данных) за последние пять лет.

Следует заметить, что даже при использовании продуктов, автоматизирующих очистку данных, обработка вручную все равно понадобится. Вопрос в том, сколько ее будет и какой она окажется. Если после работы системы придется исправлять ошибки, то от человека потребуется немало усилий, а если нужно будет всего лишь подтвердить предположения системы и автоматизированно пополнить справочники, то затраты труда существенно снизятся. Вот и выходит, что разница между 92 и 96% автоматически обрабатываемых записей — это не просто 4%, а двукратная разница между последующими объемами ручной обработки и соответствующий показатель экономической эффективности от внедрения систем.

Очень важно также, за кем остается «последнее слово» в обработке — за системой или за человеком. Целесообразно повторно обрабатывать данные с учетом ручной правки, а не слепо им верить и напрямую вносить в базу изменения, сделанные человеком.

Все рассмотренные здесь продукты — серьезные промышленные платформы, причем некоторые из них имеют многолетнюю (до 40 лет) историю, они работают с основными источниками данных — реляционными СУБД, наиболее популярными CRM и ERP и плоскими файлами, в том числе Excel. Также все системы поддерживают SOA, и потому их легко интегрировать практически с любыми информационными системами, работающими в масштабах предприятия.

Поскольку для таких продуктов характерна модульная структура и в отношении них проводится достаточно гибкая политика лицензирования, то возможен существенный разброс цен. Как правило, американские системы стоят не меньше 100—200 тыс. долл., хотя обычно можно поторговаться, договориться о рассрочках и других альтернативных схемах покупки. Российские разработки стоят несколько дешевле, но основное их преимущество не в более низкой цене, а в том, что они способны решать задачи, встающие перед отечественным бизнесом.

Таким образом, при оценке систем учитывались качество обработки русскоязычных данных и возможность оперативной поддержки в Москве.

Системы очистки и консолидации данных

«ФАКТОР» — единственный из описанных продуктов, который разработан в России, предназначен для решения специфических отечественных задач и уже внедрен. Он рассчитан на русскоязычные данные и снабжен соответствующими справочниками и алгоритмами. Но эти его достоинства оказываются недостатками в случае применения в других странах. Практика, впрочем, показывает, что качественно работать с данными можно только в одной языковой и культурной среде.

Одна функция этой системы должна понравиться финансовым институтам, которые не желают, чтобы их информация подвергалась неконтролируемым изменениям: для каждого преобразования «ФАКТОР» на русском языке пишет, по какой причине оно было выполнено.

К достоинствам продукта также относится подробная документация на русском языке. Кроме того, его поддержка обеспечивается в России, благодаря чему осуществляется внедрение «под ключ» и оперативно решаются все проблемы.

Information Quality Suite отлично справляется с обеспечением качества данных — стандартизацией, обнаружением и объединением дубликатов. Заслуживает внимания инструмент, помогающий находить живущих вместе людей и вести маркетинговые программы. Один из сотрудников компании-разработчика — Фрэнк Дэвис ведет блог (weblogs.firstlogic.com), где часто публикует интересные наблюдения из жизни «грязных» данных.

К недостаткам относятся сложность настройки продукта с учетом специфических бизнес-требований и не очень понятное описание ее методики в документации. Но поскольку такие системы обычно внедряют специалисты, то вряд ли подобный недочет следует считать критичным. В общем, этот продукт — один из самых эффективных. Если бы еще и русский язык, то цены б ему не было.

i/Lytics Data Quality обладает сильным аналитическим инструментом, позволяющим находить идентифицирующие связи в различных данных для их дальнейшей консолидации. Этот продукт внедрен в 30 странах, но в России его пока нет. Компания-разработчик Innovative Systems (пионер индустрии очистки данных с помощью различных технологий) знаменита тем, что десять наиболее крупных банков США используют ее решения в своей деятельности, а также тем, что за 37 лет своего существования она обработала миллиарды записей и на их основании составила справочник из 3 млн. словоформ и шаблонов.

CODE-1 Plus International осуществляет разбор адресов 220 стран мира, в том числе и России. Правда, она относится к категории С, т.е. анализ производится с помощью шаблонов. Значит, восстановить, например, индекс в почтовом адресе не удастся. Кроме того, из-за любой опечатки информация не будет разобрана. Этот продукт, как и другие разработанные компанией G1, очень хорошо интегрируется с CRM-системами, что позволяет проверять данные по мере их ввода. Это может быть реализовано и с помощью других систем, но фирма G1 уже внедрила свою.

Продукт хорош для тех, кому нужны международные адреса (но не требуются российские), — с ними система производит множество полезных операций, которые иначе пришлось бы выполнять вручную. Например, форматирует адреса с учетом правил, принятых в тех местах, куда их будут доставлять:

  • английский - 123 Main Street,
  • испанский - Street Main 123,
  • французский - 123 Street Main,
  • немецкий - Mainstreet 123.

Сильной стороной продуктов G1 является то, что они ориентированы на нужды директ-маркетинга: практически все решения содержат ту или иную часть автоматизации рабочего процесса рассылок и контроля ответов, возвратов и т.д.

QualityStage вошел в семейство продуктов IBM WebSphere после того, как IBM купила Ascential, и поэтому адресован прежде всего тем компаниям, которые уже используют решения IBM. С помощью простого графического интерфейса и функций, адаптирующихся к специфическим для бизнеса правилам, QualityStage хорошо справляется с международными данными — ФИО, адресами, телефонами и проч. Также этот продукт может находить ряд связей между сведениями как в пакетном режиме, так и в режиме реального времени. Система обрабатывает слабоструктурированные текстовые данные, такие как контактные, а также содержит множество правил для работы с числовыми данными и справочниками. Кроме того, QualityStage поддерживает трассировку между результирующими и исходными данными, чтобы всегда можно было посмотреть, откуда что взялось, и, если потребуется, вернуться к исходным данным.

Несмотря на то что заявлена обработка не только американских, но и международных данных, с русскими система справляется плохо. У QualityStage есть развитые средства пользовательских настроек, с помощью которых этот мощный инструмент можно сделать пригодным для русскоязычной информации, однако нужно учитывать, что это займет определенное время.

Впрочем, партнеры IBM (например, Humanfactorlabs) могут предоставить свою помощь в адаптации QualityStage к России, что делает его серьезным игроком на отечественном рынке систем обеспечения качества данных.

Альтернативные решения

Качество информации уже в течение многих лет является важным условием для деятельности многих организаций, поэтому международный рынок решений в этой области уже сформировался. Мы рассмотрели лишь несколько наиболее популярных решений. Про другие можно почитать на сервере TDAN — там приведен в наиболее удобной форме перечень компаний, занимающихся обработкой данных: http://www.tdan.com/companies.htm.

С небольшим опозданием (на 20—40 лет) появились решения, адаптированные к России и русскоязычным данным. Это во многом обусловлено тем, что рыночные отношения в России начали складываться только в 90-х годах прошлого века, а при существовавших тогда формах ведения бизнеса и высоких нормах прибыли не возникало потребности изучать клиентов и создавать эффективные формы взаимодействия с ними. Акцент на CRM и персонифицированный подход возникли уже в начале этого века.

Также стоит отметить, что наряду с внедрением продуктов есть еще два способа привести данные в порядок.

Самостоятельная разработка

Обычно это второе, что приходит в голову руководителям подразделений компаний, столкнувшихся с проблемой качества данных, после того как они не смогли просто отмахнуться от этой проблемы.

Возможно, иногда собственная разработка вполне оправданна, однако следует помнить, что производители продуктов по очистке и консолидации данных в течение многих лет отлаживали алгоритмы и собирали огромные справочники. Не стоит уповать на то, что у ИТ-департамента получится быстрее и дешевле, поскольку «серебряной пули» в этой задаче нет. Единственный надежный путь обеспечения качества данных — длительное и кропотливое рассмотрение множества частных случаев, постоянная адаптация и совершенствование алгоритмов, пополнение баз знаний.

Сторонние услуги

Услуги по обработке данных хороши тогда, когда это требуется делать изредка и объемы информации не настолько велики, чтобы окупить внедрение продукта. Однако стоит обратить внимание на защиту сведений от утечки. Хотя большинство агентств и декларирует безопасность данных, реальная их сохранность все же остается под вопросом, особенно если обработкой данных занимается агентство, специализирующееся на директ-маркетинге. Поэтому если услуга покажется вам более подходящим выбором, чем продукт, лучше отдать свою информацию в руки тех, для кого основной бизнес — качество данных.


Подробнее о проблеме «мусорных» данных читайте в статье «Микки Маус и Фываяч» в «Мире ПК», №5/06, с. 56.


«ФАКТОР»

Оценка: *****

Обработка русскоязычных данных:
есть.

Внедрения в РФ: есть.

Достоинства: относительно недорогое решение, изначально ориентированное на русскоязычные данные и российскую специфику.

Недостатки: нет баз данных для разбора международных адресов.

Производитель: Humanfactorlabs, www.hflabs.ru

QualityStage

Оценка: ****

Обработка русскоязычных данных: возможна с помощью решений партнеров.

Внедрения в РФ: нет данных.

Достоинства: мощный пакет, хорошая интеграция с другими продуктами IBM.

Недостатки: поддержка русского языка с помощью стороннего продукта.

Производитель: IBM (ранее - Ascential), www.ibm.com

i/Lytics Data Quality

Оценка: ***

Обработка русскоязычных данных:
нет.

Внедрения в РФ: нет.

Достоинства: сильный анализ зависимостей, развитые возможности настройки.

Недостатки: некоторые опции намертво завязаны на специфику США.

Производитель: Innovative Systems, www.innovativesystems.com

CODE-1 Plus International

Оценка: **

Обработка русскоязычных данных:
нет.

Внедрения в РФ: нет.

Достоинства: бесшовная интеграция с наиболее популярными CRM-системами: MS Dynamics CRM, Siebel, Salesforces.com, SAP. Форматирование адресов с учетом региона и языка.

Недостатки: скорее средство проверки, нежели очистки.

Производитель: Group 1 Software, www.g1.com

Information Quality Suite

Оценка: ***

Обработка русскоязычных данных:
нет.

Внедрения в РФ: нет.

Достоинства: один из самых мощных инструментов, имеющихся на рынке.

Недостатки: мощность в основном проявляется при обработке англоязычных и специфичных для США данных.

Производитель: firstLOGIC, www.firstlogic.com

849