Евгений Олейник HP Autonomy
Евгений Олейник: «Структурировать данные нужно в тех случаях, когда пользователь хочет ознакомиться с документами или наборами данных»

Многие представители российских компаний даже не представляют, какую пользу могли бы получить их организации от Больших Данных. Более того, подавляющее их большинство пока не видит Больших Данных у себя внутри и не рассматривает возможность анализировать такие данные из внешних источников. О возможностях технологий Больших Данных и потенциале их применения в бизнесе в ходе конференции Big Data 2013 рассказал Евгений Олейник, руководитель департамента HP Autonomy в Центральной и Восточной Европе.

- Работа с какой категорией Больших Данных преобладает в данный момент — с большими массивами данных, с потоками данных, которые надо обрабатывать быстро, или с данными, которые характеризуются большим разнообразием форматов и источников?

На данном этапе рынок требует применения комбинированного подхода: нужно уметь консолидировать данные из разных источников и осуществлять анализ сразу по всем источникам, которые отслеживаются, причем очень оперативно — зачастую в реальном времени. Приведу пример — обеспечение общественной безопасности. Здесь применим комбинированный подход – анализ данных соцсетей и систем видеонаблюдения по городу. На основе полученных данных устанавливаем место проведения акций и примерное количество людей. Не секрет, что среди спортивных болельщиков встречаются и хулиганы. Зачастую они договариваются о своих акциях, используя возможности Интернета. Если отслеживать и анализировать поток данных из соцсетей в реальном времени, то можно предотвратить запланированные сходки. Такой метод можно также использовать для отслеживания и поиска преступников — здесь комбинированный подход заключается в консолидации информации из розыскной базы данных, фотографий, записей камер видеонаблюдения и общения в соцсетях.

Другой пример — компания выводит на потребительский рынок новый продукт. Ей важно проанализировать первые отзывы потенциальных клиентов и при необходимости как можно быстрее внести изменения либо в сам продукт, либо в маркетинговую кампанию по его выводу. Для этого нужно оперативно, фактически в режиме реального времени, отслеживать и анализировать данные, начиная с письменных и электронных обращений (например, заявлений в банк), отзывов в соцсетях и заканчивая записями разговоров в контакт-центрах (например, когда звонят недовольные качеством продукта клиенты).

- Какие подразделения коммерческих предприятий и организаций могли бы получить пользу от сбора, хранения и анализа неструктурированных Больших Данных?

Это могут быть службы безопасности. Их методы получения пользы — анализ записей с камер видеонаблюдения на предмет правонарушений, анализ общения работников компании в соцсетях на предмет утечки конфиденциальной информации и контроль за соблюдением политик безопасности компании. Это юридические и аудиторские подразделения. Их метод — анализ всей корпоративной переписки и документации для предоставления в суд, а также для проведения внутрикорпоративных расследований и аудита. Для отделов маркетинга методы получения пользы — анализ мнений в соцсетях, многоканальная аналитика (сразу по всем каналам взаимодействия компании с клиентами), сбор и анализ информации из медиаисточников о ценности бренда. Для аналитических отделов — сбор статистики из хранилищ документов, соцсетей и новостных источников.

Приведу пример для аналитического отдела страховой компании. На текущий момент для оценки стоимости страховых пакетов используется статистика из структурированных источников: количество страховых случаев, стоимость и тип страхуемого имущества и т. д. На мой взгляд, более эффективно использовать комбинированный подход для оценки стоимости страховки (структурированные и неструктурированные источники). Можно добавить в «профиль» клиентов параметры, собранные из соцсетей и новостных источников. Например, склонен ли тот или иной клиент к риску, как часто попадает в различные происшествия, какова вероятность природных и техногенных катастроф в местах, где он проживает или часто бывает, и т. д. Основываясь на совокупности всех собранных параметров, можно предложить клиентам максимально персонифицированные страховые пакеты. Уверен, это конкурентное преимущество для страховой компании.

- Неструктурированных данных много, однако лишь очень малая их часть представляет реальную ценность для бизнеса. С помощью каких методов можно выделить ценные данные из больших массивов и неструктурированных потоков?

Вендоры используют различные методики. Наша платформа Intelligent Data Operating Layer позволяет анализировать огромные массивы неструктурированных и структурированных данных из внутренних и внешних источников, вычленять в каждом документе основные идеи, понятия, сущности и устанавливать связи между ними. В результате получаются семантические сети. Их преимущество в том, что они позволяют искать документы с учетом ассоциативных связей между объектами, которые содержатся в описаниях. Например, если описать в поисковике на основе IDOL понятие яблока, но не упоминать само слово «яблоко», можно найти все статьи о яблоках.

- Есть ли смысл бороться с разреженностью неструктурированных Больших Данных, пытаясь повысить их содержательность, информативность? Может ли здесь помочь преобразование их в структурированные данные?

Существуют разные ответы на этот вопрос. Подход HP Autonomy следующий: во-первых, необходимо сохранить первичные данные как есть. Во-вторых, мы считаем, что переводить все неструктурированные Большие Данные в структурированные не нужно — это слишком масштабная задача. Наша основная идея — получить все необходимые данные, загрузить их в системы хранения, при необходимости сжать, затем проиндексировать и выявить все интересующие бизнес-заказчиков ассоциативные связи. После этого можно реализовать практически любой бизнес-сценарий.

- В каких случаях есть смысл преобразовывать Большие Данные из неструктурированных в структурированные, чтобы их дальнейшая обработка принесла существенную пользу бизнесу?

Структурировать данные нужно в тех случаях, когда пользователь хочет ознакомиться с документами или наборами данных. Например, проводя расследование утечек конфиденциальных данных, можно выделить подмножество документов из потока неструктурированных данных, которые имеют отношение к расследованию, после чего уже структурированные данные можно проанализировать более внимательно вручную, чтобы понять, содержится ли в этих данных утечка.

- Как будет маняться архитектура информационных систем предприятий по мере проникновения в них технологий Больших Данных?

Уже скоро системы будут строиться с учетом сбора неструктурированных данных и извлечения из них коммерческой пользы. Как следствие, традиционные базы данных со структурированной информацией отойдут на второй план.