«Главная проблема Больших Данных — в головах», — уверен Шон Оуэн, директор по Data Science компании Cloudera. Его выступление в рамках форума Big Data 2014, организованного издательством «Открытые системы», вызвало значительный интерес.

По мнению Оуэна, большинство технических проблем, связанных со сбором больших объемов данных из различных источников и их анализом, во многом уже решены. Однако это то, что он называет «исследовательской аналитикой». Гораздо сложнее научиться применять получаемые знания на практике. Необходимо интегрировать результаты работы аналитиков в операционную деятельность компании, и тут возникает проблема нехватки специалистов со знанием предметной области.

Мы попросили Оуэна поделиться с читателями журнала «Директор информационной службы» (CIO.ru) мнением о ключевых факторах успеха проектов, связанных с Большими Данными.

 

Шон Оуэн, директор по Data Science компании Cloudera
Шон Оуэн, директор по Data Science компании Cloudera

Мнения экспертов расходятся: одни говорят о «больших» данных, а другие — о «правильных» данных, имея в виду, что собирать следует далеко не всю информацию. Не противоречит ли это самой концепции Больших Данных, подразумевающей, что ценность может таиться в самых неожиданных местах?

Хранение данных перестает быть дорогим, поэтому я являюсь сторонником первого подхода: имеет смысл пытаться собирать все доступные «сырые» данные. Некоторые из них могут на первый взгляд казаться бесполезными, но проявить свою ценность позже, в совокупности с другими. Если это сделать легко — почему нет?

Многие клиенты запускают проекты, не зная точно, какие данные им потребуются. В этом случае лучше собирать все подряд, иначе можно потерять что-то ценное. В том, что источники данных изначально ограничиваются, существуют определенные риски. В крайнем случае, если будет доказано, что какая-то часть данных не нужна, их можно удалить.

Каковы факторы успеха в проектах Больших Данных?

Я вижу два ключевых фактора. Первый — четкое понимание целей проекта. Вы не представляете, как много клиентов приходят к нам со словами «Я хочу Hadoop», «Мне надо хранить данные» без всякого объяснения целей. Они сами не знают, зачем им это нужно. Может, они полностью осознают это позже, однако хотя бы одна цель должна быть с самого начала проекта.

Во-вторых, многое решают навыки, компетенции сотрудников. Могу показаться пристрастным, так как одной из продаваемых нами услуг является обучение, но параллельно с реализацией проекта важно обучать специалистов. Это дает шанс — даже не того, что люди будут использовать внедренное решение правильно, а что они вообще будут его использовать.

Использование Больших Данных компаниями малого бизнеса представляет собой отдельную проблему из-за ограниченности инвестиций в технологии и персонал. Могут ли некрупные компании позволить себе эти технологии? Как добиться эффективности таких инвестиций?

Хорошая новость заключается в том, что собирать и хранить информацию, и даже обрабатывать ее, уже не так дорого и сложно. Проблема будет заключаться вовсе не в хранении данных, а именно в их использовании, в способности извлекать из них пользу. Компаниям надо инвестировать не только в инфраструктуру хранения, но и в науку о данных в рамках своей компании — в компетенции своих специалистов, а также в создание и освоение средств анализа. Это позволит понимать, насколько тот или иной вид данных ценен, какую пользу из него можно извлекать.

Существуют бесплатные программные решения и недорогие аппаратные. Наконец, их можно арендовать в облаке. Так что технологии составляют меньшую часть проблемы.

Гораздо труднее накопить необходимую экспертизу и опыт, обеспечить сбор необходимых данных. Сейчас многие компании (например, некрупные ретейлеры, особенно из сферы электронной торговли) прибегают к аутсорсингу. Они могут не создавать собственный продукт, рекомендующий товары покупателям, а использовать существующие решения. Все чаще и чаще мы видим именно такой подход. Большие Данные нужны компаниям независимо от размера бизнеса. Возможно, услуги партнеров в данном случае будут лучшим вариантом.