Шон Оуэн Cloudera
Шон Оуэн: «Основная проблема касается нехватки людей со знанием предметной области. Не так много экспертов понимают, как методики Больших Данных применимы в конкретных отраслях»

По мнению Шона Оуэна, директора по Data Science компании Cloudera, уже в 2014 году в реализуемых проектах Больших Данных произойдет переход «от лабораторий к заводам». Анализ данных станет осуществляться в промышленных масштабах, а операционная аналитика будет вплетена в деятельность организаций.

Cloudera предлагает коммерческий дистрибутив Hadoop, который в значительной степени наследует особенности оригинального открытого проекта Apache, но добавляет и ряд доработок. Эта стратегия оправдывается: число заказчиков платформы стабильно растет и на сегодня составляет около 200. Важно отметить весьма оптимистичное настроение ее инвесторов: компании удается динамично привлекать средства, направляя их на дальнейшее развитие дистрибутива, а общий объем финансирования, привлеченного Cloudera, согласно данным на конец марта, достиг 900 млн долл.

В рамках форума Big Data 2014, организованного издательством «Открытые системы», Оуэн рассказал о своих взглядах на проблемы Больших Данных и ключевых факторах успеха связанных с ними проектов.

- Есть несколько определений понятия «Большие Данные». Как этот термин понимаете вы, где граница между «большими» и «не очень большими» данными?

Есть определение, которое мне очень нравится: когда нам не важны значения отдельных элементов данных, а важны результаты их обработки, агрегации, сделанные выводы – вот тогда это Большие Данные. То есть дело не в объеме, а в используемом подходе.

Можно собирать каждую секунду сотни показателей с нескольких тысяч станков. Если нас интересуют тенденции и то, как деятельность механизмов вписывается в них, тогда это Большие Данные. Если же нас интересуют конкретные значения показателей, то можно собрать еще больший массив информации, который Большими Данными являться не будет.

Возможно, такой подход покажется нестандартным, но по-моему он лучше, чем попытка дать какое-либо численное определение.

- Мнения экспертов различны: одни говорят о «больших» данных, а другие – о «правильных» данных, имея в виду, что собирать следует далеко не всю информацию. Не противоречит ли это самой концепции Больших Данных, подразумевающей, что ценность может таиться в самых неожиданных местах?

Коль скоро хранение данных перестает быть дорогим, я являюсь сторонником первого подхода: имеет смысл пытаться собирать все доступные «сырые» данные. Некоторые из них могут на первый взгляд казаться бесполезными, но проявить свою ценность позже, в совокупности с другими. Если это сделать легко – почему нет?

Многие клиенты запускают проекты, не зная точно, какие данные им потребуются. В этом случае лучше собирать все подряд, иначе можно потерять что-то ценное. В том, что источники данных изначально ограничиваются, существуют определенные риски. В крайнем случае, если будет доказано, что какая-то часть данных не нужна, их можно удалить.

- В Gartner предсказывают информационный кризис, который ожидается к 2017 году, если компании не пересмотрят свою информационную стратегию. Они не cмогут справиться с объемом корпоративных данных и «утонут» в них. Какие действия, с вашей точки зрения, они должны предпринять?

Хорошая новость заключается в том, что собирать и хранить информацию, и даже обрабатывать ее – это уже не так дорого и сложно. Проблема будет заключаться вовсе не в хранении, а именно в ее использовании, в способности извлекать из нее пользу. Компаниям надо инвестировать не только в инфраструктуру хранения, но и в создание науки о данных в рамках своей компании – в компетенции своих специалистов, развивая экспертов по данным, а также в создание и освоение средств анализа. Это позволит понимать, насколько тот или иной вид данных ценен, какую пользу из него можно извлекать.

- Бытует мнение, что дефицит экспертов по данным (Data Scientist) будет ограничивать продвижение Больших Данных. В то же время доступны курсы по этой дисциплине, которые занимают 20-25 дней. Является ли кадровый голод такой уж большой проблемой?

Профессия специалиста по работе с данными требует знания математической статистики, навыков моделирования, знаний в системных языках программирования – например, Java, а не только R или Python. И если вы имеете абстрактные представления о том, как создавать модели, это хорошо, но не достаточно. На освоение этого аспекта потребуется гораздо больше времени.

Однако самое сложное – научиться применять знания на практике. Специалисты должны иметь знания, которые помогут интегрировать результаты их работы в операционную деятельность компании.

- Значит ли это, что с технической точки зрения проблем уже не осталось?

Если мы посмотрим на исследовательскую аналитику, то проблемы во многом действительно решены. Аппаратное обеспечение, математические методы, статистика – все это уже есть.

Больше нерешенных проблем в операционной стороне вопроса. Основная из них касается нехватки людей со знанием предметной области. Например, не так много экспертов понимают, как методики Больших Данных применимы к финансам, а ведь в этой области они будут весьма востребованными. Не лучше дела обстоят и в других отраслях. Часто компаниям приходится самостоятельно взращивать таких экспертов. Они берут человека с опытом в интересующей области и дают ему необходимые технические навыки.

- Согласны ли вы с тем, что кадры для позиции «специалист по данным» следует искать не в ИТ, а обращаться к бизнес-экспертам?

Как правило, в компании существует некоторое количество экспертов, разбирающихся в предметной области, и чуть меньшее число ИТ-специалистов. Если выбирать из них, то я все-таки предпочитаю экспертов с опытом в ИТ. Однако в ходе подготовки к ним следует приставлять наставника из бизнеса.

- Использование Больших Данных компаниями малого бизнеса представляет собой отдельную проблему из-за ограниченности возможностей инвестиций в технологии и персонал...

Существуют бесплатные программные решения и недорогие аппаратные. Наконец, их можно арендовать в облаке. Так что технологии составляют меньшую часть проблемы. Как я уже говорил, гораздо труднее накопить необходимую экспертизу и опыт, обеспечить сбор необходимых данных. В результате многие компании (например, некрупные ретейлеры, особенно из сферы электронной торговли) прибегают к аутсорсингу. Они могут не создавать собственный продукт, рекомендующий товары покупателям, а использовать имеющиеся решения. Все чаще и чаще мы видим именно такой подход. Большие Данные нужны компаниям независимо от размера бизнеса, им приходится что-то делать. Возможно, услуги партнеров в данном случае являются лучшим решением проблемы.

- Каковы факторы успеха в проектах Больших Данных?

Я вижу два ключевых фактора. Первый – четкое понимание целей проекта. Вы не представляете, как много клиентов приходит к нам со словами «я хочу Hadoop», «мне надо хранить данные» без всякого объяснения целей. Они сами не знают, зачем им это нужно. Может, они полностью осознают это позже, однако хотя бы одна цель должна быть с самого начала проекта.

Во-вторых, многое решают навыки, компетенции сотрудников. Могу показаться необъективным, так как обучение является одним из видов продаваемых нами услуг, но параллельно с реализацией проекта важно проводить обучение специалистов. Это дает шанс – даже не того, что люди будут использовать внедренное решение правильно, а что они вообще будут его использовать.

- Говоря о рисках, которые в себе несут Большие Данные, часто упоминают возможность вторжения в личную жизнь человека. Собирая информацию о клиенте, можно узнать абсолютно все. Где граница между полезными действиями в интересах клиента и нарушением частной жизни?

Действительно, наиболее радикальные изменения ждут компании, работающие на потребительском рынке. Подавляющее большинство данных генерируется самими клиентами.

Да, использование личных данных становится распространенной страшилкой. Это многим не нравится, хотя в большинстве случаев реального вреда не приносит.

Человеку со стороны очень трудно решить, что для клиента хорошо, а какие действия недопустимы. Эти вопросы надо обсуждать с клиентами, каждый должен сам решать, хочет ли он, чтобы его данные использовались в целях маркетинга. При этом он должен понимать, какая информация используется, в каких целях и какую выгоду он в результате получит.