Как заявил Сергей Карелов, председатель совета «Лиги независимых экспертов», именно так сейчас обстоит дело с Большими Данными и будет обстоять еще пару лет. И в течение этого времени 60% проектов, связанных с Большими Данными, будут заканчиваться на стадии «пилотов». Эти свои соображения он высказал на форуме Big Data 2015, организованном издательством «Открытые системы».

Для того чтобы попасть в оставшиеся 40%, полагает Карелов, надо отдавать себе отчет в том, что вокруг Больших Данных за время Больших Надежд создано немало мифов, которые он разбил на три группы — мифы «о проектах», «о данных» и «о людях».

«Проектная» группа самая многочисленная. Сюда входят мифы о том, что все вокруг уже используют Большие Данные, и поэтому надо торопиться с внедрением соответствующих систем (на самом деле даже на Западе реально работают с такими системами лишь 13% компаний); что Большие Данные представляют некую ценность «по умолчанию» (на самом деле — только если аналитики найдут в них какую-то полезную информацию); что «продвинутая аналитика» есть усовершенствованная версия «обычной» (на самом деле последняя — чисто описательная, а Advanced Analytics – предсказательная, и для нее нужны другие инструменты и другой аналитический опыт); что если собрать огромный объем данных из множества источников, то они станут «непредвзятыми» («предвзятость» возникает уже на этапе отбора источников и даже целеполагания). И наконец, что Большие Данные позволят отказаться от традиционных подходов: как сформулировал Карелов, «Hadoop заменит Data Warehouse». Это, по его словам, тоже неправильное представление о путях прогресса, и только 5% компаний планируют заменить хранилища данных на Hadoop.

Из мифов «про данные» наиболее интересно звучит несогласие с популярным ныне тезисом о том, что 80% всех данных — неструктурированные. Это не так, полагает Карелов, все данные структурированы, просто структура может быть неочевидной. И первым делом надо попытаться осознать эту структуру.

Другой миф состоит в том, что «чем больше данных, тем точнее предсказания на их основе». Он логически вытекает из «проектного» мифа про непредвзятость Больших Данных. И Карелов советует рассмотреть вопрос, не лучше ли заняться изучением классических «Малых Данных», если Большие все равно не обеспечат нужной точности предсказаний.

Что до кадрового вопроса, то главный из мифов — о том, что с развитием инструментария по операциям с Большими Данными исчезнет дефицит специалистов по работе с ними. Уже сейчас, по оценке Карелова, заполнена лишь треть вакансий категории Data Scientist, а в 2016-2017 годах, несмотря на наблюдающееся падение энтузиазма (а может, и отчасти благодаря ему), положение с кадрами станет еще хуже. Это означает, что нужных сотрудников нельзя будет «купить» на стороне (возможность такой покупки — это второй «кадровый» миф), их придется искать и выращивать в своей компании или хотя бы в своей предметной области, особое внимание обращая на людей, которые работают с данными в вашей собственной организации: может быть, у них появилось инстинктивное, «на кончиках пальцев понимание того, что именно следует делать с данными.

Выводы, вытекающие из мифов и их разоблачений, впрочем, применимы к любой ситуации: тщательно обдумайте проект (что делать, как делать и делать ли вообще или остаться при традиционных методах обработки, если ваши данные не являются «Большими») и ни в коем случае не начинайте его, не решив кадровую проблему.

Поделитесь материалом с коллегами и друзьями