На протяжении многих лет организации, вдохновленные технологиями наподобие Apache Hadoop, искали пути построения озер данных – платформ управления данными в масштабах предприятия, которые позволили бы хранить корпоративную информацию в исходном формате. Озера данных помогали избежать разобщенности, формируя для всей организации единое хранилище данных, используемое в самых разных целях – начиная от поиска и выборки необходимой информации и заканчивая бизнес-анализом. Озера данных служили вместилищем сведений самого разного толка и средством на все случаи жизни.

Но, как рассказал технический директор компании Pyramid Analytics по бизнес-анализу Ави Перес, у многих его клиентов озера данных очень быстро превращались в болота – масштабную свалку, совершенно непригодную для конечных пользователей.

По словам Переса, базы данных обходятся предприятиям слишком дорого. Существующие источники и генераторы данных порождают огромные объемы информации, которую нужно где-то хранить. Озеро же данных дает фундаментальный ответ, помогающий справиться с решением этой задачи. Озера данных и все инициативы Больших Данных имеют, по сути, одну цель, формируя соответствующий рынок.

Но если некоторые наиболее успешные компании выстраивают на основе озер данных свой бизнес, то другие собирают информацию, не имея четкого представления о том, какую выгоду из нее можно извлечь.

«Они просто накапливают мусор, который в конечном итоге будет выброшен, – пояснил Перес. – Бюджеты, выделяемые на дорогостоящее хранение огромных объемов данных, не приносящих никакой пользы, начинают сокращаться».

Нельзя сказать, что идея, положенная в основу озер данных, плоха. Перес убежден в том, что рано или поздно все компании будут испытывать потребность в таких хранилищах. Но проектирование озер данных, к которым реально смогут обращаться конечные пользователи, требует серьезного продумывания.

Чтобы не утонуть в своем собственном озере данных, Перес рекомендует придерживаться трех принципов.

1. Собирайте поменьше данных, по крайней мере на начальном этапе

Одна из главных ошибок организаций – это сбор слишком большого количества данных просто в силу наличия такой возможности.

Взгляните на свой смартфон. Почти наверняка в нем хранятся сотни самых разных фотографий. «В конце концов в телефоне накопится несметное число снимков, причем 99% из них представляют собой мусор, с которым можно расстаться без всякого сожаления, – заметил Перес. – А объясняется все тем, что делать фотографии при помощи телефона очень легко, и обходится это практически бесплатно. Вы, наверное, утешаете себя тем, что в один прекрасный день соберетесь с духом и все почистите, но день этот почему-то никак не наступает». И когда вам захочется показать кому-нибудь какую-то конкретную фотографию, искать ее придется среди большого количества мусора.

То же самое происходит и с озерами данных. Хранение данных в Hadoop обходится так дешево, что многие зачастую считают его бесплатным. Однако накапливающиеся объемы информации затрудняют доступ к ней и извлечение действительно полезных сведений.

Для того чтобы избежать этого, достаточно просто «перекрыть кран». Исходите из того, что дешевизна сбора данных не обязательно означает дешевизну их использования. На самом деле затраты могут оказаться достаточно велики. Прекратите собирать информацию отовсюду и постоянно. Сосредоточьтесь на наборе данных, в отношении которого у вас имеется конкретный план.

2. Внедряйте машинное обучение

Но даже при наличии набора данных с конкретной ориентацией, если его объем достаточно велик, работа с ним требует автоматизации.

Вам понадобится автоматизированная система анализа. Искусственный интеллект, машинное обучение,...

Это не вся статья. Полная версия доступна только подписчикам журнала. Пожалуйста, авторизуйтесь либо оформите подписку.

Поделитесь материалом с коллегами и друзьями

Купить номер с этой статьей в PDF