Аналитики Gartner отмечают, что растущая шумиха вокруг «озер данных» (data lakes) — неупорядоченных хранилищ информации, поступающей из различных источников и содержащейся в исходном формате, — создает путаницу. Ряд поставщиков рекламируют «озера данных» как важнейший элемент инфраструктур обработки Больших Данных, но на сегодня нет ни универсального определения «озер данных», ни единого представления о том, какую пользу они приносят. В Gartner поясняют, что обычно «озеро» преподносится как возможность исключить затраты на трансформацию данных перед помещением в хранилище и предоставить доступ к ним для анализа всем в организации. Однако, учитывая, что информация в «озере» лишена консистентности и не сопровождается метаданными, ее анализ в реальности доступен лишь опытным экспертам, полагают в Gartner.

Кроме того, нет возможностей определить качество данных в таком неуправляемом хранилище и проследить происхождение выводов, сделанных с использованием данных из «озера» кем-то до вас. В результате, как отмечают в Gartner, без механизмов руководства «озера» угрожают превратиться в «болота». А c учетом того, что информация «сливается» в «озеро» без проверки содержания, возможны также риски, связанные с экспозицией данных, подлежащих защите согласно нормативным требованиям, — по сведениям аналитиков, средства безопасности в системах организации «озер данных» на сегодня находятся в зачаточном состоянии. Кроме того, возможны проблемы с быстродействием, полагают в Gartner: инструменты конечных пользователей попросту не способны обрабатывать данные с такой же скоростью, с какой это могут делать высокооптимизированные СУБД.

В конечном счете, полагают аналитики, в каждой организации должны выбрать для себя, что нужнее — доступность разнородных данных в «озере» для изучения экспертами по мере необходимости или анализ информации из заранее структурированного хранилища по стандартным алгоритмам.

Поделитесь материалом с коллегами и друзьями

Купить номер с этой статьей в PDF