Выступая на конференции Strata + Hadoop World в Нью-Йорке, директор по аналитике компании Facebook Кен Рудин подчеркнул, что одна СУБД Hadoop не может выполнить всю работу по извлечению полезной информации из больших объемов неструктурированных данных. Не следует сбрасывать со счетов и традиционные реляционные СУБД, и другие технологии, подходящие для решения конкретных задач, считает он. Бизнес Facebook основан на анализе действий более чем миллиарда пользователей этой социальной сети для показа им целевой рекламы, но в компании не всегда применяют для этого Hadoop. В Hadoop можно, например, сделать общий анализ набора данных, а результаты его проанализировать уже в реляционной модели. Реляционные СУБД лучше, чем Hadoop, подходят для хранения преобразованных и агрегированных данных.

Сам по себе анализ большого объема данных не дает ценной информации, отметил Рудин. Важно ставить для анализа правильные задачи, а это пока остается искусством. Рудин рекомендует компаниям обучать азам аналитики всех сотрудников и включать статистиков в состав всех подразделений.

Поделитесь материалом с коллегами и друзьями

Купить номер с этой статьей в PDF