В надежде привлечь больше пользователей Apache Hadoop к своим сервисам анализа данных компания Google оснастила инструментарий BigQuery возможностью выполнения запросов сразу к нескольким таблицам данных.

Apache Hadoop Google BigQuery

СЕГОДНЯ С ПОМОЩЬЮ BIGQUERY можно перейти к бизнес-анализу, используя SQL-подобные запросы. При этом вы тратите гораздо меньше усилий и получаете значительно более высокую скорость, чем раньше

«Объединение таблиц терабайтной величины для анализа данных всегда представляло собой весьма сложную задачу и требовало наличия хороших навыков работы с MapReduce, мощного оборудования и большого запаса времени, — указал, анонсируя обновление, менеджер по продукту Google BigQuery Джу-Кей Квек. — Сегодня с помощью BigQuery можно перейти к бизнес-анализу, используя SQL-подобные запросы. При этом вы тратите гораздо меньше усилий и получаете значительно более высокую скорость, чем раньше».

В Google утверждают, что использование BigQuery вместо Hadoop поможет пользователям сэкономить деньги, поскольку в этом случае они оплачивают только обрабатываемые запросы, а не ресурсы, выделяемые для поддержки всех компонентов Hadoop.

Сервис BigQuery, запущенный в 2010 году, позиционировался Google как интерактивное средство анализа больших объемов данных. С помощью BigQuery пользователь передает набор данных Google, после чего получает возможность выполнять запросы к ним посредством соответствующего API.

Обновленная версия расширяет уже имеющийся функционал сервиса. Новый оператор JOIN позволяет объединять результаты запросов к нескольким источникам данных. Ранее инструкцию JOIN можно было применять лишь к наборам данных размером не более 8 Мбайт. У новой конструкции JOIN EACH никаких ограничений на размеры данных нет.

В результате эффективность использования сервиса Google в качестве замены Hadoop MapReduce повышается. Многие задания Hadoop проектируются для объединения больших объемов данных, полученных из двух или более источников. Но для этого разработчикам приходится описывать процессы MapReduce с нуля, а это требует больших затрат времени. Инструкция JOIN EACH позволяет быстро получить единый результирующий набор данных из двух больших таблиц с общим ключом.

В обновлении BigQuery появилось еще несколько новых функций. Улучшена поддержка отметок времени: теперь у клиентов есть возможность импорта временных отметок из других систем и включения отметок времени в запросы. Кроме того, пользователи могут добавлять колонки к уже существующим таблицам, определять закладки для наборов данных, к которым они имеют доступ, и получать автоматические электронные уведомления о предоставлении им доступа к новому набору данных.

Поделитесь материалом с коллегами и друзьями

Купить номер с этой статьей в PDF