В компании Google реализовали возможность опроса множества таблиц данных в сервисе BigQuery, рассчитывая переманить на него часть пользователей Apache Hadoop. Как полагают в Google, объединение таблиц терабайтных размеров — трудная задача, требующая навыков разработки на MapReduce, мощного оборудования и массы времени. А BigQuery, утверждают в компании, позволяет с помощью SQL-подобных запросов «сразу получать ценные для бизнеса сведения». В Google также уверяют, что при использовании BigQuery вместо Hadoop будет расходоваться меньше денег, поскольку оплачиваются только обработанные запросы, а не машинное время систем, исполняющих Hadoop.

Главное новшество сервиса — операция JOIN EACH, объединяющая результаты запросов к нескольким срезам данных без ограничений на их размер. Кроме того, предложен новый способ группировки результатов запроса с помощью команды GROUP BY EACH. Она увеличивает число элементов, которые можно объединить, — правда, по цене потенциального снижения скорости обработки. Среди других новшеств — возможность импорта отметок времени из других систем и опроса таких отметок, добавление столбцов к существующим таблицам, создание закладок на доступные срезы данных и получение уведомлений при появлении доступа к новому срезу.

Поделитесь материалом с коллегами и друзьями

Купить номер с этой статьей в PDF