Рожденный в Yahoo, Hadoop сегодня самый популярный из инструментов обработки Больших Данных
Источник: Yahoo

Сравнивать коммерческие системы обработки Больших Данных на основе Hadoop теперь станет несколько проще благодаря появлению нового теста от Transaction Processing Performance Council.

Тест получил название TPCx-HS, он позволяет оценивать быстродействие систем на базе Hadoop.

«Наши заказчики активно требовали стандарта, позволяющего объективно измерять быстродействие и соотношение цена-производительность для систем обработки Больших Данных», — отметил Рагунат Намбиар, председатель комитета TPCx-HS и заслуженный инженер Cisco.

Заранее интегрированные дистрибутивы Hadoop предлагают IBM, HP и другие компании. Обычно они приводят показатели производительности для своих систем, но каждый из поставщиков применяет собственную систему тестирования, поэтому заказчикам трудно сравнивать дистрибутивы.

В TPC надеются, что поставщики Hadoop будут пользоваться новым тестом для оценки своих систем, что поможет потенциальным покупателям сравнивать соотношение цена-производительность для различных решений.

«TPCx-HS выравнивает игровое поле, — убежден Намбиар. — Результат, который указывает для своего решения компания X, можно будет напрямую сопоставлять с результатом, который приводит компания Y».

Новый тестовый комплект можно загрузить на сайте TPC. В него входят спецификации и руководство пользователя, а также скрипты для выполнения кода теста и Java-приложение, имитирующее рабочую нагрузку.

Сам тест определяет, насколько быстро система на базе Apache Hadoop перестраивает данные с помощью широко используемого алгоритма сортировки. Производители могут оптимизировать свои системы программным способом либо указывать результаты тестирования на максимально быстром оборудовании.

Для тестирования можно выбрать один из искусственно сгенерированных срезов данных размером от 1 до 10 тыс. Тбайт.

По результатам тестирования выдается число, указывающее общее быстродействие, и показатель соотношения цена-производительность. Предусмотрен также необязательный тест, оценивающий энергоэффективность системы.

Согласно правилам TPC, тест необходимо выполнить дважды, указав в качестве результата меньший из полученных показателей. Другие стороны могут оспорить опубликованные результаты в течение 60 дней.

Как и в случае с остальными своими тестами, в TPC требуют, чтобы официальное тестирование проводилось третьей стороной. Это может быть независимый аудит или партнерская проверка, которая, вероятно, обойдется дешевле.

TPC — основанная в 1988 году некоммерческая корпорация, предоставляющая независимые от производителей тесты для проверки быстродействия систем обработки транзакций и управления базами данных.

Изначально TPC создали для тестирования транзакционных СУБД, но в последние годы организация расширила сферу деятельности.

Участниками TPC являются Dell, Cisco, IBM, Hewlett-Packard, Oracle, Unisys, Intel и Microsoft, а также поставщики дистрибутивов Hadoop — Cloudera, Pivotal и Red Hat.