Инженеры Facebook опубликовали исходный код нового планировщика задач для Hadoop под названием Corona. Утверждается, что он лишен недостатков собственного планировщика задач Hadoop, реализованного в MapReduce. В тестах Corona задействовал больше 95% ресурсов кластера при выполнении задач, тогда как коэффициент загруженности систем с MapReduce достигает максимум 70%. Таким образом, Corona позволяет выполнять больший объем анализа в единицу времени без изменений аппаратного обеспечения.

До сих пор в Facebook пользовались MapReduce, но, как утверждается, при пиковой нагрузке уровень использования ресурсов кластеров резко падал ввиду перегруженности самого планировщика. К тому же, утверждают в Facebook, MapReduce задерживает запуск задач и не дает помещать в очередь того же кластера «не свои» задачи, а для обновления MapReduce нужно останавливать систему. Corona, заявляют в Facebook, проще масштабируется, быстрее запускает малые задачи и обновляется без прерывания работы системы. Сейчас в Facebook переносят все задачи MapReduce на кластеры с Corona.

В Facebook также тестировали Yarn, доработанный вариант MapReduce от Apache, но пришли к выводу, что Yarn может не справиться с задачами большого масштаба.

Поделитесь материалом с коллегами и друзьями

Купить номер с этой статьей в PDF