Компания Hortonworks, создатель дистрибутива Hadoop, и исследовательское подразделение компании Hewlett Packard Enterprise осуществляют совместный проект, направленный на кардинальное повышение быстродействия фреймворка распределенной обработки данных Apache Spark. Проект уже принес первые плоды: усовершенствован механизм перестановок, ускорены сортировки и вычисления в оперативной памяти, оптимизировано использование доступной памяти и улучшена масштабируемость. Как сообщили в HP Labs, исследователи переписали на C++ механизм перестановок, изначально реализованный на Java, переработали ряд алгоритмов с расчетом на более эффективное использование памяти и обеспечили возможность использования большей емкости памяти. По словам разработчиков, заказчики, попробовавшие результаты работы HP Labs, отметили повышение скорости выполнения некоторых задач в 5–15 раз. Все доработки от HP Labs будут выпущены в открытых кодах. В Hortonworks, в свою очередь, отметили, что продолжат работать над улучшением быстродействия и функциональности Spark, интеграцией с платформой управления ресурсами Apache YARN, а также реализацией возможности использования с новыми приложениями типа Apache Zeppelin (проект в инкубаторе Apache, «веб-блокнот» для интерактивного анализа данных).

Купить номер с этой статьей в PDF