Разработчик дистрибутива Hadoop компания Cloudera, выпустила коммерческую редакцию системы Apache Spark, позволяющей анализировать данные в средах Hadoop в реальном времени. Как объясняют в Cloudera, Spark отлично справляется с задачами машинного обучения, когда нужно обрабатывать один и тот же срез данных во много проходов. До появления Spark для этого пользовались системой MapReduce, которая в подобных случаях работает медленно из-за большого объема дисковых операций чтения/записи. Spark же всю обработку выполняет в памяти, за счет чего, по оценкам создателей системы, функционирует на два порядка быстрее, чем Hadoop.

Поделитесь материалом с коллегами и друзьями

Купить номер с этой статьей в PDF