Анализатор для Hadoop

24.02.2014 1466 прочтений

Разработчик дистрибутива Hadoop компания Cloudera, выпустила коммерческую редакцию системы Apache Spark, позволяющей анализировать данные в средах Hadoop в реальном времени. Как объясняют в Cloudera, Spark отлично справляется с задачами машинного обучения, когда нужно обрабатывать один и тот же срез данных во много проходов. До появления Spark для этого пользовались системой MapReduce, которая в подобных случаях работает медленно из-за большого объема дисковых операций чтения/записи. Spark же всю обработку выполняет в памяти, за счет чего, по оценкам создателей системы, функционирует на два порядка быстрее, чем Hadoop.