Hadoop

Теоретические основы машинного обучения появились практически одновременно с первыми компьютерами, однако при его практическом применении всегда приходится учитывать специфику конкретных систем. Работа с Большими Данными средствами Hadoop требует инструментов адаптации алгоритмов машинного обучения к этой платформе, например с помощью механизмов из стека IBM BigInsights.

Пятерка лучших дистрибутивов Hadoop по версии Forrester

Аналитики прогнозируют, что со временем платформа получит применение абсолютно на всех крупных предприятиях.

Talend: открытый код — новая норма для систем обработки Больших Данных

Благодаря приверженности идеям Open Source, экосистема Hadoop и Apache Spark, важнейших на сегодня технологий в мире Больших Данных, развивается быстрее, чем если бы технология принадлежала только одному разработчику.

Пять вещей, которые необходимо знать о Hadoop и Apache Spark

Иногда в мире Больших Данных их считают конкурентами, но чаще преобладает точка зрения, согласно которой они дополняют друг друга.

Мода и ИТ

После того как аналитики в середине 2015 года исключили Big Data из раздела прорывных технологий, говорить о Больших Данных стало немодно.

В MapR создали систему анализа потоков данных и конвергентную платформу на базе Hadoop

Streams дает возможность создавать потоки путем «подписки» на источники данных. Подписчиками могут быть как люди, так и машины. Например, отдел ИТ может подписаться на поток данных из журналов операций, чтобы автоматизировать обнаружение аномалий, указывающих на проблемы.

Splice Machine объединит OLTP и OLAP

Версия реляционной СУБД Splice Machine 2.0 сочетает в себе масштабируемость Hadoop и присущую Spark скорость обработки данных в оперативной памяти.

Обучение технологиям Больших Данных

При организации подготовки в университетах специалистов по технологиям Больших Данных наряду c проблемами методологического характера возникают и сложности с доступом к наборам данных и соответствующим инструментам. Наиболее эффективным в этой ситуации оказывается развертывание виртуальной среды Hadoop/Spark.

Маленьких данных не бывает

Для компаний сегодня все данные – Большие, считают участники круглого стола, организованного в рамках конференции Huawei Network Conference.

Teradata выпускает новые средства анализа данных Интернета вещей

Пакеты Teradata Listener и Teradata Aster Analytics для Hadoop предназначены для анализа в реальном времени журналов серверов, лент социальных сетей, потоков данных с датчиков и телеметрического оборудования и прочих источников.

О вреде привязки вычислений к системам хранения

По мере расширения возможностей хранения и распространения наряду с традиционными реляционными СУБД технологий NoSQL и высокопроизводительных файловых систем важно уже не где хранятся данные, а что вы с ними делаете.

Создатель Hadoop — разработчикам: «Не повторяйте ошибку АНБ»

Спецслужбе не доверяют, обнаружив, что в ней собирают огромные массивы информации о людях, не афишируя это и не объясняя, для чего это делается.

«Темные» данные

До наступления эпохи Больших Данных было относительно просто найти информацию, релевантную запросу, однако ситуация изменилась, когда организации перестали довольствоваться только своими внутренними базами и стали смотреть на сторону в поисках источников сведений, способствующих повышению конкурентоспособности.

Поиск, мониторинг и анализ в социальных сетях

Социальные сети — это ежедневно растущие петабайтные объемы неструктурированных данных, сбор, хранение и обработка которых традиционными средствами затруднительны. Технологии стека Hadoop позволяют решать эти задачи, однако реализация проектов не всегда оказывается безболезненной.

Анализ данных социальных сетей

Социальные сети могут стать источником дополнительных данных о клиентах, однако для его использования требуются специализированные инструменты. Открытые технологии из стека Hadoop позволяют строить платформы, способные в режиме массовой обработки извлекать ценную информацию для обогащения профилей клиентов.

Анализатор данных в памяти SAP Vora работает с Hadoop

В компании добавляют, что HANA Vora будет полезен организациям, которым надо анализировать большие объемы данных в контексте бизнес-процессов, в том числе предприятиям, работающим в финансовой сфере и в отраслях услуг связи, здравоохранения и производства.

Hortonworks покупает разработчика инструментария управления потоками данных NiFi

Система была создана в Агентстве национальной безопасности США и выпущена в 2014 году под лицензией с открытым кодом. Сейчас разработка ее координируется фондом Apache.

Аналитика реального времени для ситуационного центра

Система управления кластером Hadoop YARN значительно повышает надежность и гибкость технологии MapReduce, позволяя в оперативной памяти проводить распределенную потоковую обработку данных, а значит, строить аналитические системы реального времени, используемые, например, в ситуационных центрах.

Анализ работы телекоммуникационной системы

Эффективность анализа данных о функционировании телекоммуникационного оборудования определяется возможностями системы сбора и обработки этих данных, объемы которых могут увеличиваться экспоненциально. Как выполнить глубокий анализ поведения сетевого оборудования в условиях лавинообразного роста показаний телеметрии?

Стартап предлагает «Большие Данные как сервис»

На платформе Cazena доступны озеро данных, витрина данных и «песочница» в виде сервиса — все они, как утверждают в компании, вводятся в действие «в три щелчка».

От кликов до миллионов: как повседневные операции влияют на маржу компании