Дмитрий Волков Аналитики посчитали, что соответствующие технологии потеряли свою новизну у продвинутой ИТ-публики и растворились во множестве обыденных процессов. Аналогичный казус произошел и с суперкомпьютерами — сам термин стал почти ругательным и заменяется на высокопроизводительные или высоконагруженные системы или комплексы. Следствием подмены понятий стало появление предложений собирать суперкомпьютеры в облаках или из роя носимых устройств, настроенных на решение одной задачи в распределенной среде. А между тем суперкомпьютеры — это не только мощные вычислители, но и коммуникации, быстродействующая память, высокопроизводительные и обучаемые программные параллельные среды, защищенные ОС и еще много чего, что позволяет без деградации производительности выполнять обработку больших массивов информации.

Возможно, Большие Данные и вышли из моды, сойдя с пика теоретических споров на плато практического применения, однако задачи, требующие реальных, а не модных «суперкомпьютеров» на базе смартфонов или серверов-лезвий, по-прежнему на вершине интереса. Объем генерируемых человечеством данных ежегодно растет почти на 60%, число файлов — на 88%, а еще три года назад в IDC прогнозировали, что к 2020 году число интернет-транзакций типа B2B и B2C, производимых за один день, составит 450 млрд. Вся эта глобальная цифровизация, по подсчетам аналитиков PwC, сопровождается ростом в 2,5 раза числа инцидентов в области информационной безопасности и в 2,8 раза — количества краж интеллектуальной собственности, а также увеличением на 47% финансовых потерь от случаев нарушения конфиденциальности, расходы на нейтрализацию которых во всем мире в этом году выросли на 35%. В этой связи актуальными становятся такие задачи, как, например, построение, хранение и аналитическая обработка графа связей из не менее чем 1012 вершин. Для ее решения потребуются не только технологии стека Hadoop, но и системы класса In-memory и весь суперкомпьютерный арсенал, включающий эффективные параллельные программы, экзабайтные хранилища и защищенные среды выполнения. Естественно, все это на фоне жестких требований к снижению энергопотребления и стоимости решения. О различных подходах к решению подобных задач можно узнать из статей «Защищенная ОС», «Машинное обучение в системах хранения Большого адронного коллайдера», «Перенос параллельных программ без потери эффективности» и «Экзабайтное хранилище научных данных» этого номера журнала, посвященного обсуждению различных аспектов инфраструктуры современных суперкомпьютеров.

Эксперты IDC пророчат, что в цифровую эру 90% всех данных будут неструктурированными, а значит, для анализа даже такой небольшой их части, как социальные сети (например Fасеbook, которая ежедневно пополняется сотней терабайт различного контента), не обойтись пока без средств из арсенала технологий Больших Данных: Python, Spark, Hive, Pig и др. (см. статью «Поиск, мониторинг и анализ в социальных сетях»). А чтобы на основе данных анализа сделать в реальном времени правильные выводы — не обойтись без суперкомпьютеров.

Как отмечается в статье «Трансформируем все: «большая семерка» ОС, версия 2016», среди модных технологий аналитики называют сегодня машинное обучение, цифровую безопасность, квантовый компьютинг, платформы Интернета вещей, однако IoT не имеет смысла без аналитики Больших Данных — прежде чем данные становятся большими, они должны стать релевантными. Большинство современных компаний считают аналитику ключевым оружием конкурентной борьбы, однако ее использование пока еще далеко от совершенства — удовлетворенность бизнеса проектами в области аналитики в 2015 году упала на 20% по сравнению с 2014 годом, но осознание необходимости иметь эффективные инструменты извлечения знаний из данных растет. Как следствие, к концу 2016 года можно ожидать существенного перераспределения средств из области накопления и обработки данных в сферу их исследования. Все более актуальными становятся инструменты анализа данных в реальном времени и встраивание аналитики непосредственно в бизнес-процессы.

Сегодня несложно средствами Hadoop собрать витрину данных и выгружать из нее требуемые фрагменты, но мало специалистов, способных задавать бизнесу правильные вопросы, — у нынешних студентов, как правило, могут быть познания в конкретных технологиях, но нет знаний. В этой связи уже не так важно, используются в компании коммерческие решения либо весь спектр открытых технологий из стека Hadoop YARN, позволяющих держать данные ближе к процессу их обработки: когда не знаешь, что искать в накопленных больших или не очень массивах данных, то и ответ будет малополезным. Вместе с тем, как отмечается в статье «Обучение технологиям Больших Данных», организация подготовки в университетах специалистов по технологиям Больших Данных сталкивается как с проблемами методологического характера, так и со сложностями доступа к наборам данных и соответствующим инструментам.

В ИТ всегда будет модной трансформация, и сейчас это трансформация архитектур, рабочих мест, потоков данных, средств защиты; но, невзирая на моду, новые решения неизменно будут возникать на пересечении технологий. Быстродействующие параллельные процессоры, высокопроизводительные межсоединения и системы хранения, машинное обучение и технологии Больших Данных порождают сейчас новое качество поисковых машин, систем распознавания образов и средств аналитики данных, кардинально меняющих способы ведения бизнеса и экономику в целом.

«Открытые Системы.СУБД»