В поисках сокровищ

Дмитрий Волков Вместе с тем облака и Большие Данные выявили неподготовленность современной индустрии ИТ к работе с невиданными прежде объемами информации, львиная доля которой хранится в реляционных СУБД, что, по сути, оставляет, например, за бортом анализа неструктурированные данные. За пределами хорошо поддающихся изучению структурированных хранилищ оказываются целые «залежи» данных из малоинтересных, на первый взгляд, или вовсе необработанных сведений, без вскрытия которых сокровищ не найти.

Господствовавшая до сих пор идея сведения всего разнообразия данных только к таблицам морально устарела, однако это лишь часть проблемы — Большие Данные, как пишет Леонид Черняк в этом номере журнала, посвященном инструментам обработки больших массивов информации в реальном времени, придали цивилизации новое качество на культурном, научном и технологическом уровнях. Так, например, родилось понятие электронной науки, основная задача которой — поставить вопрос «что искать», а не «как», позволив данным самим говорить за себя: скажем, по накоплению признаков или по отклонениям буквально «на лету» обнаружить новую тенденцию, неисправность узла или зарождение очага социальной напряженности. Сегодня уже недостаточно довольствоваться выборками из массива данных, на чем построены многие разделы традиционной науки, а требуется анализировать все в комплексе — нюансы, как известно, часто скрываются в деталях, которые при изучении только выборок можно упустить.

Технологический уровень предполагает переориентацию ИТ от поддержки счетных задач на обеспечение процедур сбора, хранения и обработки больших наборов данных с одновременным выполнением аналитических преобразований. Однако существующие инфраструктуры и инструментальные средства, которые сегодня пытаются применять для обработки Больших Данных, оказались перед необходимостью удовлетворения противоречивым требованиям: узкой специализации при решении конкретных задач, тесной интеграции в системном стеке, максимальной энергоэффективности и масштабируемости, высокой производительности и надежности, безопасности и доступности.

Как отмечают авторы этого номера, у индустрии пока нет целостной программы создания инструментария, адекватного проблеме Больших Данных, хотя отдельные производители и предлагают свои концепции, осознав, что MapReduce/Hadoop — это далеко не единственная технология. Имеющиеся сегодня продукты от различных стартапов носят фрагментарный характер — на рынке все еще нет полноценных решений для обработки огромных массивов неструктурированных данных различной природы, поступающих в режиме реального времени из многочисленных источников. В перечень ключевых технологий Больших Данных, по мнению аналитиков, входят: поколоночные СУБД и СУБД класса NoSQL; MapReduce/Hadoop; Hive — средства выполнения традиционных приложений бизнес-аналитики на кластерах Hadoop; PIG — средства, приближающие Hadoop к разработчикам и бизнес-пользователям; WibiData — веб-аналитика и Hadoop; PLATFORA — платформа автоматического формирования заданий к Hadoop; системы хранения; высокопроизводительные аналитические обучающиеся платформы типа SkyTree. Однако, по мнению Дмитрия Семынина, эти и другие технологии хотя уже и вышли из юношества, но еще не повзрослели, а стек решений для Больших Данных, что бы ни заявляли ведущие игроки рынка ИТ, представляет собой аморфное — правда, динамичное — образование. Современный стек технологий Больших Данных — это некий инкубатор, из которого впоследствии выйдут специализированные приложения, ориентированные на работу с большими базами данных, аналитику реального времени, обработку разнородной информации, обеспечение непротиворечивости используемых данных.

На новый ракурс Больших Данных указывает в своей статье Наталья Дубова, которая отмечает, что аналитика огромных массивов разнообразных сведений и телеметрии нужна сегодня не только финансистам, биоинформатикам и маркетологам, но и ИТ-специалистам. Существующие инструменты управления не позволяют оценить эффективность применения ИТ, предсказать динамику изменения производительности, а главное — современный уровень сложности ИТ-сред уже не оставляет места ручному управлению. Конечно, сотрудники ИТ-служб и ИТ-менеджеры и раньше решали аналитические задачи для оптимизации управления инфраструктурой и сервисами, однако теперь требуется новое поколение средств, позволяющих справиться с обработкой постоянно растущих объемов разнородных и изменчивых данных, поступающих из всех доменов инфраструктуры для построения точной картины ее состояния.

Процесс качественного изменения запускается только после достижения требуемого потенциала — вода закипает лишь при определенных условиях, и невозможно нагреть ее часть для получения капли пара. Нельзя обработать часть Больших Данных и ожидать, что откроются ворота к информационным сокровищам. Неспособность существующих ИТ-систем быстро обрабатывать большие объемы разнообразных данных из различных источников подтолкнула индустрию к тому, чтобы всерьез озаботиться созданием необходимого инструментария — аналитики предсказывают ежегодный 30-процентный рост рынка таких технологий, что в семь раз опережает развитие всего рынка ИКТ. Эпоха малых данных закончилась — будущее за Большими Данными и соответствующими им технологиями.

«Открытые Системы.СУБД»