Григорий Каневский: «Сегодня руководителям бизнеса требуются интерактивные аналитические средства работы с разнообразными и распределенными по всему миру данными, размещенными на разных платформах»

Недавний ажиотажный интерес к технологиям Больших Данных сменился сомнениями и разочарованиями, когда оказалось, что до 60% соответствующих проектов не достигает поставленных целей. Выяснилось, что не все данные одинаково полезны, а для ответа на вопросы типа «что было, что есть и что будет», возможно, и не потребуются огромные хранилища, в реальном времени аккумулирующие все поступающие из различных источников неструктурированные сведения. Григорий Каневский, архитектор решений Teradata Aster, представивший решения компании на недавнем форуме Big Data 2015, организованном издательством «Открытые системы», рассказал о своем видении аналитики Больших Данных.

— В названии вашего доклада упоминается аналитика с человеческим лицом, что под этим подразумевается?

Основная цель процесса анализа в Aster, включающего сбор, распределение, обработку данных и визуализацию результата, — создание ценности для бизнеса, что в конечном счете означает формирование такого представления информации, которое может быть использовано для принятия решений. Анализ эффективен, когда его проводят не узкие специалисты в области математики, ИТ, бизнеса или в конкретной прикладной области, роль аналитика требует баланса знаний, способности соединить их для постановки задачи и обнаружения закономерностей. Такой специалист, исследователь данных (data scientist) не может знать все, но должен уметь поставить вопрос и получить ценный для бизнеса результат даже при отсутствии информации о структуре или закономерностях анализируемых данных. Иначе говоря, он должен «чувствовать» данные, которые визуализируют средства аналитики.

— Какие средства для этого предлагает ваша компания?

Для поиска ценности в данных предназначена платформа Teradata Aster, реализующая стратегию компании по интеграции всей продуктовой линейки, включающей уже не только традиционные хранилища данных, построенные по принципу «сначала собрали данные, потом записали в одну базу, затем долго хранили и потом, может быть, средствами SQL получили результат». Сегодня речь идет об анализе в динамике, об обработке в реальном времени и о многообразии источников, тесная интеграция которых выполняется с помощью технологии QueryGrid, позволяющей применять один SQL-запрос ко множеству баз и хранилищ как от Teradata, так и от других производителей, а также к кластерам Hadoop. Вместо перемещения данных в QueryGrid сами запросы перемещаются в целевые хранилища и там выполняются.

Такие инструменты позволяют пользователям с любым уровнем подготовки в области программирования, и в частности SQL, работать со сколь угодно большими массивами сырых данных. В конечном счете все данные имеют ту или иную структуру; другое дело, что она неочевидна или неизвестна, а прежде чем браться за анализ, требуется четко представлять, зачем это нужно бизнесу. Разумеется, какая-то подготовка по SQL или языку R полезна; вместе с тем в Aster есть фреймворк AppCenter, который позволяет из готовых блоков, скрывающих от пользователя сложность алгоритмов, создавать веб-приложения для решения конкретных аналитических задач. Такие блоки-ускорители поставляются уже настроенными для различных отраслей (телеком, банки, розничная торговля, индустрия развлечений, здравоохранение и т. д.). Бизнес-пользователи, не знакомые с SQL и не обладающие опытом программирования, с помощью таких веб-приложений могут проводить анализ по выбранным параметрам и получать ответы в виде обнаруженных скрытых связей, оценок лояльности клиентов, ключевых сегментов потребительской аудитории, лидеров мнений, влияющих на принятие решений.

— Есть мнение, что не все данные одинаково полезны…

Инструментарий Teradata Loom позволяет фильтровать массивы сырых данных с нечеткой структурой, «обогащая» их и готовя для анализа. Loom пытается определить структуру файла и помогает аналитику выполнить необходимые преобразования, применяя математические, строковые и другие операции. Тем самым удается выделить из разрозненного массива входящих файлов именно те данные, которые содержат полезную информацию и пригодятся для дальнейшего анализа.

— Какой уровень зрелости бизнеса необходим от клиента Aster?

Уровень, когда представители бизнеса начинают понимать, что можно извлечь ценность из имеющихся данных; обычно это средний или крупный бизнес — компании, имеющие опыт разработки и развития доморощенного аналитического решения и обнаруживающие, что больше вкладывают в него, чем получают взамен. Именно бизнес, ориентированный на результат, заинтересован в применении платформ наподобие Aster, когда оказывается, что собственных ИТ-решений уже недостаточно. Однако следует учесть: развертывание и эксплуатация подобных платформ — это серьезный проект, часто требующий перемен в бизнесе.