Для реализации стратегии работы с данными Альфа-Банк внедрил решения отечественного вендора Data Sapience: Lakehouse-платформу данных Data Ocean Nova и низкокодовый (low-code) инструмент потоковой обработки и репликации данных Data Ocean SDI. Проделанная работа позволила банку получать оперативные изменения из нескольких систем. Уменьшилось количество разных технологий, и появилась возможность независимо масштабировать IT-инфраструктуру организации. Данные из разных источников теперь собираются в едином информационном слое (ЕИС) и в одном формате. Пользователи могут обращаться к актуальным данным для проверки гипотез с помощью произвольного анализа по запросу (ad-hoc) напрямую в операционном слое данных (Operational Data Store, ODS), который обновляется в режиме реального времени (real-time), и строить онлайн-отчетность. Также появились возможности для предоставления сервисов данных (data services), обучения моделей и проверки их функциональности.
До внедрения перед банком стоял ряд вопросов, требующих решения. Компании было необходимо в онлайн-режиме планировать и контролировать продажи на долгий период. Требовалось рассчитывать аналитические показатели и отчеты, отражающие бизнес-планы и прибыльность продуктов, в режиме реального времени. При большом количестве аналитических систем банк нуждался в быстром получении данных из учетных систем. Нужно было сохранять историю изменений источников, при этом не нагружая их. Также было важно передавать потребителям информацию из единой платформы, чтобы снизить затраты на интеграционные задачи. Все эти пункты стали ключевыми причинами для внедрения платформы данных в ландшафт банка.
При выборе подходящего решения Альфа-Банк руководствовался определенными требованиями. Продукт должен поддерживать независимое горизонтальное масштабирование с разделением ресурсов хранения (storage) и вычислительных мощностей (compute) оперативного слоя данных. Предоставлять возможность изолирования ресурсов на регламентные процессы и аналитические задачи с поддержкой многопользовательской работы в одном кластере, нативно работать в среде Kubernetes. Иметь высокий класс доступности с минимум двойным гео-резервированием инфраструктуры и инструментами разработки собственных приложений для работы с данными. Иметь высокопроизводительный и высококонкурентный движок с поддержкой параллельной обработки больших массивов данных (Massively Parallel Processing, MPP) для SQL-запросов и решать задачи классического хранилища данных (Data Warehouse, DWH) и озера данных (Data Lake) одновременно, включая гетерогенные сценарии использования. При этом обновление всех компонент должно быть независимым.
Универсальная Lakehouse-платформа данных Data Ocean Nova соответствует всем перечисленными требованиям, поэтому выбор банка остановился на ней. Для решения задач отслеживания изменений и обработки потоковых данных был использован низкокодовый (low-code) инструмент Data Ocean SDI. Благодаря внедрению пользователи могут подключаться к данным из разных источников в едином окне. Доступность данных увеличилась в несколько раз. Была реализована единая среда работы с данными с нужной скоростью.
В рамках проекта создана система онлайн-репликации для 1000 объектов. Технологический стек решения объединяет инструменты отслеживания измененных данных (Change Data Capture) и механизмы потоковой обработки событий из Kafka. На текущий момент к платформе подключено 50 баз данных — источников, обеспечивающих передачу 500 Гб инкремента в сутки при пиковой нагрузке до 10 тысяч изменений в секунду. Параллельно система онлайн-загрузки из Kafka справляется с пиковыми потоками до 240 тысяч изменений в секунду. Суммарный объем ежесуточно обрабатываемых данных достигает 2 Тб, что гарантирует актуальность информации в хранилище и высокую доступность аналитических данных для бизнеса в режиме реального времени. Такой масштаб нагрузки был достигнут за 2 года промышленной эксплуатации, при этом система продолжает масштабироваться.
В дальнейшие планы по развитию проекта Альфа-Банка на базе решений Data Sapience входит подключение около 600 источников данных в онлайн-режиме до середины 2026 года, миграция Hadoop-кластеров банка на Lakehouse-платформу данных Data Ocean Nova и перенос пользовательских песочниц.
«Мы успешно интегрировали решения российского вендора Data Sapience в нашу инфраструктуру благодаря партнерству с GlowByte. Единый и достоверный источник оперативных данных позволяет в режиме онлайн контролировать продажи, рассчитывать аналитические показатели и планировать развитие на долгосрочную перспективу. Теперь наши бизнес-пользователи могут самостоятельно проводить произвольный анализ по запросу (ad-hoc) и строить отчетность, не дожидаясь данных из разрозненных систем. Это не только ускоряет принятие решений, но и открывает новые возможности для аналитики и моделирования, напрямую влияя на качество наших продуктов и услуг для клиентов», – говорит Александр Заболоцкий, технический директор развития технологий дата-продуктов, Альфа-Банк.
«Внедрение Data Ocean Nova – это важный шаг Альфа-Банка к кардинально новым стандартам дата-платформы. Новая ИТ-архитектура обеспечивает построение аналитической отчетности в режиме реального времени и реализует подход, обеспечивающий немедленную готовность данных к использованию (data-ready), при котором новые показатели загружаются в платформу с минимальной задержкой от появления в системе-источнике. Пользователи получают возможность самостоятельно выбирать оптимальный для конкретной бизнес-задачи движок обработки данных среди StarRocks, Trino, Impala и Spark. Платформа также предусматривает ИИ-агентизацию для упрощения работы пользователей и автоматизации эксплуатации. Решение обеспечивает максимальную эффективность за счет высокой производительности при низком относительно других решений TCO с возможностью гибкого масштабирования благодаря разделению ресурсов хранения (storage) и вычислительных мощностей (compute)», – отмечает Петр Пашков, управляющий директор, GlowByte.
«В рамках совместного проекта Альфа-Банка, Data Sapience и GlowByte удалось в числе первых на российском рынке ввести в промышленную эксплуатацию Lakehouse-платформу данных Data Ocean Nova и инструменты интеграции, которые отвечают вызовам, стоящим перед современным цифровым банком. Технологии способны вывести бизнес-процессы и скорость принятия решений на новый уровень, что было доказано за 2 года использования продуктов. Стабильная работа системы в течение 2 лет промышленной эксплуатации под высочайшей нагрузкой и высокие показатели позволили убедиться, что существующий стек – это база на долгие годы, поэтому было принято решение о полной миграции всего ландшафта данных. Для Data Sapience как для вендора это имеет большое значение», – подчеркивает Евгений Вилков, технический руководитель решения Data Ocean Nova, Data Sapience.