В Альфа-Банке запущена универсальная экосистема для разработки и внедрения моделей машинного обучения. С ее помощью удалось за короткие сроки радикально ускорить процессы создания и запуска моделей, что повысило показатели банка. О реализации проекта рассказывает Павел Николаев, начальник управления технологий машинного обучения Альфа-Банка и номинант на премию Data Award.

- Что привело к необходимости перевести работу с ML-моделями на промышленные рельсы?

Наличие ручных процессов и разнообразие подходов не позволяли создать универсальное решение. Технологии моделирования постоянно усложняются и требуется одновременное применение разных моделей и быстрое их внедрение в бизнес-процесс.

- Почему это важно для Альфа-банка?

Чем быстрее происходит внедрение моделей в бизнес-процесс, тем быстрее банк начинает получать прибыль.

- Какой подход был выбран?

Мы создали централизованные общебанковские платформы разработки моделей (MDP) и исполнения моделей (СИМ). Доставка моделей между ними автоматизирована, с несколькими стадиями проверок на тестовых средах, идентичных промышленной. Кроме того, мы разработали систему быстрой доставки данных для этих моделей – Feature Store. Важно отметить, что системы дорабатывались параллельно и при этом активно эксплуатировались.

- Что представляют собой созданные решения?

Среда исполнения моделей (СИМ) – универсальная гибкая система, позволяющая внедрять модели любой сложности в промышленном режиме и с высочайшей отказоустойчивостью. Система позволяет внедрять нестандартные и сложные модели, работающие как в онлайн-режиме, так и в потоковом режиме (stream-модели). Отдельно можно выделить появившуюся возможность пакетного (одновременного) вывода моделей, с помощью которой было выведено более 140 моделей, посвященных ценности клиента и доходу. При этом СИМ не только быстрая, но и сверхнадежная система: ее стабильность для наиболее критичных моделей составила 99,98% в 2023 году.

Среда разработки моделей – это единая платформа для разработки и обучения моделей, в которой разрабатываются все модели Центра продвинутой аналитики (ЦПА). В MDP регулярно работают более 100 специалистов, из них 20% не дата-сайентисты.

Платформа объединяет в себе все современные, привычные для специалиста data science инструменты в единой среде. Разработанные модели развертываются в online, batch, stream и каскадных режимах, что позволяет полностью протестировать все аспекты модели до перехода ее на интеграционное и нагрузочное тестирование.

Наконец, Feature Store — это система для непрерывной доставки данных для разработки моделей. Доставка факторов для моделей превращается в удобный и быстрый онлайн-супермаркет, а сами данные могут переиспользоваться разными командами. В результате снижается время и стоимость разработки моделей, а также риски, связанные с работой с некачественными данными.

- На каких ИТ-платформах (крупными мазками) базируются эти решения?

Использована аналитическая система Hadoop Datalake, а также Kubernetes, Kafka и т.д.

- Как изменилась жизнь специалистов, занимающихся разработкой моделей?

Процесс внедрения моделей стал понятным и удобным, сократилось время, затрачиваемое на внедрение моделей

- Какие результаты достигнуты?

Благодаря масштабированию и развитию наших систем в прошлом году мы сократили время внедрения моделей более чем вдвое. Теперь онлайн-модели внедряются в среднем за 2,5 недели. Параллельно выстроили промышленные процессы поддержки моделей и реагирования на инциденты – например, итоговая доступность онлайн-моделей в 2023 году составила 99,98%.

Благодаря промышленным процессам разработки удалось внедрить в эксплуатацию в 15 раз больше моделей, чем в прошлом году, доведя долю внедрений моделей в целевую инфраструктуру до 80%.

В среде разработки моделей количество пользователей увеличилось в 2,5 раза. За счет нашей передовой инфраструктурной доработки Spawner JupyterHub мы экономим значимую часть вычислительных ресурсов в среде разработки моделей (без этого потребовалось бы в 2,5-3 раза больше вычислительных ресурсов). При этом пользователи получают гарантированные выделенные ресурсы: CPU, RAM, диски, GPU. Высокие стандарты поддержки разрабатываются – что нетипично – и на среду разработки, среднее время реакции на инцидент в среде разработки моделей составляет менее одного часа.

Количество факторов для моделей в Feature store за год увеличилось более чем в два раза, теперь Feature Store включает в себя данные всех основных бизнес-линий, использующих модели машинного обучения. Реализован полноценный CI/CD процесс по разработке и доставке алгоритмов формирования факторов моделей из среды разработки в среду применения. Факторы бесшовно внедряются для пакетных моделей и онлайн моделей, использующих внутренние данные посредством интеграции с горячим онлайн хранилищем.

- А с точки зрения финансового эффекта?

В результате снижается время и стоимость разработки моделей, а также риски, связанные с работой с некачественными данными.

- В чем роль проекта для развития банка?

Система СИМ уже востребована среди подразделений банка и интегрирована со всеми системами принятия решения по розничному, малому и среднему бизнесу. В скором времени она охватит и крупный бизнес. Она помогает внедрять модели машинного обучения, которые призваны автоматизировать процесс выдачи кредитов, оптимизировать бизнес-аналитику в подразделениях банка и уменьшить количество времени, затрачиваемое на тот или иной бизнес-процесс.

Среда MDP ускоряет время разработки моделей, что позволяет быстрее запускать их, повышает качество моделей, централизует и стандартизует подходы, экономит вычислительные ресурсы.

Feature Store организует централизованную работу с фичами, чтобы гарантировать повторяемую логику их сбора для обучения разных моделей разными командами, для работы с выверенными данными высокого качества в разных департаментах. Дата-сайентисты могут просматривать все имеющиеся признаки «в одном окне» и подбирать нужные, а не создавать повторно дубли.

- Каковы направления развития проекта?

В этом году у нас амбициозная цель: реализация онлайн Feature Store. Хотим сделать внедрение всех факторов для онлайн-моделей – в том числе для данных, приходящих непосредственно в момент запроса модели бизнес-приложением, – бесшовным, что значительно сократит время на внедрение онлайн-моделей.