Сбербанк: доступ к данным для ИИ-агентов

Как ускорить получение доступа к данным для ИИ-агентов с недель до дней? Сбер ответил на этот вопрос нетривиально – созданием платформенного решения DataAPI. Продукт автоматизирует путь от SQL-запроса до промышленного API, делая вывод новых навыков агентов быстрее, а их работу – надежнее. О том, как устроено новое платформенное решение, с какими вызовами столкнулась команда и что в планах, – рассказывают номинанты Data Award: Алина Грибанова, руководитель направления департамента управления данными Сбербанка и владелец продукта DataAPI, и Никита Негго, исполнительный директор департамента управления данными Сбербанка и CPO «Инструменты D-people».

- Как Сбербанк пришел к созданию этого решения?

Никита Негго: Сбербанк последовательно идет к формированию ИТ-ландшафта нового поколения – архитектуры, построенной на принципах GenAI-native и платформенного подхода. Сегодня мы формируем базу для автономной организации, в которой ИИ-агенты – это полноценный актор, активный пользователь, меняющий конфигурацию цифровой экосистемы. Итак, важной предпосылкой для создания DataAPI стало появление новых клиентов – ИИ-агентов, которые наравне с нашими D-people (дата-сайентистами, аналитиками и инженерами данных) нуждаются в доступе к данным.

При этом бизнес выдвигает серьезные требования. Во-первых, точность ответа должна стремиться к 100%, во-вторых, скорость возврата данных – быть меньше секунды, в-третьих, создание нового навыка по обращению к данным для ИИ-агента – стать простым и быстрым.

Обеспечить необходимую точность ответа можно было за счет фиксированного SQL, разработанного в режиме дизайнера. Формирование API к данным на источнике частично удовлетворяло требование по скорости, однако, чтобы получить ответ в ожидаемое время, нужно учесть множество факторов (тип источника, сложность запроса, объем обрабатываемых данных и т.д.).

А вот с третьим требованием – упростить и ускорить создание нового навыка по обращению к данным для ИИ-агента – возникла сложность.

- Как подошли к реализации задачи?

Н.Н.: Сначала команды разработки ИИ-агентов пытались решить проблему самостоятельно – они обращались в команды источников с просьбой создания API к данным. Такой подход привел к быстрому росту бэклога: в отдельных случаях ожидание реализации затягивалось на недели. Нагрузка на команды источников возросла, они столкнулись с увеличением задач и в некоторых случаях с нехваткой ролей, которые изначально были не нужны. Например, появилась потребность в постоянной аналитике данных, чтобы регулярно писать запросы для команд агентов.

Кроме того, каждая команда могла реализовать API по-своему, что вынуждало нас тратить время на детальную проработку каждого решения и его согласование с требованиями безопасности и корпоративной архитектуры. И тогда мы решили создать DataAPI, который вывел формирование навыков доступа к данным для ИИ-агентов и обращение к ним на другой уровень.

- Какие были поставлены цели?

Алина Грибанова: Требовалось разработать платформенное решение, которое автоматизирует процесс создания и вывода в промышленную эксплуатацию REST API для доступа ИИ-агентов к данным из различных источников, а также обеспечить исполнение API и выдачу данных с учетом всех требований стейкхолдеров.

Были поставлены три цели. Для начала было важно устранить «узкое место» в разработке – разгрузить команды разработчиков витрин данных, дав им инструмент автоматизированного создания API. Следующая цель – сократить время вывода ИИ-продуктов на рынок и ускорить внедрение новых сценариев работы агентов с данными. Наконец, снизить затраты и избежать дублирования, упростив предоставление данных через единый инструмент вместо индивидуальных решений каждой команды.

- Какие технологии использованы при создании DataAPI?

А.Г.: Прежде чем погрузиться в разработку, мы провели анализ рынка. Результат: ни готовых инструментов, ни прямых аналогов нашей задачи не существует. Однако в процессе исследования мы обнаружили фреймворк для создания безопасных и масштабируемых API на основе шаблонов SQL – VulcanSQL. Но и он нам не подошел из-за особенностей инфраструктуры и требований безопасности. Поэтому мы реализовали полностью собственное решение, применив лишь некоторые принципы работы VulcanSQL.

В итоге у нас получилось готовое Python-приложение DataAPI, которое разворачивается в контейнерезированной среде (OpenShift, DropApp) и в которое входят следующие компоненты: профили для подключения к разным типам источников (HDFS, GreenPlum, Postgres, ClickHouse), собственный вычислительный уровень для исполнения запросов на HDFS и гетерогенных запросов, компоненты для генерации API-интерфейса (по спецификации) и публикации OpenAPI-схемы в общебанковский реестр API, компонент авторизации агента на базе параметров из OTT (one time token), компонент для получения и актуализации Kerberos-ticket для обращения к данным, а также функционал получения SQL и YAML из отдельного образа, где они хранятся. В общем, технологий было задействовано немало.

- Какие задачи пришлось решать?

А.Г.: Мне кажется, что мы собрали все задачи, с которыми сталкивается сервис. Во-первых, сбор требований к сервису. Команды, которые занимались разработкой агентов в первой половине прошлого года, не всегда понимали, как будет выглядеть финальное решение, какие именно данные понадобятся агенту и какая скорость ответа будет приемлема. Поэтому мы собирали требования по разным командам, пытаясь сложить единую картину.

Во-вторых, поскольку мы создавали платформенное решение, оно с самого начала должно было удовлетворять всем требованиям кибербезопасности и надежности.

Наконец, помощь в установке. Иногда в команде источника не хватало человека, который мог бы развернуть продукт, или команда источника отказывалась проводить работы, так как заранее не закладывала на них ресурсы. Мы старались подключаться во всех случаях, где требовалась наша помощь: общались с командами агентов и источников, проводили консультации, разбирали вместе с заказчиками их кейсы и показывали, что установка DataAPI – это несложно.

- Что представляет собой решение?

А.Г.: DataAPI – это продукт, который автоматизирует путь от SQL-запроса до промышленного REST, готового к использованию ИИ-агентами. Он устанавливается непосредственно на стороне источника данных и обеспечивает полный цикл работы с API: от прототипирования до продуктивной эксплуатации. Расскажу подробнее.

Создание нового API проходит в два этапа. Первый этап заключается в прототипировании. Команда агента сама создает и проверяет черновой вариант API: пользователь пишет SQL через сервис Text2SQL, генерирует YAML-спецификацию с помощью библиотекидля генерации спецификаций с помощью LLM (DataAPI Molder), собирает и тестирует прототип API в Лаборатории данных. Это помогает выявить и исправить ошибки до запуска в промышленную эксплуатацию.

Второй этап – непосредственно ввод в эксплуатацию. Источник данных утверждает и запускает API: DevOps собирает образ с SQL и YAML-спецификацией, DataAPI публикует API в реестре со статусом «В разработке», команда подтверждает работоспособность и переводит API в эксплуатацию.

Как итог, ИИ-агенты могут использовать этот API для обращения к данным.

- Какие результаты достигнуты и ожидаются?

Н.Н.: Главные итоги внедрения DataAPI – скорость разработки, скорость ответа и масштабирование. Время разработки решений сократилось от нескольких недель до нескольких дней. Первичная установка DataAPI на источник данных (требуется один раз) и публикация нового REST API через продукт занимает не больше пяти дней. Это не предел: мы планируем сократить путь «от запроса до готового навыка» всего до одних суток. Скорость ответа на небольших объемах данных не превышает одной секунды. Это критически важно для ИИ-агентов, работающих в режиме реального времени.

Пока DataAPI работает в пилотном режиме: к системе подключено более 10 агентов. Но мы готовимся к большому тиражу и платформа к этому готова.

- Насколько важен этот проект для бизнеса?

Н.Н.: Созданное решение позволяет проверять работу API на реальных данных еще до промышленного запуска, снижая риск ошибок и сбоев в эксплуатации. Автоматическое формирование и публикация API значительно ускоряет вывод ИИ-сервисов и сокращает время на создание нового навыка. Продукт соответствует корпоративным стандартам архитектуры, кибербезопасности и надежности, что делает его универсальным решением для любых команд и источников данных.

- Каково значение проекта для отрасли?

Н.Н.: DataAPI устанавливает новый стандарт взаимодействия ИИ-агентов с корпоративными данными. Он решает проблему медленного развития ИИ-агентов. Раньше каждый новый навык агента требовал отдельного REST-эндпойнта, и каждая команда источника была вынуждена вручную разрабатывать эти REST для десятков потребителей. DataAPI превращает этот процесс из последовательного в параллельный, ускоряя создание нужных интерфейсов. Доступ к данным для ИИ-команд упрощается – они могут быстро создавать собственные API без специализированных навыков.

Решение способствует также распространению подхода API-first: индустрия движется к тому, что данные без готового API для агентов – это незавершенный этап. DataAPI внедряет практику, при которой подготовка данных подразумевает возможность их потребления ИИ-сервисами.

Наконец, инфраструктура становится ИИ-масштабируемой: количество агентов может расти без увеличения нагрузки на разработчиков.

- В чем ваш продукт уникален?

А.Г.: Мы создали продукт, не имеющий аналогов на рынке. Он решает фундаментальную проблему разработки API – невозможность безопасного тестирования на реальных данных до ввода в эксплуатацию.

Его уникальность заключается в нескольких моментах. Первый из них – безопасная проверка на реальных данных. Там, где стандартные подходы довольствуются тестовыми стендами с синтетическими данными, часто приводящими к ошибкам в процессе эксплуатации, DataAPI от Сбера позволяет тестировать будущее API на реальных данных в изолированной среде. Мы полностью исключили риск утечки или порчи данных, что ранее считалось нетривиальной инженерной задачей.

Второй важный нюанс – полная автоматизация жизненного цикла. Мы не просто ускорили создание API, но и создали архитектуру, где нет ручного программирования. Путь от сырого SQL-запроса до готовой промышленной версии API происходит без участия разработчика.

Кроме того, можно выделить автогенерацию промышленной спецификации. Наш модуль DataAPI Molder анализирует структуру SQL и автоматически создает корректную YAML-спецификацию (OpenAPI). Это позволяет соблюсти корпоративные стандарты безопасности и документации без ручного написания сотен строк кода.

А главное – продукт не просто автоматизирует процесс, а сокращает время вывода API в промышленную эксплуатацию с недель до дней и позволяет командам источников данных стать полноценными владельцами навыков для агентов. И все это – без кастомной доработки, «из коробки».

- Каковы пути развития продукта?

А.Г.: Если мы говорим про ближайший период, то список работ примерно понятен: оптимизировать клиентский путь, проработать вопрос быстрой обработки большего количества исходных данных, автоматизировать этапы развертывания продукта.

Сбербанк: доступ к данным для ИИ-агентов

Zero Trust и Data Governance: как управление данными превращает дата-каталог в ядро контура безопасности