Сбербанк: Большие Данные для быстрой отдачи

В Сбербанке России работа с данными считается одним из важнейших направлений для роста бизнеса – здесь строят организацию, «направляемую данными» (data-driven), и уже накопили в этом деле немалый опыт. Елена Ивашечкина, заместитель директора департамента корпоративных клиентов Сбербанка, – один из ключевых докладчиков VI Российского форума Big Data’17, который проводит издательство «Открытые системы», – рассказала читателям «Директора информационной службы» (CIO.ru) о том, какое место занимают Большие Данные в деятельности департамента. Ивашечкина отвечает за развитие отношений с клиентами, управление Большими Данными и предсказательными моделями, а также за создание уникального клиентского опыта.

Какие основные задачи вы решаете и как используются для этого Большие Данные?

Наш департамент отвечает за стратегию работы с данными для всего корпоративного блока, мы являемся главной службой по данным – Chief Data Office – в рамках блока.

Вместе с ИТ-подразделениями мы работаем на всех участках цепочки создания ценности из данных – от сбора сырых данных до их агрегации, построения моделей и предоставления потребителям продуктов, улучшенных благодаря работе с данными.

Наше подразделение выполняет несколько основных задач в рамках корпоративного блока.

Елена Ивашечкина, заместитель директора департамента корпоративных клиентов Сбербанка:
«Большие Данные работают с технологиями машинного обучения и дают отдачу быстро. Всего за год плотной работы с data science мы уже видим результат использования модели, которая увеличивает конверсию и доходность»

Мы агрегируем данные, задаем правильную инфраструктуру и модель данных для всех отделов. Это наша задача номер один, так как данные обеспечивают 70-80% бизнес-результата. Коллеги могут использовать их для своих целей – например, для создания продуктов или актуализации перечня документов.

Вторая наша задача – увеличение доходов от вторичных продаж, зависящих, помимо прочего, от удовлетворенности клиентов теми продуктами, которые мы им предлагаем. Здесь тоже множество задач, связанных с качественными данными и параметрами их обработки, и снова инфраструктура Big Data выходит на первое место. Число клиентов огромно, объем данных колоссален, и эффективно обрабатывать их на старых технологиях невозможно.

Третий блок задач, который мы выстраиваем в течение последнего года, связан с data science – разработкой моделей на основе собираемых данных и использованием методов машинного обучения. Это новое перспективное для нас направление, в том числе и с точки зрения получения дохода. Мы делаем модели как для себя, с целью увеличения вторичных продаж и конверсии (процента превращения потенциальных продаж в реальные), так и для других структурных подразделений, например департамента кредитных продуктов и кредитного мониторинга, оцениваем склонность клиента задержать выплаты по кредиту. В рамках внедряемого в банке Agile-подхода департамент корпоративных клиентов – сквозная структура, предоставляющая своих специалистов по data science для построения моделей данных на время реализации проектов в разных командах и подразделениях. У нас уже есть хорошие модели оттока, позволяющие принять меры для сохранения клиента, и мы внедряем их в промышленную эксплуатацию. Причем эти модели дают возможность прогнозировать не только полный уход клиента, но и сокращение использования наших услуг.

Четвертая область, которой мы занимаемся, – «клиентский опыт». Это управление всеми точками контакта с клиентом на протяжении всего взаимодействия с ним, сквозной анализ, позволяющий взглянуть на процессы глазами клиента и выстроить клиентоцентричную организацию. Сегодня такая деятельность тоже становится максимально технологичной. Собираются данные о том, как клиент нас нашел, легко ли это было, удобно ли было открыть счет, пришлось ли ждать, просил он об услуге или ему ее предложили, как он работает с интернет-банком и т. д. Собранной в разных точках информации очень много, поэтому задачи по ее обработке и выдаче клиентам своевременных и правильных ответов, по сбору клиентских откликов, анализу корневых причин проблем (для исключения повтора таких ситуаций) ложатся на технологические платформы. Мы активно изучаем когнитивные технологии и делаем на основе искусственного интеллекта проект по автоматизации первой линии поддержки корпоративных клиентов – контакт-центра. Мне знаком опыт бразильского банка, уже реализовавшего такой проект.

Внедрение искусственного интеллекта для поддержки клиентов – это вопрос улучшения качества обслуживания или экономии на зарплате сотрудников контакт-центра?

И то и другое. Конечно, мы преследуем цель повысить качество, но и экономия колоссальная. Мир уходит в онлайн, люди часто не хотят долго ждать ответа оператора, им требуется инструмент, чтобы можно было получить грамотный ответ, но не «висеть» при этом на линии.

Сегодня многие обращаются к анализу поведения пользователей в социальных сетях, но на практике часто ценность этой информации близка к нулю – слишком маленькое число потенциальных клиентов попадает в эти выборки. Очевидно, что наиболее интересные фигуры или ограничивают свою деятельность в соцсетях, или закрывают доступ к своему профилю, или же не присутствуют в соцсетях вовсе. Как это учитывается в создаваемых моделях? Считаете ли вы социальные сети ценным источником информации?

Сами по себе социальные сети не дают хорошего качества моделей, они работают только как дополнительный фактор. Соцсети могут давать прирост на 5-7 пунктов индекса Джини (показатель для измерения качества модели). Это очень много. Соцсети нужно научиться «правильно готовить». Профиль человека в соцсети часто не так информативен, как его окружение. Анализируя окружение, можно понять, что это за клиент. К тому же соцсети сегментированы. Можно условно сказать, что в LinkedIn «сидят» высокодоходные клиенты, а в «Одноклассниках» много региональных SMB-компаний. Поэтому даже та информация, которая открыта, нам полезна. В проекте c одним из поставщиков данных соцсетей мы получили хорошие результаты по поиску высокодоходных клиентов из малого и среднего бизнеса.

По каким критериям оценивается эффективность применяемых алгоритмов анализа данных? И каковы результаты таких оценок на практике?

Эффективность матмоделей и алгоритмов оценивается стандартно: полнота, точность, коэффициент Джини. По уже проведенным инициативам мы смотрим на конверсию, совпадение с тем, что мы прогнозировали, и в итоге – на доход, количество сохраненных клиентов, то есть оценка ведется в бизнес-показателях. Взяв на вооружение data science, за год мы смогли в полтора раза улучшить качество моделей. И теперь, добавляя работу с вендорами данных соцсетей, понемногу повышаем эффективность дальше.

Процент ошибок сильно зависит от конкретной модели и сам по себе не очень показателен. Но я считаю, что любая модель лучше, чем случайный отбор. Даже если она дает совсем небольшое улучшение по сравнению со случайным отбором, это все равно лучше, чем работать без модели. Эффективность также зависит от качества и полноты данных, от времени разработки моделей, инструментов и людей, которые этим занимаются. Вопрос в том, какой уровень эффективности следует считать достаточным.

Виртуальный консультант и движение губ

Сбербанк продолжает движение по пути цифровой трансформации

Одним из наиболее перспективных направлений цифровой трансформации в Сбербанке считают технологии искусственного интеллекта. В частности, банк инвестирует в разработку говорящего виртуального помощника, способного вести содержательный текстовый диалог с пользователем не только отвечая на вопросы, но и запрашивая дополнительную информацию. В рамках этой инициативы Сбербанк и МФТИ подписали соглашение по развитию проекта iPavlov, который предусматривает создание системы с искусственным интеллектом, способной общаться с людьми на естественном языке общения. На базе этой технологии к 2020 году будет создана платформа для Сбербанка DeepReply. Система будет общаться с пользователями, помогая им решить возникшие вопросы за счет анализа данных банка. Глава Сбербанка Герман Греф сообщил, что результатом проекта iPavlov станут новые бизнес-приложения, выводящие обслуживание клиентов на новый уровень. «Обучение» системы будет проводиться с помощью данных Сбербанка — больших массивов документов и текстовых записей диалогов между людьми.

Кроме того, Сбербанк активно осваивает системы биометрической идентификации клиентов. Одна из недавних инициатив в этой области – создание системы идентификации по движению губ. Ранее в финансовой организации уже разработали системы идентификации по сетчатке глаза, ладоням и отпечаткам пальцев. Как отмечает Греф, кредитная организация много инвестирует в создание идентификационных возможностей, так как распознавание клиента является первостепенной задачей. В 2016 году Сбербанк реализовал серию пилотных проектов, предполагающих использование биометрических технологий в разных каналах обслуживания и сценариях использования.

Но ведь с учетом ресурсов, затраченных на разработку моделей, эффективность «плохой» модели будет сопоставима или даже ниже случайной выборки?

Крайне редко модель не получается, но при ее разработке приходит новое понимание проблемы и происходит столько правильных итераций по работе с данными, что это время нельзя считать потерянным зря.

Инвестиции в Большие Данные связаны прежде всего с ожиданиями высокой отдачи в будущем. А в сочетании с какими технологиями Большие Данные способны принести наиболее быстрый эффект?

Большие Данные сейчас работают с технологиями машинного обучения и, на мой взгляд, дают отдачу быстро. Всего за год плотной работы с data science мы уже видим результат использования модели, которая увеличивает конверсию и доходность.

Глубокое обучение (Deep Learning) и когнитивные технологии дают отдачу дольше. Популярная сегодня тема – обучение на естественном языке (Natural Language Learning) с использованием голосовых запросов и генерацией голосовых ответов.

Но иногда простые модели, создаваемые быстро, работают лучше, чем сложные, разрабатываемые долго. Я вижу много таких примеров.

То есть такие технологии имеет смысл применять лишь для очень серьезных задач?

Возможно. А может быть, необходимо еще больше данных. Тут нам многое предстоит сделать: интегрировать все источники, перевести их на инфраструктуру Больших Данных, ускорить все процессы. Наш клиент делает всего несколько транзакций в день, а тот же Facebook «видит» десятки тысяч транзакций по клиенту в день. Наверное, чем больше данных и чем правильнее они интегрированы в инфраструктуре, тем эффективнее глубокие методы работы с ними.

При создании организации, направляемой данными, следует опираться прежде всего на высококвалифицированных специалистов в области data science или же на технологические платформы, которые позволяют работать с Большими Данными бизнес-пользователям?

Одно без другого не может существовать. Мы строим бизнес-платформу, но это не значит, что с ней смогут работать любые бизнес-пользователи. Эта огромная система, содержащая всю информацию о продуктах и все модели, является основой для создания в будущем экосистемы для клиентов. Специалисты по данным и бизнес-платформа дополняют друг друга: специалисты могут делать хорошие модели на тестовых выборках, платформа же решает проблемы их масштабирования на миллионы клиентов, большие объемы данных и несколько каналов, а также задачи обработки на высоких скоростях и выдачи ответов в реальном времени.

Для создания такой платформы многое сделано и еще многое предстоит. Параллельно мы развиваем компетенции data science, учимся новым методам и заодно это все интегрируем.