Программа цифровой трансформации «Газпром нефти» предусматривает организацию управления на основе данных и цифровых двойников, что требует внедрения эффективных процессов Data Governance. Особая роль при этом отводится работе с неструктурированными данными. Внедряемые в «Газпром нефти» инструменты благодаря возможностям «понимания» корпоративного языка и особенностей нефтегазовой отрасли, делают неструктурированные данные важным источником получения новых знаний. Ольга Романова, руководитель департамента анализа данных и контента в «Газпромнефть ЦР», поделилась некоторыми примерами реализации таких проектов. В рамках конференции «Управление данными 2023», организуемой издательством «Открытые системы», ее доклад будет посвящен обсуждению уроков эволюции от разработки отдельных проектов поиска и анализа к созданию экосистемы продуктов.

- Какова история, ключевые вехи работы с корпоративным контентом в «Газпром нефти»?

В «Газпром нефти» уже более четырех лет развивается функция управления данными и контент является неотъемлемой частью этого процесса. Изначально основной задачей была консолидация разрозненных источников данных, возможность централизованной работы сотрудников с документами. Впоследствии, по мере развития функционала систем и развития технологий, запросы пользователей также росли, и мы постепенно сформировали экосистему продуктов интеллектуального анализа данных и контента, которые позволяют не только находить, но анализировать, повышать качество документов, обогащать и создавать новые знания.

- В чем проблемы пользователей, которые вы пытаетесь решить?

Ключевой стартовой проблемой было отсутствие возможности быстро найти нужный актуальный документ в сотнях информационных систем и терабайтах файлов и документов. Поэтому начали мы с решения задачи поиска, и постепенно стали погружаться уже в детальный и специфический анализ документов для решения задач автоматизации процессов – например, сравнения версий документов разных расширений, задачи категоризации и кластеризации, формирования ответов на пользовательские вопросы и т. д.

- На каких задачах пытаетесь фокусироваться?

Основной наш фокус – это пользователи, помощь в решении их проблем и задач.

Мы проводим опросы и исследования потребностей пользователей (CustDev), устраиваем демодни и стратегические сессии. Это позволяет понять, каких данных и каких источников не хватает; что удобно, а над чем еще надо поработать; какие еще задачи мы можем решить, чтобы облегчить работу пользователей с документами.

- Каких результатов уже удалось достичь?

За четыре года у нас появилось четыре продукта, они переданы в эксплуатацию пользователям. Они все разного «возраста». Есть зрелый большой общекорпоративный продукт – «Корпоративный поиск», которым пользуется вся компания. Это более 50 источников, миллионы документов и стабильный пользовательский поток – ежедневно более 2 тыс. человек.

Есть и совсем молодые продукты – например, цифровой помощник аналитика. Это информационная система, которая позволяет анализировать запросы на естественном языке, автоматически транслируя их в структурированный запрос. Она введена в эксплуатацию пока для двух предметных областей и еще только начинает свой путь к пользователям.

Еще одно решение – «Поиск по НСИ», реализующий специализированный поиск по справочнику материалов, который умеет работать с шифрами и названиями материалов. Он незаменим, когда надо среди миллионов записей найти нужную позицию. Решение хотя и «молодое» – всего полгода в продуктиве, – но уже имеет несколько тысяч уникальных пользователей. Это удивительно и приятно, так как обычно пользователей очень сложно переманить с привычных инструментов на новые.