Интеллектуальное управление данными

При обсуждении применения искусственного интеллекта и эффектов от него обычно подразумевается бизнес-уровень, когда построенные модели непосредственно влияют на результаты компаний. Однако он вполне способен помочь и на более низком уровне – например, в процессах управления данными, повышая их эффективность и избавляя специалистов от рутины. Роль искусственного интеллекта в современных инструментах Data Governance будет рассмотрена в рамах форума «Управление данными 2023», организованного издательством «Открытые системы».

Началось с качества

В какой момент искусственный интеллект появился в контексте управления данными и с каких процессов начался?

«ИИ получил распространение в управлении данными, когда их объем и разнообразие достигли таких масштабов, что описывать, контролировать и управлять ими вручную стало слишком сложно», – считает Михаил Тутаев, директор по продукту VK Cloud.

Если говорить о базовых моделях и простом машинном обучении, то это не новое явление в контексте управления данными. Например, подобные технологии используют для каталогизации данных, поиска артефактов и аномалий в датасетах. Более современное применение технологии в подобных процессах — автоматизация описания параметров данных. ИИ вполне может определить содержание датасета, выделить строки или столбцы с чувствительными данными – например, с информацией, которая относится к банковской тайне или к персональным данным человека.

Как отмечает Леонид Шумский, начальник управления департамента перспективных проектов «Дататех», первые применения искусственного интеллекта в управлении данными, которые встречались на практике, – это направление Augmented DQ. Речь идет об использовании ИИ для задач предиктивного анализа качества данных и разработки проверок качества, упоминания об этом встречаются с 2019 года. Кроме того, уже довольно давно существуют направления распознавания и анализа текстов на естественном языке.

Леонид Шумский: «Два основных маркера целесообразности применения ИИ для задач управления данными – очень высокий уровень зрелости, при котором прочие инструменты уже использованы, и наличие задач, которые не решаются существующими методами»

«В контексте управления данными ИИ появился, в первую очередь, в управлении качеством данных», – согласен Антон Кузнецов, управляющий директор, начальник управления корпоративных данных «Сбера». С повышением уровня зрелости управления данными в организации в целом, росло и понимание важности качества данных, используемых в организации. Помимо этого, произошел сдвиг от потребности в реализации проверок качества данных к выявлению аномалий в данных с применением ИИ. С точки зрения качества данных ключевым является момент, когда приходит осознание необходимости управления им на более ранних этапах, чем решение инцидента, возникшего по результатам выполнения проверок качества.

«Два основных маркера целесообразности применения ИИ для задач управления данными – очень высокий уровень зрелости, при котором прочие инструменты уже использованы, и наличие задач, которые не решаются существующими методами», – говорит Шумский. Другой причиной может быть недостаток экспертизы, когда использование интеллектуальных алгоритмов позволит использовать внешний опыт разработки, однако инструменты такого рода пока достаточно слабо распространены. Также существует ряд задач, для которых иного, чем использование инструментов ИИ, решения просто нет. Примером может служить обработка текстов на естественном языке, и в таком случае использование ИИ оправдано.

«Выделить общие критерии оправданности использования ИИ для разных типов бизнеса сложно. Однако существуют общие признаки, которые в той или иной конфигурации встречаются во всех успешных проектах», – подчеркивает Тутаев. Первый из таких признаков – тип решаемой задачи. В контексте управления данными, если критерии качества выполнения работы зависят от насмотренности и скорости работы исполнителя, то применение ИИ имеет большой потенциал.

Второй признак – объем данных. Здесь стоит выделить два аспекта. Данных должно быть достаточно много, чтобы качественно обучить модель, а человеку должно быть сложно справиться с обработкой такого объема информации вручную. Наконец, третий признак — стоимость оплаты труда и количество вовлеченных сотрудников. Если для выполнения рутинной задачи нужно задействовать много квалифицированных специалистов, то имеет смысл делегировать эту задачу ИИ.

На пути к мейнстриму

«Использование базовых возможностей ИИ и машинного обучения в управлении данными уже нельзя назвать экзотикой. Подобные решения активно применяются в бизнесе», – утверждает Тутаев. Однако по-настоящему массовым применение технологии в сегменте управления данными пока не стало. На текущий момент сама область управления данными все еще находится на стадии популяризации. Говорить об ИИ как о мейнстримном решении можно будет, когда наберется критическая масса компаний, которые понимают задачи управления данными и умеют их решать.

Михаил Тутаев: «Использование базовых возможностей ИИ и машинного обучения в управлении данными уже нельзя назвать экзотикой. Однако по-настоящему массовым применение технологии в сегменте управления данными пока не стало

Кузнецов согласен, что на сегодняшний день использование ИИ уже не должно удивлять. Более того, в ряде направлений управления данными (например, управлении качеством и справочниками) – это уже общепринятая практика. Но говорить о том, что использование ИИ в управлении данным в целом стало мейнстримом, пока тоже нельзя.

«Использование ИИ сейчас вообще не является массовым, но, однозначно, станет, после чего его применимость устоится и найдет свои окончательные рамки, как это ранее было с Big Data, так сейчас происходит с Data Governance, – полагает Олег Гиацинтов, технический директор DIS Group. – Я бы сказал, что пока место ИИ – над собранными данными, в принятии решения о том, каким образом стоит двигаться дальше, или в подведении к этому решению». Однако в работе с данными есть еще один блок, где ИИ также может быть хорошо применен. При описании данных по поставленным запросам часто есть необходимость связывать суть бизнеса с тем, как данные на самом деле реализованы.

«Бизнес-специалист не поймет поля, таблицы и скрипты, описывающие процесс перемещения и использования данных. А вот ИИ может максимально автоматизировать очень затратную по времени операцию поиска данных и проведения связи между терминологией и физическим расположением», – продолжает Гиацинтов. Это может казаться не слишком важным для бизнеса, однако зачастую самый длительный процесс – именно постановка задачи: от требования по предоставлению каких-либо данных до понимания разработчиком самой задачи. Этот аналитический период можно сократить, с одной стороны, с помощью подходов Data Governance, а с другой, – с помощью ИИ, чтобы понимать реальную суть хранимых данных в тех или иных системах.

Олег Гиацинтов: «ИИ может максимально автоматизировать очень затратную по времени операцию поиска данных и проведения связи между терминологией и физическим расположением»

По словам Тутаева, область применения ИИ даже в контексте управления данными очень широка. Это разметка и проверка качества данных, помощь в сборе и подготовке датасетов и т.д. Но в конечном итоге наиболее перспективным применением видится использование ИИ как помощника, советчика и правой руки дата-специалистов. Речь о своего рода «втором пилоте» (copilot) для дата-инженеров и аналитиков.

Кузнецов только в управлении качеством данных выделяет несколько ключевых направлений. Во-первых, это выявление аномалий в данных с использованием ИИ для последующей реализации проверок и согласования нормативов качества данных. Кроме того, может быть очень ценной помощь в идентификации причин возникновения инцидентов качества. Наконец, важен проактивный подход к контролю качества: недопущение дальнейшего возникновения инцидентов.

Направления развития

«В перспективе наибольшую пользу мы видим управлении метаданными и «описании данных» с использованием больших языковых моделей – LLM», – делится Кузнецов. Если смотреть шире, видно огромное влияние инициатив с применением ИИ на бизнес в целом – и на увеличение доходов, и на оптимизацию расходов.

Антон Кузнецов: «В перспективе наибольшую пользу мы видим управлении метаданными и «описании данных» с использованием больших языковых моделей – LLM»

Шумский отмечает, что в конечном итоге использование ИИ позволит сократить затраты на бизнес-анализ, снизить время, необходимое на ввод решений в эксплуатацию (time to market), распределить задачи управления данными между бизнес- и ИТ-специалистами, а также открыть перечень задач, которые ранее не решались.

Уже есть наработки в управлении метаданными для использования в моделях по отслеживанию происхождения данных (data lineage) и интеллектуальным фильтрам загрузки и каталогизации метаданных. Кроме того, можно выделить интеграцию платформ data discovery и интерпретацию данных в интеграционных потоках. Отдельное направление – в области информационной безопасности для поиска нецелевого использования защищенных данных и тегирования информации в ИТ-ландшафте.

В перспективе, по мнению Шумского, может идти речь о разработке преднастроенных и обученных моделей для решения типовых задач управления данными. Важную роль сыграет интеграция инструментов управления данными с инструментами ИИ, в том числе возможность подгружать и использовать в определенных функциях систем ИИ-модели, а также обучение моделей на основе данных систем управления данными. Можно ожидать развития онтологических моделей с интеграцией с движками формирования рассуждений (reasoning engine), в том числе создание открытых отраслевых онтологий.

Интеллектуальное управление данными

«Базис» первым в России представил полностью импортонезависимую экосистему решений для виртуализации ИТ-инфраструктуры