Стратегия, инструменты, практика

5 февраля 2020
Россия

Москва
Конференц-центр Newsroom

Конференция «Качество данных 2020»

Данные сегодня – ключевой фактор бизнеса, однако грязные данные не позволят предприятиям получить ожидаемых преимуществ. Конференция о том, как обеспечить качество данных в соответствии с целями их использования , гарантировав полноту, точность, корректность и актуальность.

ДМИТРИЙ ВОЛКОВ

программный директор серии практических конференций издательства
«Открытые системы».

«Магия технологий больших данных, искусственного интеллекта, умных периферийных устройств завораживает – многие компании стремятся использовать их для работы со своими ретроспективными и оперативными данными. Однако, независимо от объемов и темпов генерации данных, верные управленческие решения возможны лишь на основе качественных данных. По мере продвижения больших данных в эпоху искусственного интеллекта, компании приходят к печальному выводу – ничего не изменится, если их корпоративные данные будут беспорядочными и грязными. Извлекать выгоду из больших данных сегодня мешает не возможность их хранить, не способность их обрабатывать и даже не способность их интегрировать, а именно качество данных, обсуждению процессов обеспечения которого и посвящена конференция»

Для связи с организаторами

conf@osp.ru

+7 (495) 725 47 80

Что мешает превращению корпоративных данных в бизнес-активы

Что означает «качество данных»: проблемы и метрики оценки

Как построить стратегию управления качеством данных

Архитектура корпоративного «озера» с чистыми данными

Как создать управляемый каталог подсистемы качества данных

Где найти эффективные инструменты очистки данных

В программе:

Синтаксическое качество данных:
Полнота, допустимость, согласованность, связность, уникальность, актуальность
Особенности качества мастер-данных
Управление нормативно-справочной информацией (НСИ)
Конвейер качества данных (аудит, контроль, измерение, мониторинг и управление инцидентами/проблемами, информирование)
Интеграция данных (очистка, преобразование и обогащение)
Управление качеством данных и DataOps

Семантическое качество данных:
Релевантность и понятность
Классификация, моделирование данных и бизнес-правила
Управление метаданными (бизнес-глоссарий, учет данных, интеграция и связывание метаданных, анализ
происхождения и зависимости данных)
Data Governance (стратегия, стандарты, политики, процедуры, процессы, владельцы и кураторы данных)

Критерии выбора

Универсальные решения: Платформы от Informatica, IBM, SAP, Unidata и др.

Управление качеством данных: Informatica Data Quality, SAS DQ, SAP Data Services, IBM InfoSphere QualityStage, Unidata,... (Talend, Ataccama DQC, Experian и др.)

Управление реестрами и справочниками: Informatica MDM, IBM InfoSphere MDM, ... (Ataccama MDC, Talend, Unidata и др.)

Интеграция данных, очистка: Informatica Power Center, SAS, Syncsort Trillium, ... (IBM, Talend, Alteryx, Pentaho, Unidata и др.)

Управление метаданными и Data Governance: Informatica Enterprise Data Catalog и Axon, Alation, Collibra Data Governance Center, Unidata и др.

Кейсы

Качество данных для вертикально-интегрированных компаний

Качество государственных данных

Управление качеством данных: финансы, транспорт, телеком, ретейл, производство и др.

Программа

Спикеры:

Качество данных: стратегия, инструменты, практика

Алексей Незнанов
НИУ ВШЭ

Управление качеством финансовых данных: вчера, сегодня и завтра

Валерий Артемьев
Банк России

Подходы к обеспечению качества данных в НСУД

Сергей Сергиенко
НИИ «Восход»

Практика управления качеством данных аналитических решений

Иван Черницын
«Газпром нефть»

Ложка дегтя
в Data Lake

Александр Хайтин
«Mechanica AI»
Дмитрий Карбасов
Евразийская Группа

Управление
качеством данных
в ретейле

Тигран Саркисов
X5 Retail Group

Применение технологий ИИ в условиях отсутствия качественных данных

Иван Исаев
МТС

Контроль качества данных на основе инструментов логического вывода

Сергей Горшков
«ТриниДата»

Как превратить
терабайты
в бизнес-активы?

Михаил Александров
SAS

Очистка и стандартизация справочников с помощью ИИ

Константин Симаков
Лаборатория по извлечению информации

Управление качеством данных: инструмент и процесс

Владимир Панчук
Иван Уваров
«Росатом»

Роль качества данных в инициативах Data Governance

Олег Гиацинтов
DIS Group

Data Quality в высоконагруженных федеральных проектах

Руслан Трачук
«Юнидата»

Достоверность данных — основа безопасности поставок и качества обслуживания

Андрей Кочнев
«Леруа Мерлен»
Дина Маканова
IDX

Профилирование как инструмент управления качеством данных

Роман Некрасов
Михаил Петров
Счетная палата РФ

Управление качеством данных в материально-техническом обеспечении

Ирина Радионова
«АЛРОСА»
Алла Токарева
KPMG

Как навести порядок в данных для сети медицинских лабораторий?

Владимир Колдаев
Loginom

Как качество данных влияет на результаты бизнеса

Максим Аннюк
Hitachi Vantara

Реструктуризация нормативно-справочной информации

Комплексные проекты по нормативно-справочной информации играют ключевую роль в обеспечении эффективности материально-технического обеспечения бизнеса, чувствительного к потерям из-за некачественных справочников.

Инструменты для «ковбоев»

«Выпас данных» — так можно перевести название новой специальности data wrangling, в задачу представителей которой входит подготовка больших массивов данных для последующего их анализа.

Универсальная платформа
управления данными

Универсальная платформа создания систем управления данными позволяет решать общие задачи обеспечения качества данных, их целостности и актуальности, а также...

СПРОСИ ЭКСПЕРТА

Big Data / Data Lake / Data Governance

Качество данных: как перестать его повышать и начать им управлять?

На конференции «Качество данных 2020» Алексей Незнанов рассмотрит типичные ошибки в области управления качеством данных.

Качество данных становится критически важным

Технический директор Syncsort размышляет об инфраструктуре данных и о проблемах, порожденных новыми технологиями и цифровыми преобразованиями.

«Леруа Мерлен»: качество данных как залог безопасности перевозок

В торговой сети реализуется проект автоматизированной верификации информации, среди целей которого : повышение безопасности перевозок, сокращение хищений, обеспечение надежности поставок товара, выявление неблагонадежных водителей.

Умное озеро данных «Газпром нефти»: как удивить Gartner

Иван Черницын, руководитель Центра аналитических решений Дирекции региональных продаж «Газпром нефти», рассказывает о создании умного озера данных — решения, аналогов которого нет не только в России, но и на Западе.

Конференция для:

бизнес-руководителей и руководителей проектов;
аналитиков, консультантов, специалистов по данным, экспертов по качеству данных;
архитекторов ИТ-систем и ИТ-директоров;
руководителей подразделений разработки и технических директоров;
администраторов систем управления данными.

Вернуться
к докладчикам

Алексей Незнанов, НИУ ВШЭ

Закончил МЭИ, кандидат технических наук. Работал программистом, аналитиком, научным сотрудником, преподавателем высшей школы (МЭИ, МФТИ, ВШЭ и др.) – подготовил несколько авторских курсов, включая «Проектирование взаимодействия с пользователем», «Распределенные системы» и «Прикладная теория графов». С 2002 года участвовал в различных проектах комплексной корпоративной автоматизации и аналитики, в частности, в ФГБУ «Федеральный научно-клинический центр детской гематологии, онкологии и иммунологии имени Дмитрия Рогачева». Имеет опыт разработки архитектуры и реализации систем интеллектуального анализа данных. Сейчас – старший научный сотрудник НИУ ВШЭ Международной научно-учебной лаборатории интеллектуальных систем и структурного анализа, а также доцент Департамента анализа данных и искусственного интеллекта.

Качество данных: стратегия, инструменты, практика

Лучший убийца любого проекта анализа данных – «грязные» исходные данные. «Что посеешь — то и пожнешь», причем независимо от уровня проекта: применяются ли лучшие в индустрии алгоритмы, уточняются ли бизнес-правила или обучаются нейросети. Тем не менее, в подавляющем большинстве проектов теме управления качеством данных (DQM) уделяется преступно мало внимания. Формализация мастер-данных? Сквозное версионирование справочников? Аудит исторических данных? Стандарты оценки качество данных? Что, вы – не знаем, не делаем.
В докладе рассматриваются возможности, подходы и стандарты, инструменты и лучшие практики управления качеством данных. От отдельных наборов и источников данных до гармонизации гетерогенных хранилищ данных. От прикладных онтологий до неструктурированных многоязычных текстов. От простейших реквизитов документов до систем иерархических метаданных. От ГОСТ Р 56214–2014 до определения качества больших данных. От корпоративных DQM-решений до сообществ «открытых данных» (Open Data). Особое внимание уделено методологии управления процессом принятия бизнес-решений на базе точных, полных, актуальных и проверяемых данных (DDDM). Кроме этого разбираются особенности реализации процессов сбора, анализа и интерпретации данных с обеспечением непрерывного улучшения их качества.

Вернуться
к докладчикам

Валерий Артемьев, Банк России

Более 40 лет в ИТ-индустрии. С 1993 года работает в Центральном Банке России, где планировал и руководил проектами по веб-приложениям, XML-форматам сбора отчетности, хранилищам данных и бизнес–аналитике. Руководил инновационными проектами и разрабатывал архитектуру решений централизованных прикладных систем. Участвовал в создании систем блока банковского надзора на основе технологий хранилищ данных и бизнес–аналитики, а также управления метаданными: ЕИСПД для мониторинга и анализа деятельности кредитных организаций; АКС для анализа платежной информации. Сейчас работает в Управлении методологического и организационного обеспечения, Департамент статистики и управления данными Банка России.

Управление качеством финансовых данных: вчера, сегодня и завтра

В области управления качеством данных (Data Quality Management) вчера требовалось выявить критические и важные данные, сформировать показатели качества и организовать конвейер обеспечения качества. Сегодня, кроме этого, становится актуально управление мастер-данными (Master Data Management): интеграция реестров, стандартизация контактов, именования персон и организаций, а также построение «золотых» записей. Однако, все это лишь обеспечивает качество данных на синтаксическом уровне (полнота, представление, содержимое и структура данных). Завтра – для предприятий цифровой экономики – будет востребован семантический взгляд на качество данных (именование, смысл данных и связи понятий), реализуемый в рамках управления метаданными (Metadata Management): консолидация и связывание метаданных, концептуальное и логическое моделирование данных, формирование классификаторов, ведение бизнес-глоссария и бизнес-правил, анализ происхождения и зависимости данных, а также регулирование в сфере управления данными (Data Governance). Доклад посвящен обсуждению задачи управления качеством корпоративных данных согласно DAMA DM BoK2. Рассматриваются примеры синтаксических дефектов и метрики качества финансовых данных; приводятся практические примеры их качества на семантическом уровне. Кроме этого, даются конкретные рекомендации по обеспечению качества финансовых данных.

Вернуться
к докладчикам

Сергей Сергиенко, НИИ «Восход»

Окончил факультет Кибернетики МИФИ. Почти 30 лет в ИТ-индустрии: EPAM Systems, IBS, предприятия банковской сферы. Занимался разработкой систем для банков, производства и государственных организаций. Имеет опыт проектирования и разработки крупных информационных систем для государственного сектора. Руководил проектами создания Автоматизированной системы Федерального казначейства, системы государственных закупок, ГИИС «Электронный бюджет» и др. Сейчас в НИИ «Восход» возглавляет направление НСУД (Национальная система управления данных).

Подходы к обеспечению качества данных в НСУД

Обеспечение качества государственных данных – одна из основных задач, которую должна решить создаваемая в России национальная система управления данными. Однако, несмотря на огромный потенциал, накопленных за последние годы технологий, качество государственных данных, на основании которых оказываются государственные услуги и реализуются функции, оставляет желать лучшего. Основная проблема состоит в отсутствии единой политики по управлению данными, находящихся в различных государственных информационных системах, управляемых разными операторами. Для разрешения накопившихся проблем и противоречий в НСУД предлагается комплексный подход, включающий нормативные, методические и технические аспекты обеспечения и улучшения качества данных. В докладе содержится обзор применяемых в НСУД подходов и рассказывается о целевой схеме обеспечения качества государственных данных.

Вернуться
к докладчикам

Константин Симаков, Лаборатория по извлечению информации

Окончил МГТУ им Н.Э. Баумана, к.т.н. Почти 20 лет в ИТ-индустрии, работал программистом, математиком и научным сотрудником в МГТУ им. Н.Э. Баумана, где принимал участие в НИР по обработке текстов на естественном языке. Руководил разработкой и внедрением полнотекстовых информационно-поисковых систем для аппарата Совета Федерации РФ. Сейчас – генеральный директор и руководитель проекта «Ахантер» (www.ahunter.ru), где занимается разработкой систем по исправлению, стандартизации и обогащению клиентских данных в интересах таких заказчиков, как: «Ростелеком», МТС, Интерфакс, Ariston, Allianz и ряда банков.

Очистка и стандартизация справочников с помощью ИИ

Важнейший актив любого успешного бизнеса – контактные клиентские данные, от качества которых непосредственно зависит возможность компании вести свою деятельность. Такие данные должны быть точными, полными и структурированными, в них не должно быть ошибок. Для решения этой задачи применяются различные способы и инструменты, приводящие исходные «грязные» данные к стандартному виду, используя эталонные справочники, а также выполняя оценку качества исходных сведений и, в случае необходимости, их обогащение. Доклад посвящен обзору архитектуры такого инструмента на примере веб-сервиса ahunter.ru. Основное внимание уделено особенностям построения эталонных справочников, которые использует этот сервис. Справочники собираются из открытых данных (ФИАС, OpenStreetMap, ЕГРЮЛ, неструктурированные тексты), которые изобилуют ошибками и дублями, поэтому перед использованием необходимо выполнить их очистку, исправление и стандартизацию. Выполнить такую работу вручную, проанализировав весь массив открытых данных невозможно, также как нельзя вручную создать исчерпывающую систему правил очистки. Для решения данной задачи в докладе рассматриваются сценарии применения методов искусственного интеллекта, позволяющие учесть все многообразие проблем, встречающихся в справочниках, и сформировать систему правил стандартизации на основе машинного обучения.

Вернуться
к докладчикам

Иван Черницын, «Газпром нефть»

Закончил Уральский государственный университет по специальностям «Математика, прикладная математика» и «Финансовый менеджмент», а также магистратуру со специализацией «Математическая экономика». Имеет диплом MBA Академии народного хозяйства при Правительстве РФ. Около 20 лет занимается организационно-информационными проектами и разработкой аналитических приложений. Принимал активное участие в проектах комплексной автоматизации предприятий сбытового блока в ПАО «Газпром нефть», с 2012 года руководит проектами построения систем бизнес-аналитики и хранилищ данных, а также управлением нормативно-справочной информацией. C 2018 года в «Газпром нефть» руководит созданием системы управления данными и озера данных, практиками data science и развития аналитических компетенций.

Практика управления качеством данных аналитических решений

Успех применения и развития аналитических инструментов в организации критически зависит от доверия пользователей к данным. Со временем сложность аналитики и связанные с этим риски доверия возрастают, поэтому элементы управления данными должны закладываться в фундамент аналитической программы. Доклад посвящен эволюции подходов и инструментов управления качеством данных аналитических решений (озеро данных, хранилище данных, бизнес-аналитика) в сбытовом блоке «Газпром нефти». Начавшись с задач обеспечения надежной работы отдельных приложений, практика работы с качеством стала частью комплексной системы управления данными. Особое внимание в докладе уделено организации работы с бизнес-заказчиками, имеющими различные уровни грамотности в работе с данными.

Вернуться
к докладчикам

Александр Хайтин, «Mechanica AI»

Закончил СПбГПУ, более 20 лет в ИТ-индустрии, специализируется на консалтинге, разработке и внедрении передовых для своего времени, а сегодня привычных технологий. Работал в «КОРУС консалтинг», где занимался анализом и изменением бизнес-процессов заказчиков, а также внедрением различных информационных систем. В Yandex Data Factory отвечал за продажи и реализацию решений на основе технологий машинного обучения. Сейчас генеральный директор и со-основатель компании Mechanica AI, специализирующейся на проектах искусственного интеллекта для промышленности. Компания готовит решения (прогнозная и рекомендательная аналитика) по оптимизации непрерывных производств: металлургия, химическая промышленность и др.

Дмитрий Карбасов, Евразийская Группа

Ложка дегтя в Data Lake

Алгоритмы машинного обучения могут работать даже на далеких от идеала данных, содержащих выбросы, пропуски и ошибки, однако существует некоторый предел качества данных, после которого уже ни алгоритмы, ни экспертиза, ни квалификация специалистов не помогут построить качественную модель. Как показывает опыт, подготовка данных занимает до 80% объема работ, но при этом накоплению исторических данных, необходимых для построения модели часто не уделяется должного внимания, что приводит к значительным потерям времени.
Заявленные в проекте цели по оптимизации производства с помощью обработки больших массивов накопленных данных, например в металлургии могут оказаться недостижимы если при накоплении исторических данных были допущены, возможно, малозаметные, но критические ошибки. Иногда даже одна ошибка в данных, собираемых с производственной линии может привести к задержке проекта на десятки месяцев и практически обесценить усилия по сбору данных. Доклад посвящен обсуждению практического опыта выполнения проекта для предприятия черной металлургии, в ходе которого выявились критические проблемы с историческими данными. Отдельное внимание уделено рекомендациям по предотвращению подобных ситуаций, путей выхода из них и разбору сценариев устранения последствий.

Вернуться
к докладчикам

Роман Некрасов, Счетная палата РФ

Получил высшее техническое образование. Более десяти лет в ИТ-индустрии – занимался собственными интернет-проектами и стартапами. Специализируется на исследовании данных, анализе временных рядов, финансовой и текстовой аналитике. С 2019 года работает в «Центре экспертно-аналитических и информационных технологий» Счетной палаты РФ, где в команде, отвечающей за построение «озера данных» и развитие цифровых методов аудита, занимается за аналитикой данных и моделированием.

Михаил Петров, Счетная палата РФ

Более 20 лет в ИТ-индустрии, работал в ведущих российских и зарубежных консалтинговых компаниях: аудиторская компания ФБК (Финансовые и бухгалтерские консультанты), PriceWaterhouseCoopers, i2, а также в Оргкомитете «Сочи 2014», где прошел путь от руководителя Управления ERP до Директора Технологического Операционного Центра, отвечавшего за поддержку всех технологических сервисов для десятков тыс. пользователей на всех объектах Игр. В Минкомсвязи РФ руководил программой подготовки к Чемпионату Мира по футболу 2018 года. Принимал участие в создании Проектного офиса Национальной Технологической Инициативы (НТИ). На позиции директора по управлению проектами цифровой трансформации ВТБ работал над организацией корпоративного акселератора и организацией инвестиций в финтех-проекты. Сейчас в Счетной палате Российской Федерации организует аналитическую работу с данными в области государственного аудита и контроля.

Профилирование как инструмент управления качеством данных

Профилирование – эффективный инструмент измерения качества данных непосредственно в их источнике, однако этот метод незаслуженно редко применяется в рамках конвейера доставки данных до приемника. Тем не менее, именно профилирование, построенное на статистических метриках и моделях, позволяет не «утонуть в море данных», обеспечив объективную оценку их качества. На реальном примере из практики Счетной палаты в докладе показывается как управлять качеством данных с помощью профилирования – сбора характеристик и параметров работы «озера данных». В ходе «живого» мастер-класса средствами асинхронных скриптов демонстрируется работа поискового робота (краулера) на массивах реестров Министерства финансов РФ и Федерального казначейства для нахождения в них синтаксических и семантических аномалий. Охота за такими аномалиями – задача инспекторов Счетной палаты, контролирующих качество информационных систем и реестров государственных данных, которые ведут органы федеральной власти.

Вернуться
к докладчикам

Алла Токарева, KPMG

Закончила Тульский политехнический институт по специальности экономика и организация машиностроительной промышленности, а также аспирантуру Института проблем управления по специальности Управление в социально-экономических системах. Около 40 лет в ИТ-индустрии, из которых почти 20 лет занимается решениями в области качества данных, включая: внедрение MDM-систем, консалтинг и очистку данных. Работала директором Центра и Дирекции разработки и внедрения комплексных решений в ИК «СИБИНТЕК», заместителем генерального директора НЦИТ «ИНТЕРТЕХ», директором департамента систем управления НСИ в компании «CompuTel» (CSM). Сейчас в компании KPMG руководит направлением НСИ в группе консультирования в области закупок и цепочек поставок.

Ирина Радионова, «АЛРОСА»

Закончила Иркутский государственный педагогический университет по специальности математика и информатика. В компании АЛРОСА работает более 20, из которых более 10 лет занимается НСИ. Принимала активное участие во внедрении различных ИТ-проектов: внедрение системы ведения НСИ DIP, внедрение системы КИИСУ на базе SAP, заказ и поставка проектного оборудования на базе SAP и др. В 2018-19гг. - проект KPMG в части нормализации справочника МТР). Сейчас в компании АЛРОСА возглавляет службу НСИ.

Управление качеством данных в материально-техническом обеспечении

Справочники номенклатуры востребованы во множестве корпоративных информационных систем и прежде всего в системах управления материально-техническим обеспечением (МТО), поэтому неудивительно, что именно с централизованного ведения этих справочников началось внедрение систем управления основными данными (MDM, Master Data Management). Однако управление и поддержка в актуальном состоянии таких объемных и сложных справочников весьма нетривиальная задача, особенно для крупных территориально-распределенных предприятий. Доклад посвящен изложению опыта выполнения проекта реструктуризации справочника номенклатуры, а также всей нормативно-справочной информации (НСИ) по материально-техническим ресурсам (МТР) в ходе трансформации системы МТО компании «АЛРОСА». Особое внимание уделено разбору путей решения проблем, вызванных реструктуризацией устоявшихся процессов и подходов к ведению НСИ, а также необходимостью обеспечения слаженной работы всех бизнес-подразделений.

Вернуться
к докладчикам

Андрей Кочнев, «Леруа Мерлен»

Закончил Рязанский Институт Воздушно-десантных войск, Костромской государственный университет им. Н.А.Некрасова по специальности «Юриспруденция» и получил дополнительное образование на базе Военно-воздушной академии им. Н.Е.Жуковского и Ю.А.Гагарина по специальности «Менеджмент». Более 10 лет работает в сфере безопасности бизнеса (обеспечение безопасности складской и транспортной логистики). Работал, в частности, в компаниях STS Logistics и SIA International Ltd. Сейчас – руководитель проектов по безопасности цепочки поставок отдела логистических операций и транспортной логистики ООО "Леруа Мерлен Восток".

Дина Маканова, IDX

Получила высшее экономическое образование. Почти 10 лет работает в сфере управления рисками в интересах корпоративных клиентов, а также области финансового консалтинга ("Альфа-банк", и др.). Сейчас – руководитель направления «Решения по управлению рисками» в компании IDX, где отвечает за разработку и реализацию проектов по борьбе с фродом, мошенничеством, оценкой благонадежности физических лиц.

Достоверность данных – основа безопасности поставок и качества обслуживания

С развитием новых технологий способы хищений товара приобретают все более изощренные виды, а значит нужны новые методы по повышению безопасности цепочек поставок. Как обработать большие объемы информации и исключить человеческий фактор, как основной риск в рамках осуществления проверок по допуску водителей и транспортных средств к перевозке грузов? Как быстро и качественно помочь набрать честный персонал для работы на складах и в магазинах?
Компания «Леруа Мерлен», проанализировав представленные на рынке продукты, сделала выбор в пользу автоматизированных решений на основе достоверных данных. Данные должны обладать следующими качествами: актуальность, доступность, полнота и оперативность предоставления. Компания IDX – технологический партнер «Леруа Мерлен» в этом проекте – специализируется на верификации личной информации, документов, проверке сотрудников, обладает набором источников достоверных данных. Тема доклада – где взять качественные данные и как их использовать оптимальным образом.

Вернуться
к докладчикам

Сергей Горшков, «ТриниДата»

Более 20 лет работает в области создания сложных систем автоматизированной обработки знаний и поддержки принятия решений. Архитектор ряда автоматизированных систем, работающих сегодня на крупнейших отечественных предприятиях. Специалист по разработке инструментов структурирования знаний, интеллектуальных алгоритмов обработки информации, созданию ситуационных центров и витрин данных. Автор методического пособия «Введение в онтологическое моделирование» и соавтор монографии «Онтологическое моделирование предприятий». Сейчас – директор компании «ТриниДата», специализирующейся на реализации проектов создания ИТ-архитектур, интеграции и анализа данных, управления корпоративными знаниями.

Контроль качества данных на основе инструментов логического вывода

Контроль качества данных в конечном счете выполняется на основе бизнес-логики, однако эффективность и управляемость этого процесса во многом зависят от используемых средств. Естественный и гибкий способ выражения условий контроля качества – это правила логического вывода, построенные с помощью спецификации SHACL (Shapes Constraint Language) консорциума World Wide Web, предназначенной для проверки данных на основе графиков. Для создания таких правил требуется онтологическая модель предметной области, спроецированная на структуру данных. Таким образом, создание правил контроля качества данных и других инструментов data governance – это часть процесса построения логической витрины или «озера» данных, основанного на применении онтологической модели предметной области. Доклад посвящен обзору подходов и инструментов контроля качества данных на основе технологий онтологического моделирования и использования правил логического вывода.

Вернуться
к докладчикам

Михаил Александров, SAS

Более 10 лет работает в сфере разработки и внедрения аналитических систем. В компаниях Tops Business Integrator, BearingPoint и Teradata работал архитектором и руководителем проектов внедрения систем управления эффективностью и аналитической отчетности в интересах производственных и финансовых корпораций. Сейчас руководит практикой платформных решений SAS Россия/СНГ, отвечая, в частности, за инструменты анализа, визуализации данных и интеграции, а также управления качеством данных и НСИ.

Как превратить терабайты в бизнес-активы?

Данные – ключевой фактор эффективности бизнеса в цифровой экономике, однако, успешных проектов по монетизации данных пока еще много меньше, чем ожидают руководители бизнеса и виной тому низкое качество данных, беспорядок в которых не позволяет получить достоверные результаты. Сегодня имеется гораздо больше способов взаимодействия между компанией и клиентами, чем раньше, но проблемой является недостаточное понимание того, как извлекать ценные знания из такого взаимодействия. Монетизации данных мешают недочеты в бизнес-стратегии, отсутствие правильных структур и автоматического конвейера по проверке качества данных, для которого необходимы инструменты консолидации всех метаданных от разрозненных систем ИТ-ландшафта. Для надежного и отлаженного процесса обеспечения качества данных требуется комплексный подход, включающий процедуры, инструменты и бизнес-экспертизу. Доклад посвящен обзору инструментальных средств управления качеством данных, предлагаемых сегодня компанией SAS.

Вернуться
к докладчикам

Олег Гиацинтов, DIS Group

Закончил МГТУ им. Н.Э.Баумана. Более 20 лет в ИТ-индустрии, из которых 15 лет – руководство ИТ-проектами. Работал в компаниях ЛАНИТ, АВТОМИР и XEROX. Эксперт в области стратегического управления и интеграции данных, обеспечения качества и управления нормативно-справочной информацией (мастер-данными), управления знаниями, а также построения дата-центричных бизнес-процессов. Сейчас – технический директор компании DIS Group, где отвечает за консалтинг, обучение партнеров и клиентов, а также руководит техническими специалистами и собственными разработками компании.

Роль качества данных в инициативах Data Governance

Согласно исследованиям DIS Group, в 2019 году 33% крупных российских компаний внедряли у себя Data Governance (DG) в надежде обеспечить прозрачность данных, удобный доступ к ним, возможность отслеживания взаимосвязей между данными, унифицировать терминологию, а также зафиксировать правила и метрики качества данных. К сожалению, многие компании не уделяют должного внимания обеспечению качества данных внутри инициатив DG или организуют его неэффективно. Как следствие, корпоративная аналитика и отчетность изобилуют неточностями и ошибками, а исправить ситуацию невозможно из-за отсутствия общей картины с качеством данных. В докладе на примере реальных проектов показана роль обеспечения качества данных в проектах DG, а также обсуждаются правила настройки и метрики качества. Особое внимание уделено инструментам, позволяющим достигнуть максимальной эффективности для обеспечения качества данных и особенностям их оптимальной настройки.

Вернуться
к докладчикам

Иван Исаев, МТС

Обучался на факультете прикладной математики и информатики Самарского национального исследовательского университета. В 2014 году основал компанию Astera.in, специализирующуюся на предсказательном моделировании процессов предприятий с непрерывным производственным циклом. Компания реализовала десятки проектов в интересах таких компаний как ЕВРАЗ, АО «ОХК «Уралхим», ОК «РУСАЛ», ПАО «Россети» и др., выступив в качестве подрядчик промышленных внедрений для Уралхим, «Газпром нефть» и крупной металлургической компании. Руководил направлением Data Science в компании Altarix, где занимался решениями прогнозной аналитики для предприятий химической, металлургической, горно-добывающей и нефтегазовой индустрий. Сейчас – руководитель направления промышленного анализа данных в ПАО «МТС».

Применение технологий ИИ в условиях отсутствия качественных данных

На предприятиях с непрерывным производственным циклом (химическая, металлургическая промышленность, добыча углеводородов и пр.) данные, используемые для моделирования процессов с помощью технологий искусственного интеллекта часто оказываются весьма низкого качества, либо их мало для достоверного прогнозирования. Доклад посвящен изложению опыта создания и эксплуатации комплекса "Третьего мнения", используемого при прогнозировании инцидентов для процесса бурения в нефтегазовых компаниях в условиях недостатка данных или при их низком качестве, вызванном постоянно меняющимися свойствами месторождения углеводородов. При решении задачи нехватки данных применялась техника искусственного синтезирования для «прогрева» и обучения модели, а для работы со сложной и изменчивой предметной областью потребовались специальные техники формализации и выявления необходимых данных.