Стратегия, инструменты, практика

5 февраля 2020
Россия
Москва

Конференция «Качество данных 2020»

Данные сегодня – ключевой фактор бизнеса, однако грязные данные не позволят предприятиям получить ожидаемых преимуществ. Конференция о том, как обеспечить качество данных в соответствии с целями их использования , гарантировав полноту, точность, корректность и актуальность.

ДМИТРИЙ ВОЛКОВ
программный директор серии практических конференций издательства
«Открытые системы».
Магия новейших технологий завораживает и многие компании стремятся их использовать, основываясь на всех имеющихся ретроспективных и оперативных данных. Однако, независимо от объемов и темпов генерации данных, верные управленческие решения возможны лишь на основе данных надлежащего качества, обсуждению процессов обеспечения которого и посвящена конференция.
Close
Close
Для связи с организаторами
conf@osp.ru
Что мешает превращению корпоративных данных в бизнес-активы?
Что означает «качество данных»: проблемы и метрики оценки?
Как построить стратегию управления качеством данных?
Архитектура корпоративного «озера» с чистыми данными?
Как создать управляемый каталог подсистемы качества данных?
Где найти эффективные инструменты очистки данных?
В программе:
Стратегии
Синтаксическое качество данных:
Полнота, допустимость, согласованность, связность, уникальность, актуальность
Особенности качества мастер-данных
Конвейер качества данных (аудит, контроль, измерение, мониторинг и управление инцидентами/проблемами, информирование)
Интеграция данных (очистка, преобразование и обогащение)
Управление качеством данных и DataOps

Семантическое качество данных:
Релевантность и понятность
Классификация, моделирование данных и бизнес-правила
Управление метаданными (бизнес-глоссарий, учет данных, интеграция и связывание метаданных, анализ
происхождения и зависимости данных)
Data Governance (стратегия, стандарты, политики, процедуры, процессы, владельцы и кураторы данных)
    Инструменты
    Критерии выбора

    Универсальные решения: Платформы от Informatica, IBM, SAP, Talend и др.

    Управление качеством данных: Informatica Data Quality, SAP Data Services, SAS DQ, IBM InfoSphere QualityStage и др. (Talend, Attaccama, Experian, Data Ladder)

    Управление реестрами и справочниками: Informatica MDM, SAP Master Data Governance, IBM InfoSphere MDM и др. (Tibco, Talend, Attaccama)

    Интеграция данных, очистка: Informatica Power Center, IBM InfoSphere DataStage, Syncsort Trillium и другие (SAP, SAS, Talend, Alteryx, Pentaho)

    Управление метаданными и Data Governance: Informatica Enterprise Data Catalog и Axon, Alation, Collibra Data Governance Center, IBM InfoSphere Information Governance Catalog и др.
    Кейсы
    Спикеры:
    Конференция для:
    • бизнес-руководителей и руководителей проектов;
    • аналитиков, консультантов, специалистов по данным, экспертов по качеству данных;
    • архитекторов ИТ-систем и ИТ-директоров;
    • руководителей подразделений разработки и технических директоров;
    • администраторов систем управления данными.
    Вернуться
    к докладчикам
    Алексей Незнанов,
    НИУ ВШЭ
    Закончил МЭИ, кандидат технических наук. Работал программистом, аналитиком, научным сотрудником, преподавателем высшей школы (МЭИ, МФТИ, ВШЭ и др.) – подготовил несколько авторских курсов, включая «Проектирование взаимодействия с пользователем», «Распределенные системы» и «Прикладная теория графов». С 2002 года участвовал в различных проектах комплексной корпоративной автоматизации и аналитики, в частности, в ФГБУ «Федеральный научно-клинический центр детской гематологии, онкологии и иммунологии имени Дмитрия Рогачева». Имеет опыт разработки архитектуры и реализации систем интеллектуального анализа данных. Сейчас – старший научный сотрудник НИУ ВШЭ Международной научно-учебной лаборатории интеллектуальных систем и структурного анализа, а также доцент Департамента анализа данных и искусственного интеллекта.
    Качество данных – альфа и омега корпоративной аналитики

    Лучший убийца любого проекта анализа данных – «грязные» исходные данные. «Что посеешь — то и пожнешь», причем независимо от уровня проекта: применяются ли лучшие в индустрии алгоритмы, уточняются ли бизнес-правила или обучаются нейросети. Тем не менее, в подавляющем большинстве проектов теме управления качеством данных (DQM) уделяется преступно мало внимания. Формализация мастер-данных? Сквозное версионирование справочников? Аудит исторических данных? Стандарты оценки качество данных? Что, вы – не знаем, не делаем.
    В докладе рассматриваются возможности, подходы и стандарты, инструменты и лучшие практики управления качеством данных. От отдельных наборов и источников данных до гармонизации гетерогенных хранилищ данных. От прикладных онтологий до неструктурированных многоязычных текстов. От простейших реквизитов документов до систем иерархических метаданных. От ГОСТ Р 56214–2014 до определения качества больших данных. От корпоративных DQM-решений до сообществ «открытых данных» (Open Data). Особое внимание уделено методологии управления процессом принятия бизнес-решений на базе точных, полных, актуальных и проверяемых данных (DDDM). Кроме этого разбираются особенности реализации процессов сбора, анализа и интерпретации данных с обеспечением непрерывного улучшения их качества.
    Вернуться
    к докладчикам
    Валерий Артемьев,
    Банк России
    Более 40 лет в ИТ-индустрии. С 1993 года работает в Центральном Банке России, где планировал и руководил проектами по веб-приложениям, XML-форматам сбора отчетности, хранилищам данных и бизнес–аналитике. Руководил инновационными проектами и разрабатывал архитектуру решений централизованных прикладных систем. Участвовал в создании систем блока банковского надзора на основе технологий хранилищ данных и бизнес–аналитики, а также управления метаданными: ЕИСПД для мониторинга и анализа деятельности кредитных организаций; АКС для анализа платежной информации. Сейчас работает в Управлении методологического и организационного обеспечения, Департамент статистики и управления данными Банка России.
    Управление качеством финансовых данных: вчера, сегодня и завтра

    В области управления качеством данных (Data Quality Management) вчера требовалось выявить критические и важные данные, сформировать показатели качества и организовать конвейер обеспечения качества. Сегодня, кроме этого, становится актуально управление мастер-данными (Master Data Management): интеграция реестров, стандартизация контактов, именования персон и организаций, а также построение «золотых» записей. Однако, все это лишь обеспечивает качество данных на синтаксическом уровне (полнота, представление, содержимое и структура данных). Завтра – для предприятий цифровой экономики – будет востребован семантический взгляд на качество данных (именование, смысл данных и связи понятий), реализуемый в рамках управления метаданными (Metadata Management): консолидация и связывание метаданных, концептуальное и логическое моделирование данных, формирование классификаторов, ведение бизнес-глоссария и бизнес-правил, анализ происхождения и зависимости данных, а также регулирование в сфере управления данными (Data Governance). Доклад посвящен обсуждению задачи управления качеством корпоративных данных согласно DAMA DM BoK2. Рассматриваются примеры синтаксических дефектов и метрики качества финансовых данных; приводятся практические примеры их качества на семантическом уровне. Кроме этого, даются конкретные рекомендации по обеспечению качества финансовых данных.
    Вернуться
    к докладчикам
    Сергей Сергиенко,
    НИИ «Восход»
    Окончил факультет Кибернетики МИФИ. Почти 30 лет в ИТ-индустрии: EPAM Systems, IBS, предприятия банковской сферы. Занимался разработкой систем для банков, производства и государственных организаций. Имеет опыт проектирования и разработки крупных информационных систем для государственного сектора. Руководил проектами создания Автоматизированной системы Федерального казначейства, системы государственных закупок, ГИИС «Электронный бюджет» и др. Сейчас в НИИ «Восход» возглавляет направление НСУД (Национальная система управления данных).
    Вернуться
    к докладчикам
    Константин Симаков,
    Лаборатория по извлечению информации
    Окончил МГТУ им Н.Э. Баумана, к.т.н. Почти 20 лет в ИТ-индустрии, работал программистом, математиком и научным сотрудником в МГТУ им. Н.Э. Баумана, где принимал участие в НИР по обработке текстов на естественном языке. Руководил разработкой и внедрением полнотекстовых информационно-поисковых систем для аппарата Совета Федерации РФ. Сейчас – генеральный директор и руководитель проекта «Ахантер» (www.ahunter.ru), где занимается разработкой систем по исправлению, стандартизации и обогащению клиентских данных в интересах таких заказчиков, как: «Ростелеком», МТС, Интерфакс, Ariston, Allianz и ряда банков.
    Очистка и стандартизация справочников с помощью ИИ

    Важнейший актив любого успешного бизнеса – контактные клиентские данные, от качества которых непосредственно зависит возможность компании вести свою деятельность. Такие данные должны быть точными, полными и структурированными, в них не должно быть ошибок. Для решения этой задачи применяются различные способы и инструменты, приводящие исходные «грязные» данные к стандартному виду, используя эталонные справочники, а также выполняя оценку качества исходных сведений и, в случае необходимости, их обогащение. Доклад посвящен обзору архитектуры такого инструмента на примере веб-сервиса ahunter.ru. Основное внимание уделено особенностям построения эталонных справочников, которые использует этот сервис. Справочники собираются из открытых данных (ФИАС, OpenStreetMap, ЕГРЮЛ, неструктурированные тексты), которые изобилуют ошибками и дублями, поэтому перед использованием необходимо выполнить их очистку, исправление и стандартизацию. Выполнить такую работу вручную, проанализировав весь массив открытых данных невозможно, также как нельзя вручную создать исчерпывающую систему правил очистки. Для решения данной задачи в докладе рассматриваются сценарии применения методов искусственного интеллекта, позволяющие учесть все многообразие проблем, встречающихся в справочниках, и сформировать систему правил стандартизации на основе машинного обучения.
    Вернуться
    к докладчикам
    Иван Черницын,
    «Газпром нефть»
    Закончил Уральский государственный университет по специальностям «Математика, прикладная математика» и «Финансовый менеджмент», а также магистратуру со специализацией «Математическая экономика». Имеет диплом MBA Академии народного хозяйства при Правительстве РФ. Около 20 лет занимается организационно-информационными проектами и разработкой аналитических приложений. Принимал активное участие в проектах комплексной автоматизации предприятий сбытового блока в ПАО «Газпром нефть», с 2012 года руководит проектами построения систем бизнес-аналитики и хранилищ данных, а также управлением нормативно-справочной информацией. C 2018 года в «Газпром нефть» руководит созданием системы управления данными и озера данных, практиками data science и развития аналитических компетенций.
    Практика управления качеством данных аналитических решений

    Успех применения и развития аналитических инструментов в организации критически зависит от доверия пользователей к данным. Со временем сложность аналитики и связанные с этим риски доверия возрастают, поэтому элементы управления данными должны закладываться в фундамент аналитической программы. Доклад посвящен эволюции подходов и инструментов управления качеством данных аналитических решений (озеро данных, хранилище данных, бизнес-аналитика) в сбытовом блоке «Газпром нефти». Начавшись с задач обеспечения надежной работы отдельных приложений, практика работы с качеством стала частью комплексной системы управления данными. Особое внимание в докладе уделено организации работы с бизнес-заказчиками, имеющими различные уровни грамотности в работе с данными.
    Вернуться
    к докладчикам
    Александр Хайтин,
    «Mechanica AI»
    Закончил СПбГПУ, более 20 лет в ИТ-индустрии, специализируется на консалтинге, разработке и внедрении передовых для своего времени, а сегодня привычных технологий. Работал в «КОРУС консалтинг», где занимался анализом и изменением бизнес-процессов заказчиков, а также внедрением различных информационных систем. В Yandex Data Factory отвечал за продажи и реализацию решений на основе технологий машинного обучения. Сейчас генеральный директор и со-основатель компании Mechanica AI, специализирующейся на проектах искусственного интеллекта для промышленности. Компания готовит решения (прогнозная и рекомендательная аналитика) по оптимизации непрерывных производств: металлургия, химическая промышленность и др.
    Ложка дегтя в Data Lake

    Алгоритмы машинного обучения могут работать даже на далеких от идеала данных, содержащих выбросы, пропуски и ошибки, однако существует некоторый предел качества данных, после которого уже ни алгоритмы, ни экспертиза, ни квалификация специалистов не помогут построить качественную модель. Как показывает опыт, подготовка данных занимает до 80% объема работ, но при этом накоплению исторических данных, необходимых для построения модели часто не уделяется должного внимания, что приводит к значительным потерям времени.
    Заявленные в проекте цели по оптимизации производства с помощью обработки больших массивов накопленных данных, например в металлургии могут оказаться недостижимы если при накоплении исторических данных были допущены, возможно, малозаметные, но критические ошибки. Иногда даже одна ошибка в данных, собираемых с производственной линии может привести к задержке проекта на десятки месяцев и практически обесценить усилия по сбору данных. Доклад посвящен обсуждению практического опыта выполнения проекта для предприятия черной металлургии, в ходе которого выявились критические проблемы с историческими данными. Отдельное внимание уделено рекомендациям по предотвращению подобных ситуаций, путей выхода из них и разбору сценариев устранения последствий.
    Стоимость участия
    в рублях
    9900
    При оплате по 31.12.2019
    12900
    При оплате с 9.01.2020
    9900
    За каждого участника
    по коллективным заявкам
    (от 3 человек)

    Информационные партнеры