Доклады
Андрей Николаенко
IBS
Занимается проектированием серийных аппаратно-программных инфраструктурных и платформных комплексов, в качестве системного архитектора принимал участие в создании крупномасштабных информационных систем для федеральных структур, предприятий энергетики и ЖКХ, операторов связи. Сфера интересов — функциональное программирование для систем работы с большими данными, систематизация и энциклопедизация знаний по кластерным платформам и методам обработки данных.
Инструменты больших данных: от конкуренции к интеграции
Hadoop ворвался в мир корпоративных хранилищ — традиционную вотчину массово-параллельных реляционных СУБД, а на роль централизованных платформ данных сегодня претендуют резидентные гриды данных. С другой стороны, Hadoop и передовые NoSQL-системы «заговорили» на SQL, а реляционные СУБД научились выполнять задания MapReduce и овладели эффективным хранением JSON. Но такая конкуренция за ниши стала не только источником бурного развития самих инструментов, но и инициировала процессы интеграции инструментов. Уже сейчас можно на при помощи одной методики проектировать хранилища и на HDFS, и на MPP-СУБД, а одним SQL-запросом можно «обойти» базы данных всех видов — от резидентных гридов и NoSQL-систем до РСУБД и Hadoop. В докладе приводится обзор современных технологий больших данных и анализируются тенденции их взаимодополнения и сосуществования.
Денис Аникин
Mail.ru
Отвечает за технологическую инфраструктуру почтовых и облачных сервисов компании Mail.Ru. Эксперт по распределенным высоконагруженным системам и оптимизации инфраструктуры для выполнения масштабируемых нагрузок. За двенадцать лет профессиональной деятельности Денис вырос от программиста до технического директора.
Хранилище данных Интернета вещей
Без СУБД не обходится ни один Интернет-сервис – базы данных являются основой любой современной ИТ-инфраструктуры, причем сегодня они должны автоматически распределяться по различным узлам, обладать средствами восстановления в случае отказа оборудования и масштабироваться в зависимости от текущей нагрузки. Все это особенно важно для Интернета вещей, для поддержки которых возможностей традиционных СУБД недостаточно. В докладе на примере открытой системы Tarantool, преимущества которой уже оценили такие компании как Yota, «ВымпелКом», Badoo, Avito, QIWI и Wallarm, будет показано какой должна быть СУБД для поддержки решений Интернета вещей, позволяющая обрабатывать информацию в реальном времени.
Дмитрий Бабаев
МТС, OpenDataScience
Эксперт по наукам о данных в компании МТС. В должности data scientist занимается всем, что связано машинным обучением и работой с данными. Ранее работал в Tinkoff Bank и Яндекс.
Организация больших данных для их эффективного использования в машинном обучении
В докладе пойдет речь о типах данных, образующих нынешние «большие данные» на примере проблем, решаемых сегодня телеком-операторами и Интернет-компаниями. Будут рассмотрены способы представления данных применительно к задачам машинного обучения. Особое внимание в докладе будет уделено алгоритмам машинного обучения, позволяющим получить компактные представления больших данных, экономящим компьютерные ресурсы без потери качества решения реальных задач.
Артем Данилов
Avito.ru
Архитектор хранилища данных в Avito.ru, занимается разработкой хранилищ с 2011 года, в частности, в компании ВТБ Факторинг. С 2014 года создает хранилище на платформе HPE Vertica. Специализируется на создании распределенных систем хранения и анализе данных.
Развитие хранилища Avito.ru – от больших к очень большим данным
На первый взгляд, проектирование хранилища данных – типовая задача: собрать требования, построить модель данных и реализовать ETL, однако лавинообразный рост объема данных и их сложности легко может нарушить работоспособность хранилища. В докладе показано, как, вслед за расширением бизнеса, хранилище Авито за несколько лет выросло до 76 Тбайт: откуда вообще у компании большие данные; в чем состоят основные принципы аналитики; как эволюционировало хранилище Avito.ru. Особое внимание уделено ответу на вопрос: почему следование ограничениям шестой нормальной формы (Anchor Modeling) помогает оперативно расширять хранилище, эффективно масштабировать нагрузку в среде MPP СУБД и развиваться в условиях микросервисов.
Александр Сидоров
HeadHunter
Руководит направлением анализа данных в компании HeadHunter, занимается разработкой и развитием поисковых и рекомендательных систем, метрик и автомодерацией. Работал менеджером проектов и руководителем сервисов в компании Яндекс. С 2004 года увлекается проектированием и разработкой систем с элементами искусственного интеллекта.
Машинное обучение: умный поиск работников и работодателей
Значительное время специалистов по подбору кадров обычно уходит на разбор резюме и определение кого из претендентов на вакансию следует приглашать на очное или телефонное собеседование. Аналогичная ситуация возникает и при выборе работодателя – на личной странице соискателя необходимо выводить перечень вакансий наиболее точно отражающий его запросы. В докладе показано, как технологии машинного обучения позволили компании HeadHunter упростить поиск работы и найм сотрудников, на десятки процентов повысив точность рекомендаций и в каком направлении будет развиваться проект обработки больших данных.
Олег Финошин
Vizex
Создатель и первый руководитель служб оперативной информационной графики холдинга ВГТРК и телеканала «Рен-ТВ», разработчик информационного центра «Выборы» Центральной избирательной комиссии РФ, Ситуационного центра МО РФ, Центра мониторинга ЕМИАС и ряда других федеральных проектов. Курирует разработку новых программных инструментов для интерактивной визуализации аналитических, статистических и картографических данных, разрабатывает методы анализа информации и аналитические инфографические инструменты для государственных и частных компаний, которым требуется визуализация в реальном времени актуальных параметров бизнес-процессов.
Визуальный анализ — выявление скрытых проблем и их решений в больших массивах данных: медицина, производство, транспорт и др.
Визуальный анализ данных призван вовлечь человека в процесс обнаружения знаний в больших объемах сырых данных путем их представления в форме, обеспечивающей обнаружение скрытых закономерностей и аномалий, невозможное в случае применения какой-либо алгоритмической идентификации. В докладе показано как с помощью новых технологий интерактивной визуальной работы с большими массивами оперативной и стратегической информации погрузить человека в данные и через визуальные образы дать ему инструменты восприятия существующих проблем и возможных путей их решения. Особое внимание будет уделено способам интегрированного представления множества влияющих на проблему аспектов с целью облегчения понимания информационных, управленческих и финансово-экономических процессов, а также обнаружения их взаимосвязей.
Валерий Артемьев
Банк России
Окончил МВТУ имени Н.Э. Баумана, проходил стажировку по банковским системам в Великобритании по программе TACIS, изучал методы и средства создания аналитических систем и хранилищ данных в лаборатория IBM Silicon Valley Lab, получил квалификацию бизнес–аналитика по большим данным. В отраслевой лаборатории МГТУ им. Н.Э. Баумана совмест­но с НИИ «Восход» проводил анализ и моде­лирования ИВС специаль­ного на­зна­чения. С 1993 года Валерий работает в подразделении информатизации Центрального банка России, планировал и руководил проектами по web-приложениям, XML-форматам сбора отчетности, хранилищам данных и бизнес­–аналитике. Участвовал в создании централи­зованных систем для блока банков­ского надзора Банка России на основе технологий хранилищ данных и бизнес–аналити­ки: ЕИСПД для монито­рин­га и анализа деятельности кредитных организаций и АКС для анализа платежной информации. Сейчас работает архитектором ИТ-решений в должности консультанта Департамента информационных технологий Банка России.
Причины неудач проектов больших данных
Сегодня произошла консолидация технологий, связанных с обработкой больших данных – уровень зрелости и освоения этих технологий стал важной составляющей успеха проектов в условиях вольницы Open source и наличия корпоративных устоев. Однако оказалось, что одних лишь технологий для успеха проектов больших данных недостаточно.
Новые возможности для работы с большими данными вызвали всплеск интереса к продвинутой аналитике (машинному обучению, искусственному интеллекту и др.), data mining и исследованию данных. Открылись новые горизонты для предписывающей аналитике, анализа текстов, изменилось само отношение к качеству данных. Однако возник дефицит специалистов, обладающих знаниями и навыками в области анализа данных, программирования, управления данными и лингвистики. Вместе с тем, включение data scientists в проектную команду — необходимое, но не достаточное для успеха проекта условие.
Любой проект больших данных – это конкретная предметная область, однако недостаток знаний его участников в конкретной прикладной сфере, отсутствие постановок задач анализа и критериев эффективности их решения, а также неосведомленность бизнес–аналитиков о потенциале технологий больших данных, методов и средств их анализа приводят к краху проекта.
Доклад посвящен изложению причин неудач проектов больших данных и рекомендациям по устранению возникающих на их пути барьеров.
Евгений Линник
«Техносерв»
Окончил Современную Гуманитарную Академию по специальности "Информатика и вычислительная техника". В период 2006-2013 годы занимался разработкой различных информационных систем в крупных коммерческих организациях, включая "Газпром" и "Альфа-Банк". Начиная с 2015 года, занимается развитием направления BigData в компании "Техносерв", а с 2016 года работает директором департамента больших данных.
Большие данные в системах противодействия мошенничеству
В последние три года технологии больших данных все шире используются бизнесом для решения повседневных задач и одна из проблем, с которой можно эффективно справиться с помощью, например, алгоритмов machine learning ─ это борьба с мошенничеством в финансовом секторе. В докладе анализируется опыт решения задачи выявления мошенничества с помощью инструментов из экосистемы Hadoop и Spark MLlib.
Максим Савченко
"Сбербанк-Технологии"
Получил степень магистра в МФТИ, работал в Исследовательском центре им. М.В. Келдыша, Лаборатории квантовой химии AlgoDign и в Институте теоретической и прикладной электродинамики РАН. С середины нулевых занимается прикладной аналитикой, с 2009 года и по сей день – риск-моделированием, R&D и проектной работой, предусматривающей, в частности, применение технологий машинного обучения для решения задач финансовой индустрии. С 2010 года работает в группе компаний ПАО «Сбербанк», занимая на сегодняшний день должности руководителя разработки моделей в Центре компетенций исследований и разработки моделей компании "Сбербанк-Технологии" и аналитика в блоке «Риски» Сбербанка.
Модели нового поколения: принятие решений на основе поведенческой информации различного типа
Половина населения планеты подключена сегодня к Интернету, а число цифровых устройств, генерирующих данные о поведении и предпочтениях клиентов, измеряется миллиардами, однако в большинстве отраслей и компаний не заметно адекватного роста эффективности за счет использования накапливаемых сведений, которые либо вообще не собираются с прицелом на дальнейший анализ, либо игнорируются и лежат мертвым грузом. До сих пор компании склонны оценивать то, что клиент сам сообщает о себе, чем ориентироваться на его поведение – от анализа стиля его вождения автомобилем и потребительских предпочтений до анализа платежной дисциплины за пределами традиционного изучения кредитной истории. В результате промышленные системы, использующие источники данных нового типа для повышения эффективности бизнеса, по-прежнему редкость. Доклад посвящен изложению опыта использования Сбербанком данных, полученных из различных источников и иллюстрации того, как возникают потребности в новых подходах к их анализу и обработке.
Павел Клеменков
Rambler&Co
Руководит отделом машинного обучения в группе компаний Rambler&Co, где аккумулируется практически вся экспертиза компании по анализу данных и машинному обучению. Ранее работал математиком-программистом в агрегаторе Рамблер/Новости, где занимался развитием и оптимизацией кластеризатора и классификатора новостей средствами машинного обучения.
Машинное обучение: архитектура и конвейер больших данных
Задачи бизнеса, определяемого данными невозможно сегодня решить без специалистов по анализу данных (data scientists), однако найти и, тем более, привлечь к работе хороших специалистов в этой области очень трудно, но еще труднее обеспечить им условия для эффективного выполнения своих функций. В парадигме больших данных, распределенных систем и конкуренции за вычислительные ресурсы, это сделать еще сложнее. В докладе рассмотрена архитектура информационной системы, центральное звено которой – математик-программист, методами машинного обучения решающий бизнес-задачи на больших данных, начиная от неформальной постановки, подтверждения концепции (proof-of-concept) и далее, вплоть до запуска кода в промышленную эксплуатацию. На примере бизнеса компании Rambler&Co показана эволюция такой информационной системы, позволившей создать комфортную среду для решения любой задачи обработки больших данных. Особое внимание уделено разбору реальных примеров использования методов машинного обучения для решения конкретных бизнес-задач.
Алексей Натекин
DM Labs, OpenDataScience
Основатель компании Data Mining Labs и онлайн-сообщества специалистов по работе с данными – Open Data Science. В компании Data Mining Labs занимается выполнением проектов класса «data-driven» для предприятий-заказчиков, обеспечивает подбор и обучение команд специалистов. Алексей также организует серию митапов для профессионалов data scientist, в частности, Data Fest.
Вся правда о специалистах по данным
Промышленные системы работы с большими данными по-прежнему редкость – машинное обучение, Hadoop, искусственный интеллект сами по себе автоматически не трансформируются в дополнительную прибыль, а иногда инвестиции в технологии могут стать для бизнеса лишь бесполезной дорогостоящей игрушкой. Любой компании, решившей всерьез работать с большими данными обязательно потребуется команда специалистов по данным (data scientists), способная реализовать планы и идеи руководителей компаний и организаций. Что это за специалисты, какими навыками и знаниями они должны обладать? Где и как их искать? Как поставить им задачу и сформулировать проблему, чтобы они не сбежали еще до конца испытательного срока? Доклад посвящен анализу проблемы поиска и подготовки кадров для эпохи больших данных – социально зрелых специалистов, обладающих не только математическими и инженерными знаниями, но и системным мышлением. Особое внимание будет уделено вопросам оптимизации труда data scientists в условиях когда стоимость хранения и обработки данных неуклонно снижается, а стоимость труда специалистов по данным, неуклонно растет.
Руслан Хохлов
ВТБ24
С 2003-го года занимается системной и прикладной разработкой, а также вопросами архитектуры банковских информационных систем. Сейчас Руслан руководит проектом по развитию аналитической платформы ПАО «ВТБ24».
Даниил Зайцев
ГлоуБайт Консалтинг
Занимается построением и развитием хранилищ данных, отчетности и аналитических сервисов в проектах для финансовых компаний. Старший архитектор в компании ГлоуБайт Консалтинг (GlowByte Consulting).
Симбиоз реляционных СУБД и Hadoop в крупном банке
До недавнего времени в банковской сфере главенствовали традиционные подходы к построению хранилищ – сбор данных из систем-источников по четко сформулированным требованиям для решения заранее определенных задач. Однако, при сохранении всех традиционных функций, современному банку требуется осваивать более гибкие подходы к обработке данных, предусматривающие применение широкого спектра инструментов анализа и моделирования. Сегодня появляются все новые источники данных с динамической структурой, а скорость поддержки изменений в уже существующих перестает соответствовать ожиданиям бизнес-подразделений. Все это, в совокупности с быстро растущими объемами данных, подтолкнуло банк ВТБ24 к концепции Data Lake, которая гармонично вписалась в развивающуюся экосистему Hadoop. Доклад посвящен изложению опыта развития хранилища данных, удовлетворяющего как требованиям решаемых задач, так и учитывающего все особенности технологического стека Hadoop.
Артем Ведерников
Data-Centric Alliance
Работает в компании DCA с 2015 года, где принимает участие в создании платформы управления целевыми аудиториями рекламных кампаний. Артем закончил механико-математический факультет МГУ в 2014 году.
Персонализация рекламных кампаний в реальном времени
Основа любой системы, позволяющей рекламодателям управлять целевыми аудиториями рекламных кампаний, в условиях омниканальности показывая только адресную рекламу заинтересованной целевой аудитории – аналитическая платформа обработки аудиторных данных. Аналитическая платформа от Data-Centric Alliance, в реальном времени позволяющая обрабатывать данные о более 600 млн анонимных пользователей Интернета основана на Apache Kafka и уже более года находится в промышленной эксплуатации, демонстрируя высокую производительность и отказоустойчивость. В докладе обсуждается архитектура системы сегментации пользователей, опыт использования распределенной службы высокой готовности Flume для сбора, накопления и перемещения в хранилище Kafka больших объемов потоковых данных, получаемых из множества источников.
Сергей Золотарев
ArenaData
Сооснователь проекта ArenaData, возглавлял представительство компании Pivotal в России, где под его руководством были реализованы крупнейшие в стране проекты на базе стека технологий больших данных. Ранее занимал руководящие посты в компаниях EMC, Avaya, Microsoft, Compaq. Закончил МГТУ им Н.Э.Баумана, имеет степень MBA (Open University of London).
Зачем нужен «стандартный» Hadoop?
Сегодня с Hadoop работают почти все современные платформы бизнес-аналитики, многие инструменты визуальной аналитики, разнообразное связующее программное обеспечение и даже некоторые реляционные СУБД. Однако существует множество дистрибутивов Hadoop, имеется масса различных версий и библиотек его экосистемы и часто собранная конструкция ведет себя непредсказуемо. Чтобы отметка «совместимо» с Hadoop обрела однозначный смысл, под эгидой Linux Foundation в 2015 году был создан консорциум разработчиков платформ Open Data Platform initiative (ODPi.org), объединяющий крупнейшие ИТ-компании и призванный обеспечить стандартизацию и взаимную совместимость дистрибутивов Hadoop путем утверждения их единой спецификации и тестирования на полное соответствие. Среди прошедших сертификацию в ODPi дистрибутивов Hadoop имеется российский — ArenaData Hadoop. Доклад посвящен анализу причин необходимости наличия стандартного дистрибутива, изложению особенностей сборки ArenaData и возможностям ее применения для снижения затраты и сроков разработки прикладного ПО.
Никита Жаворонков
НИЯУ МИФИ
Никита на протяжении многих лет занимается вопросами защиты информации, противодействия отмыванию доходов и финансирования терроризма, разработал поисковик Blockchair для организации поиска в распределенных реестрах, принимал участие в реализации ряда проектов в сфере криптовалют. Преподает курс «Криптовалюты и блокчейн-технологии» в НИЯУ МИФИ.
Большие распределенные реестры. Аналитика блокчейна
Сегодня о распределенных реестрах можно услышать даже от далеких от ИТ политиков: блокчейн, криптовалюты, умные контракты — все это обещает кардинально изменить уклад многих сфер жизни общества. Одно из преимуществ блокчейна – его прозрачность: у каждого участника сети есть доступ ко всей информации цепи блоков, которую можно анализировать, однако, децентрализованные платежи, ведение распределенных реестров, сопровождение умных контрактов, и т.п., будет жизнеспособно лишь при наличии средств поиска и эффективного анализа огромных массивов неструктурированных данных из открытых реестров. В докладе разбираются подходы к извлечению полезной информации из таких реестров и технологии анализа больших данных, образуемых в огромных масштабируемых цепочках блоков.
Денис Турдаков
ИСП РАН
Заведующий отделом информационных систем ИСП РАН, окончил факультет вычислительной математики и кибернетики МГУ им. М.В.Ломоносова, кандидат физ.-мат. наук, награжден медалью РАН за работу «Методы и программные средства автоматического построения семантических моделей документов на естественных языках с использованием онтологий, извлекаемых и Веб-ресурсов», участник программных комитетов ряда международных конференций. Специализируется в области обработки естественного языка, машинного обучения, интеллектуального анализа данных и анализа социальных сетей, а также в сфере распределенной обработки данных.
Анализ социальных сетей: охота на ботов и троллей
Социальные сети - огромный неконтролируемый мир общения и распространения сведений, где любой может размещать произвольные данные о себе, притворяясь, например вымышленной личностью. Возможность оперировать не одним аккаунтом, а сотнями виртуальных персонажей, распространять практически любую информацию, включая фейковую стала почвой для развития целой отрасли на стыке рекламы и PR. В докладе будут представлены технологии "Талисман" и "Текстерра", предназначенные для анализа больших массивов данных из социальных сетей, восстановления неполных профилей пользователей, выявления умышленных искажений, обнаружения виртуальных личностей (ботов) и анализа информационных кампаний с целью выявления "троллей".
Алексей Мергасов
NoXA Data Lab
Основатель и технический директор компании NoXA Data Lab, специализирующейся на проектировании и внедрении "бережливых" инфраструктур данных (Lean Data Infrastructure) с экстремально высокими потребительскими характеристиками и низкой стоимостью владения. Алексей разрабатывал решения для клиентов компании Informatica (Western Union, Monsanto и др) и уже более 12 лет специализируется на проектировании и развертывании инфраструктур данных крупных предприятий.
Бережливая (Lean) инфраструктура данных
Доклад посвящен описанию уникальной архитектуры системы хранения данных емкостью свыше 50 Пбайт, обеспечивающей сквозную 100% консистентность данных, линейную масштабируемость по емкости и производительности при крайне низкой стоимости владения. Особое внимание будет уделено изложению первого опыта применения таких инфраструктур в телекоммуникационных компаниях, ретейле, банках, на промышленных предприятиях и в государственном секторе.
Юрий Петров
BigBigData Group
Архитектор данных команды Big Data в компании МТС, координатор сообщества BigBigData Russia - профессионалов в области больших данных. С 2008 года работает с такими технологиями больших данных и массивно-параллельных вычислений как: Teradata, Hadoop, NoSQL на проектах в Citibank Russia, Сбербанк, ВТБ24, ФНС, МФТИ и МТС.
Инфраструктура и организация работы на реальных проектах больших данных
Стратегии развития многих компаний сегодня предусматривают запуск проектов больших данных, однако, как правило, их старт задерживается или вообще откладывается на неопределенное время из-за незнания оптимальных требований к аппаратно-программной инфраструктуре и особенностей организации работы. В докладе даны практические рекомендации и пояснения по выполнению проектов больших данных и развертыванию инфраструктуры, адекватной поставленным бизнесом задачам сбора, хранения и анализа больших массивов разнообразных данных, получаемых из различных источников.

Мы используем cookie, чтобы сделать наш сайт удобнее для вас. Оставаясь на сайте, вы даете свое согласие на использование cookie. Подробнее см. Политику обработки персональных данных