«Технологии больших данных»: фокус на машинное обучение | Открытые системы. СУБД

Практическая конференция «Технологии больших данных — 2017», проведенная издательством «Открытые системы», показала, что будущее рынка инструментов больших данных эксперты видят в конвергенции различных решений в рамках универсальных платформ, а главными точками его роста станут машинное обучение и нейросети. При этом будет происходить резкий рост числа пользователей, главным образом за счет непрофессиональных аналитиков, которые начинают играть в работе с данными все более важную роль.

Выступившие на конференции специалисты поделились интересными наблюдениями об актуальных задачах и подводных камнях работы с большими данными. По мнению Максима Савченко, руководителя группы разработки моделей компании «Сбербанк-Технологии», «больше данных» не всегда означает «больше денег», часто данные обходятся компаниям слишком дорого, и не только из-за затрат на сбор и хранение. Разработка моделей также требует средств, а полученные результаты далеко не всегда удается встроить в операционный контур бизнеса. Поэтому очень важно правильно определить спектр данных, анализ которых может принести реальную выгоду.

Александр Сидоров, руководитель службы анализа данных HeadHunter, советует, перед тем как строить модель, оценивать экономическую эффективность этой работы. В рекрутинге машинное обучение может дать хороший результат: Сидоров рассказал о реализованных в компании проектах по обработке резюме, которые повышают эффективность поиска вакансий и подбора кандидатов. В HeadHunter считают, что в перспективе машина сможет взять на себя массу рутинной работы рекрутера.

Дмитрий Бабаев, специалист по работе с данными компании «МТС», отметил, что алгоритмы машинного обучения неэффективны для работы с сырыми данными — их нужно предварительно готовить для решения определенных задач. Например, группировка данных о локации абонентов по типам зданий дает возможность вычислить тип и режим их работы, а консолидация телефонных номеров — круги общения.

Как признал Валерий Артемьев, советник директора центра ИТ Банка России, эффективности обработки больших данных уже долгое время препятствуют одни и те же барьеры: сложность комплексного использования инструментов в режиме «сделай сам», рост числа ложных корреляций с ростом объема данных, психологические проблемы восприятия менеджментом результатов анализа из «черного» ящика.

Наконец, по-прежнему в дефиците квалифицированные специалисты по данным, а их труд стоит дорого. Поэтому директор Data Mining Labs Алексей Натекин (на фото) рекомендует, прежде чем искать специалистов по данным, добиться четкого понимания, для чего они нужны компании. Кроме того, можно рассчитывать на перспективы консьюмеризации аналитики — упрощение инструментов, переход к самообслуживанию, развитие средств визуализации.