О дефиците специалистов по данным (data scientist) известно всем, и именно этот фактор зачастую встает на пути компаний, пытающихся заняться темой Больших Данных. Кто все эти люди, где и как их искать? Как их можно развивать и мотивировать? Этим вопросам было посвящено выступление Алексея Натекина, основателя компании Data Mining Labs, на конференции «Технологии Больших Данных», организованной издательством «Открытые системы».

Наука или искусство?

По мнению Натекина, термин Data Science лучше не переводить и по своей сути он является зонтичным. Если объединить различные определения, встречающиеся в разных источниках, то большинство из них говорят о недавно возникшей области знаний, которая служит «зонтиком» для многих сопряженных инженерных, технических и математических наук. В Data Science входят такие области, как машинное обучение, статистика, Большие Данные с точки зрения инженерных технологий. Помимо этого, можно включить визуализацию данных и теорию оптимизации. Бывают и красивые определения, относящие Data Science к искусству преобразования данных в решения.

«Когда человек называет себя data scientist, то бывает трудно понять, какой частью этого широкого круга задач он занимается. Узнать, на чем именно он специализируется, получится только при личном общении», – говорит Натекин.

Тем не менее, согласно общепринятому мнению, data scientist – это специалист, работающий на пересечении компьютерных наук и программирования, математики и статистики, а также имеющий знания в предметной области и умеющий применить свои знания в той сфере, где работает. Шуточное определение, говорящее о том, что это человек, который знает статистику лучше программиста и программирует лучше, чем статистик, на самом деле очень близко к истине.

Однако по спискам вакансий очень сложно понять, кто же именно нужен компаниям. Вакансии исследователей данных перемешаны с вакансиями аналитиков, инженеров, экспертов по машинному обучению и запросами по еще нескольким категориям специалистов. В различных социальных группах идет множество обсуждений, касающихся специалистов по данным, – «правильных» и не очень.

В одной из групп собрали статистическую сводку о своих участниках, в результате удалось выделить четыре типовые роли. Первая – исследователь, по большей части занимающийся статистикой, немного разбирающийся в программировании и не очень – в бизнес-вопросах. Вторая категория – разработчики, много программирующие, не очень хорошо знающие статистику и больше занимающиеся проблемами, связанными с данными. Третья роль – «креативщики», свободные художники, способные заниматься всем. Они получают задачу и сами ищут пути ее решения. Наконец, существует и предпринимательский образ специалиста, где больше бизнеса и меньше всего остального.

Если же говорить о квалификации специалистов, то их градация совпадает с традиционной шкалой «junior – middle – senior», принятой среди программистов, однако этапы развития несколько другие. Разница между их уровнями заключается не столько в знаниях и опыте, сколько в уровнях ответственности и способности самостоятельно решать задачи в том виде, в каком они поступают от бизнеса, – старшему или ведущему специалисту можно отдать задачу целиком на откуп. В этом случае взаимодействие будет идти в следующем формате: руководитель направления обращается к специалисту, жалуется на проблему (например, в компании снижается средний чек) и интересуется, что можно с этим сделать. Ведущий data scientist через неделю возвращается к нему с решением и предлагает варианты действий.

Специалист среднего уровня – тот, кто к такому взаимодействию с бизнесом пока только стремится. За ним периодически надо присматривать, но он все же может брать некоторые задачи в...

Это не вся статья. Полная версия доступна только подписчикам журнала. Пожалуйста, авторизуйтесь либо оформите подписку.

Поделитесь материалом с коллегами и друзьями

Купить номер с этой статьей в PDF