Data Science — наука, которой предстоит родиться | Открытые системы. СУБД

До нынешней волны Big Data собственно данные, как объект изучения, интереса не представляли, априори под данными полагалось все, что можно подать на вход тех или иных программ, то есть данные структурированные, квазиструктурированные, неструктурированные, текстовые, все что угодно. Но десять лет назад отношение к данным стало меняться — некоторые авторы даже предвещают новую золотую лихорадку, называя данные новой нефтью (Data is the «new» oil), а недавно активно заговорили о Data Science, что хотелось бы перевести как «наука о данных».

Однако пока под общим названием Data Science существует множество разных, не систематизированных методов и технологий для анализа больших объемов данных, а подлинной науки о данных, которую можно было бы назвать этим именем, еще нет. Использование этого термина по существу ошибочно — если мы хотим определить ту или иную науку, то в первую очередь следует назвать ее предмет и методы, но ни того ни другого применительно к Data Science нет.

Третья опора компьютинга

В последние годы одним из самых популярных стал лозунг «It's the data, stupid», отражающий возрастающую роль данных в современной науке, бизнесе и других отраслях человеческой деятельности.

Леонид Черняк

Термин Data Science около десяти лет назад предложил Уильям Кливленд, профессор университета Пердью, один самых известны специалистов в статистике, визуализации данных и машинном обучении. Примерно столько же лет существуют международный совет CODATA (International Council for Science: Committee on Data for Science and Technology) и издаваемый им журнал CODATA Data Science Journal. Тогда Data Science определили как дисциплину, объединяющую в себе различные направления статистики, добычу данных (data mining), машинное обучение и применение баз данных для решения сложных задач, связанных с обработкой данных.

Представление о Data Science, которого придерживаются приверженцы, наиболее точно определено в статье Майка Лукидиса «Что такое Data Science?» («What is Data Science?»), опубликованной в журнале O'Reilly Radar. Эта статья рассматривается сейчас как основополагающая — Лукидис попытался дать ответ на вопрос, почему так много надежд связывают с данными и результатами их анализа, например, почему крупнейший специалист по микроэкономике Хал Вариан назвал статистику самой привлекательной специальностью на следующее десятилетие. Свой ответ на поставленный в заголовке вопрос и объяснение ширящегося интереса к данным Лукидис связывает с продуктами-данными, правда, что это такое, он пояснил уже в своей следующей статье «Эволюция продуктов-данных» («The evolution of data products»).

Суть эволюционного процесса, описываемого во второй статье, заключается в последовательной смене поколений продуктов, производимых с использованием информационных технологий. Если предельно упростить рассуждения Лукидиса, то выстраивается такая цепочка: сначала это были компьютеры, следующая фаза — приложения, нынешняя — данные. Вообще говоря, данные всегда были конечной целью: покупая компьютер и разного рода гаджеты, человек на самом деле приобретает возможность получения данных. Если вспомнить, то первым «убойным приложением», сделавшим компьютер домашним, были электронные таблицы, помогавшие американцам считать налоги, — людей интересовали данные, а не собственно компьютеры.

На нынешней фазе продуктами ИТ стали данные, а Data Science есть не что иное, как обобщенное название суммы технологий для производства продуктов-данных. Продукты-данные знакомы всем, прежде всего по поисковым машинам — мы потребляем результаты поиска не задумываясь о том, где, как и кем они порождаются. Сегодня продажа контента становится большим бизнесом, Web содержит огромное число разного рода приложений, направляемых данными (data-driven application), но все это пассивное пользование данными. Активными продуктами-данными можно назвать такие, где есть люди, участвующие в процессе создания таких продуктов, и есть технологии для их создания.

Data Science — наука, которой предстоит родиться

Требования к data scientist по Лукидису

От обычной статистики Data Science отличает более комплексный подход — для анализа привлекаются не только таблицы из цифр, а все возможное множество информационных источников. От специалистов в этой области требуется не только знание математики, но и тонкое понимание предмета, гибкость и нетривиальность мышления, способность привлекать для решения самые разные данные и методы их обработки (см. рисунок). Не следует переоценивать «научность» в деятельности data scientist — они не занимаются созданием алгоритмов, работают в компаниях, а не в университетах, это не ученые, изучающие данные, а ученые, использующие их.

Сугубо прагматический характер отношения к Data Science нашел свое отражение в повестке дня конференции Data Science Summit 2012, на которой собрались те, кому приходится на практике иметь дело с большими объемами корпоративных данных, — зрелые специалисты, в прошлой жизни бывшие учеными в других областях, а потом переквалифицировавшиеся на обработку больших данных. В начале конференции было многозначительно продекламировано, что «Data Science Summit соберет вместе лидеров академических кругов, социально ориентированного предпринимательства, руководителей успешных стартапов и госсектора для обсуждения путей перехода в мир, управляемый данным». Однако ничего подобного не наблюдалось, и всех больше волновал вопрос о привлечении представителей бизнеса к работе следующей конференции. Основной темой обсуждений была проблема, откуда брать тех, кого называют data scientist. Пока же бизнес сдержанно относится к Data Science — на конференции EMC World, в рамках которой проходил Data Science Summit 2012, было свыше 13 тыс. участников, а в зале саммита едва ли набралось более трех сотен. Суть большинства выступлений сводилась к тому, как удалось решить ту или иную бизнес-задачу. Что касается вопроса, где достать дефицитных data scientist, то прямого ответа не нашлось — в некоторых университетах читаются очные курсы и ведется онлайн-обучение по различным математическим аспектам, но комплексного взгляда на Data Science, похоже, в индустрии еще не сложилось.

Казалось бы, рождается новая наука, во всяком случае, так следует из названия, почему же никто не пытается определить ее предмет и методы, что естественно для любой науки? Почему все сводится к рассуждениям на пальцах с обращением к примерам не столь уж значительных проектов? Обсуждения предмета науки нет, а есть пока лишь рассуждения типа: «Да, науки такой нет, просто кто-то однажды употребил этот термин в качестве обобщенного названия для группы технологий, которые можно использовать для обработки больших массивов данных. Применять их должны универсальные специалисты, нахватавшиеся отовсюду обо всем, и называть их следует data scientist, но в силу того что науки такой нет, то как назвать их — понять невозможно».

Почему же подобное происходит? Прежде всего ситуация в области Data Science сегодня напоминает времена Дикого Запада — пока не поздно, нужно столбить территорию, отвоевывать пространство. Все закономерно, по природным законам — когда образуется какая-то новая, еще не обжитая площадка, а садовника нет и процесс зарастания происходит стихийно, то до установления биологического равновесия первыми территорию заселяют не самые симпатичные растения. Нечто подобное почти всегда происходит и в обществе. Те, кто сегодня называет себя data scientist, не обременены достаточными знаниями в области теории систем и кибернетики, как следствие, они лишены того, что называют системным мышлением.

Можно провести аналогию между тем, что происходит сейчас в области Data Science, и событиями из истории химии. Эта древнейшая наука обрела нынешнее положение лишь в 1860 году после известного конгресса в Карлсруэ, где собрались несколько сотен выдающихся химиков, членом российской делегации был Дмитрий Менделеев. До этого собрания химия не имела согласованного базисa, что отличало ее от физики, построенной на известных законах, не было единой нотации, даже такое структурно простое соединение, как вода, имело несколько форм записи, что говорить о более сложных. Результатом высокого собрания стало признание атомно-молекулярной теории, стандартов на формулы и многое другое, что объединило отдельные школы и направления в единую науку. Помимо тех, кто объединился под флагом Data Science, существует множество ученых и практиков, которые занимаются близкими проблемами, так или иначе размещенными по оси данные — информация — знание, диапазон интересов чрезвычайно широк, он распространяется от частных методов до философских обобщений.

Почему именно сейчас в фокусе внимания оказалась Data Science? По мере развития технологий человечество постоянно расширяло свою сырьевую базу от шкур животных до редких элементов, однако при всем разнообразии сырье всегда было природным и материальным, но в конце XX века появилось сырье нового качества — искусственно созданное и нематериальное. Данные. Этот сдвиг парадигмы еще не до конца осознан, еще не выработана необходимая терминология, еще не прошел первый испуг, отсюда такие панические названия, как Big Data, Big Data Analytics и подобные. Как ни странно, но существовавшие ранее data mining и text mining гораздо точнее соответствуют сути, чем новые, они точно отражают «сырьевой» подход к происходящему.

В некоторых областях деятельности, возникших в связи с открывшейся возможностью применения компьютеров, можно найти прообразы зарождающейся науки о данных и тех, кто занимается этой наукой, например, в геофизике и в частности в аэрогеофизике, где используются методы сбора значительных объемов данных по какой-то территории. Сбор этих данных осуществляется в том случае, если есть геологическая гипотеза о наличии полезных ископаемых на этом участке. После того как в результате полевых работ данные собраны и выполнена их предварительная обработка, то есть они нужным образом упорядочены, можно приступать к проверке гипотезы. Эту функцию выполняет эксперт-геофизик, который, применяя избранные им методы фильтрации и визуализации данных, соотносит замеренное с гипотезой, уточняет или опровергает ее. Если результат позитивен, то исследования на месте продолжаются с привлечением более точных, но и более дорогих методов. Перед нами наглядная и практически проверенная модель работы с данными, которую предстоит распространить на огромное множество иных приложений.

К счастью, есть люди, которые смотрят на проблемы, связанные с данными, шире, чем организаторы Data Science Summit 2012. Один из них Сет Годин, автор многих книг, оратор и блогер. Вот запись из его блога, разошедшаяся по Сети: «От данных нет пользы до тех пор, пока они не превращены в информацию, собственно данные не могут стать предметом потребления. Данные это сырье для информации. Только информация может быть использована в процессе принятия решений, поэтому критически важно понимать, как можно произвести информацию из данных. Вот о чем Data Science на самом деле».

Итак, если Data Science не наука, то где искать корни для будущей науки о данных? Можно выделить несколько основных подходов. Первый — философский, образца середины XX века, когда философы из разных стран публиковали сотни работ по исследованию иерархии DIKW (Data, Information, Knowledge, Wisdom — «Данные, Информация, Знания, Мудрость»). Второй — от менеджмента; вот уже несколько десятилетий существует «управление знаниями» (Кnowledge Management). Третий — второе поколение компьютерной науки — Computer Science 2.0. Найдется и четвертый, и пятый и т. д. А что касается деятельности data scientist, то она архиважна и архиполезна, но прежде надо определиться с понятиями.