Свежий взгляд на Большие Данные

Индейцы племени пираха, живущего в тропических лесах Бразилии, используют всего три числительных, одно значит «один-два», другое — «несколько» и третье — «гораздо больше» или просто «много». Точно так же дело обстоит и с данными: какое количество считать большим, определяется текущими техническими возможностями — 30 лет назад диски емкостью 200 Мбайт казались гигантскими, а сегодня и диском в 1 Тбайт никого не удивишь. Тем не менее какое количество данных можно на самом деле считать большим? Можно, например, попытаться оценить информационную емкость человеческого организма, использовав в качестве иллюстрации время, которое могло бы уйти на его телепортацию, когда такая технология будет создана. Известно, что для передачи сведений об одной клетке требуется примерно 10¹⁰битов, а всего в организме примерно 2,6×10⁴²клеток. В таком случае при скорости 30 Гбит/с процесс передачи данных займет 4,85×10¹⁵лет. Для сравнения, известный возраст существования Вселенной меньше — пока его оценивают примерно в 14 млрд лет. Значит, на передачу данных уйдет в 350 тыс. раз больше. Возможно, это и есть «много данных».

Сегодня мы имеем дело с более простыми вещами и с существенно меньшими объемами данных, поэтому не стоит равняться с индейцами и излишне часто называть данные Большими. Тем не менее качественный очевидный переход налицо, и нынешняя ситуация отличается от той, что была десять лет назад, а проявляется это прежде всего в дополнении классической транзационной обработки данных широкомасштабным внедрением аналитических технологий, работающих в реальном времени. Подъем аналитики открывает новые перспективы для создания технологий, обладающих искусственным интеллектом, для новых подходов к управлению экономикой и многому другому. Однако, чтобы все это стало возможным, просто развития технологий, как это было прежде, недостаточно — теперь для развития потребуются специалисты, обладающие не только математическими и инженерными знаниями, но еще и системным мышлением.

Снова о Big Data

Известно, что впервые в своей презентации, сделанной в 1998 году, термин Big Data использовал Джон Мэши, тогда главный ученый компании Silicon Graphics. Однако тогда термин не получил широкого распространения, поскольку Мэши предсказывал будущий рост данных, адресуясь к узкому кругу коллег. Свою нынешнюю популярность словосочетание Big Data обрело после публикации в журнале Nature в 2008 году, в которой обсуждались проблемы, вызванные ростом объемов данных, получаемых в процессе проведения современных научных экспериментов, и, как следствие, в связи с появлением нового поколения науки, называемого электронной наукой (e-science). Термин приобрел широкое распространение, был хорошо освоен маркетологами и вошел в обиход в бизнесе, причем стал использоваться с такой невероятной интенсивностью, что, еще не будучи достаточно понят, начал вызывать негативную эмоциональную реакцию у некоторых специалистов.

Прошедших пяти лет оказалось достаточно, чтобы переосмыслить феномен Big Data и сделать определенные выводы. Прежде всего о том, что, рассуждая о Больших Данных, не стоит гиперболизировать их значение, а надо делать поправку на то, что это лишь простая и доступная метафора, отражающая намечающиеся тектонические сдвиги в области работы с данными, признаки которых проявляются в последние годы. Данные стоит рассматривать как исходное сырье для ИТ, производящих полезную информацию. «Сырьевой» подход к данным позволяет систематизировать контекст, в котором существуют любые данные, и точнее обозначить пусть значительное, но тем не менее ограниченное место технологий для работы с Большими Данными, а также их значение по отношению к процессам и явлениям, ради которых они создаются.

Сегодня данных как специфического сырья стало больше, и происходит это по вполне понятным причинам — еще совсем недавно объем данных, которые поступали на вход компьютеров, был ограничен физически: из бизнеса приходили алфавитно-цифровые данные, которые так или иначе готовились человеком; встроенные системы передавали телеметрию от относительно небольшого числа датчиков. В XXI веке ситуация принципиально изменилась — практически все современные компьютеры оказались подключенными к Сети, а следовательно, к неограниченному количеству самого разнообразного контента, состоящего из «старых» структурированных данных и «новых» неструктурированных. По аналогии с прошлым, классические методы работы с данными теперь можно было бы назвать «пакетными» — данные, как раньше пакеты заданий, загружаются в компьютер и потом обрабатываются. Такие подходы по-прежнему сохраняют свою актуальность, но значимыми становятся разнообразные аналитические технологии, позволяющие извлекать полезные сведения из больших объемов данных в интерактивном режиме реального времени. Второй источник данных связан с так называемой сенсорной революцией, которая принесла с собой потоковые данные и необходимость в их обработке (streaming processing) и выделении существенных событий (complex event processing). Сегодня любые мало-мальски сложные устройства могут быть снабжены датчиками, способными передавать данные по сети.

Как бы ни были сложны и важны собственно технологии работы с данными, они остаются пусть сложными, но все же инструментами, но есть следующий уровень — то, ради чего они в конечном счете создаются. Средства следующего уровня, предназначенные для работы с информацией, переживают сегодня переход на качественно новый уровень. В первую очередь стоит назвать главный тектонический сдвиг — переход от программируемых цифровых систем к когнитивным. Во вторую очередь — возвращение искусственного интеллекта. В третью — первые шаги к экономике обратной связи (feedback economy).

Большие Данные — новая теория и практика

Big Data относится к числу немногих названий, имеющих вполне достоверную дату своего рождения — 3 сентября 2008 года, когда вышел специальный номер британского научного журнала Nature, посвященный поиску ответа на вопрос «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объемами данных?».

Леонид Черняк

Почему в этом перечне нет Data Science, о чем сейчас так много говорят и пишут? Прежде всего потому, что это понятие еще недостаточно определено и его нередко используют в качестве своего рода «заглушки». В ряде случае недостаточная определенность Data Science освобождает употребляющих этот термин от необходимости глубже погрузиться в суть происходящего. Плюс к тому совершенно очевидно, что Data Science нельзя переводить буквально как «наука о данных», поскольку в английском science не только «наука», но еще и «мастерство», «искусство» и «умение», — следовательно, Data Science точнее было бы интерпретировать еще и как умение, а в некоторых случаях и искусство работы с данными.

Когнитивные компьютерные системы

Раньше других непривычный пока термин «когнитивные компьютерные системы» в широкий оборот ввели специалисты IBM, посчитавшие, что это качественное явление, знаменующее собой наступление третьей эры развития ИТ. По принятой в IBM классификации, первой была эра табуляторов, которая началась с дифференциальной машины Чарльза Бэббиджа и достигла своего расцвета усилиями Германа Холлерита, создавшего производительные электромеханические табуляторы и основавшего компанию Tabulating Machine Company, позже преобразованную в IBM. Следующая эра — нынешняя — ассоциируется с программируемой схемой Джона фон Неймана и всем тем, что из нее следует, и самое главное здесь — выполнение обработки данных по заранее заданной программе. Будущая эра — третья, и ее первым представителем стал победитель в популярной телевизионной игре компьютер Watson. Но если быть точным, то надо отметить, что его новизна не столь принципиальна и у этого компьютера есть свои предшественники, во всяком случае на уровне идеологии (Wolfram|Alpha, библиотека знаний Cyc). К тому же следует признать, что и сам термин Cognitive Computing (CC) тоже не нов, он давно используется специалистами в области, известной как «когнитивная информатика» (Cognitive Informatics, CI). Принятая в IBM классификация используется в более распространенном направлении — компьютерной науке (computer science), а термины CC и CI применяет для выражения взглядов относительно небольшая группа ученых, занимающихся наукой об информации (information science). В более инженерном новом контексте представления о когнитивном компьютинге возникли несколько позже и в основном благодаря работам, направленным на преодоление врожденных недостатков архитектуры фон Неймана, прежде всего «бутылочного горла» между процессором и памятью, сложностей распараллеливания, необходимого при работе с большими объемами данных, и безальтернативности синхронной работы, подчиненной тактовой частоте.

Третья опора компьютинга

Пренебрежение к природе данных и информации привело к тому, что на протяжении десятилетий вплоть до нынешнего времени развивались исключительно инженерные методы, обеспечивающие передачу, хранение и обработку данных.

Леонид Черняк

Когнитивный компьютер, то есть не содержащий в себе следов неймановcкого наследия, еще не существует, он создается в IBM по программе SyNAPSE (Systems of Neuromorphic Adaptive Plastic Scalable Electronics), по заказу DARPA. Предполагается, что он будет нейроморфным, то есть имитирующим деятельность мозга (слово «нейроморфный» и общие принципы построения такого компьютера предложил Карвер Мид, более известный как создатель средств для автоматизированного проектирования микросхем). Близкие по содержанию работы ведутся в ряде лабораторий и университетов США и Европы, создаются специализированные микросхемы, такие как Cognitive Computing Chip от IBM и проекты Intel и Университета Цюриха. Наибольшую известность получил проект SpiNNaker, вероятно, на тех же принципах будут строиться квантовые компьютеры.

Надо быть большим оптимистом, чтобы допустить скорое появление практических когнитивных компьютеров, однако время торопит — при возрастающих объемах данных уже скоро не получится синхронно создавать адекватные аналитические системы. Поэтому IBM предлагает паллиативное решение — когнитивный подход с сохранением существующего технологического базиса (речь идет об интегрированных экспертных системах семейства PureSystems). На макроуровне такие решения можно признать когнитивными, но на микроуровне, на процессорном уровне они вполне традиционны. Например, авторы PureSystems не делают попыток моделировать мозг: их главная задача в преодолении одной из слабостей современных компьютеров — работы с мелкими фрагментами данных (битами и байтами). Вот что пишут Джон Келли и Стивен Хамм в книге «Умный компьютер»: «Мы не ставим своей целью заменить человеческий мозг или заставить машину мыслить, как человек. Каждый будет делать то, что ему дается лучше — компьютер будет выполнять огромные объемы вычислений и оперировать огромными объемами данных, а за человеком останутся интуиция, способность выносить суждения, креативность и, что не менее важно, эмпатия и моральные принципы». Скорее всего, PureSystems и им подобные стоит назвать системами, управляемыми потоками данных (data driven systems).

Компьютеры новой эры отличаются от существующих ныне по нескольким основным признакам. Центром внимания в нынешних компьютерах являются процессы и процессоры, а в будущих — данные. Соответственно, фиксированные, заранее запрограммированные вычисления уступят место аналитическим подходам. Если сегодня доминирует ручное управление системами, то в будущем — автоматическое. Одно из важнейших отличий состоит в отношении к масштабированию. Мы привыкли к двум видам масштабирования — вверх (Scale Up) и вширь (Scale Out), а теперь появляется масштабирование внутрь (Scale In), суть которого в интеграции в одну систему (как было в мэйнфеймах) всех основных компонентов, включая процессоры, память, системы хранения и коммутацию.

По-видимому, начинают сбываться прогнозы о грядущей технологической сингулярности — еще в 1993 году писатель-фантаст и математик Вернор Виндж сделал предположение, что переход к эре думающих машин произойдет скачкообразно, и отразил своеобразие такого переходного процесса термином «технологическая сингулярность», использовав аналогию с математической сингулярностью. Виндж таким образом хотел выразить свое убеждение в том, что начиная с какого-то момента возникнет взрывной рост интеллектуальных возможностей машин, который приведет к появлению компьютеров, способных к самостоятельному мышлению, и сетей, осознающих себя разумными существами. Во взаимодействии с такими машинами человек также может приобрести новые способности.

Scale In

Курс на тайны мозга

Спинакер, безусловно, самый красивый яхтенный парус, дал свое имя не менее красивому бионическому проекту SpiNNaker изучения мозговых процессов.

Леонид Черняк

Что бы ни утверждали те или иные производители, по-настоящему готовых аппаратно-программных средств для работы с Большими Данными пока нет. Есть отдельные компоненты, из которых можно собрать соответствующий комплект, и чем крупнее производитель, тем полнее этот комплект для сборки. Но заранее ясно, что такая сборка не может быть полной в достаточной степени — те или иные ее компоненты будут избыточны или недостаточны, а следовательно, будут удорожать изделие и его эксплуатацию. Ключевым компонентом всех этих систем является технология Hadoop, позволяющая работать с массивами как структурированных, так и неструктурированных данным размером 10–100 Гбайт и выше, что значительно превышает возможности существующих технологий, основанных на традиционных СУБД и хранилищах данных. В портфелях EMC, IBM, Mcrosoft, Oracle и других компаний имеются комплекты, называемые интегрированными системами c поддержкой Hadoop, но какими бы совершенными ни казались подобные платформы, они остаются паллиативными решениями — нынешними средствами решения проблем завтрашнего дня. Однако нужны качественно новые платформы третьго типа.

В истории индустрии ИТ переход на новую платформу происходит один раз в 25–30 лет. Первой платформой были мэйнфреймы — централизованные, тесно интегрированные и строго управляемые системы, которые до сих пор успешно выступают в этом качестве, что дает основание для ошибочных утверждений их адептов, будто все остальное — неверный путь. Второе поколение — это платформа клиент-сервер (Unix- и Windows-серверы и различного рода ПК), предназначенная для корпоративных приложений ERP, CRM, электронной почты и различного рода ограниченных по возможностям персональных приложений. Для приложений, работающих с гигантскими объемами данных в режиме, близком к реальному времени, нужны качественно новые платформы — например, такие как EMC Pivotal One, построенные на принципах Scale In.

Близкое по смыслу решение имеется и у IBM — Cloud Foundry тоже построено на принципах Scale In, и в июле 2013 года было объявлено, что обе компании объединят свои усилия по созданию «третьей платформы» в рамках инициативы Open Cloud Innovation. Их общая цель состоит в создании сервисов PaaS корпоративного класса.

Искусственный интеллект и Большие Данные

Семь лет назад к пятидесятилетию искусственного интеллекта (ИИ) в статье «Придет весна, когда, не знаю» (Computerworld Россия, № 14, 2006 год) описывалось явление, называемое «зимой ИИ» (AI Winter), продолжавшееся практически до настоящего времени. Похоже, ожидания оттепели оправдываются, правда, современное представление об ИИ невероятно далеко от изначальных замыслов его первопроходцев. Новый подъем ИИ начался с отказа от непродуктивных попыток повторить человеческий мозг и вообще каким-то образом эмулировать человеческую логику — зачем заставлять машину делать то, что с успехом делает человек, когда есть такие сферы, где машины могут действовать успешнее.

Начало серьезных инвестиций в современный ИИ положили компании, входящие в ассоциацию производителей игровых программ Entertainment Software Association, — на их средства стало развиваться специфическое направление «Игровой искусственный интеллект». Параллельно получили толчок такие направления, как: «мягкие вычисления» (soft computing), включающие нечеткую логику, нейронные сети, эволюционное моделирование и др.; эвристический поиск, экспертные системы; машинное зрение и машинное обучение; обработка текстов на естественном языке (Natural Language Processing); раскопки, или добыча, данных (Data Mining). А среди приложений выявились очевидные: робототехника и, пожалуй, самое продуктивное — обработка массивов разнообразных данных, которые по свои размерам недоступны человеку, образно названных Big Data. В результате мир стал меняться, наглядно подтверждая то, что написал в 60-е годы Маршал Маклюэн: «Мы формируем наши инструменты, а они формируют нас». Освобожденные от необходимости решать глобальные проблемы, люди переключились на прикладные задачи с элементами интеллекта — от создания систем автоматического торможения автомобилей до поисковых систем в Web.

Есть еще одно важное отличие ИИ эпохи Больших Данных. В этой области происходит переход, аналогичный переходу от детерминированной ньютоновской физики к релятивистской физике. Если видеть мир во всей его полноте, а именно эту возможность предоставляют Большие Данные, то приходится признать, что не существует абсолютной, на 100% детерминированной реальности, что есть вероятность и непредсказуемость событий. Вместе с осознанием такой картины мира ИИ как дисциплина отходит от классического детерминированного подхода, признавая сложность окружающего мира, и на смену расчету, занимавшему монопольное положение, приходят анализ и добыча данных.

Экономика обратной связи

Принято считать, что мы живем в эпоху информационной экономики, когда обработка нематериальных (данных) и материальных ресурсов (сырья) интегрированы. Близкими являются названия «экономика услуг», «цифровая экономика», «постиндустриальная экономика» и другие, каждое несет свой собственный определенный смысл, их много. Но до сих пор упускалось из виду важнейшее обстоятельство — ни одна экономика ни в один исторический период не может существовать без обратной связи, реализуемой через рынок. Разумеется, рынок — не единственный способ реализации обратной связи.

Будущее компьютеров и обратная связь

Проблемы современного компьютинга убеждают в том, что пришла пора оставить в прошлом упоение технологиями и вспомнить старые добрые времена и такие, казалось бы, забытые понятия, как кибернетика и автоматизированные системы управления. Системы, построенные на принципах обратной связи, изменят способ организации не только отдельно взятых компаний, но и национальных экономик в целом.

Леонид Черняк

Внедрению регуляторов, альтернативных рынку и основанных на обратной связи, вплоть до самого последнего времени мешало отсутствие возможности собирать необходимые данные и справляться с огромными объемами сведений о реальном состоянии экономики. Любые, даже самые сложные технические системы, которые создавались прежде, будь то атомный или химический реактор, самолет или энергоблок, порождают на порядки меньше данных, чем экономика. Этого не понимали считавшие себя кибернетиками авторы проекта «Киберсин» в Чили при власти Сальвадора Альенде и создатели Общегосударственной автоматизированной системы управления производством в СССР. Они полагали, что, и не имея достаточно мощной петли обратной связи, смогут управлять государством. И только сейчас, когда создается информационная инфраструктура с практически неограниченными вычислительными мощностями, появилась возможность дополнить стихийно сложившиеся регуляторы (такие как рынок) дополнительными, созданными искусственно. Апостолом наступающей эпохи экономики обратной связи стал Джон Бойд, предложивший петлю OODA (Observe, Orient, Decide, Act — «Наблюдай, Ориентируйся, Решай, Действуй»).

Big Data и новые задачи образования

Появление термина Data Science и последовавшие за тем прогнозы потребности в специалистах, которых стали называть data scientist, стимулировали волну интереса к подготовке кадров этой категории. Пусковым моментом стала статья Майка Лукидиса «Что такое Data Science?», опубликованная в 2010 году в журнале O'Reilly Radar, хотя собственно термин Data Science около десяти лет назад предложил Уильям Кливленд, профессор Университета Пердью, один из самых известных специалистов в статистике, визуализации данных и машинном обучении. С тех пор существуют Международный совет CODATA (International Council for Science: Committee on Data for Science and Technology) и издаваемый им журнал CODATA Data Science Journal. Уже тогда Data Science определили как междисциплинарное объединение различных направлений статистики, добычи данных, машинного обучения и применения баз данных для решения сложных задач. Сейчас говорят о том, что Data Science — это искусство анализа данных для получения результатов, доступных людям, не имеющим специальной подготовки. Однако нет ни одного университета, готовящего по специальности data scientist. Более того, никто не может с точностью определить, кто и с какой квалификацией лучше подходит на роль data scientist. В этих условиях можно с уверенностью сказать, что любая попытка выделить подготовку data scientist в отдельную специализацию, кто бы ее ни предпринимал, будет несостоятельной. На данный момент представляется, что программу по подготовке специалистов по статистике и анализу данных следовало бы дополнить теми предметами, которые способствуют развитию системного мышления, прежде всего кибернетикой и теорией сложных систем.

***

Data Science — наука, которой предстоит родиться

Объективная потребность в науке, предметом которой должны стать данные, не вызывает сомнения, однако Data Science в ее нынешнем виде пока невозможно признать желаемой «наукой о данных».

Леонид Черняк

Очевидно, что эволюция компьютерных технологий на протяжении последних пяти лет в значительной мере определялась открывшейся возможностью работы с большими массивами данных, и одновременно формировалось представление о том, как использовать эту возможность. Поначалу казалось, что все сводится к очевидным решениям — к более активному применению уже известных аналитических и прежде всего статистических методов, которые обобщенно стали назвать Data Science. Однако вскоре стало ясно, что за термином «Большие Данные» кроется качественно новое явление — более тесная интеграция ИТ с внешней физической и виртуальной средой плюс неограниченный потенциал для извлечения полезной информации из сырых данных, поступающих из самых различных источников во внешнем мире. Для реализации этого потенциала неизбежно придется развивать не только новые технологии работы с информацией, как это было на протяжении последних сорока лет, но и новые теории использования полученной информации. На пороге — эпоха возрождения в компьютерной науке, в теории информации и кибернетике.