Визуальная аналитика и обратная связь

Компьютеры создавались для автоматизации вычислений, но скоро обнаружилось, что счетом дело не ограничивается и их можно использовать как универсальное устройство для работы с данными. Потом были попытки заставить компьютер думать, но менее известны попытки превратить его в интеллектуального помощника, не претендующего на собственный разум, но облегчающего умственную деятельность человека. Ванневар Буш первым облек эту идею в форму гипотетической машины Memex, а идеологически близкие замыслы Дага Энгельбарта воплотились в системе On Line System (NLS). В начале 60-х годов математик и философ Ричард Хэмминг написал: «Назначение компьютера в познании, а не в счете». Однако эти великие благие замыслы оставались нереализованными, поскольку практическая возможность для создания систем, органично сочетающих в себе аналитические способности человека и машины, появилась только сегодня.

Совместно творческий ум человека и способность машины перемалывать огромные объемы данных дают синергетический эффект, оценить который можно, проанализировав последствия проигрыша в 1997 году Гарри Каспарова суперкомпьютеру IBM Deep Blue PowerParallel SP2 с 32 узлами, включающими специальные платы по 8 шахматных спецпроцессоров. После этого поединка гроссмейстер решил, что нужно уравнять шансы и для этого следует позволить игрокам расширить свои аналитические возможности посредством шахматных программ, работающих на ПК. С Deep Blue Каспаров больше не встречался, однако прежде чем Deep Blue был разобран, с ним сыграли еще один матч двое любителей, «вооруженных» обыкновенными ПК. Не будучи гроссмейстерами, не имея серьезной шахматной квалификации, эти двое оказались успешнее чемпиона мира в противоборстве с монстром. Это служит отличной иллюстрацией того, что системы, где функции гармонично разделены между человеком и машиной, могут быть эффективнее полностью автоматизированной системы. Первые признаки этого мы можем наблюдать в бизнес-аналитике, именно здесь — по способу взаимодействия человека с машиной, а не по делению на типы анализируемых данных (структурированные или неструктурированные) — проходит водораздел между старым и новым в бизнес-аналитике.

Открывшаяся возможность продуктивного взаимодействия человека с машиной стала причиной активного подъема в области бизнес-аналитики и в создании новых аналитических платформ. Любой период подъема обычно сопровождается заметными переменами внутри соответствующего сегмента рынка. В данном случае фокус внимания смещается с признанных и хорошо известных технологий, поддерживаемых крупными производителями, на подмножество почти неизвестных в массах технологий Data Discovery (DD) — их иначе называют Visual Analytics (VA) или Visual Data Discovery (VDD), — разрабатываемых в основном небольшими компаниями и отличающихся продвинутыми возможностями взаимодействия человека с машиной. Есть и другие показатели изменений, параллельно с DD и VA активно развиваются еще две группы аналитических технологий: контентная и предиктивная, или предсказательная аналитика (Predictive Analytics, PA).

Область действия визуальной аналитики чрезвычайно велика (рис. 1), но здесь остановимся только на сегментах, связанных с бизнес-аналитикой.

Рис. 1. Область действия визуальной аналитики

Эволюция бизнес-аналитики

Будущее бизнес-аналитики

Из всех приложений бизнес-аналитики в следующем десятилетии наибольший рост продемонстрирует прогнозная аналитика, позволяющая оценивать вероятность реализации событий в будущем.

Леонид Черняк

На протяжении всей недолгой истории бизнес-аналитики самое важное место среди используемых методов занимали системы подготовки отчетов (Query and Reporting), суть которых состоит в формулировке запросов, адресованных тем или иным источникам данных, а затем составлении отчетов по их результатам. Все решения Query and Reporting делятся на два больших потока: одни формируют Production Reporting — периодически выпускаемые отчеты, содержащие сведения о производстве, а вторые выдают Business Query and Reporting — оперативные отчеты, рассчитанные на требования менеджмента предприятия. В начале девяностых в дополнение к ним появились системы оперативной аналитической обработки (OnLine Analytical Processing, OLAP). Расплатой за быстрый анализ служит длительная подготовительная процедура — эта категория технологий служит для анализа только тех данных, которые предварительно агрегированы в структурированные многомерные OLAP-кубы. Каждый такой куб содержит всю информацию, которая может потребоваться для ответов на предполагаемые запросы. Необходимость в подготовке куба исключает какую-либо синхронизацию с входным потоком данных. Тем не менее на основе OLAP и близких к ней технологий стали развиваться еще более оперативные средства анализа — например, «директорские пульты управления» (Management Dashboard), снабженные разнообразными приборными панелями, напоминающими капитанский мостик. Утвердилась также концепция «предприятия, работающего в режиме реального времени» (Real Time Enterprise, RTE).

Параллельно со всеми этими средствами в бизнес-аналитике развивались теоретические направления, такие как разработка, или добыча, данных (Data Mining, DM) и предсказательная аналитика. Еще совсем недавно казалось, что именно в DM и PA заложен основной ресурс для развития BI, однако на практике более востребованными оказались интерактивные методы DD, VA и VDD. Именно они теперь оцениваются как наиболее перспективные, хотя силы, которые их создают, на порядки уступают по мощности традиционным игрокам решений бизнес-аналитики.

Предпосылки к изменениям в аналитике

Объяснений тому, что происходит в аналитике, и причин происходящего так много, что приходят на ум слова Дэна Брауна из романа «Ангелы и демоны»: «Одни возносят молитвы Иисусу, другие отправляются в Мекку, а третьи изучают поведение элементарных частиц. В конечном итоге все заняты поиском истины». Поэтому по аналогии разделим взгляды на эволюцию бизнес-аналитики на три группы.

Наиболее популярна и широко растиражирована «менеджерская» точка зрения, ассоциируемая с размышлениями на такие модные темы, как Большие Данные, «очередная промышленная революция», Industry 4.0 и др. Чаще всего говорят о «трех V» аналитики Больших Данных: Volume («объем»); Variety («разнообразие»); Velocity («подвижность»).

Вторую группу взглядов на изменения формируют приверженцы теории управления знаниями (Knowledge Management, KM). Они связывают происходящее с «информационной революцией», разделяя ее на пять этапов восхождения от данных к информации, от информации к знаниям, от знаний к пониманию и интеллекту: операционный — анализируются фрагментарные данные отдельно взятыми аналитиками; консолидированный — большие объемы данных анализируются рабочими группами аналитиков; интеграционный — создается инфраструктура предприятия, которая поддерживает КМ; оптимизационный — для повышения эффективности анализируется корпоративная информация в целом; инновационный — совмещение корпоративного разума и аналитики создает новые ценности.

Согласно третьей точке зрения результатом эволюционного процесса становится переход от общих представлений о предприятии к реальному знанию.

Стоит заметить, что первые две точки зрения ближе к культовым, а третья — альтернативная, она, как и в цитате, близка к естественно-научной позиции, в данном случае это системный взгляд, который полезен при рассмотрении самых разных явлений, в частности происходящих в аналитике. Важно, однако, обратить внимание на следующее — у всех систем управления имеется общность независимо от их природы. Об этом писал еще Ноберт Винер, который первым высказал мысль о единстве принципов управления в живых организмах, машинах и организациях. Достойного теоретического продолжения работы Винера не получили, и в реальной практике управление техническими объектами пошло своим путем, а бизнесом — своим. Между двумя классами систем управления — техническими и корпоративными — долгие годы не было общности, более того, возникла разделяющая их на две непересекающиеся области преграда. И это не чья-то злая воля — наличие разделения на определенный временной период совершенно оправданно и закономерно, таковы требования жизни, разделение вызвано существовавшим в прошлом жестким лимитом на компьютерные ресурсы и стремлением использовать имеющиеся средства оптимально, в наибольшей степени удовлетворяя требованиям поставленной задачи. Поскольку есть два типа задач — техническое и корпоративное управление, то возникло, соответственно, два типа решений.

В последующем оказалось, что идея автоматизации управления в бизнесе уступила место банальной обработке данных и была погребена под грузом разного рода рутинных приложений типа ERP, CRM и пр., в которых все построено на учете и контроле, то есть попросту на здравом смысле. Оценка результатов и состояния, принятие решений и все остальное, что образует обратную связь, оказалось вне области автоматизации. Но в реальной жизни никакие системы управления не могут существовать без обратной связи, и на нынешнем уровне автоматизации обратная связь реализуется в умах менеджеров, получающих данные извне и принимающих решение.

Во втором десятилетии XXI века ограничения на используемые ресурсы были практически сняты и открылась возможность для конвергенции технических систем и систем управления бизнесом, причем решающая роль в этом объединительном процессе принадлежит аналитическим системам, которые превратились в рабочий узел цепи обратной связи. Используя аналитические системы, человек с равным успехом может управлять и бизнесом, и технологическими процессами. Вот почему о наступающей эпохе говорят как об «экономике обратной связи» (feedback economy).

Еще до нынешнего взрыва интереса к аналитике возникла концепция предприятия, работающего в режиме реального времени (RTE), ставшая реальностью с появлением новых технологий интеграции приложений — сервисных архитектур, сервисных шин предприятия и систем обработки сложных событий. Изначально предполагалось, что важнейшим компонентом RTE станет аналитика в реальном времени, однако главным импульсом к распространению аналитики стало увеличение объемов данных.

Показательным примером универсального использования аналитики служат средства автоматизации нефтедобычи, где необходимо сочетать управление буровым оборудованием с оценкой рыночной и экономической ситуации, здесь технологическое и бизнес-управление образуют единое целое. Для обмена по Сети данными по скважинам был создан язык Wellsite Information Transfer Standard Markup Language (WITSML), выступающий в роли связующего звена между двумя типами систем управления, а сегодня рассматривается возможность его применения в энергетике, на транспорте и в других отраслях. Основным условием применимости таких систем является использование открытых стандартов для обмена данными между системами геолого-технологических исследований, системами контроля процесса бурения, системами геофизических исследований и пакетами моделирования и анализа данных.

Data Discovery

Еще совсем недавно вся дисциплина бизнес-анализа строилась на основе структурированных данных, но с появлением проблемы Больших Данных обострилась необходимость в работе с неструктурированными данными, составляющими свыше 80% всех хранимых данных, причем их количество нарастает на порядок быстрее по сравнению со структурированными данными. Но дело не только в том, что анализируемые данные оказались более разнообразными — после смещения акцента на неструктурированые данные для аналитики складывается совсем иная, чем прежде, перспектива извлечения полезных, но до поры скрытых данных в потоке сведений из самых разнообразных источников. Иными словами, принципиально меняется парадигма. Раньше функция аналитики сводилась к получению ограниченного числа ответов на заранее поставленные вопросы и созданию отчетов, а теперь аналитика превращается в интерактивный процесс общения человека с большими объемами данных через средства превращения сырых данных в полезную информацию. Примечательно, что для этой цели не обязательно мощное и дорогостоящее оборудование.

Чаще всего современную аналитику ассоциируют с двумя смежными направлениями — Data Discovery и Visual Analytics, однако использование двух разных терминов практически для одного и того же запутывает и без того не слишком ясную и перенасыщенную названиями картину, которую образуют технологии, так или иначе относящиеся к аналитике. Чтобы обозначить их место, надо выполнить попытку классификации технологий бизнес-анализа, разделить их, например, на три большие, частично пересекающиеся группы:

технологии извлечения информации и знаний (Information and Kowledge Discovery): OLAP, Data Mining, Text Mining, Web Mining и различные механизмы поиска;
системы поддержки принятия решений и интеллектуальные системы (Decision Support and Inrelligent Systems): обычные и групповые системы поддержки принятия решений, прикладные методы искусственного интеллекта, экспертные системы, предиктивная аналитика;
средства визуализации (Visualization): визуальная аналитика, различного рода «приборные доски» и пульты.

Формально Data Discovery (обнаружение скрытого смысла) явно попадает в первую группу, а Visual Analytics в третью, но у них много общего — упор делается на творческие возможности человека, подкрепленные компьютерными технологиями. Можно предположить, что Data Discovery — более общее понятие, это множество методов работы с данными, а Visual Analytics — скорее средство (пока единственное). Видимо, по этой причине недавно оба направления пошли на сближение, и появилось общее название Visual Data Discovery. Системы такого класса позволяют превратить компьютер в инструмент, усиливающий интеллектуальный потенциал пользователя. VDD еще называют изыскательной (exploratory) или исследовательской (investigative) аналитикой. Первое название в 2007 году предложил специалист по визуализации данных Стивен Фью, понимающий под изыскательной аналитикой поиск смысла, скрытого в данных. Второе было введено в 2011 году известным аналитиком Куртом Монашем для обозначения анализа, выполняемого с целью поиска прежде неизвестного в уже имеющихся данных: скрытые образы, закономерности и другое содержание, которое может быть использовано для принятия решений.

Средства DD более демократичны, они призваны повысить эффективность работы с данными обычного пользователя, потребляющего информацию, а не специалиста в области анализа данных (data scientist), которому доступны сложные аналитические системы и математические методы. В свое время мэйнфреймы были доступны избранным профессионалам, а появление ПК сделало компьютеры доступными каждому, появление DD можно назвать консьюмеризацией бизнес-аналитики.

Как и на заре ПК, лидерами нового течения стали отнюдь не ведущие игроки рынка бизнес-аналитики, а относительно неизвестные компании: QlikTech, Salient Management Company, SiSence, Tableau, Tibco, за которыми пытаются угнаться признанные гранды: MicroStrategy усовершенствовала Visual Insight; SAP, SAS и IBM запустили новые продукты Visual Intelligence, Visual Analytics и Cognos Insight соответственно; а Microsoft дополнила PowerPivot продуктом with Power View.

Артур Конан Дойл наделил Шерлока Холмса способностью делать умозаключения на основе небольшого числа наблюдений, однако при желании те же факты можно интерпретировать иначе и выводы будут иными — слабость дедуктивного метода, используемого великим сыщиком, в его ограниченности. Но если данных достаточно и имеются адекватные инструменты, то можно принимать объективные и вполне обоснованные решения — точность их принятия зависит от объема данных и качества инструмента. Секрет успеха DD прост — эти технологии позволяют принимать решения, основываясь на большем объеме данных.

Цель систем DD — создание средств, которые ориентированы на людей, поддерживают их в работе, открывают человеку возможность использовать свою интуицию при выделении полезной и значимой информации из имеющихся данных. В таком случае складывается следующий цикл: сначала формулируется запрос, ответ на него представляется чаще всего в графической форме, поэтому в DD особое значение имеют технологии визуализации, затем результаты оцениваются и при необходимости цикл повторяется. Отличие от традиционного бизнес-анализа состоит в наглядности представления и скорости — человеку желательно, чтобы режим работы был близок к реальному времени.

Visual Analytics

Начнем с терминологического уточнения, так как есть три схожих термина: Visual Analysis, Visual Data Mining и Visual Analytics — но у каждого свой смысл.

Первым появился Visual Data Mining — примерно так в 2000 году в Европе стали называть интеграцию методов Data Mining с технологиями визуализации. Одна из первых научных школ в этой области сложилась в Университете Кобленца (Германия).

Появление Visual Analytics (рис. 2) датируется 2004 годом — его предложил Джим Томас, один из авторов книги «Освещая путь, программа исследований и разработок по Visual Analytics», выпущенной как программный документ Тихоокеанской северо-западной национальной лаборатории, входящей в число шестнадцати лабораторий Министерства энергетики США. В книге VA определяется как умение мыслить аналитически, поддержанное графическим интерфейсом. Лаборатория была переориентирована на VA по заказу Министерства внутренней безопасности США в рамках программы противодействия террористическим угрозам и к сегодняшнему дню превратилась в крупнейший научный центр, практически полностью специализирующийся на разнообразных аспектах VA, имеющий филиалы в ряде стран; несколько лет назад и лаборатория университета в Кобленце вошла в ее состав.

Рис. 2. Место Visual Analytics

Visual Analysis имеет как минимум две трактовки. Согласно первой так называют широкой круг междисциплинарных исследований, так или иначе связанных с применением интерактивных визуальных средств для анализа данных. Второе значение распространяется на собственно аналитический компонент Visual Analytics, состоящий из автоматической и интерактивной частей.

Аналитические задачи являются частью самой быстрорастущей из всех областей применения ИТ — средствами автоматического анализа можно решить некоторые из этих задач, они применимы в тех случаях, когда данные строго формализованы и имеются обоснованные критерии их сравнения. Но в реальной жизни и в реальном бизнесе редко соблюдаются такие ограничения, поэтому на помощь приходят методы визуализации данных. Это могут быть самые неожиданные данные — например, сейчас активно развивается область визуализации текстовых данных (возможность вынести достоверное суждение о содержании документов, не прибегая к чтению в деталях). Визуальная аналитика лежит на пересечении этих двух областей.

Хотя за последние 15–20 лет разработано множество методов автоматического анализа данных, вряд ли весь анализ можно будет передать машине, скорее всего, аналитика будет строиться по схеме, показанной на рис. 3. Сначала используются средства автоматического анализа, адаптированные к той или иной сфере применения, они порождают сокращенные по сравнению с исходными объемы данных, к ним применяются методы Data Mining и создается модель, пригодная для дальнейшего исследования. Визуализация и интерактивные технологии позволяют человеку анализировать и совершенствовать эту модель. Большая часть действий выполняется в итерационном режиме последовательного приближения к желаемому результату. В практических реализациях могут присутствовать не все компоненты (рис. 3), но итерационный замкнутый цикл обратной связи будет в любом случае.

Рис. 3. Замкнутый цикл визуальной аналитики

***

Главное достоинство решений Data Discovery и визуальной аналитики состоит в том, что они дают возможность человеку извлечь из данных то, что в них скрыто, или «разговорить» данные, как сказано в книге «Вероятность» Фредерика Мостеллера: «Часто можно услышать, что данные говорят сами за себя, но их голос бывает слишком тих и скромен».