Большие Данные небольшого размера

МИХАИЛ ГЕРШТЕЙН: «Многие виды обработки по-прежнему удобнее и дешевле осуществлять традиционными методами. Не следует ожидать, что использование распределенных систем обязательно даст ощутимые выгоды»

Скорость наращивания мощности аппаратной части ИТ-инфраструктуры заметно падает. Происходит приближение к технологическому пределу, когда скачок приращения мощности за те же деньги требует технологического скачка в ее аппаратной части. На первый план выходит алгоритмический компонент, правильная организация хранения и вычислений. Об этом рассказывает на втором форуме Big Data 2013, организованном издательством «Открытые системы», Михаил Герштейн, главный архитектор комплексных решений «Сбербанка КИБ».

Для каких сегментов рынка наиболее актуален анализ Больших Данных?

Эта тема потенциально интересна всем. Прежде всего — организациям с большим количеством транзакций, к которым относятся финансовые, энергетические, телекоммуникационные, транспортные компании. Однако было бы неверно однозначно связывать понятие «Большие Данные» с их объемом. Это скорее новый взгляд на роль данных в управлении бизнесом, на их значение. И другое понимание возможностей, которые предоставляют новые технологии анализа данных, ведь теперь из данных можно извлекать значительно больше информации. Допустим, у той или иной организации объем собираемых данных не изменился, но если раньше у нее не хватало вычислительных мощностей для их полноценного анализа, то сейчас эти ограничения снимаются. Само по себе механическое увеличение объема данных может совсем не оправдать возлагаемых на них надежд.

До сих пор большую роль в исследованиях рынка играли выборочные обследования, которые предполагали распространение выявленных свойств собранных данных на все множество их возможных значений, как говорят математики — генеральную совокупность. Что изменилось с появлением аналитики Больших Данных?

Новые технологии позволяют собрать и проанализировать значительно большую часть генеральной совокупности, чем раньше. Объем собираемой выборки приближается, а иногда и совпадает с ее объемом. Таким образом, мы фактически можем заменить процесс выборочных обследований анализом всей генеральной совокупности. Естественно, если она конечна.

Тема Больших Данных развивается параллельно с облачными вычислениями. Как связаны эти два понятия?

Оба основаны на идее распределенных вычислений. Если мы перенесем вычисления и хранение данных — Больших Данных — в облако, то мы получим новый объект, который можно назвать облаком знаний.

Если организация обращается к аналитике Больших Данных, что она должна предпринять для трансформации своей ИТ-инфраструктуры?

Прежде всего следует отказаться от традиционного представления о центрах обработки данных как о помещениях, где расположены стойки с серверами и системами хранения. Использование этой инфраструктуры для анализа Больших Данных обойдется вам значительно дороже, чем приобретение решений для распределенного хранения и обработки данных. Вообще развитие ИТ-инфраструктуры идет по спирали. От больших компьютеров (мэйнфреймов) к маленьким (персональным), далее объединение персональных компьютеров в сети, вновь обращение к большим компьютерам (серверам и общим системам хранения), а сейчас мы наблюдаем очередной рост интереса к локальным вычислительным ресурсам. В целом, безусловно, идет речь о переходе от централизованной к распределенной файловой системе и распределенным вычислениям, когда каждый фрагмент вычислений выполняется адекватным по мощности компьютером. Это очевидное продолжение концепции кластеров серверов приложений и облачных вычислений. Дело в том, что развитие аппаратной части ИТ-инфраструктуры постепенно заходит в тупик. Последнее время производительность систем хранения и процессоров практически не растет, а количество данных увеличивается. В то же время прогресс технологий распределенной обработки убедителен. Например, используя эти технологии, метеослужба США значительно укрепила доверие своих сограждан, поскольку прогноз погоды отличается поразительно высокой точностью.

Трансформация ИТ-инфраструктуры требует инвестиций. Как добиться дополнительных «вливаний»?

Когда границы и содержание проекта стали для вас очевидны, необходимо обеспечить финансовую поддержку руководства. Обосновать проект модернизации ИТ-инфраструктуры для анализа Больших Данных может оказаться нелегко. Необходимо доказать, что без этой модернизации компания не справится с поставленной задачей. Внутри ИТ-департамента можно найти весомые аргументы, например реализовать небольшой пилотный проект и показать, что он обеспечит добавленную ценность ИТ-поддержки для бизнеса. А вот бизнес убедить сложнее. Конечно, если сам бизнес ставит перед ИТ-департаментом задачи, которые могут быть эффективно решены благодаря анализу Больших Данных, то дело упрощается. Во всех других случаях ссылки на рост производительности в перспективе будут восприняты критически. Однако преимущество решений с распределенным хранением и распределенной обработкой состоит в том, что их можно собрать из относительно дешевых компонентов, используя в том числе свободное ПО. Тем не менее здесь могут возникнуть трудности с поддержкой. Поэтому необходимо делать акцент не на возможных проблемах бизнеса в будущем, а на тех преимуществах, которые он сможет извлечь из использования подобных решений. Например, на простом примере продемонстрировать возможный рост конкурентных преимуществ при использовании анализа социальных сетей, в частности для определения степени удовлетворенности клиентов. Подобные задачи, связанные с семантическим анализом текстов, требуют анализа большого количества данных.

С какими рисками может столкнуться ИТ-директор, который взялся обеспечить анализ Больших Данных?

Во-первых, распределение вычислений по большому числу компьютеров может вызвать трудности с организацией центра обработки данных, поскольку подобную инфраструктуру сложно собрать и поддерживать. Вторая проблема связана с растущими требованиями к качеству программирования для организации распределенных вычислений. Парадигма параллельного программирования сама по себе очень сложна. Безусловно, инструменты наподобие Hadoop помогают решить проблему распараллеливания, но не решают ее полностью. И специалистов такого профиля пока мало. Третья проблема — качество данных. С ростом числа их потоков значимость этого фактора только возрастает. Многие контрольные операции, которые заложены в СУБД реляционного типа, в задачах с распределенными вычислениями приходится решать самостоятельно. И наконец, не следует считать подобные решения панацеей. Многие виды обработки по-прежнему удобнее и дешевле осуществлять традиционными методами. Не следует ожидать, что использование распределенных систем в этих случаях даст какие-то ощутимые выгоды. В целом использование подобных систем требует от ИТ-директора компетенций в области бизнес-аналитики либо в его распоряжении должна быть команда аналитиков, которые понимают суть аналитических задач и связанные с ними вычислительные проблемы.