Адриан Макдональд: «Сейчас подходы к обработке данных смещаются из области физического хранения к решению вопросов управления информацией, предоставляются широкие возможности по снижению стоимости информационных систем, повышению их гибкости для большей доступности данных» (Фото: EMC)
Адриан Макдональд: «Сейчас подходы к обработке данных смещаются из области физического хранения к решению вопросов управления информацией, предоставляются широкие возможности по снижению стоимости информационных систем, повышению их гибкости для большей доступности данных» (Фото: EMC)

Корпорация EMC — один из главных сторонников идеологии Big Data — прикладывает немалые усилия к ее популяризации. В этом году под лозунгом «Облака всречаются с Большими Данными» EMC провела десятки технических конференций по всему миру. В преддверии российской части этого глобального турне Москву посетил президент EMC в регионе EMEA Адриан Макдональд. В интервью журналу «Сети» он объяснил, какую пользу для заказчиков несут в себе технологии Больших Данных.

В этом году EMC уже провела несколько конференций под девизом «Облака встречаются с Большими Данными». И до конца года проведет еще более десятка таких же конференций по всему миру, в том числе и в России. Действительно ли эта тема столь многозначительна?

Да, это действительно очень важная тема. Дело в том, что запросы к ИТ-индустрии возрастают и иногда даже превышают ее современные возможности. И это относится как к развитию облачных технологий, так и к совершенствованию средств обработки данных. При этом не секрет, что построение и эксплуатация информационных систем обходятся все дороже и дороже, и не все компании способны инвестировать в бесконечное расширение вычислительных мощностей. Решение этой проблемы нам видится так: «Использовать облачные вычисления для трансформации информационных технологий, а решения для управления Большими Данными — для трансформации бизнеса». На самом деле облачные вычисления тесно связаны с Большими Данными. Сегодня облачные вычисления находят применение в организациях всех размеров – от крупных корпораций до предприятий малого и среднего бизнеса. Условно зоны применения облачных вычислений можно разделить на три уровня. Первый — уровень мобильности, который позволяет получать доступ к информации в любое время и из любого места. Следующий уровень – это приложения, которые работают в облаке. Сейчас большинство из таких приложений созданы в прошлом веке, но в следующие три–пять лет эта ситуация изменится – все больше и больше будет появляться новых приложений, изначально спроектированных с учетом возможностей облачных вычислений. Третий уровень – инфраструктурный. Именно на построение инфраструктуры идут основные инвестиции в процессе перехода к облачным вычислениям. Тем не менее основное внимание сейчас и в государственных структурах, и в крупных корпорациях направлено на развитие облаков. Помимо публичных облаков широко обсуждаются вопросы построения облаков частных. Не важно, как вы будете называть современную тенденцию в ИТ — переходом к частным облакам или автоматизацией вычислений. Главное, что сейчас подходы к обработке данных смещаются из области физического хранения к решению вопросов управления информацией, предоставляются широкие возможности по снижению стоимости информационных систем, повышению их гибкости для большей доступности данных.

Чего же больше в девизе «Облака встречаются с Большими Данными»? Облаков или Больших Данных? Какое из этих явлений окажет большее влияние на будущее информационных технологий?

Мы считаем два этих явления одинаково важными и занимаемся двумя направлениями. Облако олицетворяет собой повышение доступности информации, оно позволяет резко снизить затраты на ИТ, повысив при этом эффективность их использования. Если в компаниях действительно 45% идет на капитальные затраты для базовых систем, просто чтобы поддержать работу компании, то подход, сочетающий в себе частные и публичные облака, может помочь найти оптимальный баланс между капитальными и эксплуатационными расходами. А концепция Больших Данных подразумевает быструю обработку больших информационных массивов и существенное увеличение ценности хранимой в них информации. И та и другая задача очень важны и частично пересекаются. Мы живем в период трансформации ИТ. Если еще совсем недавно наши заказчики в рамках их информационных стратегий заботились о том, чтобы все сохранить, создать резервные копии, не потерять ни единого документа (неважно, что пользователи не могли ничего найти в их информационных системах, главное — чтобы ничего не потерялось!), то сегодня компании по-прежнему хотят пользоваться точной информацией, но все большее значение приобретает скорость ее получения: быстро получить доступ, найти и извлечь информацию становится гораздо важнее, чем «ничего не потерять». Не исключено, что концепции точности и скорости можно объединить, чтобы мучительно не выбирать между двумя подходами. Здесь все зависит от информационной стратегии наших заказчиков. Поэтому оба направления для нас одинаково приоритетны.

Разные специалисты из разных компаний дают собственные определения Большим Данным. Что EMC вкладывает в этот термин?

Большие Данные означают для нас две вещи. Это прежде всего более определенные потребности в данных и более эффективное использование существующих технологий (например, инструментов бизнес-аналитики нового поколения) и инфраструктуры. Вот пример из экономики: поиск и использование небольших месторождений нефти приведет к повышению эффективности во всей нефтедобывающей отрасли. Для решения этой задачи нужны современные технологии для работы с Большими Данными. Или, например, недавно был завершен процесс расшифровки ДНК, и обработка сопряженного с ним гигантского объема данных позволила интенсифицировать создание новых биопрепаратов и лекарств, поднять медицину на новый, более качественный уровень. Несмотря на то что потребности в обработке таких больших объемов данных существуют довольно давно, информационные технологии ранее не могли предоставить необходимые для этого инструменты и ресурсы, а сейчас такие возможности появились. Уже сегодня можно организовать эффективное хранение и анализ данных таким образом, чтобы правильные результаты могли использоваться для принятия правильных решений.

Можно ли провести количественные и качественные границы между просто данными и Большими Данными?

Можно провести такие границы. Прежде всего, следует оценить значение данных. Основной их объем обрабатывается сейчас в виде транзакций — такие данные обрабатывать довольно легко. А с данными другой природы, например с записями, полученными с видеокамер, работать значительно сложнее. Технологии Больших Данных используются для более специфических задач. Раньше эти задачи нельзя было решить, потому что требовалось выполнить слишком много поисковых запросов и невозможно было обработать огромные объемы данных в течение короткого времени. Теперь же это возможно.

EMC говорит, что Большие Данные произведут революцию в ИТ. Вероятно, поменяется и стратегия продвижения технологий и решений на рынке систем хранения данных?

Прежде всего, отмечу, что объем данных в компаниях увеличивается чрезвычайно быстро (удваивается каждые 18 месяцев). И мы наблюдаем ускоренный переход от ручной обработки данных к автоматизированной. Заказчики внимательно следят за тенденциями в мире ИТ и обновляют набор используемых информационных технологий, стараясь выбрать лучшие из них. Этот выбор становится критически важным. Следовательно, нужно разработать определенные принципы, по которым он будет осуществляться. Здесь нужно принять во внимание тот факт, что возможности обработки данных могут быть ограничены существующими ИТ-ресурсами или потенциалом приложений и баз данных. В идеале ИТ-инфраструктура должна быть стандартной, полнофункциональной и простой в использовании (например, как платформа Intel х86). Сейчас в области хранения данных мы наблюдаем аналогичный процесс стандартизации. Кроме того, мы должны стремиться, насколько это возможно, снизить стоимость использования того или иного устройства, но не в ущерб его функциональности и безопасности. И наши клиенты осознают важность этих вопросов. В настоящее время появилась новая специальность в области обработки данных, связанная с современными методами их анализа и управления. Эта специальность очень востребована в различных сообществах, поэтому можно даже говорить о формировании новой науки, нацеленной на оптимизацию процессов обработки данных.

Для каких заказчиков актуальна проблематика Больших Данных?

Для крупных корпораций, банков, научных учреждений, фармакологических предприятий, нефтегазовых компаний, СМИ и госсектора. Именно эти предприятия оперируют огромными объемами данных и нуждаются в инструментах для их эффективной обработки.

А как насчет коммерческих дата-центров, строящих свой бизнес на основе облачных технологий? Они заинтересованы в решениях для обработки Больших Данных?

Совершенно верно. Эта категория заказчиков также нуждается в технологиях для работы с Большими Данными.

Буквально вчера подразделение EMC Greenplum анонсировало новые возможности решения Hadoop Data Computing Appliance. Не могли бы вы пояснить, о чем идет речь?

Речь идет о необходимости более интенсивного использования информации. В прошлом почти все данные, с которыми работал бизнес, были структурированы. Но сейчас 80% данных, с которыми приходится иметь дело, относятся к категории неструктурированных. Причем в социальных сетях их доля еще выше. Объем неструктурированных данных увеличивается быстрее, чем это было раньше. Обратите внимание, что сегодня общественная потребность в сети Twitter больше, чем в агентстве Reuters. Но первая генерирует неструктурированные данные, а вторая — структурированные. Поэтому сейчас назрела необходимость обработки обоих видов данных на одной платформе. Эту возможность мы и реализовали в решении DCA.

Итак, можно ли говорить, что эра Больших Данных уже наступила?

Да, наступила. Но мы прошли только десятую часть пути развития этой технологической концепции.