Понять и сохранить

КОНСТАНТИН БАКАНОВИЧ: «Нужно ясно понимать, каких результатов мы хотим добиться, работая с Большими Данными»

Многие компании в России, например крупные банки, телекоммуникационные операторы, накопили огромные массивы данных и понимают, что их детальный анализ мог бы принести ощутимую пользу для бизнеса. Но осознав потенциал Больших Данных, компании не торопятся начинать проекты, связанные с их обработкой, считая подобные инициативы рискованными с точки зрения возврата инвестиций и достижения результативности. О том, как облегчить предприятиям вхождение в мир Больших Данных, на форуме «Мир ЦОД 2013» еженедельнику Computerworld Россия рассказал Константин Баканович, технический директор компании DSCon.

Как с минимальными затратами подготовить систему хранения предприятия к эффективной обработке и использованию потенциала Больших Данных? Каковы ваши практические рекомендации?

Термин Большие Данные требует обязательного пояснения. Это не просто большой объем информации, скопившейся на предприятии. Нужно ясно понимать, чего именно мы хотим добиться, работая с Большими Данными. Нужно сначала выяснить, какие реальные объекты генерируют эти данные, какие методы будут использоваться для их получения, хранения и анализа. Данные могут быть не очень большими по объему, но при этом иметь высокие требования к скорости обработки и скорости доступа к ним, к структуризации. И каждое из этих требований может стать вызовом для существующей системы хранения данных и частью процесса ее модернизации. Поэтому всегда, готовясь работать с Большими Данными, сначала нужно понять, о чем идет речь, определить критерии, по которым оценивается продуктивность обработки данных, и исходя из этих критериев подготовить системы хранения к работе с ними.

Но существуют же типовые задачи по обработке Больших Данных, в которых применяются уже готовые решения, рассчитанные на достижение схожих практических результатов?..

Действительно, есть примеры реализации похожих проектов, есть примеры задач, которые при этом решаются, есть определенные ожидания, связанные с тем, какие именно объемы данных планируется хранить и перерабатывать. Но все равно каждый проект имеет индивидуальные характеристики, целевые показатели и критерии успешности. DSCon часто получает запросы на создание высокомасштабируемых хранилищ данных, но, как правило, эти запросы звучат так: «Мы хотим приобрести дисковый массив, расширяемый до петабайта, однако наша текущая потребность в ресурсах хранения составляет 20 Тбайт». То есть очень немногие предприятия нуждаются в создании действительно очень больших информационных хранилищ. При этом к нам приходит большое количество запросов на системы архивирования, а иногда нас просят создать системы резервного копирования незначительной емкости. Но запросов на создание систем оперативного хранения Больших Данных немного. Потому что в настоящее время посредством оптимизации головного программного обеспечения, бизнес-процессов или методов обработки данных можно добиться значительного сокращения требований к объему оперативного хранения. То есть данных генерируется масса, но полезных данных и данных, требующих оперативного доступа к ним, в компаниях немного.

Среднестатистический проект, связанный с обработкой Больших Данных, направлен прежде всего на модернизацию ресурсов долговременного хранения?

Нет. Прежде всего выбирается общая идеология системы обработки данных и, по большому счету, всей вычислительной инфраструктуры ЦОД. Нужно понять, какие прикладные задачи будут решаться. Затем нужно выбрать методы решения этих задач, определить, выделить узкие места в этой инфраструктурной цепочке с точки зрения производительности. После чего определяются методы «расширения» узких мест, в том числе такие, как виртуализация. Но в основе всего стоит прикладная задача и понимание того, как ее решать. Многое зависит и от того, планирует ли предприятие использовать Большие Данные для собственных нужд или рассчитывает получить выгоду от предоставления на их основе коммерческих сервисов. То есть в проекте модернизации систем хранения для работы с Большими Данными никогда нельзя четко сказать, что в инфраструктуре хранения прежде всего потребует усовершенствования — коммуникационная составляющая или дисковые массивы, устройства резервного копирования и архивного хранения данных, подсистемы внешней памяти или ленточные библиотеки. Однако общей задачей в таких проектах является построение сбалансированной системы.

Какие сетевые интерфейсы систем хранения имеют оптимальное соотношение цена/производительность применительно к задачам обработки Больших Данных?

Продукты, которые сейчас существуют на рынке, в том числе те, что предлагает наша компания для создания сетевой инфраструктуры, по основным показателям удовлетворяют сегодняшним требованиям подсистем хранения, ориентированным на обработку Больших Данных. В этом отношении элементы сетевой инфраструктуры не являются узким местом, они обладают достаточным запасом производительности.

Но, например, при использовании продуктов, базирующихся на IP и Ethernet, возникают определенные сложности с обеспечением гарантированного качества сервисов и с задержкой пакетов. Подходят ли они для задач сетевого обеспечения при обработке Больших Данных?

По мере развития технологии Ethernet эти недостатки нивелируются. Скажем, в сетях на основе стандарта 10Gigabit Ethernet вопросы задержки и управления качеством сервисов в основном решены. Хотя, конечно, не до конца. А системы на 40Gigabit Ethernet практически лишены указанных недостатков. И эта спецификация может быть рекомендована к применению в критичных приложениях, таких как Большие Данные. Иными словами, 40Gigabit Ethernet вполне может конкурировать в системах хранения и в ЦОД с высокопроизводительными протоколами Fibre Channel и InfiniBand. Но я не готов сказать, какие именно решения имеют оптимальное соотношение цена/производительность применительно к задачам обработки Больших Данных. Здесь нужно учитывать экономические параметры проекта, понимать, какие задачи в нем ставятся. Возможно, Fibre Channel вернет утрачиваемые на настоящий момент позиции в мире ЦОД. Ethernet же хорош тем, что это традиционный и всем отлично известный протокол. С ним привыкли работать ИТ-администраторы, и это большой плюс, поскольку в реализации систем хранения проблема с обслуживающим персоналом — одна из самых острых.

Способствуют ли решению задачи обработки Больших Данных виртуализация и облачные вычисления? Каким образом?

Несомненно. Виртуализация и облака — это новая степень гибкости системы. Благодаря им разработчики системы хранения данных освобождаются от необходимости централизации инфраструктуры, от необходимости обязательно концентрировать функции хранения данных в каком-то одном месте. У разработчиков появляется возможность территориальной или логической балансировки нагрузки. Причем и на уровне транспорта, и на уровне хранения. Значительно увеличивается степень свободы при проектировании, а это позволяет абстрагироваться от системы хранения как таковой при постановке и реализации задачи обработки Больших Данных на прикладном уровне. Виртуализация и облака позволяют хранить данные там, где это наиболее практично для достижения выбранных целей — скорейшего доступа или максимальной сохранности, например. Следствием чего является лучшая управляемость всей системы хранения данных и лучшие экономические показатели.