Хорошо забытое старое

Люк Лонерган: «Думаю, что самые большие неожиданности нас ожидают в связи с появлением новых процессоров»

Одним из самых заметных докладчиков на конференции Big Data 2012, проведенной 22 марта издательством «Открытые системы», был Люк Лонерган, сооснователь компании Greenplum. После ее вхождения в EMC он возглавляет одноименное подразделение этой корпорации. Свое выступление Лонерган посвятил теме технологий для аналитической работы с Большими Данными, прежде всего Hadoop. По окончании Лонерган ответил на вопросы для Computerworld Россия.

В начале своего выступления Лонерган попросил поднять руки тех, кто уже использует Hadoop, — ни один из зрителей не поднял руки, тогда он спросил: «А кто планирует использовать Hadoop в своих проектах?» Поднялась одна рука. Читая его ответы на вопросы, нельзя не учесть этого обстоятельства.

Как вы оцениваете рынок, на котором работает Greenplum, какие тенденции наиболее существенны, по вашему мнению?

Собственно рынок параллельных СУБД начался с Greenplum, мы создали его, сейчас он бурно развивается и меняется качественно, теперь СУБД типа Greenplum оказались одним из элементов рынка технологий для работы с Большими Данными, идет процесс экспансии вверх — в сторону приложений и вниз — в сторону «железа». Прежде всего Hadoop — это ключевая технология. Сегодня, покупая системы хранения, рассчитанные на Большие Данные, пользователи обычно предполагают установить в них Hadoop. Появление Hadoop повлияло не только на то, как организованы данные в системах хранения, но и на вычислительный компонент накопителей. Типичный пример — накопитель NAS EMC Isilon, включающий операционную систему OneFS 6.5 и распределенную файловую систему Hadoop Distributed File System (HDFS). Кластер Hadoop может расширяться до нескольких тысяч узлов. Isilon стал первой NAS-системой корпоративного класса, в которой полностью интегрирована Hadoop. Greenplum подготовила к выпуску единую аналитическую платформу Unified Analytics Platform (UAP), она работает на Isilon и может быть без больших сложностей встроена в корпоративные системы для анализа структурированных и неструктурированных данных. В связи с этим возникает новый сегмент на рынке труда, требуются специалисты по анализу данных, которых теперь называют data scientists.

Кого вы считаете основными конкурентами?

Прежде всего IBM и Oracle, к ним можно добавить SAP и NetApp, но сейчас сложно говорить о конкуренции, слишком быстро все изменяется. Самым важным в нашем сегменте я считаю феноменальную скорость, с которой он приобретает зрелость. На то, чтобы создать зрелую параллельную СУБД, которую мы разрабатывали по классическим канонам, у нас ушло более десяти лет, но вот появился Hadoop, и все изменилось. Технологии, если отбросить «эмбриональный» период в три-четыре года, уже посыпались как из рога изобилия.

А как же SQL?

Технологии доступа Hive и Pig в ряде случаев при работе со структурированными данными уступают SQL, а значит, этот классический язык запросов нельзя исключить из инструментария для работы с Большими Данными. В нашей реализации Hadoop поддерживаются и SQL, и альтернативные методы доступа к данным, выбор определяется обстоятельствами.

А не пора ли, хотя бы в приложении к аналитике, вообще отказаться от деления на систем хранения и компьютеры, не следует ли говорить о неких новых машинах? Например, Oracle Exalytics...

Да, мы в какой-то мере возвращаемся к прошлому, в мэйнфреймах все было объединено. Идея сетей хранения SAN была на какой-то момент продуктивна, но компьютинг оказался отделенным от хранения, что стало проблемой в условиях распараллеливания вычисления и хранения. Для сближения на новом уровне мы стали использовать термин «вычисляемое хранение» (Computable Storage), где оба компонента работают на прямой связи.

Какая из технологий способна стать прорывной, поможет вывести работу с данными на новый уровень?

Думаю, что самые большие неожиданности нас ожидают в связи с появлением новых процессоров. Потенциал нынешних «стандартных» серверов практически исчерпан, будущее в процессорах, состоящих из сотен и более ядер. При нынешнем отношение к многоядерности каждое из ядер рассматривается как отдельный процессор, что возможно, когда число ядер не превышает 64, при большем их числе ядра должны объединяться в массивы наподобие графических процессоров в высокопроизводительном компьютинге.

Вы упомянули, что в конце технологической цепочки работы с данными стоят специалисты по данным, чья задача в конечном счете — превратить данные в информацию. По оценкам, в США есть до полумиллиона таких незанятых рабочих мест. Не это ли сдерживающий фактор в массированном внедрении аналитики?

В США большое количество специалистов занято более или менее традиционной аналитической работой, основанной на классических статистических методах. Но анализ больших объемов данных существенно отличается от того, что уже давно известно на протяжении десятилетий. Необходима подготовка новых специалистов и переподготовка тех, кто уже занят в ИТ. Мы организовали несколько сертификационных программ для дипломированных специалистов и программы для университетов. Но мы еще только приближаемся к пониманию содержания науки о данных, она будет включать в себя машинное обучение, искусственный интеллект и многое другое. Я полагаю, что Россия с ее высоким уровнем математической подготовки получает неплохие шансы.

Хорошо забытое старое

Синтетическое качество: как искусственные данные дают реальные результаты