Бенджамин Торонто: «На мой взгляд, мы пока еще не представляем грандиозность и важность задач, связанных с работой с данными, которые откроются нам в ближайшие годы»

В апреле закончился период тестирования и начались продажи новой версии СУБД SQL Server 2014. По этому случаю по всему миру состоялись процедуры официального представления новой платформы. На мероприятии, прошедшем в Москве, выступил руководитель департамента продвижения серверных продуктов Бенджамин Торонто. Он ответил на вопросы редактора журнала «Открытые системы» Леонида Черняка.

 

Мир баз данных переживает ренессанс, еще совсем недавно для перечисления используемых СУБД хватило бы пальцев рук, а сегодня их количество исчисляется сотнями. Каким вам представляется положение SQL Server 2014 на этом фоне?

 

В целом наша стратегия не сильно отличается от того, как поступают остальные вендоры, в каких-то случаях нам приходится следовать общим тенденциям, а где-то мы сами определяем будущее. Главная внешняя сила, определяющая все происходящее, — взрывообразный рост объемов неструктурированных данных. Это он вызывал к жизни базы NoSQL, Hadoop и иные подобные новации последнего времени. Обычно на такого рода изменения быстрее реагируют небольшие компании, а следом за ними идут крупные лидеры рынка. С небольшим отставанием они начинают пересматривать свои взгляды и корректировать стратегии. Но это не значит, что мы во всем занимаем позицию догоняющего. Например, мы только что внедрили в SQL Server 2014 механизм обработки транзакций в оперативной памяти (in-memory) и сразу же заняли лидирующее положение в этом технологическом направлении.

 

Какое место нашли неструктурированные данные в SQL Server 2014?

 

Не следует понимать под решением проблемы неструктурированных данных лишь создание инструментов, обладающих способностью только работать с ними. И сейчас, и в будущем стоит важная задача сначала структурировать такие данные, а потом анализировать их и получать ценные знания. Поэтому мы сопровождаем запуск SQL Server 2014 новыми версиями таких продуктов, как Analytics Platform System и Azure Intelligent Systems Service. Они позволяют наделить корпоративную информационную систему способностью к восприятию данных из внешней среды, из любых источников. Мы называем этот процесс ambient intelligence, когда практически любое явление окружающей среды становится источником данных. Так, например, решение Analytics Platform System позволяет обращаться к структурированным данным, а также к неструктурированным данным на кластере Hadoop, используя привычный язык T-SQL.

 

Кроме того, нам удалось совместить Hadoop с Windows, что значительно облегчает администрирование кластеров Hadoop.

 

При освещении запуска SQL Server 2014 тема номер один — возможность работы с данными в оперативной памяти. Здесь Microsoft не пионер, чем отличаются предложенные подходы от ранее известных?

 

Необходимость иметь в своем арсенале технологию in-memory осознали все вендоры. Многим кажется более разумным купить компанию, уже располагающую этой технологией, и потом попытаться интегрировать ее в свои продукты. Так поступили многие наши конкуренты, что не лишено смысла и действительно позволяет эффективно ускорить некоторые приложения. Microsoft, в свою очередь, пошла другим путем — мы встроили технологию in-memory в ядро платформы SQL Server 2014. В результате у наших заказчиков появилась возможность увеличивать производительность бизнес-критичных приложений в 15 и более раз. Внешне все очень просто: система предлагает инструменты, способные определить наиболее критичные таблицы, работу с которыми необходимо ускорить. Затем они переносятся в оперативную память, что дает мгновенный эффект. При данном подходе «ускоряется» только то, что действительно требует ускорения.

 

То есть все остальное выполняется как обычно, но для выбранных таблиц применяется ускоритель, что-то вроде турбонаддува?

 

Да, отличная аналогия, действительно очень просто ускорить работу высоконагруженных частей системы и повысить таким образом производительность системы в целом.

 

Утверждается, что вторая, не менее важная новация SQL Server 2014 — работа с облаками. Что именно сделано в этом направлении?

 

Сегодня огромная часть данных рождается и живет в облаках. Поэтому необходимо предоставить возможность анализировать данные, полученные из собственных источников компаний, совместно с данными, полученными из внешних источников.

 

То есть вы говорите о наделении систем когнитивной способностью к восприятию внешней информации?

 

Да, современная аналитика невозможна без обработки и анализа данных, полученных из внешней среды. Мы видим свою задачу в помощи пользователям при выполнении такого рода аналитики, снабжая их необходимыми технологиями. Облачные технологии — это наиболее очевидный подход к решению проблемы лавинообразного роста объемов данных. В SQL Server 2014 реализованы такие возможности, как резервное копирование в облако, создание отказоустойчивого кластера Always On с одной из реплик в Microsoft Azure, а также возможность переноса файлов базы данных в Azure.

 

Microsoft SQL Server с выпуском версии 2012 года вошел в список CУБД, поддерживающих технологий поколоночного сжатия. Что нового в этом отношении?

 

В предыдущей версии поколоночный индекс (column store) нельзя было изменять в процессе работы, он был необновляемым и мог работать только в режиме чтения. Периодически его нужно было пересоздавать. Сейчас он автоматически обновляется в реальном времени, что положительно сказывается на производительности.

 

Все существующие СУБД создавались в расчете на жесткие диски HDD с блочной организацией хранения. С появлением твердотельных устройств SSD, особенно таких, которые не эмулируют диски, начинается новый этап. Как эту тенденцию учитывает Microsoft? Особенно интересно узнать о сотрудничестве с компаниями Fusion-io и Violin Memory, которые ускоряют работу с данными в десятки раз.

 

Обе компании действительно являются нашими партнерами, действительно выстраивается новая иерархия систем хранения. Еще Джим Грей назвал диски «новыми лентами», имея в виду, что они постепенно уступают место твердотельным накопителям, а SSD становятся «новыми дисками». SQL Server и раньше полностью поддерживал работу с SSD. В новой версии была добавлена возможность расширения буферного пула за счет применения выделенного твердотельного накопителя, что позволяет заметно повысить производительность операций, требовательных к дисковым ресурсам.

 

Возможны два подхода. Более простой — использовать SSD, эмулирующие обычные жесткие диски. Но есть устройства, работающие существенно быстрее, не разбитые на блоки и подключаемые по PCIe. Что перспективнее?

 

Я бы не отдал предпочтение ни тому, ни другому. Не стоит забывать, что SSD обладает совершенно иными качествами и собственными преимуществами. Нужно не упрощать решение, а искать новые подходы. На мой взгляд, мы пока еще не представляем грандиозность и важность задач, связанных с работой с данными, которые откроются нам в ближайшие годы. Мир меняется быстрее, чем наша способность к прогнозам; что будет через 10 лет, не знает никто. И я счастлив, что застану это время перемен. ?