Знаменательно, что мероприятие SQL Saturday Silicon Valley на территории производственного комплекса Microsoft в Маунтин-Вью состоялось 9 апреля, в годовщину подписания контракта ENIAC (электронный цифровой интегратор и компьютер) в 1943 году, в здании, в котором в настоящее время хранится самый первый компьютер. Его вычислительная мощь, конечно, несравнима с современными образцами, но для своего времени возможности ENIAC были выдающимися — 5000 операций сложения в секунду.

Отталкиваясь от воспоминаний о прошлом, Росс Майстри, старший директор по технологии и новациям технологического центра Microsoft в Кремниевой долине, представил в своем докладе предварительный обзор готовящейся к выпуску версии SQL Server 2016.

Начиная доклад, Майстри напомнил, что почвой для современных вычислительных технологий является математика. В 1200 г. до н. э. люди вели денежные расчеты на пальцах, и занятия математикой были привилегией верхних слоев общества. Перенесемся в сегодняшний день, когда данные стали новой валютой, а компания Microsoft — лидером в разработке сложных вычислительных систем. С помощью функций SQL Server 2016 в следующей версии средств платформы Microsoft Data пользователи смогут свободно накапливать и тратить новую валюту.

«В прошлом назначением баз данных были запись и извлечение данных. Основной характеристикой баз данных будущего станут интеллектуальные возможности записи и извлечения данных. Мы хотим создать модели и алгоритмы для прогнозирования информации на основе наших данных», — отметил Майстри.

SQL Server 2016: рожденный в «облаке»

В некотором смысле версия SQL Server 2016 уже была реализована и в течение довольно длительного времени функционирует в Microsoft Azure. Поэтому, по прогнозам Microsoft, это будет самый стабильный выпуск SQL Server, а пакеты обновления для SQL Server выходят реже чем раз в год. Продукт прошел нагрузочные тесты в производственных условиях благодаря 1,4 млн новых баз данных, созданных в Azure за последний год. Это чрезвычайно важно для совершенствования продукта, так как современному администратору базы данных приходится заниматься и управлением, и разработкой, и проектированием, и наукой о данных, и бизнес-аналитикой, и многим другим. Он помогает организовать процессы принятия критических решений или, по мере развития Cortana Intelligence (в прошлом Cortana Analytics), проектировать процесс машинного обучения для поиска интеллектуальных решений для компаний, государственных организаций и научных учреждений.

Путь обучения для следующего поколения администраторов базы данных

По мнению Майстри, сегодня каждому специалисту по работе с данными необходимы «жажда новизны» и личный образовательный план, чтобы оценить развитие компонентов и приложений, составляющих платформу Microsoft Data. В прошлом она состояла лишь из SQL Server, но теперь это не так. Excel представляет собой ключевой компонент новой стратегии обработки данных Microsoft. Из сочетания SQL Server и Excel появились Power BI и комплект инструментов Azure Data Platform, таких как Cortana Intelligence, Azure SQL Database, HDInsight, Azure Machine Learning, Data Lake Analytics, Stream Analytics, SandDance и многие другие. Жажда новизны должна подталкивать работающих с платформой специалистов к непрерывному обновлению знаний и расширению профессиональных навыков.

Функции платформы данных

Из всего разнообразия возможностей Майстри выделил интеллектуальные функции реального времени для решения критически важных задач, постоянное шифрование, базу данных Stretch, встроенную поддержку языка R в SQL Server, Cortana Intelligence и средство виртуализации данных SandDance.

Расходы, связанные с организацией хранилища и вычислений, набором персонала, проектированием и прочими задачами, которые приходится решать при обслуживании хранилища данных с отдельной архитектурой, и задержка при заполнении этого хранилища данными из базовой среды выполнения транзакций могут нанести серьезный ущерб как финансовому состоянию, так и конкурентоспособности любой компании. В прошлом приходилось выбирать между скоростью и интеллектуальной мощностью автоматизированного процесса принятия решений: увеличьте скорость, и вы получите почти одинаковые решения на основе устаревших наборов данных; повышайте «интеллект», и вы сможете собрать больше данных, но это связано с ожиданием, и, возможно, вы опоздаете с принятием решений, отстав от конкурентов. Теперь такой дилеммы не существует.

Принятие решений в реальном времени и индекс columnstore в памяти

Потребность в инструментах для принятия решений в реальном времени очевидна, и Microsoft позволяет создавать их с помощью таких средств, как индекс columnstore в памяти (механизм In-Memory Columnstore), обеспечивающих получение аналитических данных непосредственно из транзакционной базы данных, без дорогостоящих запросов к базе данных, из-за которых производительность может упасть до уровня, неприемлемого для экземпляра SQL Server. Вместе SQL Server 2016 и индекс columnstore в памяти обеспечивают 30-кратное увеличение скорости интерактивной обработки транзакций (OLTP) и 100-кратное ускорение процессов аналитики. Майстри привел пример компании, которая использует SQL Server для сбора данных о движении эскалатора. С помощью этих данных удалось с высокой точностью определить время закрытия магазинов просто путем анализа данных об изменениях движения эскалаторов в транзакционной базе данных в реальном времени, не снижая общей производительности.

«Теперь у вас есть возможность сквозной мобильной бизнес-аналитики, — заявил Майстри. — Это платформа, а не просто база данных. Высокопроизводительное хранилище данных, возможность выполнять гибридные транзакции локально и используя преимущества «облака». Результат — прозрачная работа локально, через «облако», в гибридном режиме и скоростная интерактивная обработка критически важных транзакций».

Постоянное шифрование

SQL Server 2016 располагает функциональностью для шифрования данных в любом состоянии: в покое, при передаче и даже в буферном пуле. Вы также сможете без труда шифровать данные, скрывая их от лиц с самым широким уровнем доступа на серверах SQL Server — администраторов баз данных. Безопасность на уровне строк (разрешение просмотра записей только конечными пользователями, которым нужно видеть эти данные) наконец-то реализована в SQL Server 2016. Затраты ресурсов на реализацию соответствующих функций лишь в минимальной степени влияют на производительность.

База данных Stretch

Содержание архивных «холодных» данных в производственных базах данных может оказаться дорогостоящим с точки зрения хранения, обслуживания, обеспечения производительности и просто финансовых затрат на ресурсы, необходимые для поддержки постоянно растущего объема архивных данных. База данных Stretch в SQL Server 2016 и Microsoft Azure — перспективный способ сократить объем «холодных» данных, хранящихся в основных транзакционных базах данных. С помощью баз данных Stretch можно преобразовать «холодные» строки — и даже полные архивные таблицы — в соответствующие элементы Azure с более выгодными вариантами хранения. Нет необходимости в сложных архитектурах общего доступа, приложении перезаписи или коде t-sql. Способы представления данных в SQL Server нейтральны по отношению к другим компонентам вашего решения обработки данных. Кроме того, если ваши запросы не обращаются к «холодным» данным, не возникает никаких задержек, связанных с реализацией «облачного» источника данных. Одновременно, если редкий запрос взаимодействует только с «холодными» данными Azure, локальные ресурсы для tempdb и пула буферов не затрагиваются. Поскольку объем «холодных» данных обычно велик, запросы, обращенные к архивным данным, часто превосходят возможности как буферного пула, так и tempdb. Джарек Казмерчак, ведущий специалист по корпоративной стратегии в канадском отделении Microsoft, продемонстрировал собравшимся базу данных Stretch, показав, как просто организовать структуру от начала и до конца.

Встроенный язык R и Cortana Intelligence

Наука о данных и бизнес-аналитика сегодня составляют основу успешной деятельности компаний и государственных учреждений. Интеграция R, мощного статистического языка, используемого специалистами по обработке и анализу данных и математиками, и совершенствование Cortana Intelligence — необходимые условия развития передовых тенденций. Появление Интернета вещей привело к стремительному увеличению числа датчиков и устройств, собирающих петабайты данных. Казмерчак рассказал о концепции AI Winter (период разочарования после чрезмерного энтузиазма по поводу технических новаций, не принесших ожидаемых результатов; термин возник после неудачи с искусственным интеллектом). Он считает, что этот период завершился, и теперь нас ждет лучшее финансирование и широкие перспективы.

«Можно утверждать, что мы стоим на пороге новой промышленной революции, — убежден Казмерчак. — Она приведет к крупнейшим изменениям в социальной и политической системах и качестве жизни — как негативным, так и положительным. У этой промышленной революции будет четыре основных двигателя: данные, огромный рост данных, искусственный интеллект и «облако»».

Глобальные перемены назрели в «облаке»: они обусловлены неограниченной вычислительной мощностью и возможностью собирать огромное количество данных и принимать ювелирно точные решения. Неизбежные отголоски произведений Оруэлла могут звучать как тревожно, так и оптимистически. Cortana Intelligence — центральный элемент, дающий основание с воодушевлением думать о будущем интеллектуальных решений.

Cortana Intelligence позволяет производить расчеты над любыми данными (текст, видео, изображения) в «облачных» масштабах с конвергенцией новых процессов, таких как машинное обучение Azure и базовые конструкции бизнес-аналитики, чтобы принимать наиболее точные решения. В действительности Cortana Intelligence — это набор «облачных» служб (https://azure.microsoft.com/en-us/solutions/cortana-intelligence/), многие из которых выполнены на базе открытых технологий, таких как Spark и Hadoop. Это одна из фундаментальных причин, по которым компания Microsoft столь активно использует программное обеспечение с открытым кодом. Важно быть частью открытой экосистемы, чтобы углублять способность извлекать интеллектуальные решения из данных.

Наконец, SandDance

Майстри и Казмерчак завершили свое выступление демонстрацией новейшего компонента визуализации от Microsoft — SandDance. Этот продукт позволяет визуализировать любые точки данных в разнообразных форматах: обычных линейчатых и столбчатых диаграммах, а также геопространственно. На первый взгляд звучит не очень впечатляюще, но не спешите делать выводы. Это не агрегирование результатов из точек данных с визуализацией агрегатов. Это нанесение отдельных точек данных в визуализациях с последующей возможностью быстро перемещать точки из одного визуального представления в другое или рассматривать отдельные точки с разными уровнями детализации. Официальное объявление Microsoft о SandDance можно найти по адресу: http://research.microsoft.com/en-us/projects/sanddance/.

Купить номер с этой статьей в PDF