По словам Валерия Панкратова, технология in-memory позволяет строить аналитические модели с большей скоростью и с более высокой точностью
По словам Валерия Панкратова, технология in-memory позволяет строить аналитические модели с большей скоростью и с более высокой точностью

За прошедшие годы список ее продуктов вышел далеко за рамки инструментов для столь любимого в Америке статистического анализа. Сегодня SAS занимает особое положение, кроме нее и еще MicroStrategy не осталось компаний, специализирующихся на бизнес-аналитике; остальных поглотили мегавендоры — SAP, IBM и Oracle. Кроме того, SAS — самая крупная софтверная компания, которой удалось не стать публичной. Как показывает опыт, статус частной позволяет компании сохранять верность своим продуктам и адаптироваться к изменяющимся условиям.

Основной интеллектуальный капитал SAS — приложения, создававшиеся все эти годы. За этот период «железо», на котором они работают, пережило не одну смену поколений — мэйнфреймы и миниЭВМ, ПК и Unix-серверы. Наступает время специализированных аналитических машин (appliance) и конвергентных инфраструктур, то есть разного типа сборок из лезвий, систем хранения и сетей, предназначенных в основном для частных корпоративных облаков. Но требуется не просто перенести приложения на новую аппаратную платформу, нужно к тому же учесть еще два неизвестных прежде фактора — многократный рост объемов данных, а также перевод аналитики в режим, близкий к реальному времени.

SAS ответила на эти вызовы выпуском линейки для высокопродуктивной аналитики, состоящей из нескольких продуктов под общим названием High-Performance Analytics. SAS развивает линейку HPA несколько лет, сегодня она включает три взаимодополняющие технологии, различающиеся между собой по тому месту, где именно происходит распараллеливание данных. Хронологически первой была SAS Grid Computing, поддерживающая распределенную обработку процессов в кластерной среде, это решение несколько напоминает частное облако. Затем были выпущены программные продукты класса in-database, где распределенная обработка достигается путем переноса вычислений внутрь хранилища данных, то есть вычисления перенесены из аналитического сервера SAS непосредственно в СУБД, произведенную каким-то другим вендором.

Очередным шагом в развитии HPA стало создание категории продуктов и решений, в которых воплощена технология, называемая in-memory, то есть распределенные вычисления выполняются непосредственно в оперативной памяти лезвийных серверов. Новое решение позволяет осуществлять аналитику сверхбольших объемов данных не за часы, как прежде, а за минуты, буквально в реальном времени. Впервые о нем стало известно год назад, в декабре оно было представлено в США, а в конце мая состоялась московская премьера. Валерий Панкратов, генеральный директор SAS по России и СНГ, так охарактеризовал это событие: «SAS готова предложить инструментарий, соответствующий новым потребностям, специалисты получают возможность быстрее добраться до смысла, скрытого в Больших Данных. Аналитики строят аналитические модели по технологии in-memory в продукте SAS High-Performance Analytics с большей скоростью и, как следствие, с более высокой точностью. А ИТ-служба получает возможность гибко и эффективно использовать серверные ресурсы благодаря grid-технологиям и легко интегрировать результаты работы аналитиков в оперативные процессы благодаря технологии in-database».

Ускорение аналитики достигается путем эффективного распараллеливания данных между устройствами оперативной памяти определенного количества серверов и исключения лишних обменов с дисками. Достигаемая скорость работы позволяет расширить область применения аналитических методов и существенно повысить качество решений. Естественно, для обработки в память требуется соответствующая аппаратно-программная платформа. Как чисто софтверная компания, SAS она рассчитывает на использование того, что называют сейчас аналитическими платформами, то есть на интегрированные системы, построенные по архитектуре с массовым параллелизмом (Massive Parallel Processing, MPP), поддерживающие MapReduce и современные СУБД — как SQL, так и NoSQL. В декабре было объявлено, что в первую очередь это будут изделия от EMC Greenplum, а также от Teradata, с учетом нового функционала, привнесенного недавно купленной компанией Aster Datа. Но, как было заявлено в Москве, может быть обеспечена работа и на любом наборе серверов-лезвий. Для этого у SAS готовит собственную реализацию Hadoop, созданную на основе свободной версии. Это будет «готовый к любому железу» пакет, сочетающий гибкость файловой системы Hadoop Distributed File System со скоростью обработки данных в памяти. Кроме того, в арсенале SAS появился интеграционный сервер Enterprise Data Integration Server пhe, который расширяет круг поддерживаемых аналитических платформ. Он позволяет связать HDFS c широким спектром СУБД — Oracle, DB2, Microsoft SQL Server, Teradata, Teradata Aster, Sybase, Netezza, EMC Greenplum, MySQL.

SAS Visual Analytics — еще один продукт, работающий по технологии in-memory. Он сочетает в себе высокопроизводительные средства анализа и графический интерфейс визуализации данных. Продукт позволяет бизнес-пользователям и аналитикам самостоятельно анализировать большие объемы данных и получать точные, наглядные и удобные для интерпретации отчеты. Такие отчеты можно публиковать в Интернете, а благодаря приложениям для мобильных устройств с ними можно работать, например, на iPad. Это означает, что на встречах, в командировках или при удаленной работе у менеджеров, маркетологов, исследователей и других пользователей, которым нужны аналитические данные и выводы, сохраняется доступ к нужной информации. Они могут ею пользоваться и принимать на ее основе взвешенные решения.

Анализ занимает всего несколько секунд, максимум — несколько минут, что дает бизнесу значительную фору по времени перед конкурентами. Поскольку пользователи работают с данными напрямую, самостоятельно, не делая запросов в ИТ-службу, меняется весь процесс проведения анализа и принятия решений. В свою очередь ИТ-специалисты освобождаются от рутинных операций по обработке пользовательских запросов на предоставление доступа к информации и создание новых представлений данных и разовых отчетов. И компания может направить высвободившиеся ресурсы на решение других важных задач. В основе SAS Visual Analytics – сервер SAS LASR Analytic Server, оптимизированный для применения в средах распределенных вычислений. Интеграция с Hadoop обеспечивает необходимую масштабируемость всей системы.

Поделитесь материалом с коллегами и друзьями