Попытки создания технологий многомерного анализа больших объемов данных в разное время предпринимались такими гигантами ИТ-индустрии, как Microsoft и Facebook (принадлежит компании Meta, признанной в России экстремистской и запрещенной. — Прим. Ред.), но успеха они не имели. Например, авторы подобной технологии Cubrick, в частности, отмечали принципиальную ограниченность средств ROLAP для анализа данных — пользователям не предоставляется даже минимально необходимая свобода действий. Действительно, операции "slice-n-dice", "roll-ups" и "drill-down" недоступны на аналитических платформах, построенных на СУБД любой архитектуры, включая распределенные колоночные базы данных типа ClickHouse. Вместе с тем пользователи, когда-либо использовавшие в своей практике многомерный анализ на основе OLAP (Microsoft Analysis Services, Cognos TM1, Oracle Essbase), уже не захотят обратно перейти на плоские представления данных. Однако объемы доступных для обработки существующими средствами MOLAP (Multidimensional OLAP) данных ограничены емкостью оперативной памяти одного физического сервера.
Платформа rapeed призвана устранить ограничения OLAP-систем на объемы и производительность данных для анализа, а также предоставить пользователям удобную визуальную среду для работы с единым многомерным пространством данных. Для реализации такой платформы команда компании «Рапид. Исследовательские системы» разработала собственный распределенный тензорный аналитический движок и распределенное хранилище данных. О платформе рассказывает Роман Раевский, автор идеи и основатель компании, а также номинант на премию Data Award 2025.
![]() |
| Роман Раевский: «На российском рынке нет инструментов, решающих задачу обработки огромных объемов данных для выполнения многомерного анализа с произвольной детализацией. Мало того, подобные решения отсутствуют и на Западе» |
С чего началась разработка и как она эволюционировала?
Уже более 20 лет разработка аналитических технологий — это мое хобби и основная профессия. В 2004 году в виде отдельного продукта С.М.А.Р.Т появилась первая реализация нашей технологии класса Data Mining. Продукт изначально предназначался для анализа розничных продаж в ретейле, и уже тогда у него появилось множество клиентов, причем не только в рознице, но и среди транспортных, нефтяных компаний, а также госструктур.
Проблема, с которой мы тогда столкнулись, заключалась в том, что продукт представлял собой типичное приложение под ОС Windows, по определению не способное обработать более 150 млн записей. Впервые эта неприятность случилась в торговой сети «Связной», а после второго подобного сбоя я осознал, что нечто подобное может произойти и у любого крупного клиента. Для снятия ограничения система была перенесена на ОС Linux с применением прямой работы с памятью, с использованием новых алгоритмов, принципов хранения и обработки — в общем, все в этой системе было новое. Заодно сменилась и команда разработки.
В итоге в 2011 году появилась система «Полиматика» и был создана одноименная компания, однако результаты первых пяти лет разработки альфа-версий этого продукта меня не устраивали, но постепенно была создана вполне работоспособная версия и стартовали первые пилотные проекты, причем первый — в ФНС России. Ведомству требовалась система, способная работать с таблицей данных по организациям из 15 млн строк, раскрывающихся при детализации вплоть до отдельных документов — а их сотни миллионов, с десятками столбцов, которые детализировались вплоть до данных по отдельным инспекциям. Эту огромную таблицу нужно было не просто показывать, а уметь быстро сортировать, фильтровать и создавать свои расчетные факты, по которым также производить сортировку, фильтрацию и раскрытие. Шел 2016 год — тогда этого не могли сделать ни западные, ни российские продукты.
После проекта для налоговиков у нас появилось много новых клиентов, а компания вышла на международный уровень — открылись офисы в Лондоне, Цюрихе, Берлине и пр. Однако и тут достаточно быстро выяснились два неприятных момента. Во-первых, несмотря на постоянную оптимизацию алгоритмов, мы столкнулись с увеличением времени расчетов. Пресловутые 150 млн записей, на которых «умирал» С.М.А.Р.Т., обрабатывались быстро — примерно за 10 секунд можно получить на экране нужную таблицу, но если число записей удваивалось, то время ожидания результатов увеличивалось в пять раз. На обработку 1 млрд записей требовались уже минуты на самом современном «железе». Для того времени это было весьма неплохо — немногие наши текущие и потенциальные клиенты обладали такими объемами данных, а у конкурентов показатели были гораздо хуже. Тем не менее время расчетов росло в полиномиальной зависимости от объемов данных. За счет подключения GPU тогда удавалось на 10–15% повысить скорость расчетов на операциях сортировки данных — иногда этого было достаточно.
Во-вторых, мы опять уперлись в потолок количества записей, правда, это было уже два млрд строк, а на практике еще меньше. Эта величина была связана с объемом памяти, доступной процессору. Теоретический потолок — примерно 4 млрд строк — связан с размером адресного пространства для хранения индексов. На практике пользоваться кубами более 1 млрд строк становилось чрезвычайно затруднительно.
Обе неприятности возникли на фоне того, что у нас уже были клиенты и проекты федерального масштаба, команда разработчиков насчитывала уже более сотни человек, мы были известны на рынке, активно появлялись в медийном пространстве, а рабочим языком компании был английский.
В сентябре 2019 года я ушел из компании, чтобы сосредоточиться на разработке новой технологии, свободной от любых ограничений. Итогом стала платформа rapeed.
Каковы ключевые возможности платформы rapeed?
Прежде всего это распределенная многомерная обработка практически неограниченных объемов данных, возможность «на лету» связывать источники и бесконечное (в разумных пределах, определяемых фантазией пользователя) исследование данных (Data Discovery) на основе расчета связей между объектами (область связей).
Ключевые технологии платформы — это наши авторские разработки: технология распределенной OLAP-обработки в оперативной памяти (Distributed OLAP In-Memory, DOLAP), а также технология связанных полей. Ключевое отличие связанных полей от традиционных «джойнов» таблиц в том, что пользователю не надо задумываться о грануляции данных, ключевых полях и размере источников: связал данные — работай дальше и будь уверен, что все посчитается корректно. Математически, связанное поле — это динамическое объявление новой оси в многомерном пространстве данных. Для сверхбыстрой обработки многомерных данных применяется собственный динамический распределенный тензорный движок, встроенный в ядро платформы.
Файловая система, хранилище, ядро и API разработаны на языке С++, бизнес-слой реализован на Python, пользовательский интерфейс — на базе библиотеки React JS. Продукты rapeed работают на различных дистрибутивах ОС Linux и могут разворачиваться в контейнерных средах Docker и Kubernetes, а также на Windows.
Сейчас rapeed работает со структурированными данными из СУБД Microsoft SQL Server, Oracle, PostgreSQL и ClickHouse, а также из любых ODBC-совместимых систем. Кроме того, могут обрабатываться данные из файлов Excel, CSV, Parquet и хранилищ S3.
![]() |
| Компоненты платформы rapeed |
Какова целевая аудитория платформы?
Бизнес-пользователи современных предприятий должны уметь работать с любыми объемами и источниками данных, соединять их, не обращая внимания ни на их грануляцию, ни на количество полей в любом источнике произвольного качества, причем все это без программирования, в режиме самообслуживания. Традиционные и наиболее популярные многомерные средства анализа данных, в том числе классические OLAP-продукты типа Microsoft SQL Server Analysis Services, Oracle Essbase и SAP BW for HANA, работают внутри оперативной памяти одного сервера, при этом предварительно агрегируя данные, что ограничивает пользователей и в объемах данных, и в гибкости работы. Современные колоночные СУБД также часто причисляют к OLAP, что не совсем верно — SQL-запросы не могут сравниться в гибкости с многомерным анализом. Чтобы убедиться в этом, достаточно просто сравнить обычную таблицу Excel, которая, по сути, является аналогом СУБД, со сводной таблицей Excel (Pivot Table) — самым наглядным примером инструмента, позволяющим представлять данные в виде, удобном для многомерного анализа.
Сегодня на российском рынке нет инструмента обработки огромных объемов данных с одновременным сохранением многомерности анализа. Но и на мировом рынке нет доступных эффективных решений. Максимум, что есть на рынке, — это технологии с предрассчитанными показателями и «предугадыванием» нужд пользователя типа Apache Kylin. Но практика показывает, что пользователям требуется гибкость настоящего онлайн-расчета в любых разрезах.
Реальные показатели производительности?
Подсчет количества уникальных ненулевых значений (count distinct) в разрезе любого заданного поля за 50 миллисекунд на конфигурации из трех типовых офисных ПК для базы из миллиарда строк говорит сам за себя. При этом вся сложность расчетов скрыта «под капотом» — пользователю предоставляется понятный интерфейс обращения ко всем доступным источникам, полям и конструктору формул, составляемых либо из визуальных «кирпичиков», либо задаваемых в текстовом виде с клавиатуры.
Продукт рассчитан на корпоративных клиентов: банки, розничные сети, телеком-операторы и государственные структуры. Вместо ожидания готовности сотен SQL-запросов платформа предлагает пользователям мгновенное получение нужной информации — данные можно буквально «почувствовать» кончиками пальцев, самостоятельно составляя любые кубы.
В каком направлении планируете дальнейшее развитие платформы?
На сегодняшний день rapeed — это единственная в своем роде технология распределенной многомерной обработки данных и первая действительно новая технология в своем классе, реализованная в конкретном продукте. Дальнейшее направление развития rapeed как аналитической платформы — предоставление пользователям максимальной свободы при аналитике данных любого объема и сложности, причем с помощью простых в использовании инструментов самообслуживания. Благодаря возможности за секунды проверить множество гипотез аналитик, вместо того чтобы тратить время на настройки системы бизнес-аналитики, сразу может увидеть картину в целом, что, в частности, оказывает на него сильное психологическое влияние, стимулируя творчество. Главное — сформулировать задачу, осознать, что именно интересует аналитика, а этого за человека не сделают ни современные, ни любые будущие LLM.
Михаил Зырянов (mikez@osp.ru) — шеф-редактор, OSP.RU (Москва).
.jpg)
.jpg)