Nvidia купила компанию SchedMD, разработчика широко используемого менеджера рабочих нагрузок с открытым исходным кодом для высокопроизводительных вычислений и ИИ-кластеров – Slurm. Это стратегическое приобретение, расширяющее возможности программного стека ИИ Nvidia, укрепляет экосистему компании в области ИИ-инфраструктуры и позволяет интегрировать Slurm в платформы Nvidia для ускорения развертывания и повышения эффективности ИИ-кластеров.
Slurm распределяет ресурсы (вычислительные узлы) между пользователями, запускает параллельные задачи и осуществляет их мониторинг, а также управляет очередями доступа к ресурсам. Эта система, управляющая распределением задач между огромным числом серверов и графических процессоров, используется примерно в 65% суперкомпьютеров из рейтинга Top500.
Объявленная сделка свидетельствует о стремлении Nvidia развивать экосистему открытого программного обеспечения. В компании намерены «продолжить разработку и распространение Slurm как не зависящего от поставщика ПО с открытым исходным кодом, обеспечив его широкую доступность и поддержку в различных аппаратных и программных средах сообществом специалистов по высокопроизводительным вычислениям и ИИ».
Комментируя приобретение, аналитики отмечают, что с ростом сложности ИИ-кластеров планирование рабочих нагрузок все больше зависит от производительности сети, которая влияет на потоки трафика и использование графических процессоров.
Благодаря четкому представлению о топологии сети Slurm может направлять трафик в ее области с высокоскоростными соединениями, минимизируя перегрузки, повышая эффективность использования графических процессоров и сокращая время их простоя, что очень важно для крупномасштабных задач ИИ. Хотя Slurm и не управляет непосредственно сетевым трафиком, решения о размещении рабочих нагрузок могут существенно повлиять на работу сети, так как без учета ее топологии резко возрастает трафик между стойками и серверами, что приводит к увеличению задержек и перегрузок.
К примеру, согласно консалтинговой компании Omdia, Slurm отлично подходит для организации многоузлового распределенного обучения, при котором задания распределяются между сотнями или тысячами графических процессоров, а ПО способно оптимизировать перемещение данных между серверами, определяя, где следует размещать задания, исходя из доступности ресурсов.
Эксперты считают, что «сближение» Slurm с графическими процессорами и сетевым стеком Nvidia предоставит компании больше возможностей для управления инфраструктурой ИИ. Однако более глубокая интеграция Slurm с ИИ-стеком Nvidia может привести к операционным изменениям, к которым предприятиям нужно подготовиться.