Взяв за основу процессор Grace с архитектурой Arm, компания Nvidia представила суперкомпьютер, предназначенный для выполнения задач искусственного интеллекта.

Новая система DGX GH200, официально представленная на технической конференции Computex в Тайбэе, оснащена 256 суперчипами Grace Hopper, в которых 72-ядерный центральный процессор Nvidia Grace с архитектурой Arm, предназначенный для высокопроизводительных вычислений, интегрирован с графическим процессором Hopper. Связь между ними поддерживается с помощью специально разработанного компанией Nvidia высокоскоростного межсоединения NVLink-C2C.

Суперкомпьютер DGX GH200 поставляется с общей памятью HBM3, объем которой превышает 144 Тбайт. Обмен данными с памятью также осуществляется с помощью технологии NVLink-C2C. Система имеет упрощенную конструкцию, а ее процессоры воспринимаются программным обеспечением как один гигантский графический процессор с огромным пулом памяти, подчеркивают в Nvidia.

Система может быть развернута и обучена при помощи моделей искусственного интеллекта, которым может потребоваться память, выходящая за рамки той, что поддерживается одним графическим процессором. Как отметили в Nvidia, для обучения этих гигантских моделей понадобилась совершенно новая системная архитектура, позволяющая нам выходить за границы одного терабайта памяти.

При восьмибитной обработке FP8 производительность системы может достигать 1 эксафлопса. Сейчас большая часть задач искусственного интеллекта выполняется с использованием 16-битных инструкций Bfloat16, что занимает в два раза больше времени. Один из способов ускорить процесс заключается в том, чтобы задействовать суперкомпьютер, входящий в первую десятку рейтинга TOP500 и занимающий относительно скромное пространство.

Благодаря межсоединениям NVLink, которые используются вместо стандартной шины PCI Express, скорость передачи данных между центральным и графическим процессорами вырастает в семь раз, а энергопотребление межсоединений в пять раз снижается.

Ожидается, что в числе первых доступ к DGX GH200 получат Google Cloud, Meta (компания признана экстремистской и запрещена в России. — Прим. ред.) и Microsoft. Прежде всего им необходимо изучить возможности суперкомпьютера в части обслуживания приложений искусственного интеллекта. Nvidia намерена предоставлять архитектуру DGX GH200 поставщикам облачных услуг и другим гиперскейлерам в качестве типового варианта, а они уже будут самостоятельно адаптировать ее к своей инфраструктуре. Ожидается, что суперкомпьютеры Nvidia DGX GH200 появятся в продаже в конце текущего года.

Суперкомпьютер поставляется с установленным на нем программным обеспечением Nvidia в виде уже готового продукта, который включает в себя Nvidia AI Enterprise (основной программный слой платформы искусственного интеллекта, объединяющей фреймворки, предварительно обученные модели и инструменты разработки), а также систему Base Command для управления кластерами уровня предприятия.

DGX GH200 – первый суперкомпьютер, который объединил суперчипы Grace Hopper с системой коммутации Nvidia NVLink – межсоединением, позволяющим графическим процессорам работать вместе как единое целое. В системе предыдущего поколения совместную работу поддерживали максимум восемь графических процессоров.

Для развертывания полномасштабной системы по-прежнему требуется ЦОД значительной площади. Шасси высотой 15U содержит восемь вычислительных узлов. В каждой стойке монтируются два шасси,  а также модули Ethernet и IP-подключения NVSwitch. Объединение восьми отсеков позволяет интегрировать до 256 процессоров.

Система имеет воздушное охлаждение, несмотря на то что графические процессоры Hopper потребляют 700 Вт, выделяя большое количество тепла. В Nvidia сообщили, что занимаются разработкой систем жидкостного охлаждения, поддерживая контакты с клиентами и партнерами, но пока DGX GH200 охлаждается вентиляторами.

В настоящий момент потенциальные пользователи системы еще не готовы к жидкостному охлаждению. В перспективе появятся компьютеры, требующие жидкостного охлаждения, пока же удалось сохранить воздушный вариант, пояснили в компании.

В рамках Computex было объявлено о запуске полномасштабного производства Grace Hopper Superchip. Ожидается, что системы OEM-партнеров начнут поставляться уже в этом году.