Специалисты IBM создали систему, способную автоматически распределять вычисления, необходимые для тренировки моделей в технологии глубинного обучения, по нескольким физическим серверам со своими графическими ускорителями. Система называется Distributed Deep Learning (DDL) и работает только на серверах семейства IBM OpenPower на программной платформе PowerAI 4.0. Система DDL включает в себя несколько хорошо известных платформ для работы с технологиями глубинного обучения: TensorFlow, Torch, Caffe, Chainer и Theano. Система может автоматически распараллеливать работу программ, основанных на этих платформах. Производительность, как утверждают в IBM, растет почти линейно с увеличением количества вычислительных узлов. Так, например, для обучения тестовой программы на наборах данных ResNet-101 и ImageNet-22K понадобилось 16 суток работы сервера IBM S822LC с двумя ускорителями Nvidia Tesla P100. При запуске на сети с 64 серверами для выполнения того же задания потребовалось только семь часов — в 58 раз меньше. С системой DDL можно работать либо на серверах с платформой PowerAI, либо в облачном сервисе, который предоставляет компания Nimbix.

Поделитесь материалом с коллегами и друзьями

Купить номер с этой статьей в PDF