Открытый инструментарий машинного обучения от Microsoft

16.12.2015

Вслед за Google, опубликовавшей недавно фреймворк машинного обучения с открытым кодом, похожий проект под названием Distributed Machine Learning Toolkit выпустили в Microsoft. Его назначение — упростить задачу обучения сложных моделей с использованием распределенных систем. Основа DMLT — SDK на C++ с клиент-серверной архитектурой. Серверная часть, отвечающая за работу с глобальными параметрами модели, работает на группе машин, а клиентские программы обучения обновляют параметры, обращаясь к коммуникационным механизмам с помощью API, объясняют в Microsoft. DMLT позволит обучать модели на распределенных системах, не заботясь о тонкостях управления потоками и задачами, добавляют в корпорации. В DMLT предусмотрены готовые алгоритмы: LightLDA, предназначенный для обучения больших моделей данных, а также Distributed Word Embedding и Distributed Multisense Word Embedding — алгоритмы, позволяющие определять отношения слов в тексте. В дальнейшем в Microsoft собираются добавлять к инструментарию и другие алгоритмы.