«Яндекс» открывает код библиотеки градиентного бустинга CatBoost | Computerworld Россия

Российский разработчик систем поиска «Яндекс» представил библиотеку машинного обучения с открытым кодом, которая должна помочь разработчикам в создании более точных моделей машинного обучения благодаря применению технологии так называемого градиентного бустинга.

Библиотека CatBoost проектировалась с расчетом на то, что исследователи данных смогут использовать ее в готовом виде для создания моделей прогнозирования, объединяющих множество различных типов данных и их источников.

Руководитель направления машинного интеллекта и исследований «Яндекса» Михаил Биленко в беседе с корреспондентом британской версии Computerworld констатировал, что, несмотря на обилие хороших алгоритмов с открытым кодом, выбор библиотек для градиентного бустинга, мягко говоря, невелик.

CatBoost предоставляет широкие возможности создания моделей прогнозирования, задействующих различные источники данных, к числу которых относятся датчики, а также исторические и транзакционные данные. «Большинство конкурирующих алгоритмов градиентного бустинга требуют конвертации дескрипторов данных в цифровую форму, тогда как CatBoost способен непосредственно поддерживать категориальные данные, что экономит бизнесу время, повышая точность и эффективность», — указал Биленко.

Как правило, градиентный бустинг объединяет несколько деревьев решений для «придания ускорения» модели прогнозирования. По сути, это позволяет разработчикам анализировать различные формы данных в рамках эталонной модели. Биленко называет градиентный бустинг «клейкой лентой машинного обучения».

Технология градиентного бустинга широко применяется при выдаче высокоточных рекомендаций, создании моделей прогнозирования, распознавании мошенничества и в задачах ранжирования. «Особую эффективность придают ей две особенности, — подчеркнул Биленко. — Она позволяет получать отличные результаты без дополнительных настроек, которых обычно требуют другие методы машинного обучения, и обеспечивает мощную поддержку большинства описательных форматов данных при решении многих бизнес-задач».

Российский поисковый гигант уже встроил алгоритмы машинного обучения в целый ряд своих продуктов, начиная от базового поиска, средств персонализации и распознавания речи в своих сервисах перевода и заканчивая технологиями маршрутизации и обеспечения автономного передвижения автомобилей в онлайн-сервисе заказа поездок «Яндекс.Такси».

Методы на основе градиентного бустинга отлично подходят для работы с разнородными данными, считают в «Яндексе»

Источник: «Яндекс»

Кроме того, CatBoost используется аналитиками Европейской организации ядерных исследований (ЦЕРН) для повышения точности своих алгоритмов.

Библиотека CatBoost проектировалась с прицелом на корпоративных клиентов. Она уже интегрирована с популярными инструментами глубинного обучения (Google TensorFlow) и языками программирования (Python).

Известно, что библиотека TensorFlow была создана на основе DistBelief. Аналогичным образом и CatBoost тоже можно отнести к числу библиотек второго поколения. В ней были улучшены внутренние алгоритмы, разработанные «Яндексом» в рамках технологии MatrixNet, которую Биленко назвал «жемчужиной в короне компании».

«Приступив к проектированию платформы градиентного бустинга следующего поколения, мы понимали, что практическую пользу от нее можно будет получить лишь в случае передачи ее сообществу открытого кода», — подчеркнул он.

«Яндекс» стремится извлекать уроки из опыта Google и TensorFlow.

«Поначалу реакция сообщества на TensorFlow была негативной, потребовались несколько итераций, — пояснил Биленко. — Мы понимаем, что и наш путь будет нелегким. Поддерживая обратную связь с клиентами, мы готовы к выпуску следующих версий, к интеграции и масштабированию».

Модели, созданные при помощи CatBoost, совместимы с платформой Apple Core ML — соответствующие приложения могут проектироваться на основе моделей CatBoost.