Китайский холдинг Alibaba объявил о выходе большой языковой модели Qwen 2.5, которая, по утверждению разработчиков, демонстрирует более высокие характеристики, чем DeepSeek V3, модель в основе нашумевшего чатбота DeepSeek, созданного стартапом из той же страны.
На странице Qwen 2.5 на GitHub размещены результаты сравнительного тестирования, согласно которым новая модель опережает GPT-4o (модель в основе ChatGPT), DeepSeek-V3 и Llama-3.1-405B, а по сравнению с Claude 3.5-Sonnet, проприетарной моделью компании Anthropic, которая лицензирует ее для использования в различных приложениях, показывает сходные характеристики.
Новая модель Alibaba вряд ли столь же оптимизирована по ресурсоемкости, как DeepSeek V3, учитывая, что при каждом запросе у Qwen задействуются все параметры, тогда как у DeepSeek активируется только та часть, которая имеет отношение к предметной области запроса. Но так или иначе, похоже, выход DeepSeek встряхнул не только мировой рынок систем генеративного ИИ, но и внутренний китайский — эксперты считают, что в скором времени возможно появление новых больших языковых моделей от целого ряда местных компаний.