Большие языковые модели могут «терять нить» в длинных беседах, «забывая», о чем шла речь. Это связано с ограниченным размером контекстного окна, увеличение которого ведет к созданию чрезмерной нагрузки на память GPU и сильному увеличению времени ответа.

В компании Nvidia решили проблему, разработав технологию Helix Parallelism — пользуясь возможностями процессора Nvidia Blackwell, она эффективно разделяет и распараллеливает задачи, связанные с памятью и обработкой, что позволяет большой языковой модели эффективно работать с контекстным окном размером с энциклопедию.

Как отмечают в самой Nvidia, благодаря Helix Parallelism агентские системы на основе ИИ смогут запоминать беседы длительностью в несколько месяцев. Технология также будет полезной для юридических ИИ-ассистентов, обрабатывающих гигабайты данных по прецедентной практике, помощников по написанию программного кода для проектов с огромными репозитариями и медицинских ИИ-систем, которым для принятия решения нужно ознакомиться с полной историей болезни пациента. Кроме того, новшество облегчит создание систем с несколькими ИИ-агентами, которые смогут эффективнее взаимодействовать благодаря увеличению контекстных окон.