«ЛАБХАБ»: углубленный скрининг данных медицинских лабораторий без дополнительных затрат

Компания «ЛАБХАБ» разработала платформу «ЛабЧекап», использующую ИИ для предиктивной диагностики заболеваний пациентов и контроля качества лабораторных исследований. Наиболее масштабный эффект от использования платформы наблюдается там, где требуется массовый скрининг — например, в ходе диспансеризации населения по программам обязательного медицинского страхования: соответствующие затраты бюджетных средств могут быть снижены на порядки. Кроме того, благодаря учету множества существенных факторов значительно повышается качество результатов лабораторных исследований. О возможностях решения, важных эффектах, которые оно позволяет достичь, и о деталях реализации рассказывает Ринат Гимадиев, генеральный директор компании «ЛАБХАБ», ассистент кафедры госпитальной терапии Медицинского института Российского университета дружбы народов им. Патриса Лумумбы, ассистент кафедры общей патологии Института биомедицины ВО РНИМУ им. Н.И. Пирогова Минздрава, член ассоциации «Федерация Лабораторной Медицины», номинант на премию Data Award.

- С чего началось создание вашего решения?

В области практической лабораторной диагностики я проработал много лет, руководя крупными сетевыми лабораториями. И практически везде видел одну и ту же картину: огромный поток анализов, устаревшие формулы расчетов, постоянная борьба с ошибками преаналитики и колоссальный объем неиспользуемых данных. Диспансеризацию проходят миллионы людей, но мы используем лишь малую часть информации, чтобы оценить их реальные риски.

Идея родилась на стыке двух наблюдений: во-первых, многие дорогие и важные тесты можно прогнозировать на основе рутинных данных, а во-вторых, качество результатов можно повысить, если научить систему «видеть» ошибки там, где их не замечает человеческий глаз. Так появился продукт «ЛабЧекап» — платформа, которая делает лабораторию умнее.

- На решение каких проблем и задач она направлена?

У нас две ключевые «мишени». Первая — качество: до 2% всех проб бракуется из-за преаналитических ошибок (гемолиз, неправильная транспортировка), а устаревшие формулы расчета, например, для «плохого» холестерина (ХС-ЛПНП), дают систематическую погрешность. А это прямые потери реагентов, времени и, главное, достоверности.

Вторая проблема — неэффективность массового скрининга. Диспансеризация включает базовый набор исследований, но чтобы увидеть риски диабета или сердечно-сосудистых заболеваний, нужны дорогие тесты второго уровня. Система ОМС не может назначить их всем. В результате мы пропускаем ранние стадии заболеваний.

«ЛабЧекап» позволяет проводить углубленный скрининг без дополнительных затрат.

- Почему это так важно и сложно — проводить качественную раннюю диагностику на основе лабораторных данных?

Сложность в том, что лабораторные данные — это сложная система, где каждый показатель связан с другими. К тому же, на него оказывает влияние множество факторов: возраст, пол, даже время и условия транспортировки пробирки. Создать алгоритм, который отличает реальную патологию от артефакта и при этом работает на любом оборудовании, от Siemens до «Вектор-Бест», — это нетривиальная задача.

Важно же это потому, что от качества первичной диагностики зависят жизни людей. Хронические неинфекционные заболевания — причина 45% смертей в России. Если мы сможем выявлять риски на раннем этапе у каждого пациента, проходящего диспансеризацию, мы не просто сэкономим бюджету миллиарды рублей, а реально продлим людям жизнь. Национальные проекты ставят цель увеличить продолжительность жизни до 78 лет к 2030 году, и без таких инструментов это сделать невозможно.

- Каковы ключевые возможности решения?

«ЛабЧекап» — это платформа-надстройка с тремя ключевыми функциями. Первая — интеллектуальный контроль качества: система автоматически выявляет ошибки на всех этапах — от взятия крови до интерпретации результата. Например, она отличает ложное повышение калия из-за долгой транспортировки от реальной гиперкалиемии.

Вторая функция — предиктивная аналитика для скрининга: на основе стандартных данных первого этапа диспансеризации (общий анализ крови, глюкоза, холестерин, пол, возраст) мы прогнозируем уровень ключевых дорогостоящих маркеров («плохой» холестерин, гликированный гемоглобин, ферритин и др.) с точностью, сопоставимой с лабораторной.

Третья — стратификация рисков. Основываясь на отклонениях от нормы тестов «золотого стандарта» — таких, как NTproBNP, антимюллеров гормон, скорость клубочковой фильтрации и др., — система автоматически относит пациента к группе риска по сердечно-сосудистым заболеваниям, диабету, патологии почек и другим хроническим неинфекционным заболеваниям, выдавая врачу готовую информационно-аналитическую справку.

- На базе каких технологий и платформ реализовано ваше решение?

Серверная часть написана на Python. В решении используются классические, но максимально эффективные для табличных данных библиотеки градиентного бустинга: LightGBM, XGBoost, CatBoost. Для выявления аномалий — например, в модуле контроля качества — применяем изолирующий лес (Isolation Forest). Все решение инкапсулировано в Docker-контейнеры и реализовано в виде микросервисов с REST API, что позволяет легко интегрироваться с любыми лабораторными и медицинскими информационными системами.

- На основе каких данных работает ваша платформа?

Наш главный актив — уникальная исследовательская база данных объемом более 1,5 млн обезличенных записей. Она собрана по принципу «скрининг + золотой стандарт»: для каждого пациента у нас есть и рутинные показатели, и результат прямого измерения целевого биомаркера референсным методом. Данные получены от нескольких крупных партнерских лабораторий, работающих на оборудовании разных производителей, что обеспечивает аппаратную независимость наших моделей.

- Какой математический аппарат применяется?

Для регрессионных задач (прогнозирование конкретной концентрации) мы используем градиентный бустинг, который на табличных медицинских данных показывает максимальную точность. Для задач классификации (оценка риска, что показатель превысит пороговое значение) — XGBoost и CatBoost. Мы очень строго подходим к валидации: данные всегда делятся на обучающую и тестовую выборки, расчет метрик проводится только на основе «непросмотренных» моделью данных, и обязательно проводим внешнюю валидацию на независимых выборках (например, в ГБУЗ «МНПЦЛИ ДЗМ» и ГП №220, КДП №121).

Важно и то, что наши модели интерпретируемы: мы всегда анализируем важность признаков (feature importance). Например, для прогноза «плохого» холестерина на основе данных диспансеризации ключевыми предикторами оказались общий холестерин, пол, возраст, тромбоциты, глюкоза, гемоглобин, лимфоциты и MCHC. Это биологически обосновано: общий холестерин — прямой метаболический предшественник, пол и возраст определяют гормональный фон и липидный профиль, а показатели крови (тромбоциты, гемоглобин, лимфоциты) отражают воспалительный статус и вязкость крови, которые напрямую влияют на метаболизм липопротеинов. Тот факт, что модель опирается именно на эти факторы, подтверждает: она обучается правильным, клинически значимым закономерностям.

- Что, на ваш взгляд, удачнее всего реализовано в вашем решении?

Главная «фишка» в том, что мы смогли превратить рутинные анализы в инструмент предиктивной медицины без дополнительных затрат. Это как апгрейд компьютера без покупки новых комплектующих — просто за счет более умного софта.

Но если говорить о том, что удалось лучше всего, — это, пожалуй, сочетание глубины и простоты. С одной стороны, мы решили сложнейшую задачу: научились с высокой точностью прогнозировать более 30 показателей. С другой стороны, для врача и пациента это выглядит элементарно: сдал стандартные анализы — получил результат с прогнозом рисков и четкими рекомендациями. Этот баланс между научной сложностью и пользовательской простотой дался нам непросто, и он получился лучше всего.

- Каков портрет типичного заказчика? Есть ли возможность назвать конкретные компании?

У нас три типа заказчиков. Первая группа — государство (B2G) в лице региональных департаментов здравоохранения и фондов ОМС. Им наша платформа помогает повышать эффективность диспансеризации и экономить бюджетные средства.

Вторая группа — коммерческие лаборатории и диагностические центры (B2B): «Гемотест», «Инвитро», KDL, «Хеликс» и др. Для них платформа — инструмент повышения качества и сокращения издержек.

Третья группа — пациенты (B2C), которые хотят глубже понять свои риски, не тратя время и деньги на дополнительные анализы и исследования.

Из тех, с кем мы уже работаем и проводим пилотные проекты, могу назвать ГБУЗ «МНПЦЛИ ДЗМ», сети клиник «Будь Здоров», «СМ Клиника», а также наши партнерские лаборатории, в том числе «Лаборатория Гемотест» и «Диалаб Плюс».

- На какие результаты могут рассчитывать клиенты вашей платформы?

Результаты можно оценить в цифрах. В системе ОМС скрининг на «плохой» холестерин для 66,9 млн человек обходится в 5,28 млрд руб. С «ЛабЧекап» анализ того же объема информации обойдется в 33,5 млн руб. Таким образом, экономия составит 5,24 млрд руб., то есть 99%.

Конкретной лаборатории внедрение нашей платформы поможет сэкономить на реагентах, сократить время, затрачиваемое врачами на валидацию, и уменьшить количество повторных заборов крови. В пилотных тестированиях точность прогноза ХС-ЛПНП (R2 = 0,90) и HbA1c (R2 = 0,76) подтверждена на независимых выборках.

Пациентам платформа сокращает путь к постановке диагноза с нескольких недель и многих тысяч рублей до пары минут, давая четкое понимание, нужно ли идти к врачу и какие анализы действительно необходимы.

- Каковы успехи вашего решения на рынке?

Мы успешно провели пилотные тестирования в Москве. Модуль «ЛипидоСкрининг» прошел валидацию в ГБУЗ «МНПЦЛИ ДЗМ» при поддержке Фонда «МИК» и получил рекомендацию к включению в Реестр инновационных решений Москвы. Модуль «ДиаСкрининг» прошел апробацию в двух московских поликлиниках. Мы получили положительное заключение экспертной коллегии «Сколково» и находимся в финальной стадии оформления статуса резидента. У нас вышло более 50 научных публикаций в ведущих рецензируемых журналах («Клиническая лабораторная диагностика», «Кардиоваскулярная терапия и профилактика», «Терапия»). Сформирован портфель из более чем 10 зарегистрированных результатов интеллектуальной деятельности (программы для ЭВМ, базы данных, патенты и товарные знаки). Но главное — мы начинаем переход от исследований к реальному бизнесу: уже подписаны соглашения о намерениях с крупными лабораторными сетями. Следующий шаг — коммерческие контракты.

- В чем вы видите ключевую роль продукта для рынка?

Мы занимаем уникальную нишу на стыке лабораторной диагностики и предиктивной аналитики. Существующие ИИ-решения в медицине в основном смотрят на изображения (КТ, МРТ, рентген). Мы же концентрируемся на цифровых лабораторных данных. Наша роль — превратить лабораторию из «фабрики цифр» в центр предиктивной диагностики. Мы не конкурируем с системами поддержки принятия врачебных решений вроде Webiomed или «СберМедИИ», а дополняем их, работая на самом раннем этапе — этапе массового скрининга.

- В каком направлении будет развиваться решение?

Ближайшая цель — получить регистрационное удостоверение на программное обеспечение с ИИ «ЛабЧекап» как на медицинское изделие третьего класса. Параллельно мы будем расширять базу данных (планируем довести ее до 10 млн записей пациентов) и разрабатывать новые прогностические модели (наша цель — более 50 моделей).

Кроме того, мы активно готовимся к масштабированию в регионы России — ведем переговоры с несколькими областными центрами. В перспективе трех-пяти лет видим себя отраслевым стандартом для раннего выявления рисков хронических неинфекционных заболеваний в России, а затем рассчитываем провести экспансию в страны БРИКС — в первую очередь те, где выстроены системы здравоохранения, аналогичные российской.

«ЛАБХАБ»: углубленный скрининг данных медицинских лабораторий без дополнительных затрат

ИИ в управлении продажами: как компании используют цифровых сотрудников для снижения рисков и ускорения сделок