Билл Маккормик, InterSystems
Билл Маккормик: «Заказчикам приходится искать золотую середину между глубиной анализа и скоростью»

Корпорация InterSystems известна своими программными продуктами для здравоохранения, но ее технологии широко используются и в других отраслях при решении задач, требующих быстрой обработки больших объемов информации. InterSystems — поставщик высокопроизводительной СУБД Caché, платформы HealthShare для эффективного информационного обмена в региональных и национальных медицинских сетях, продуктов DeepSee и iKnow для анализа и визуализации структурированных и неструктурированных данных.

Что вы думаете о возможностях и перспективах использования Больших Данных в здравоохранении?

Главное, что способствует сегодня развитию технологии Больших Данных в этой отрасли, — повсеместное создание межрегиональных медицинских баз данных. Раньше медицинские учреждения в основном имели дело с отдельными компаниями, которые разрабатывали и поставляли им аппаратуру, программное обеспечение к ней, создавали прикладные решения «местного значения». Сейчас ситуация изменилась, потому что в эту сферу стали активно вторгаться государственные организации и им требуется доступ к данным о пациентах в любой точке и в любое время. Например, я живу в Бостоне, и в местном госпитале хранится моя история болезни. Но если я поеду в Нью-Йорк и попаду там в аварию, врачу скорой помощи будет очень важна информация о том, есть ли у меня хронические болезни или аллергия на лекарства. Быстрый доступ к таким данным поможет ему оказать мне квалифицированную помощь. В США есть программа по созданию региональной инфраструктуры здравоохранения. InterSystems участвовала в реализации этой программы в Нью-Йорке, сейчас в созданной нами системе содержатся записи по 25-30 млн пациентов. Причем это не просто учетные данные, а записи обо всех случаях взаимодействия пациента с врачами. Как правило, такие проекты финансируются государством. Мы прогнозируем взрывообразный рост числа подобных проектов в течение ближайших четырех-пяти лет.

Когда мы говорим о Больших Данных, мы имеем в виду не только объемы, но и разнообразие данных, в том числе работу с неструктурированными данными. Как применяются в здравоохранении возможности распознавания естественного языка, изображений, видео?

В медицинских информационных системах наибольший объем занимают рентгеновские снимки, то есть изображения. Это огромная часть медицинских данных, которыми надо эффективно управлять. Многие разработчики заявляют, что их приложения управляют электронными медицинскими записями. Но проблема в том, что эти приложения разрозненны, поскольку пока нет единого стандарта ведения истории болезни. Различные заинтересованные организации разрабатывают условия и критерии единого формата, принятие которого обеспечит не только эффективное хранение, но и максимально действенное применение медицинских данных. Например, важно хранить не просто значение температуры пациента, но и, так сказать, контекст — например, была ли она зарегистрирована в ходе ежегодной диспансеризации или во время экстренного случая. В компании InterSystems разработана платформа HealthShare, в ней в качестве протокола обмена данными используется стандарт HL7. Сейчас в ходу форматы так называемых виртуальных документов, многие из них системы, разработанные на наших технологиях, тоже поддерживают.

Вторая проблема – неструктурированные данные. Для текстовой информации можно использовать обычные алгоритмы поиска. Но как быть, если это запись речи или видео? Если решать задачу «в лоб» — распознавать речь и превращать ее в текст, то объемы данных получаются гигантскими, ведь человек говорит примерно в три-четыре раза больше, чем пишет. Как в такой лавине данных найти полезную информацию? InterSystems предлагает технологии, позволяющие фильтровать сырые данные и извлекать из них информацию, имеющую ценность. По некоторым подсчетам, сейчас примерно 78% медицинских данных неструктурированные, фильтровать и анализировать такие объемы слишком дорого. Одна из самых масштабных баз данных на сегодня собрана американской компанией Kaiser, которая предоставляет услуги медицинского страхования. Эта БД реализована на платформе Caché, содержит записи примерно по 100 млн клиентов и обрабатывает десятки тысяч обращений в день, причем все данные хранятся в «живом» формате, то есть не архивированы.

Какую же пользу могут медицинские компании извлечь из такого объема и такого разнообразия данных? Какая аналитика ими проводится?

Встроенная в HealthShare BI-технология DeepSee поддерживает все стандартные методы работы с данными, которые сегодня в ходу. Это проектирование и наполнение многомерных OLAP-кубов, возможность синхронизации хранилищ OLTP и OLAP в режиме реального времени, быстрая разработка аналитических панелей с использованием библиотеки визуальных компонентов, возможность анализа неструктурированных текстовых данных и проведение прогнозной аналитики. Например, мы можем отследить, в каких регионах и в какое время года увеличивается заболеваемость гриппом.

Но у нас есть и более интересный инструмент – технология iKnow, позволяющая анализировать неструктурированные данные, причем не только медицинского характера. Обычные системы анализа текста лишь проверяют наличие ключевых слов. iKnow работает иначе: разбивает предложения на смысловые сочетания. Например, «реактивный двигатель». Каждое слово отдельно несет лишь частичную смысловую нагрузку, и только словосочетание содержит смысл выражения в полном объеме. iKnow выделяет такие значимые словосочетания, строит словарь ключевых слов, составляет свой индекс значимости. Эти инструменты позволяют затем проводить интеллектуальный анализ текста. Мы это называем «консолидировать текст». Например, если есть документ из десяти страниц и к нему надо составить аннотацию на полстраницы, то в общем случае вам потребуется эксперт, который выделит наиболее важные моменты. Система iKnow сделает это полностью в автоматическом режиме.

Такие инструменты, наверное, могли бы использоваться для составления баз знаний? Например, если проанализировать дискуссии, которые врачи ведут в профессиональной закрытой соцсети, можно было бы составить экспертную базу знаний по лечению определенных заболеваний, а затем использовать ее в более широких масштабах всего медицинского сообщества.

Да, в нашем активе есть похожие примеры проведения data mining в соцсетях. Например, мы анализируем отклики на рекламную кампанию и затем предоставляем заказчику сводку о том, как была воспринята его реклама, какие мнения превалируют в аудитории. Это позволяет рекламодателю вовремя внести корректировки и добиться нужного результата.

Сегодня многие разработчики анонсируют свои инструменты для работы с Большими Данными. В чем преимущества и уникальность решений InterSystems, каковы ваши сильные стороны, которые позволяют компании не просто держаться на плаву, но увеличивать долю рынка?

И мы, и наши конкуренты постоянно развиваем свои технологии, адаптируем их под новые задачи заказчиков. Поэтому не хотелось бы выделять какой-то один «уникальный» инструмент, эта информация слишком быстро устаревает. Заказчики ценят наши аналитические продукты за поддержку естественного человеческого языка, работу с неструктурированными данными и полноценное использование контекста. Мы позиционируем наши решения как интеллектуальный анализ для повседневной работы.

Проблема в том, что за все надо платить. Мы можем проводить очень глубокий анализ данных, но эти задачи отвлекают на себя вычислительные ресурсы, и производительность остальных систем может снизиться. Поэтому заказчикам приходится искать золотую середину между глубиной анализа и скоростью. Наш подход заключается в том, что анализ должен приносить пользу и не создавать неудобств.

Какова, по вашим оценкам, доля InterSystems на рынке Больших Данных, в том числе в здравоохранении?

Не могу назвать точные цифры, но проиллюстрирую на примерах. Если вы зайдете в любую медклинику в США, то с вероятностью 98% окажется, что там установлена система, использующая технологии InterSystems. Наши решения являются основой национальных систем здравоохранения в Швеции, Дании, в пяти штатах США. Теперь и в России есть региональные проекты на HealthShare. На этой платформе заведены данные по 80 млн пациентов в мире.

Технологии Больших Данных применительно к соцсетям развиваются взрывообразными темпами. В здравоохранении этот процесс идет медленнее, поскольку подобные решения стоят дорого и для их внедрения требуются инвестиции со стороны государства. Поэтому может показаться, что мы отстаем от среднерыночных темпов роста. Но мы себя чувствуем достаточно уверенно.

Если в здравоохранении эти технологии идут не так просто, рассматриваете ли вы возможности выхода в другие отрасли, например финансы, страхование, телеком?

Мы это уже делаем. Приведу еще пример. Европейское космическое агентство, которое находится в Испании, сейчас разрабатывает карту звездного неба. Фактически это трехмерная карта нашей Галактики. Телескопы непрерывно сканируют звездное небо и сохраняют все регистрируемые данные полностью в автоматическом режиме. Объемы собираемых данных огромны. Были попытки использовать для этого другие технологии, но все проекты закончились неудачей, поскольку ни одна система не оказалась способной обрабатывать данные с нужной скоростью. Такие системы умели быстро записывать данные, но потом обрабатывали их неделями и даже месяцами. Лишь InterSystems смогла предоставить интерфейсы, позволяющие фиксировать данные в системе в режиме реального времени, и с такой же скоростью анализировать их, сразу же выдавая результаты. Наша система успешно справляется со всеми нагрузками уже около трех лет.

Финансовые институты также в последнее время все чаще становятся нашими клиентами. Ведь финансовые биржи обрабатывают огромные объемы информации, а наши решения показывают высочайшую производительность.

Но в других отраслях вы предлагаете технологии, а в медицине – готовые решения. Нет ли у вас намерений разработать готовые решения и для других отраслей?

На ближайшее будущее у нас нет таких планов, исторически наш рынок — здравоохранение. Но если к нам придет заказчик с интересной и выгодной задачей, мы рассмотрим ее.

В медицине мы специализируемся на том, что интегрируем различные решения — приложение, которое стоит на ПК в кабинете лечащего врача, и приложения, которые используются в регистратуре или в администрации. Когда мы приходим к заказчику, то не предлагаем ему заменить все прежние системы, а даем «клей», чтобы эффективно собрать их в единое решение.

В более «зрелых» областях автоматизации, таких как ERP или BI, уже накоплены лучшие практики, которые компании могут изучить и применить у себя. Есть ли такие практики в отношении Больших Данных?

В каждой области есть специалисты, которые аккумулируют знания, «мудрость». Но как только мы выходим на следующий уровень экспертизы, перед нами встают новые задачи. Горизонт все время отступает.

Последние пять-десять лет в сфере ИТ специалисты в основном накапливали информацию о том, как не надо делать, и в этом заключались лучшие практики. По мере увеличения сложности и объемов систем перед нами будет раскрываться все больше тупиковых направлений, куда развиваться невыгодно.

У любой компании бывают неудачные проекты. Далеко не всегда в этих неудачах виноваты технологии. На ваш взгляд, какова наиболее распространенная причина провала проектов, что было сделано не так?

Недавно в США один наш сильный партнер рассказал о своей проблеме — два месяца они разрабатывали для заказчика прототип решения, но в итоге заказчик отказался от внедрения. Между тем решение полностью соответствовало всем поставленным требованиям. Общими усилиями мы постарались понять, в чем же причина неудачи, и пришли к такому выводу: как только появляется «модная» технология (например, Большие Данные, или облако, или социальная сеть), люди начинают выяснять, какие возможности она сулит. Часто из маркетинговых материалов они получают неверное представление о технологии, тем самым порождаются завышенные ожидания. Заказчики ждут, что эта революционная технология как по волшебству развеет их проблемы и принесет новые возможности и доходы. И когда такой заказчик получает реальное решение, часто возникает разочарование — в нем нет волшебства! Мы стараемся убеждать таких заказчиков, но это не всегда получается. Итак, завышенные ожидания и нечеткие представления о новых технологиях – вот основные проблемы.

И последний вопрос — каковы ожидания InterSystems от российского рынка?

Россия интересна инновациями. Даже российские хакеры считаются одними из лучших в мире. В вашей стране есть мощная среда разработки, иногда ваши специалисты извлекают из наших технологий такой потенциал, о котором мы даже не подозревали. Еще одно преимущество в том, что Россия — масштабная страна, здесь любят работать с размахом, реализовывать впечатляющие проекты. Мы хотим и будем работать на российском рынке. Наш бизнес здесь растет на удивление высокими темпами, и сейчас многое зависит от наших российских партнеров.

И в заключение могу поделиться моим чисто субъективным мнением: далеко не везде с тобой разговаривают откровенно, и иногда это порождает сложности; в России же о хорошем и о плохом тебе скажут ясно и открыто, и мне это нравится!