Массовое распространение геномики ведет к скорому развитию персонализированной  медицины,  или «медицины данных». Анализ генома скоро будут делать на входе в поликлинику, полагает Леонид Левкович, директор по науке Сколковского центра исследований и разработок компании EMC. Но чтобы извлечь из генома полезную для врача информацию, которая позволит ему, например, выявить наследственную предрасположенность к тяжелому заболеванию, обнаружить рак на ранних стадиях или диагностировать редкую патологию, нужны мощные вычислительные средства. Прежде всего это программное обеспечение, помогающее ученым-биоинформатикам выявлять связи генных мутаций с определенными заболеваниями. ИТ-специалистам необходимо сводить воедино колоссальное количество накапливаемой информации, обеспечивать доступ к этим данным и их обработку, создавая выборки  данных,  нужных врачу.

Помимо большого объема информации существуют также проблемы трансграничной передачи геномных данных, их публичности и вариативности. ИТ-инфраструктура для персонализированной медицины должна давать ученым возможность совместно анализировать медицинские и геномные данные, а также имеющиеся в научных публикациях сведения о воздействии лекарств при различных заболеваниях и геномных вариациях.  Создание такой инфраструктуры  осложняется тем, что во многих странах законодательство не позволяет передавать геномные данные по  Интернету.  По словам Левковича, порядка 40% компаний, занимающихся геномикой в США, используют для обмена данными компактные и жесткие диски. Системы представления данных, как и сами геномные вариации, пока не стандартизованы. Таким  образом,  при обработке генома и сравнении его с референсным геномом  с помощью пяти программных инструментов  получается пять разных результатов, что неприемлемо для дальнейшего анализа и принятия врачебных решений. Поэтому между исследовательской и клинической генетикой сохраняется гигантский разрыв.

«Новый тип данных должен обрабатываться в специальных кластерах, которые не могут иметь произвольную архитектуру, – считает Левкович. – Нужны новые средства работы с источниками данных, осуществления запросов к распределенным неформализованным данным совершенно разной природы и сложной структуры».

В целях стандартизации обмена геномными данными и поддержки сложнейших ИТ-платформ для их обработки в 2013 году был создан Международный альянс по геномике и здоровью (Global Alliance for Genomics and Health, GA4GH), объединивший университеты, медицинские организации и ИТ-компании, занимающиеся новой медициной. Одна из разрабатываемых в GA4GH концепций обеспечения доступа к растущему потоку гигантских файлов  предусматривает  приближение вычислений к данным. «Гораздо проще передавать программы обработки к данным, но реальных средств для этого сегодня нет», – поясняет Левкович.

В прошлом году журнал MIT Technology Review включил в десятку прорывных технологических инноваций развиваемый GA4GH проект «ДНК-интернет», который нацелен на объединение разрозненных хранилищ геномных данных таким образом, чтобы дать исследователям доступ ко всей накопленной информации. Это критически важно для извлечения существенных данных из анализа одного генома путем выделения индивидуальных особенностей из общей массы геномной информации. Ученые, занимающиеся внедрением геномики в клиническую практику, нуждаются в большом объеме информации для интерпретации результатов секвенирования своих пациентов.

В GA4GH намерены назначить уникальный идентификатор каждому фенотипу, установить иерархическую связь между его элементами (так называемые онтологии) и привязать к каждому онтологическому описанию медицинские данные. При этом необходимо учитывать влияние на фенотип не только генотипа, но и внешней среды,  в которой  развивается организм. Пока для учета влияния среды  стандартизованы  лишь две онтологии – биологически значимые химические соединения и банк лекарственных средств с подтвержденным действием.

Сколковский центр исследований и разработок ЕМС участвует в работе GA4GH, реализуя проект по стандартизации представления данных и запросов к ним. В результате должен получиться инструмент для эффективного доступа к геномной информации, позволяющий ученым делать запросы и получать ответы, которые затем можно подвергнуть самым разным видам анализа с использованием математических и биологических методов, а также машинного обучения.

Рабочее название создаваемой в Сколково технологии – META4. Это система, позволяющая сохранять данные в мультимодальной  базе  и находить их с помощью полнотекстовых запросов. Мультимодальная база обеспечивает сохранение структуры связей между отдельными фрагментами. Система позволяет строить сложные индексы на основе нескольких методик индексации данных и вводить произвольные меры похожести между отдельными документами. Помимо кластеризации данных по их похожести и идентификации, META4 осуществляет также фильтрацию, скоринг и поиск по запросу. При этом для разных документов или геномных вариаций можно использовать механизм скоринга по выбору исследователя или несколько механизмов одновременно.

«Мы умеем находить знания, связывающие между собой генотип, фенотип и среду обитания человека, отыскивать неявные связи и выдавать найденные ассоциации вместе с облаком контекста, в котором они находятся», – утверждает Андрей Запарий, ведущий разработчик центра в области биоинформатики. По его словам, центр уже начал совместный пилотный проект по использованию META4 с одним из крупных американских госпиталей.

В ЕМС рассчитывают, что создаваемая в Сколково технология найдет применение не только в медицине, но и будет использоваться как средство для работы с корпоративными «озерами данных».