Массовое распространение геномики ведет к скорому развитию персонализированной медицины. Анализ генома скоро будут делать на входе в поликлинику, полагает Леонид Левкович, директор по науке сколковского центра исследований и разработок компании EMC. Но чтобы извлечь из генома полезную для врача информацию, которая позволит ему, например, выявить наследственную предрасположенность к тяжелому заболеванию, обнаружить рак на ранних стадиях или диагностировать редкую патологию, нужны мощные вычислительные средства. Прежде всего это программное обеспечение, помогающее ученым-биоинформатикам выявлять связи генных мутаций с определенными заболеваниями. ИТ-специалистам необходимо сводить воедино колоссальное количество накапливаемой информации, обеспечивать доступ к этим данным и их обработку, создавая выборки данных нужных врачу.

ИТ-инфраструктура для персонализированной медицины должна давать ученым возможность совместно анализировать медицинские и геномные данные, а также имеющиеся в научных публикациях сведения о воздействии лекарств при различных заболеваниях и геномных вариациях. Ее создание осложняется тем, что во многих странах законодательство не позволяет передавать геномные данные по Интернету. Системы представления данных, как и сами геномные вариации, пока не стандартизованы. Таким образом, при обработке генома и сравнении его с референсным геномом пятью программными инструментами получается пять разных результатов, что неприемлемо для дальнейшего анализа и принятия врачебных решений. Поэтому между исследовательской и клинической генетикой сохраняется гигантский разрыв.

В целях стандартизации обмена геномными данными и поддержки сложнейших ИТ-платформ для их обработки в 2013 году был создан Международный альянс по геномике и здоровью (Global Alliance for Genomics and Health, GA4GH), объединивший университеты, медицинские организации и ИТ-компании, занимающиеся новой медициной. Одна из разрабатываемых в GA4GH концепций обеспечения доступа к растущему потоку гигантских файлов — приближение вычислений к данным.

Андрей Запарий: «Мы умеем находить знания, связывающие между собой генотип, фенотип и среду обитания человека, отыскивать неявные связи и выдавать найденные ассоциации вместе с облаком контекста, в котором они находятся»

В прошлом году журнал MIT Technology Review включил в десятку прорывных технологических инноваций развиваемый GA4GH проект «ДНК-интернет», который нацелен на объединение разрозненных хранилищ геномных данных таким образом, чтобы дать исследователям доступ ко всей накопленной информации. Это критически важно для извлечения существенных данных из анализа одного генома путем выделения индивидуальных особенностей из общей массы геномной информации.

В GA4GH намерены назначить уникальный идентификатор каждому фенотипу, установить иерархическую связь между его элементами (так называемые онтологии) и привязать к каждому онтологическому описанию медицинские данные. При этом необходимо учитывать влияние на фенотип не только генотипа, но и внешней среды, где развивается организм.

Сколковский центр исследований и разработок ЕМС участвует в работе GA4GH, реализуя проект по стандартизации представления данных и запросов к ним. В результате должен получиться инструмент для эффективного доступа к геномной информации, позволяющий ученым делать запросы и получать ответы, которые затем можно подвергнуть самым разным видам анализа с использованием математических и биологических методов, а также машинного обучения.

Рабочее название создаваемой в Сколково технологии — META4. Это система, позволяющая сохранять данные в мультимодальной базе и находить их с помощью полнотекстовых запросов. Мультимодальная база обеспечивает сохранение структуры связей между отдельными фрагментами. Система позволяет строить сложные индексы на основе нескольких методик индексации данных и вводить произвольные меры похожести между отдельными документами. Помимо кластеризации данных по их похожести и идентификации, META4 осуществляет также фильтрацию, скоринг и поиск по запросу.

«Мы умеем находить знания, связывающие между собой генотип, фенотип и среду обитания человека, отыскивать неявные связи и выдавать найденные ассоциации вместе с облаком контекста, в котором они находятся», — утверждает Андрей Запарий, ведущий разработчик центра в области биоинформатики.

В перспективе в ЕМС рассчитывают, что создаваемая в Сколково технология не только найдет применение в медицине, но и будет использоваться как средство для работы с корпоративными озерами данных.