Андрей Пржибельский: «Для хранения генетических данных требуются огромные емкости»

Исследования, нацеленные на изучение причин возникновения онкологических заболеваний, — одна из самых актуальных задач медицины. Геномика рака оформилась в отдельное направление биоинформатики. Лаборатория алгоритмической биологии Академического университета РАН и Центр исследований и разработок EMC по облачным вычислениям и Большим Данным поделились первыми результатами совместного проекта, направленного на упрощение диагностики онкологических заболеваний при помощи секвенирования РНК.

В НИЦ ЕМС совместно с партнерами поставили задачу создать облачную платформу, которая помогла бы биоинформатикам быстрее обрабатывать Большие Данные и эффективнее с ними работать.

С точки зрения ИТ-специалиста, ученые крайне неаккуратно обращаются с данными: многократно копируют их, неэффективно используют дисковое пространство. Приложения, написанные сотрудниками научных институтов для защиты диссертации или публикации статьи, не имеют сопроводительной документации и руководства пользователя и часто ведут себя непредсказуемо, а их неэффективность приводит к большим потерям времени при конвертации данных из одного формата в другой. При этом биологи и медики очень консервативны, и заставить их пользоваться новым приложением весьма непросто.

Платформа, которая содержала бы все нужные программы и позволила в удобном интерфейсе выстраивать необходимые последовательности действий приложений, могла бы значительно ускорить получение результатов сложных и дорогостоящих научных исследований и повысить их качество.

Как рассказал Андрей Пржибельский, научный сотрудник Лаборатории алгоритмической биологии Академического университета РАН, для поиска мутаций в геноме используются методы секвенирования, а также масс-спектрометрии белка, каждый из которых обладает своими достоинствами и недостатками. Поэтому ученые решили попробовать сочетание двух методов в надежде, что ошибки одного помогут нивелировать ошибки другого. Так появилась программа ENOSI, помогающая биологам намного сократить количество генов — кандидатов на «ручной» анализ при поиске мутаций.

В Лаборатории алгоритмической биологии поставили задачу создать программу, собирающую данные секвенирования, которая могла бы выдавать более точные и чувствительные результаты, чем та, что используется сейчас в ENOSI. Такой сборщик данных секвенирования, rnaSPAdes, был разработан, интегрирован с программой ENOSI и протестирован. Специалисты рассчитывают, что это позволит повысить точность результатов экспериментов и скорость обнаружения гибридных генов или мутаций, которые являются возможными причинами развития онкологии. При поиске таких мутаций и гибридных генов необходимо обрабатывать большие объемы данных секвенирования РНК и масс-спектрометрии белков, поэтому в НИЦ ЕМС разработали облачную платформу для эффективного хранения и анализа таких данных. Платформа, названная Cranberry, включает как оборудование, так и софт, и обеспечивает безопасное структурированное хранение данных секвенирования вместе с их описаниями, что заметно облегчает поиск нужной информации по сложным запросам.

По словам Пржибельского, для хранения генетических данных требуются огромные емкости: только референсный геном одного человека «весит» 3 Гбайт, а данные секвенирования, полученные в результате эксперимента, могут занимать от десяти до сотни гигабайтов в зависимости от его сложности. «Облачная инфраструктура для хранения генетических данных и выполнения биоинформатических вычислений позволит обрабатывать, анализировать и структурированно хранить данные, получаемые от сотен экспериментов одновременно, что значительно облегчит работу по выявлению гибридных генов», — отметил он.

В ближайшее время запланировано опробовать rnaSPAdes на реальных клинических данных. Между тем, как рассказал Пржибельский, политика безопасности клиник, научных институтов и биоинформационных компаний США такова, что организации никогда не пересылают данные пациентов через Интернет. Обязательства перед пациентами не позволяют пересылать даже деперсонализированные и зашифрованные данные. Поэтому облачные сервисы медицинские организации не устраивают, в облаках обрабатываются только тестовые линии, а для расчетов на клинических данных покупаются собственные серверы и системы хранения. Так что в перспективе Cranberry, видимо, станет частью частных облаков медицинских организаций и одним из инструментов для персонализации медицинской помощи.