Андрей Пржибельский Лаборатория алгоритмичексой биологии РАН
Андрей Пржибельский: «Для хранения генетических данных требуются огромные емкости»

О работе ученых писать нелегко – слишком долог путь от постановки научных экспериментов до понятного читателю результата, и еще дольше – до его практического применения на благо того же читателя. Тем не менее исследования, нацеленные на изучение причин возникновения онкологических заболеваний, неизменно вызывают интерес как одна из самых актуальных задач медицины. Геномика рака оформилась в отдельное направление биоинформатики, которая на сегодня является одной из самых многообещающих отраслей науки. В конце 2014 года Лаборатория алгоритмической биологии Академического университета Российской академии наук и Центр исследований и разработок компании EMC по облачным вычислениям и Большим Данным (НИЦ EMC) поделились первыми результатами совместного проекта, направленного на упрощение диагностики онкологических заболеваний при помощи РНК-секвенирования.

Специалисты НИЦ ЕМС совместно с партнерами поставили задачу создать облачную платформу, которая помогла бы биоинформатикам быстрее обрабатывать Большие Данные и эффективнее с ними работать.

С точки зрения ИТ-специалиста, ученые крайне неаккуратно обращаются с данными: многократно копируют их, неэффективно используют дисковое пространство. Приложения, написанные сотрудниками научных институтов для защиты диссертации или публикации статьи, не имеют сопроводительной документации и руководства пользователя и часто ведут себя непредсказуемо, а их неэффективность приводит к большим потерям времени при конвертации данных из одного формата в другой. При этом биологи и медики очень консервативны, и заставить их пользоваться новым непривычным приложением весьма непросто.

Платформа, которая содержала бы все нужные программы и позволила в удобном интерфейсе выстраивать необходимые последовательности действий приложений, могла бы значительно ускорить получение результатов сложных и дорогостоящих научных исследований и повысить их качество.

Как рассказал Андрей Пржибельский, научный сотрудник Лаборатории алгоритмической биологии Академического университета РАН, для поиска мутаций в геноме используются методы секвенирования ДНК и РНК, а также масс-спектрометрии белка, каждый из которых обладает своими достоинствами и недостатками. Поэтому ученые решили попробовать сочетание двух методов в надежде, что ошибки одного помогут нивелировать ошибки другого. Так появилась программа ENOSI, помогающая биологам намного сократить количество генов — кандидатов на «ручной» анализ при поиске мутаций.

В Лаборатории алгоритмической биологии поставили задачу создать программу, собирающую данные секвенирования, которая могла бы выдавать более точные и чувствительные результаты, чем та, что используется сейчас в ENOSI. Такой сборщик данных секвенирования РНК rnaSPAdes был разработан, интегрирован с программой ENOSI и протестирован. Специалисты рассчитывают, что это позволит повысить точность результатов экспериментов и скорость обнаружения гибридных генов или мутаций, которые являются возможными причинами развития онкологии. При поиске таких мутаций и гибридных генов необходимо обрабатывать большие объемы данных секвенирования РНК и масс-спектрометрии белков, поэтому в НИЦ ЕМС разработали облачную платформу для эффективного хранения и анализа таких данных. Платформа, названная Cranberry, включает как оборудование, так и софт, и обеспечивает безопасное структурированное хранение данных секвенирования вместе с их описаниями, что заметно облегчает поиск нужной информации по сложным запросам.

По словам Пржибельского, для хранения генетических данных требуются огромные емкости: только референсный геном одного человека «весит» 3 Гбайт, а данные секвенирования, полученные в результате эксперимента, могут занимать от десяти до сотни гигабайтов в зависимости от его сложности. «Облачная инфраструктура для хранения генетических данных и выполнения биоинформатических вычислений позволит обрабатывать, анализировать и структурированно хранить данные, получаемые от сотен экспериментов одновременно, что значительно облегчит работу по выявлению гибридных генов», – отметил он.

В январе 2015 года запланировано опробовать rnaSPAdes на реальных клинических данных. Между тем, как рассказал Пржибельский, политика безопасности клиник, научных институтов и биоинформационных компаний США такова, что организации никогда не пересылают данные пациентов через Интернет. Обязательства перед пациентами не позволяют пересылать даже деперсонализированные и зашифрованные данные. Поэтому облачные сервисы медицинские организации не устраивают, в облаках обрабатываются только тестовые линии, а для расчетов на клинических данных покупаются собственные серверы и системы хранения. Так что в перспективе Cranberry, видимо, станет частью частных облаков медицинских организаций и одним из инструментов для персонализации медицинской помощи.