машинное обучение
Источник: CIO Magazine

Исследователи из Google и Стэнфордского университета с помощью глубинного обучения и многозадачных нейросетей оптимизируют поиск эффективных лекарственных средств для лечения различных заболеваний.

Обратившись к методам глубинного обучения, ученые получили возможность синтезировать большие объемы данных для прогнозных моделей. Многозадачные нейросети компенсируют нехватку экспериментальных данных для широкого круга исследований.

«Поиск новых способов лечения болезней человека — невероятно сложная задача, — пишут научные сотрудники Google в официальном блоге. — Даже после обширных исследований, позволяющих понять заболевание с биологической точки зрения, очень трудно найти эффективные средства, улучшающие качество жизни пациента. Нередко на протяжении многих лет требуется синтез и тестирование миллионов химических соединений в попытке найти всего несколько перспективных кандидатов».

Исследователи добавляют, что быстрый автоматизированный скрининг соединений не всегда выполним, так как обходится недешево и требует хорошо оборудованной лаборатории.

Еще один метод поиска лекарств — виртуальный скрининг соединений с помощью машинного обучения. Но для него характерен низкий коэффициент успеха, порождающий несбалансированность срезов данных. Кроме того, нехватка экспериментальных показателей ведет к «переобучению» — когда модель плохо работает на данных вне обучающей выборки.

«Виртуальный скрининг с помощью вычислительных методов используется как замена высокоскоростного физического скрининга или как дополнение к нему, — поясняют исследователи в опубликованном ими докладе. — При виртуальном скрининге нередко применяются методы машинного обучения: путем обучения контролируемых классификаторов прогнозируются взаимодействия между малыми молекулами и мишенями. Но в целом из-за сложности виртуального скрининга машинное обучение при поиске лекарств используется ограниченно».

Исследователи воспользовались 259 находящимися в открытом доступе наборами данных по биологическим процессам — в общей сложности 37,8 млн показателей по 1,6 млн соединений. В частности, были задействованы данные из базы PubChem BioAssay и полученные в рамках конкурса Tox21, проводившегося в 2014 году Национальным центром развития междисциплинарных наук. На Tox21 группы независимых исследователей прогнозировали взаимодействие биохимических соединений, пользуясь только информацией о химической структуре.

«Большой объем данных позволил нам тщательно проверить чувствительность разработанных моделей к изменениям в их структуре и во входных данных, — отметили исследователи из Google и Стэнфорда. — Подтвердилось, что большие объемы экспериментальных данных, относящихся к заболеваниям с очень разными биологическими процессами, можно использовать для оптимизации виртуального скрининга лекарств. Обучение наших моделей на данных из множества разных экспериментов дает возможность повышать точность прогнозирования взаимодействий».

Ввиду дисбаланса в используемых срезах данных результативность различных итераций обучения/тестирования варьировалась в широких пределах, добавляют авторы. По их словам, специальные меры позволили компенсировать эти расхождения.

Главный вывод: многозадачные сети обеспечивают гораздо более точное прогнозирование, чем однозадачные методы. Кроме того, способность к прогнозированию улучшается с увеличением количества заданий и объема данных в моделях; применение больших многозадачных сетей позволило улучшить способность моделей к работе с заданиями вне учебных выборок.

Исследователи отметили, что для построения оптимальных моделей чрезвычайно важен доступ к большому объему актуальных данных: «Крупные фармацевтические компании обладают обширными хранилищами экспериментальных данных; наша работа убедительно показывает, что раскрытие таких данных будет полезно всем».

Авторы также сетуют, что опубликованные исследования по виртуальному скринингу с глубинным обучением опираются на срезы данных, несовместимые друг с другом по формату. Исследователи пишут о необходимости создать стандарты на соответствующие данные и способы оценки результатов.