Ведущие производители компьютерных систем считают суперкомпьютерные технологии для биологических исследований весьма перспективным направлением.

Суперкомпьютер, развертываемый в сотрудничестве с Celera и Лабораторией в Сандии, будет содержать от 10 до 20 тыс. процессоров Alpha

Но это не значит, что ответы на все вопросы найдены, — все только начинается. Производители самых мощных компьютеров надеются внести свой вклад в эти поиски. Compaq Computer заключила с Национальной лабораторией в Сандии (шт. Нью-Мехико) и компанией Celera Genomics четырехлетнее соглашение о совместных исследованиях, в рамках которого будут разрабатываться программное обеспечение и компьютерное оборудование для нужд вычислительной биологии и прикладных наук о жизни.

К 2004 году планируется построить суперкомпьютер, способный выполнять 100 трлн. операций в секунду — в 80 раз больше по сравнению с системами, использованными Celera для записи генома человека, и примерно в восемь раз больше по сравнению с самой быстрой из ныне существующих вычислительных систем. Со временем же ученые надеются создать суперкомпьютер, выполняющий 1000 трлн. операций в секунду.

В Compaq считают суперкомпьютерные технологии для биологических исследований весьма перспективным направлением деятельности.

«Суперкомпьютерные технологии, разработанные нами за последние десять лет, оказались именно тем инструментом, который необходим сейчас биологии», — сказал Билл Блэйк, вице-президент Compaq по техническим вычислениям.

По словам Блэйка, контракт на постройку суперкомпьютеров принесет Compaq сотни миллионов, а в перспективе — миллиарды долларов оборота. По оценке Блэйка, в ближайшее десятилетие рынок технических вычислений вырастет почти вдвое, причем сегмент суперкомпьютеров для исследований в области геномики будет расти быстрее остальных.

Технологии, разработанные в рамках проекта (ПО, специализированное оборудование и, возможно, консультационные услуги), Compaq сможет продавать другим фирмам, занимающимся биологическими исследованиями.

Суперкомпьютер, развертываемый в сотрудничестве с Celera и Лабораторией в Сандии, будет содержать от 10 до 20 тыс. процессоров Alpha. Одна из основных задач Compaq будет состоять в разработке оптимизированной для нужд геномики программной архитектуры, которая будет одинаково эффективно работать на суперкомпьютере, содержащем как 100 процессоров, так и 10 000.

До тех пор пока биологи не воспользовались суперкомпьютерными технологиями для исследований в области генома человека, сферой наиболее сложных задач для вычислительной техники была ядерная физика. Сейчас биологи обращаются к опыту физиков-ядерщиков, разрабатывая алгоритмы для ведения генетических исследований.

«Теперь, когда последовательность генома установлена, мы находимся на пороге эры холистической биологии», — сказал Крэйг Вентер, президент и научный директор Celera. Холистическая биология, согласно определению Вентера, развивается за счет смешения и использования различных научных дисциплин.

Вентер и другие ученые говорят о том, что нехватка исследователей, обладающих навыками в области биоинформатики, является фактором, сдерживающим исследования в сфере геномики. Биоинформатика — сложная дисциплина, требующая знаний в области физики, высшей математики, биологии и информатики.

«В биологию обычно идут люди с иным складом ума, чем в физику, — говорит Блэйк. — Ученых, способных вести изыскания на пересечении биологии, информатики и инженерных наук, слишком мало».

Одна из главных целей исследователей состоит в разработке технологий визуализации, которые позволили бы перевести большие массивы экспериментальных данных в более удобные для восприятия формы, нежели бегущие строки кода или потоки на первый взгляд случайных последовательностей букв.

«У нас в сообществе ядерщиков считается, что ничего сложнее, чем разработка ядерных вооружений, не существует, — сказал Билл Кэмп, директор Лаборатории в Сандии. — Признаю, геномика сложнее».

Написание программ для суперкомпьютеров требует глубокого понимания параллельных архитектур, а они значительно отличаются от той, на которой базируются однопроцессорные компьютеры. Данные, вводимые в суперкомпьютер, необходимо разбивать на небольшие фрагменты и распределять между всеми процессорами. При разработке систем визуализации для геномики и алгоритмов обработки генетических данных на параллельных системах исследователи Сандии воспользуются навыками, приобретенными ими при создании средств моделирования ядерных взрывов.

Заслуга в разработке алгоритмов для геномики принадлежит исследователям из государственных институтов, поскольку самые быстрые суперкомпьютеры находятся в распоряжении правительства США. Но теперь ИТ-компании и фирмы, ведущие генетические исследования, активно сотрудничают с госучреждениями в работе над проектами, использующими данные, полученные в ходе расшифровки генома.

К примеру, в декабре IBM и NuTec Sciences объявили о планах по постройке сверхмощной вычислительной системы, предназначенной для исследования активности генов и генетических заболеваний; этот суперкомпьютер станет самым производительным из числа принадлежащих коммерческим организациям и одним из десяти самых быстродействующих компьютеров в мире. Тем временем биотехнологические компании соревнуются между собой в поисках методов использования информации о генетических последовательностях.

Как отметил Пит Морриссей, глава подразделения биотехнологий компании NuTec, компьютерный алгоритм, разработанный в американском Национальном институте исследований генома человека, позволяет ученым анализировать взаимодействие различных генов, в результате которого возникает заболевание.

«Очень немного заболеваний, может быть всего 2%, вызваны одним геном, — подчеркнул он. — Этот алгоритм позволяет ученым впервые проанализировать комбинации генов, их взаимодействие друг с другом, чтобы определить, каким образом они вызывают заболевание. Этот алгоритм многовариантного анализа активности генов может применяться для исследования любого заболевания».

Сдерживающим фактором является вычислительная мощность компьютера, используемого для обработки генетических данных с помощью данного алгоритма. Суперкомпьютер, создаваемый для NuTec, будет способен выполнять 7,5 трлн. операций в секунду. Он будет построен на базе Unix-серверов IBM eServer p640. В NuTec и IBM намерены предоставить университетам, работающим в области биотехнологий компаниям и фармацевтическим фирмам доступ через Internet к этому суперкомпьютеру и возможность использовать данный алгоритм.

«Замена человеческой интуиции невозможна, но эффективное проектирование и оценка результатов клинических испытаний определенных лекарственных препаратов может потребовать аналитического подхода, для реализации которого необходимы возможности суперкомпьютеров», — уверен Стен Голдин, глава отдела исследований и разработок компании Decision Resources. Голдин рассчитывает, что его сотрудники смогут исследовать большую группу заболеваний, связанных с многочисленными факторами генетического риска (таких, как спутанное сознание и шизофрения), и выявить пациентов, которые с большей вероятностью отреагируют на конкретный препарат — прообраз будущего лекарства.

Выявление генетически определенных компонентов, «ответственных» за так называемые полигенетические заболевания, может потребовать выборочного программирования и интенсивного анализа взаимосвязей между десятками генов каждого пациента, участвующего в клинических исследованиях. После того как лекарство будет одобрено, генетические тесты должны определить пациентов, которым может помочь данный препарат.

«Я уверен, что в конечном итоге получит распространение децентрализованное использование возможностей суперкомпьютеров», — подчеркнул Голдин.

Как отметил Морриссей, задача в большей степени сводится к поиску лекарственных средств для лечения генетических заболеваний, чем к использованию компьютерных ресурсов для анализа данных генома. «Исследование генетических заболеваний требует, чтобы ученые могли максимально задействовать эти машины в своей работе, в силу чего крайне важно найти способ создать инструментарий визуализации, который позволит этим данным обрести смысл», — сказал он. Эта новая область биоинформатики — сочетание информатики, биологии, физики и высшей математики — может стать фундаментом новой экономики, основанной на биотехнологиях.

Хотя Лос-Аламосская и Ливерморская национальные лаборатории уже участвуют в исследовании генома, Вентер выбрал в партнеры Лабораторию в Сандии, поскольку ее ученые имеют большой опыт в области вычислений с использованием массово-параллельных архитектур.

По словам Кэмпа, геномика и протеомика (наука, изучающая физическую структуру и функции белков в клетках) потребуют еще более мощных компьютеров, чем расшифровка генома.