Современные ученые пытаются разгадать одну из самых больших тайн — генетический код, который определяет уникальность каждого из нас и который называют геномом человека.

Это произошло ранней весной 1953 года в Англии, в Кембридже. Джеймс Ватсон и Френсис Крик изо всех сил пытались опередить одного из самых прославленных ученых мира — Линуса Паулинга в разгадывании химической структуры ДНК. И, как это часто бывает в научных открытиях, внезапно все встало на свои места.

«Ярко сверкающие металлические пластины неожиданно сложились в модель, в которой впервые присутствовали все компоненты ДНК», — писал Ватсон в статье «Двойная спираль: личные впечатления об открытии структуры ДНК» (The Double Helix: A Personal Account of the Discovery of the Structure of DNA). — Буквально в течение часа мне удалось разместить все атомы так, что они согласовывались и с данными рентгеновских снимков, и с законами стереохимии».

Читая статью Ватсона, легко забыть о кропотливых исследованиях, которые привели к этому открытию. Посредством скрупулезного накопления и методичного анализа огромного количества данных создавались и многие другие научные теории.

Сейчас это так же верно, как и в 1953 году. Но исследователи сталкиваются с более сложными препятствиями, чем стояли на пути Ватсона и Крика. Современные ученые пытаются разгадать одну из самых больших тайн — генетический код, который определяет уникальность каждого из нас и который называют геномом человека.

Два основных соперника в этой области — это финансируемый американским правительством проект Human Genome Project и частная компания Celera Genomics, причем успех той или иной стороны может быть обусловлен как применяемыми информационными технологиями, так и достижениями фундаментальных исследований. Безусловно, большая часть работы по составлению генома человека зависит от уровня развития информационной инфраструктуры, способной быстро и точно получать, анализировать и хранить огромные объемы данных.

Ставки очень высоки. Ученые считают, что определение генома человека кардинальным образом изменит здравоохранение. Врачи смогут больше узнать о происхождении конкретных заболеваний и о том, почему те или иные люди предрасположены к этим заболеваниям, а фармацевтические и биотехнологические фирмы смогут намного быстрее и дешевле создавать новые лекарства. Эти препараты, в свою очередь, будут вызывать гораздо меньше побочных эффектов, что само по себе уже серьезное достоинство, учитывая, что, по данным Journal of the American Medical Association, каждый год в американских больницах от аллергических реакций на препараты и от вызванных ими побочных эффектов погибает около 100 тыс. пациентов.

Погружение в данные

Работа по определению структуры генома человека, по существу, была начата в 1990 году, когда правительство США запустило проект Human Genome Project. Цель этого проекта, рассчитанного на 15 лет, состояла в определении полной структуры генома человека. Представители Национального института генома человека (www. nhgri.nih.gov), который возглавил реализацию проекта, утверждают, что первый рабочий вариант данной структуры будет представлен уже этой весной. В то же время ученые шести стран мира, работающие в госорганизациях, университетах и частных фирмах, совместно выявляют структуру и работают с ее различными фрагментами.

Общий объем данных поражает воображение: предполагается, что геном человека состоит из 3 млрд. базовых пар. (Стоит напомнить, что ДНК представляет собой двойную спираль, содержащую пары «строительных» блоков, называемых базами. Это аденин-тимин и гуанин-цитозин.) Если вам трудно представить объем этих данных, вообразите, что вы читаете вслух базовые пары со скоростью три пары в секунду без остановки. Тогда на то, чтобы «прочитать» все 3 млрд. пар, составляющих геном человека, у вас уйдет десять лет.

Но прежде чем ученые смогут заняться классификацией базовых пар в геноме человека, им необходимы фрагменты этого генома. Поэтому каждый исследователь начинает с одной и той же последовательности основных шагов. Лаборатории оснащаются роботами для автоматизации каждодневного процесса сбора тысяч образцов ДНК, полученных из донорских образцов крови и спермы. Как только образцы готовы, данные из них извлекаются с помощью совершенных машин, называемых секвенсорами (sequencer). Следующий шаг — это преобразование данных из аналоговых сигналов в цифровые для того, чтобы их можно было обрабатывать на компьютере. Затем данные фильтруются, сравниваются с известными последовательностями с помощью стандартных алгоритмов поиска, таких как Blast (акроним от выражения basic local alignment search tool — «инструментарий поиска базовых локальных блоков»), после чего они помещаются в базу данных.

Здесь и возникает основная задача: собрать данные так, чтобы создать полное представление генома человека. Сбор ДНК напоминает процесс складывания номеров многочисленных воскресных газет, которые перед этим были разорваны на тысячи мелких клочков.

При обработке данных приходится решать несколько нетривиальных задач. Во-первых, это задача управления данными. Нужно не только получить и сохранить данные, сгенерированные секвенсорами, но и отслеживать данные, связанные с каждым этапом всего процесса (например, температуру и т. п.). Обычно лаборатории приходится ежедневно обрабатывать 800 тыс. образцов ДНК; только это дает около 15 Гбайт данных в день. Хранение информации столь значительного объема весьма сложная задача. Поскольку многие необходимые приложения или не выпускаются как коммерческие продукты, или не предназначены для обработки огромных массивов данных, необходимых для составления генома человека, часто приходится адаптировать общедоступное программное обеспечение (например, Blast) или самим создавать новые приложения.

Есть еще одна трудность, с которой очень часто сталкиваются ИТ-менеджеры, — необходимость заставить взаимодействовать гетерогенные приложения. Исследователи должны как-то интегрировать программы, которые выпускаются вместе с секвенсорами, со своими приложениями.

Ученые Центра биомедицинских исследований Уайтхеда (wi. mit.edu) Массачусетсского технологического института принимают активное участие в реализации инициатив правительства, направленных на определение структуры человеческого генома. Коллектив, возглавляемый Эриком Ландером, объединяет прекрасных специалистов, использующих великолепные технологии и обладающих большим опытом работы в таких областях, как физика, биология, нейробиология и компьютерные науки. Почти всем из них приходилось заниматься разработкой программ. А их технической поддержкой и обслуживанием занимаются девять системных администраторов.

Список используемого аппаратного и программного обеспечения впечатляет: 123 секвенсора; 17 четырехпроцессорных SMP-серверов; дисковые массивы Compaq StorageWorks емкостью 5 Тбайт; базы данных Sybase; множество разработанных в самом институте приложений. Первичные данные о полученных последовательностях хранятся в плоских файлах Unix-систем, в то время как данные, сгенерированные информационными системами, хранятся в реляционных базах данных Sybase.

Каждую ночь вновь собранные данные автоматически вносятся в хранилища центра и архивируются. (Благодаря полученным от Национального института генома человека в марте прошлого года 35 млн. долл. Центр Уайтхеда смог увеличить число полученных за год базовых пар ДНК с 750 млн. до 17 млрд.) Кроме того, данные пересылаются по Internet в GenBank — общедоступную базу данных, обслуживаемую Национальным центром биотехнологической информации (www.ncbi.nlm.nih.gov). Оттуда новые данные поступают в другие общедоступные базы данных в Европе и Японии. Суть этих операций понятна: предоставить доступ к этим данным как можно быстрее и как можно большему числу людей.

В реализации Human Genome Project достигнут серьезный прогресс. В ноябре ученые сообщили, что им удалось идентифицировать, выделить и опубликовать треть генома человека. Менее чем через месяц было сделано еще одно эффектное заявление: впервые была определена структура ДНК полной хромосомы человека.

Бизнес биотехнологий

Определением структуры генома человека занимаются и частные компании. Например, в компании PE Biosystems быстро осознали, что фармацевтические фирмы готовы платить большие деньги за информацию, которая позволит им создавать новые лекарства. PE вышла на этот рынок два года назад, убедив Крейга Вентера уйти с поста главы некоммерческого Института исследований генома и создать еще один геномный центр — компанию Celera Genomics. Специалисты Celera заявляют, что они установят структуру генома человека быстрее и с меньшими затратами, чем участники государственного проекта Human Genome Project. Фактически Human Genome Project и Celera выбрали разные подходы к решению этой задачи как с научной точки зрения, так и в том, что касается применяемых информационных технологий.

Основу подхода, реализуемого в Celera, составляет метод формирования структуры, который изобрел Вентер. Этот подход, называемый «принудительным формированием», предусматривает разделение всего генома на небольшие фрагменты ДНК с последующей сборкой фрагментов в нужном порядке с учетом соответствия перекрывающихся последовательностей на концах фрагментов. Этот метод быстрее, чем используемый в Human Genome Project, которым предполагается формирование всего генома за счет использования каждый раз одного крупного известного фрагмента. Некоторые оспаривают правомерность такого подхода, утверждая, что результаты, полученные Celera, не будут точными.

С момента своего создания Celera продвигается очень быстро. Вентер собрал команду известных ученых, среди которых Самуэл Бродер, бывший директор Национального центра рака; лауреат Нобелевской премии Гамильтон Смит, обнаруживший ограничивающий фермент второго типа, используемый при клонировании генов; Юджин Мейерс, разработавший уже упоминавшийся алгоритм Blast. В сентябре Celera сообщила о том, что ей удалось определить структуру генома дрозофилы меланогастер — плодовой мушки. Месяц спустя компания объявила о еще одном крупном достижении — определении структуры и передаче своим подписчикам данных о примерно 1,2 млрд. пар человеческого ДНК. (В то время Celera уже подала заявку на патенты на 6,5 тыс. генов. См. врезку «Вопросы этики».)

В конечном итоге Celera намерена стать единым источником всей геномной информации, предлагая своим подписчикам инструментарий для доступа и анализа данных через Internet. Чтобы добиться этой цели, Celera работает с Compaq Computer над созданием собственного суперкомпьютерного центра, по мнению самой Celera, второго по размеру в мире. Здесь уже установлено более 200 серверов Compaq AlphaServer ES40, оснащенных процессорами Alpha/500 МГц, 11 серверов GS140 и система хранения StorageWorks емкостью 50 Тбайт. На очереди установка еще 28 систем ES40 и трех систем WildFire, одна из которых укомплектована оперативной памятью емкостью 128 Гбайт. Кроме того, Celera взяла в аренду 300 секвенсоров 3700 DNA у компании PE Biosystems. Все это оборудование подключено к коммутируемой магистрали, которая обладает пропускной способностью 500 Гбайт/с.

Модель электронного бизнеса

Во многом конвейер Celera по получению и обработке данных аналогичен тому, который используется в Центре Уайтхеда. Есть, однако, несколько существенных отличий. Celera разработала собственную информационную инфраструктуру, ориентированную на электронную коммерцию. Подписчики Celera, к примеру, обращаются к своим собственным базам данных, работающим на серверах Celera, через Internet; база данных каждого подписчика обновляется еженедельно.

Что же подписчики получают за свои деньги? Помимо доступа к оперативным данным, они могут получить аннотации (к примеру, подробную информацию о том, был ли тот или иной ген обнаружен раньше, был ли он запатентован и т. д.), сравнительную информацию о геномах (например, сравнение с геномами плодовой мушки и мыши), доступ к вычислительным ресурсам Celera и широкому диапазону программных инструментальных средств.

«Мы не только предлагаем базу данных структур ДНК, — подчеркнул Пол Гилман, директор Celera по стратегическому планированию, — мы предлагаем подробную аннотацию и самый лучший инструментарий для анализа данных и работы с ними».

Возврат от инвестиций

Модель бизнеса, реализуемая Celera, привлекла большое внимание в деловом мире. Уолл-стрит встретил ее с распростертыми объятиями, что отразилось в росте стоимости акций компании с 14 3/16 пункта в мае 1999 года до 190 к концу года. В то же время финансовые аналитики Web-сайта персональных инвестиций Motley Fool Том и Дэвид Гарднеры сообщили своим клиентам, что планируют инвестировать в эту компанию. По мнению аналитика по вопросам биотехнологий инвестиционного банка S.G. Cowen Эрика Шмидта, перспективы у компании более чем радужные.

«Мы считаем, что Celera опередит всех благодаря прекрасной команде, развитой аппаратной инфраструктуре и их собственным преимуществам», — сказал Шмидт.

«Существует немало компаний, занимающихся выяснением структуры ДНК, но Celera — единственная, которая поставила своей целью выяснить структуру всего генома, — отметил Линн Аренелла, адъюнкт-профессор колледжа Бентли, специализирующийся на вопросах коммерческого использования биомедицинских технологий. — Компанию, которая имеет возможность организовать и интерпретировать данные, ожидает большой финансовый успех. Крег Вентер намерен стать Майклом Блумбергом в генетике. И он всегда сдерживает свои обещания».

Пока не ясно, когда Celera или Human Genome Project смогут выполнить все, что они обещают. Когда же это произойдет, результаты их деятельности могут отразиться на жизни каждого из нас.


Утечка виртуальных мозгов

Биоинформатика становится отраслью экономики, хотя и не нашей. Расшифрованный ген превратился в продукт, который можно запатентовать или просто-напросто продать фармацевтической фирме.

В вычислительных центрах биоинформационных лабораторий исследуют анонимные образцы крови и спермы жителей планеты, представителей самых разных национальностей. Ученых интересует не геном мистера Смита и господина Иванова, а геном Человека. Так, во всяком случае, говорят официальные документы. Компьютеру все равно, чьи гены исследовать. Но задачу компьютерам ставят пока что люди, а люди остаются людьми — им интересен не Человек, а человек. Они хотят понять, что же отличает Иванова от Смита, Иванова от Петрова, Смита от Вессона. И это любопытство неистребимо.

Придет время и станет понятно, какой участок ДНК отвечает за длину ног и объем груди красотки, какой поможет прогнозировать мощность сердечной мышцы и объем легких будущего спортсмена, но то, что делает человека человеком — его мозг, — всегда будет самым лакомым кусочком для исследователя. Недаром мозг великих людей хранится в охлаждаемых сейфах, и сперма великих физиков и лириков тоже в безопасности, ждет лучших времен.

Посмотрим экономической правде в глаза: пока нам не удается успешно торговать высокотехнологичными продуктами человеческого мозга. Может, попробовать торговать самим мозгом? Почками и прочими органами вроде уже приторговывают, если судить по публикациям некоторых СМИ. Мозги пока продаются только в переносном смысле — мозг в чужую черепную коробку не вставишь, он не нужен, не востребован обществом, тем, которое в состоянии за него платить.

Но технология опережает самые смелые фантазии. А экономика опережает технологию. И вот Рунет облетает новость: миллилитр крови десятиклассника 57-й школы Эдика Финкельштейна куплен посреднической американской фирмой за 200 тыс. долл.! Кому нужны гены Эдика? Пока никому. А кому нужен сам Рунет, в который вкладывают миллионы долларов? Все это — до мозга костей, так сказать, виртуальный товар, за которым стоит вся мощь сослагательного наклонения: а вдруг...

Почитав эхи fido, впрочем, можно убедиться, что бизнес этот виртуальный, но не эфемерный. Интерес к российскому материалу традиционно огромен. По сути речь идет о «сырье»: мы не в состоянии продавать расшифровку генома, у нас нет таких вычислительных мощностей, мы можем продавать сам геном.

Это интеллект как он есть, неочищенный, неоцифрованный. Это сырье самого высокого качества, мировой спрос на него огромен даже в наше время, когда им еще никто не может воспользоваться, во всяком случае в открытых источниках нет сообщений такого рода. Молодые фирмы, как их называют, боятся опоздать, поезда в будущее отходят не по расписанию, а намного раньше. Вдруг какому-то будущему биоинформационному гиганту, чей взлет заставит забыть об успехе Netscape или eBay, понадобится банк ДНК школьников столичных матшкол для того, чтобы выделить группу аминокислот, ответственных за творческое мышление? Определено ли оно генетически? Но никто не может утверждать этого, не просчитав терабайты данных. А не просчитать нельзя: любопытство человеческое сильней даже нечеловеческой скупости — как можно коснуться тайны творчества и не попробовать ею завладеть?

Моральные аспекты нового бизнеса неоднозначны, экономические перспективы расплывчаты. Есть новый товар, как бы не продешевить, как бы направить бизнес в легальное русло, не дать виртуальной экономике стать частью теневой. Прецедент с Эдиком неминуемо приведет к ажиотажу, может быть, к скандалу, но вед можно найти разумный компромисс. Часть средств, полученных от продажи генома наших интеллектуалов, направить в школы, где уровень успеваемости значительно ниже среднего по стране — последних, к сожалению, немало. Кстати, геном «бестолковых» деток может оказаться не менее ценен: компьютер, вычисляющий секрет гения, будет иметь как бы нулевой, опорный уровень. Говоря современным языком — «тупость» может оказаться неплохим товаром. При правильно организованном маркетинге два миллиграмма замороженной плазмы помогут «разморозить» две мартеновские печи.

— Алик Мучнов

Вопросы этики

Своими спорными действиями по патентованию генов, которые она выявила, Celera Genomics вызвала переполох в отрасли. В частности, компания подала более 6 тыс. заявлений на патенты в данной области. Эти патенты гарантируют, что Celera в течение определенного периода времени будет иметь эксклюзивное право на разработку продуктов на основе открытия этих генов. (Вместо того чтобы самой создавать новые лекарства и их тестировать, Celera планирует лицензировать свои права на интеллектуальную собственность таким компаниям, как Pfizer.)

В то время как одни считают патентование генов делом аморальным и неэтичным, другие рассматривают этот шаг как необходимость.

«Патентование не имеет ничего общего с этикой, — считает Чак Лудлем, вице-президент ассоциации Biotechnology Industry Organization. — Патентование обеспечивает защиту, а не владение. И эта защита имеет ограниченное пользование. Нам необходимы патенты для того, чтобы стимулировать компании вкладывать сотни миллионов долларов в разработку новых продуктов. В противном случае убедить их принять участие в этой деятельности было бы невозможно».

«Я не считаю, что патентование — это обязательно нечто плохое, — заметил Рональд Грин, директор Института прикладной и профессиональной этики. — Однако если компании беспричинно взимают плату за запатентованные ими материалы, они тем самым действительно могут воспрепятствовать другим ученым продвигаться в своих исследованиях». По мнению Грина, федеральное правительство должно вмешаться и склонить частные компании играть по своим правилам.

«Слишком часто федеральное правительство отказывается от своих прав, — заметил Грин. — Human Genome Project должен сохранить за собой патенты, которые позволят ему контролировать использование материалов и исследования. Это также гарантирует, что частные компании не смогут извлечь выгоду из исследований, финансируемых государством».