Российские институты по физике высоких энергий активно участвуют в проекте Большого адронного коллайдера — крупнейшего международного эксперимента в области физики элементарных частиц. Уникальный как по масштабам получаемых данных, так и с точки зрения компьютерных технологий проект предусматривает обработку и анализ экспериментальных данных с использованием Grid. Осенью 2003 года первый вариант глобальной инфраструктуры должен заработать на реальных задачах полномасштабного моделирования экспериментов.

Осенью 2001 года ЦЕРН принял проект создания глобальной информационно-вычислительной инфраструктуры для обработки, хранения и анализа экспериментальных данных с Большого адронного коллайдера (БАК). Вслед за повышением энергии сталкивающихся частиц (за 40 лет она возросла в миллион раз) увеличиваются размеры ускорителя и детекторов — приборов, «фотографирующих» столкновения. Если первые ускорители могли размещаться на рабочем столе, то сегодня это гигантские установки. Например, ускоритель ЛЭП, который работал в ЦЕРН до 2000 года, располагался в подземном туннеле с радиусом 27 км на глубине нескольких десятков метров. А ускоритель БАК, который сооружается в том же туннеле и начнет работу в 2007 году, будет иметь самую большую в мире систему сверхпроводящих магнитов. Соответственно и детекторы представляют собой огромные установки. Например, вес CMS, одного из четырех детекторов БАК, будет равен 12,5 тыс. тонн. Детектор будет заполнен разнообразной электроникой, регистрирующей разлетающиеся частицы. Информация о регистрации пролетающих частиц проходит несколько этапов обработки в реальном времени и записывается в базу данных. Растет и объем получаемой информации; например, для ускорителя БАК одному событию будет соответствовать 1-2 Мбайт для детекторов общего назначения и до 1 Гбайт для специализированного детектора ALICE.

Уникальна и частота поступления событий — 100-200 событий в секунду для каждого детектора БАК. Для того чтобы можно было сделать сколько-нибудь достоверный вывод, в зависимости от природы изучаемого явления и условий его наблюдения в экспериментах на БАК будет требоваться набор статистики от нескольких месяцев и до нескольких лет. Согласно прогнозам, совокупный объем данных, которые будут накапливаться в экспериментах на БАК, будет измеряться десятками петабайт.

Уже более тридцати лет основной организационной формой экспериментов в физике высоких энергий является международное сотрудничество. И эксперимент БАК проводится сообществом лабораторий и институтов всего мира. Если в 70-х годах международные коллективы включали несколько лабораторий и институтов, то в 90-е годы, скажем, в экспериментах на ускорителе ЛЭП участвовали сотни ученых из десятков организаций. В каждом из международных коллективов (так называемые «коллаборации») по проектированию и созданию детекторов на ускорителе БАК уже участвует несколько тысяч физиков из сотен лабораторий и институтов. Это, само по себе уникальное явление в научном мире, является, возможно, наиболее сложным обстоятельством для проектирования компьютерной системы БАК.

Требуется обеспечить доступ к базам данных сотням активных пользователей. Как этого добиться? Предположить, что базы данных создаются и хранятся в одном месте (в ЦЕРНе), а пользователи приезжают туда или работают в своих институтах за удаленным терминалом, подключенным через глобальные линии связи? Либо, напротив, передавать базы данных в институты, где работают участники эксперимента? Прежде всегда реализовывался первый вариант, хотя периодически обсуждалась и целесообразность и альтернативного подхода. Однако выяснилось, что передавать полные базы данных даже в несколько адресов и организовывать их хранение очень дорого, а для создания распределенных баз данных и организации работы с ними отсутствовали необходимые технологии.

Необходимо сделать важное замечание. В конце 80-х годов в физике высоких энергий в связи с началом работы ускорителей в Швейцарии (ЦЕРН), в США, Германии и Японии интенсивно обсуждалась проблема эффективной организации обмена текстовой информацией в рамках международных коллабораций. Для такой задачи, гораздо более простой, нежели обработка и анализ данных, была разработана известная сегодня технология World Wide Web. Стандартизация означала согласие мирового сообщества использовать единый протокол и метаязык. Аналогично этому и технологии Grid должны основываться на принятии мировым сообществом соответствующих стандартов.

Распределенная иерархическая модель

Результатом моделирования системы БАК, проведенного в конце 90-х годов в рамках международного проекта MONARC, стала распределенная модель архитектуры. Весь объем информации с детекторов БАК после обработки в реальном времени и первичной реконструкции (т.е. восстановление треков частиц, их импульсов и других характеристик из хаотического набора сигналов от различных регистрирующих систем) должен направляться для дальнейшей обработки и для анализа в региональные центры. Был обоснован иерархический принцип организации информационно-вычислительной системы БАК, предполагающей создание центров разных ярусов (tier): Tier0 (ЦЕРН) —> Tier1 —> Tier2 —> Tier3 —> компьютеры пользователей. Ярусы должны различаться как по масштабу вычислительных и архивных ресурсов, так и по выполняемым функциям:

  • Tier0 - первичная реконструкция событий, калибровка, хранение копий полных баз данных;
  • Tier1 - полная реконструкция событий, хранение актуальных баз данных по событиям, создание и хранение наборов анализируемых событий, моделирование, анализ;
  • Tier2 - репликация и хранение наборов анализируемых событий, моделирование, анализ;
  • Tier3 - кластеры отдельных исследовательских групп.

Планируется создание четырех-шести центров Tier1 по каждому из четырех экспериментов БАК. Предполагаемое число центров Tier2 — около 25 для каждого из экспериментов. Было предложено примерно равное распределение всех компьютерных ресурсов по ярусам Tier0, Tier1 и Tier2.

В ЦЕРНе будет создан комплекс Tier0+Tier1 в виде единой вычислительной системы, совместно используемой всеми четырьмя коллаборациями БАК.

В результате развития проекта происходит уточнение его параметров и архитектуры. Если оценивать по 2002 году, то для каждого эксперимента БАК вычислительные мощности должны включать порядка 10 тыс. двухпроцессорных компьютеров Pentium 4/2ГГц. Если же к концу 2006 года мощность процессоров вырастет на порядок, то для каждого из экспериментов БАК потребуется вычислительная мощность, соответствующая кластеру из примерно тысячи двухпроцессорных компьютеров. Такой уровень представляется вполне реалистичным, тем более что две трети этой мощности планируется разместить в региональных центрах. Основная проблема — организация когерентной работы системы региональных центров с распределенной по этим же центрам базой данных событий.

Таблица 1. Оценка ресурсов по коллаборациям для БАК на конец 2006 года (первая цифра по эксперименту в целом, вторая по соответствующей части в регионах вне ЦЕРНа)

Поясним, почему речь идет о ПК. Дело в том, что все операции с отдельным событием (реконструкция, преобразование в различные форматы, анализ) выполняются на ПК достаточно быстро, причем операции с каждым событием выполняются независимо от других событий. Соответственно, вычислительные кластеры можно строить на простом коммуникационном оборудовании и с примитивной архитектурой — один компьютер распределяет задачи по вычислительным узлам, не связанным между собой. В физике высоких энергий принято называть такие вычислительные кластеры фермами. В результате, фермы можно строить на основе оборудования массового производства, что сильно снижает затраты.

Проект MONARC дал оценки также и пропускной способности линий связи в рамках жесткой иерархической распределенной модели. Линии связи Tier1-Tier0 должны иметь пропускную способность 1,5 Гбит/с для каждого из экспериментов ALICE, ATLAS и CMS, и 0,3 Гбит/с для эксперимента LHCb. Соответственно, линии связи Tier2-Tier1 — пропускную способность порядка 0,622 Гбит/с. Конечно, эти оценки также подвергаются изменениям со временем, поэтому сегодня указывается порядок пропускной способности требуемых линий связи — 1-2 Гбит/с для каждого эксперимента для линий связи ЦЕРН с региональными центрами, а также между основными региональными центрами.

Завершая описание вычислительной системы БАК, опишем задачу моделирования событий, которая включает в себя генерацию акта столкновения элементарных частиц, симулирование отклика регистрирующей аппаратуры детекторов, симулирование обработки информации в режиме реального времени, реконструкцию события и его запись в базу данных. Моделирование необходимо по ряду причин. Одна из них состоит в тестировании создаваемых алгоритмов обработки данных и другого программного обеспечения. Необходимо также проверить, насколько проектируемый эксперимент способен дать статистически значимые результаты для тех или иных физических явлений с учетом систематических и статистических ошибок, возникающих от всех подсистем детектора и процедур обработки данных. В обоих случаях требуется то же количество моделируемых событий, сопоставимое с годовой статистикой при работе ускорителя. Если учесть, что функция создания моделирующих событий в основном отдается в региональные центры, то уже в 2003 году потребуется проектировать распределенную информационно-вычислительную систему, по своей сложности сравнимую с системой, которая будет создаваться к началу работы ускорителя в 2007 году.

Роль Grid

В проекте MONARC была предложена достаточно обоснованная распределенная модель жесткой иерархии региональных центров. Сейчас трудно сказать, насколько эта модель была бы эффективной при функционировании информационно-вычислительной системы БАК, если бы она была реализована, но в 1999 году внимание разработчиков привлекла концепция Grid.

Иерархическая модель MONARC имеет структуру дерева. В частности, актуальная база данных по событиям (с которой работают пользователи) полностью хранится в каждом из Tier1-центров. А Tier2-центры, в сущности, являются промежуточными станциями в процессе обращения пользователей к актуальным базам данных. Никаких связей между Tier1-центрами, а тем более между Tier2-центрами, не предусматривается. В результате появляется дублирование баз данных, а проблема столкновения многих пользовательских задач в одном центре переводится на региональный уровень. Применение Grid позволит разрешить эти проблемы. Действительно, актуальные базы данных можно хранить распределенно по всем Tier1-центрам (а возможно, и по части Tier2-центров). В этом случае пользователь запускает свою задачу в среде Grid этих региональных центров, которая обходит их, обрабатывая необходимый набор событий, а результаты (готовый материал для конечного анализа) отсылается обратно пользователю или в некоторый близко расположенный или доступный центр.

Точно такой же эффект даст Grid и в задаче создания баз данных. В этом случае роль пользователя выполняет сама коллаборация, которая запускает задачи, например, реконструкции событий на включение в сеть региональных центров, обладающих значимыми вычислительными ресурсами (Tier1- и Tier2-центры). Задача создания и хранения копий баз данных также может решаться с помощью Grid на той же основе.

Есть и другие очевидные дивиденды Grid. Во-первых, возможность более эффективного использования компьютерных ресурсов, задействованных для экспериментов на БАК: одни и те же ресурсы можно использовать в разное время под разные задачи, в том числе и предоставлять пользователям из других регионов, когда в данном регионе падает нагрузка. Скажем, в эксперименте ALICE основные задачи будут связаны с анализом событий при столкновении ядер тяжелых элементов, в то время как для остальных экспериментов основные задачи связаны с событиями при столкновении протонов. Сеансы работы БАК с разными пучками сталкивающихся частиц (протоны или тяжелые ядра) будут разнесены по времени; использование Grid может обеспечить мобилизацию компьютерных ресурсов гораздо большего числа региональных центров в периоды работы БАК с пучками тяжелых ядер, чем в случае жесткой привязки региональных центров к данному эксперименту.

Применение Grid может повысить надежность хранения данных, так как базы данных оказываются распределены между региональными центрами. Можно предусмотреть хранение двух-трех копий каждого события в такой распределенной базе, причем, каждое событие будет актуально и может использоваться в пользовательских задачах. В таком случае можно совместить задачу повышения надежности хранения данных и оптимизацию доступа к ним.

Все это, очевидно, привлекательно, но пока технологии Grid еще не разработаны настолько, чтобы с уверенностью можно было на них рассчитывать. Правильнее говорить, что наши примеры являются описаниями того, что данная прикладная область требует от разработчиков Grid. Кроме этого, применение Grid не перечеркивает результаты MONARC — соответствующие выводы о распределенной иерархической модели находят свое развитие. Действительно, иерархическая структура региональных центров сохраняется в отношении к выполняемым базовым функциям. Если говорить несколько упрощенно, то теперь Tier1 — это региональный центр, в котором проходят последние этапы создания актуальных баз данных и их хранение (хотя бы и частичное), а Tier2 — это региональный центр, который моделирует события и в котором сосредоточены компьютерные ресурсы, значимые для всей системы в целом.

Проект LCG

Принятый осенью 2001 года пятый проект БАК предусматривает проектирование и создание информационно-вычислительной системы. В проекте, получившем название LHC Computing Grid (LCG), можно выделить два компонента: ресурсы и программное обеспечение. К первому относятся вопросы построения распределенной иерархической архитектуры системы региональных центров. В состав ПО входят приложения, специфичные для каждого из четырех экспериментов БАК (симуляция отклика регистрирующей аппаратуры детекторов, реконструкция треков частиц и др.), а также пакеты общего для всех экспериментов назначения, так называемые «общие решения» (программы автоматической инсталляции приложений в региональных центрах, иерархические файловые системы для организации хранения данных в роботизированных библиотеках с автоматической подкачкой затребованных файлов на дисковые массивы и др.).

Кстати, можно сказать, что система региональных центров также является общим решением, поскольку каждый из четырех экспериментов БАК будет использовать ресурсы распределенной иерархической системы региональных центров, одни и те же или организованные по одной схеме и с использованием общих технологических решений.

Проект LCG состоит из двух фаз. Первая фаза должна завершиться к 2005 году созданием полномасштабного прототипа и разработкой проекта рабочей системы LCG Technical Design Report. Вторая фаза — создание рабочей информационно-вычислительной системы БАК, готовой к обработке и анализу экспериментальных данных на момент начала их поступления в 2007 году.

На 2003 год поставлена задача создания к осени прототипа инфраструктуры Grid, на которой в начале 2004 года будут проведены первые массовые вычислительные работы по созданию баз моделирующих событий (подпроект LCG-1). Таким образом, уже сейчас необходимо определить состав программного обеспечения Grid, который может быть использован в LCG-1. К сожалению, ни один из проектов по разработке подобного программного инструментария не вышел пока на уровень, приемлемый для данного приложения, прежде всего в отношении надежности и устойчивости.

В первой рабочей группе проекта LCG вырабатываются соответствующие рекомендации. Скорее всего, на этапе LCG-1 будет использован пакет VDT (Virtual Data Toolkit) с дополнительными Grid-службами высокого уровня, созданными в европейском проекте EDG (EU DataGRID, eu-datagrid.web.cern.ch). Пакет VDT разработан в рамках американских Grid-проектах: PPDG (The Particle Physics Data Grid, www.ppdg.net), GriPhyN (Grid Physics Network, www.griphyn.org), и iVDGL (International Virtual Data Grid Laboratory, www.ivdgl.org). Этот пакет представляет собой набор надстроек над библиотекой инструментальных средств Globus, позволяющих реализовывать распределенную вычислительную систему, но практически без Grid-служб. Он также включает в себя пакет Condor/Condor-G, который используется в качестве распределенной системы запуска заданий в пакетном режиме. Из проекта EDG планируется взять ресурс-брокер, обеспечивающий распределение заданий, информационную службу, каталог откликов (replica catalog) и некоторые другие наработки. В качестве основы программного обеспечения промежуточного слоя для этих проектов выбран инструментарий Globus. Каждый компонент из этого списка достаточно хорошо разработан и отлажен, однако в единый пакет они пока еще не объединены, и это представляет собой одну из срочных задач для проекта LCG.

Планируется, что в начале июня 2003 года пакет программного обеспечения инфраструктуры LCG-1 будет заморожен с тем, чтобы работы по созданию инфраструктуры завершались в стабильных и неизменяемых условиях. В июле 2003 года должен заработать прототип LCG-1. Контрольный тест — совместная непрерывная работа 4-5 региональных центров в течение недели. В тесте будут задействованы достаточно малые ресурсы центров — по 3-5 вычислительных узла. Следующим этапом, осенью 2003 года, станет непрерывная работа прототипа в течение месяца, включая 2-3 Tier2-центра и 5-6 Tier1-центров. Составляется график, по которому помесячно, начиная с февраля 2003 года, в Grid будут подключаться Tier1-центры в Италии, Франции, Великобритании, Германии, США и др. С мая-июня начнут подсоединяться Tier2-центры, в частности, и Россия. В начале 2004 года начнется массовый перевод ресурсов, участвующих региональных центров в инфраструктуру LCG-1. Вслед за этим в экспериментах БАК начнутся сеансы массового производства баз данных моделирующих событий с использованием построенной инфраструктуры Grid.

Созданы рабочие группы, в которых обсуждаются вопросы обеспечения безопасности построенной инфраструктуры (в частности, сертификация и авторизация пользователей), определяются стандарты конфигурации ресурсов в региональных центрах (в том числе, операционная система; скорее всего это будет Linux с ядром версии 7.3), организация системного администрирования, установки программного обеспечения, пользовательский интерфейс и другие вопросы организации функционирования региональных центров в инфраструктуре LCG-1.

Россия в проекте EDG

Со стартом проекта EDG (январь 2000 года) российские институты приняли участие в этих работах, в частности, в шестом рабочем пакете, основными задачами которого являются глобальные испытания разрабатываемого программного обеспечения Grid и демонстрация его работоспособности на полигонах (WP6 Testbed and Demonstration). В этих работах принимали участие ИТЭФ (Москва), ИФВЭ (Протвино), НИИЯФ МГУ (Москва) и ОИЯИ (Дубна). В отдельных работах были задействованы сотрудники ПИЯФ РАН (Гатчина), РНЦ «Курчатовский институт» и ИПМ РАН. Кроме того, в десятом рабочем пакете (WP10 Biology Applications) принимали участие биологические институты и АНО «Наука и Общество». В некоторых разработках по другим (собственно научно-технологическим) рабочим пакетам принимали участие сотрудники из ИТЭФ, ИФВЭ, НИИЯФ МГУ и ОИЯИ.

Основным результатом участия в проекте EDG стало приобретение опыта работы с новейшим программным обеспечением Grid, который найдет непосредственное применение в работе по созданию российского сегмента LCG-1. Впервые в России созданы виртуальные организации Grid для решения конкретных прикладных задач. (Виртуальные организации являются основной формой объединения ресурсов, уже имеющихся в Grid, позволяя подключать данный ресурс к решению разных прикладных задач разными группами пользователей с обеспечением безопасности и независимости их одновременной работы.) Можно отметить также ряд других результатов.

  • Освоена технология создания информационных серверов GIIS, собирающих информацию о локальных вычислительных ресурсах и ресурсах по хранению данных, которые создаются Globus-службой GRIS на каждом узле распределенной системы, и передающих эту информацию в динамическом режиме в вышестоящий сервер GIIS. Организован общий информационный сервер GIIS, который передает информацию о локальных ресурсах российских институтов на информационный сервер GIIS проекта EDG.
  • В НИИЯФ МГУ создан Сертификационный центр (certification authority, CA). Его сертификаты принимаются всеми участниками EDG. Разработана схема подтверждения запросов на сертификаты с помощью расположенных в других организациях регистрационных центров, заверяющих запросы пользователей электронной подписью. Разработаны программы постановки и проверки электронной подписи, а также пакет программ для автоматизации работы СА.
  • Инсталлирована и протестирована программа репликации файлов и баз данных GDMP (Grid Data Mirroring Package), созданная для выполнения удаленных операций с распределенными базами данных. Она использует сертификаты Grid и работает по схеме "клиент-сервер", выполняя репликацию изменений в базе данных в динамическом режиме. Сервер периодически оповещает клиентов об изменениях в базе, а клиенты пересылают обновленные файлы с помощью команды GSI-ftp. GDMP используется для репликации в ЦЕРН распределенной базы моделирующих событий, создаваемой в ОИЯИ, НИИЯФ МГУ и других институтах для эксперимента CMS. GDMP рассматривается в качестве стандарта Grid для репликации изменений в распределенных базах данных.
  • Сотрудники ОИЯИ принимали участие в развитии средств мониторинга для вычислительных кластеров с большим количеством узлов (10 тыс. и более). В рамках задачи мониторинга и устойчивости при сбоях они участвуют в создании системы корреляции событий. С помощью прототипа системы Correlation Engine ведется сбор статистики аномальных состояний узлов на базе вычислительных кластеров ЦЕРН. Производится анализ полученных данных для выявления причин сбоев узлов. Этот этап позволит получить первый опыт в предсказании сбоев. На втором этапе предусмотрено расширение прототипа с учетом полученных результатов и испытание системы автоматизированного предупреждения сбоев на практике. Эти разработки включены в создаваемую архитектуру системы глобального мониторинга GMA (Grid Monitoring Architecture).
  • Cпециалистами НИИЯФ МГУ и ОИЯИ совместно с сотрудниками INFN (Италия) разработана и апробирована новая схема интеграции прикладных инструментальных пакетов IMPALA/BOSS и Grid для автоматизации процесса массовой генерации событий эксперимента CMS.

Проведено тестирование совместной работы российских центров с ЦЕРН и центром в Падуе (Италия). В архитектуре EDG пока не предусмотрена одновременная установка в разных центрах компонента по распределению заданий по удаленным ресурсам, разработанного в рамках первого рабочего пакета WP1 EDG; во всех тестах используется Resource Broker, установленный в ЦЕРНе. Однако ясно, что для оптимизации распределения задач в условиях достаточно большого числа центров и ресурсов потребуется когерентная работа нескольких экземпляров Resource Broker, установленных в разных центрах. Соответствующее тестирование было проведено в НИИЯФ МГУ.

В сотрудничестве с ИПМ РАН проведена инсталляция программы Metadispetcher в российском сегменте инфраструктуры EDG; программа предназначена для планирования запуска заданий в среде Grid.

В декабре 2003 года проект EDG закончится и уже сейчас идет подготовка нового европейского проекта, EGEE (Enabling Grids for E-science and industry in Europe, www.cern.ch/egee-ej). Этот проект будет уже не научно-технологическим, а инфраструктурным; предполагается создать прототип, который станет ядром будущей общеевропейской среды Grid.

Региональный центр БАК в России

В 1999 году в России начаты работы по созданию регионального центра БАК, получившего название «Российский информационно-вычислительный комплекс по обработке и анализу данных экспериментов на Большом адронном коллайдере» (РИВК-БАК).

РИВК-БАК должен стать составной частью инфраструктуры LCG, создаваемой в рамках единой концепции для всех 4 экспериментов: ALICE, ATLAS, CMS и LHCb. Основу РИВК-БАК составят вычислительные центры российских институтов. Основными функциями РИВК-БАК будет обеспечение условий для физического анализа данных, доступ к актуальным базам данных в глобальной инфраструктуре региональных центров LCG и создание баз моделирующих событий. В соответствии с этими базовыми функциями РИВК-БАК является кластером институтских центров уровня Tier2. Принята концепция российского регионального центра, согласно которой суммарный уровень ресурсов по участвующим институтам будет порядка 70% от уровня ресурсов канонического центра Tier1 проекта MONARC. Предполагается участие РИВК-БАК в распределенном хранении актуальных баз данных на уровне 5%.

Летом 2003 года РИВК-БАК будет подключен к пилотному варианту инфраструктуры LCG-1, поэтому в каждом из участвующих институтов будут выделены определенные ресурсы и установлены необходимые Grid-службы.

Следует отметить, что, в отличие от других стран, в РИВК-БАК будет реализовываться модель архитектуры, принятая в LCG в целом, а именно Grid-инфраструктура институтских центров. В странах с несколькими центрами будет реализовываться иерархическая модель проекта MONARC. Типичным примером может служить Германия, где в Карлсруэ будет создан Tier1-центр, а Tier2-центры будут связаны только с ним.

На данный момент в РИВК-БАК задействованы ресурсы ИТЭФ, ИФВЭ, НИИЯФ МГУ и ОИЯИ, где созданы компьютерные инфраструктуры, состоящие из вычислительных кластеров (суммарно более 200 процессоров), дисковых массивов емкостью около 10 Tбайт, ленточных библиотек, а также средств визуализации. Эти ресурсы должны быть в 2003 году удвоены. В 2003 году планируется подключение к работам по проекту РИВК-БАК, а значит и к работам по проекту LCG и ряда других институтов; среди них ИЯИ РАН, МИФИ, РНЦ «Курчатовский институт» и ПИЯФ РАН.

Одним из наиболее важных ресурсов являются линии связи. Сегодня минимальным уровнем пропускной способности линии связи для участия в РИВК-БАК является канал в несколько мегабит в секунду. Оптимальным в 2002 году был уровень в 20-30 Мбит/с; в 2003 году требования увеличатся вдвое. Это относится как к линиям связи между российскими институтами, так и к линии связи с ЦЕРНом. В целом требуемый уровень пропускной способности обеспечивался в рамках Межведомственной государственной программы «Компьютерные сети нового поколения», хотя и имеются еще существенные проблемы у ИФВЭ и ПИЯФ РАН (в обоих случаях выполняются проекты по кардинальному изменению ситуации к лету 2003 года, когда линии связи для этих институтов достигнут мощности 100 Мбит/с). В целом имеются хорошие перспективы роста существующей сетевой инфраструктуры до требуемого в 2007 году уровня в 1-2 Гбит/с (конечно, при выделении соответствующего финансирования, прежде всего по упомянутой государственной программе).

В 2002 году существенно улучшилась ситуация и с международным каналом связи с ЦЕРН и другими центрами, участвующими в проекте БАК. Использовались все существующие линии: FASTNet (Москва — StarTAP в Чикаго) для связи с американскими центрами, а также с ЦЕРН; линия RUNNet на североевропейскую сеть NORDUNet; а также иногда использовалась линия общего доступа в Internet, созданная в рамках программы «Компьютерные сети нового поколения». Все эти линии имели к концу 2002 года пропускную способность 155 Мбит/с.

***

Сегодня в научном мире начинает интенсивно использоваться концепция Grid, предполагающая создание инфраструктуры, обеспечивающей глобальную интеграцию информационных и вычислительных ресурсов. Россия имеет возможность полномасштабно включиться в этот процесс. Прогресс, достигнутый в области организации распределенных вычислений, а также имеющийся опыт участия ряда российских научных организаций в международных проектах Grid, в особенности, в области физики высоких энергий, позволит успешно развивать это направление. Весьма важным представляется участие России в крупнейшем международном научном проекте создания БАК, для обработки данных экспериментов которого формируется уникальная компьютерная инфраструктура на основе применения Grid-технологий.

Вячеслав Ильин (ilyin@sinp.msu.ru) — сотрудник НИИЯФ МГУ, Владимир Кореньков (korenkov@cv.jinr.ru) — сотрудник ОИЯИ (Дубна), Алексей Солдатов (saa@kiae.su) — сотрудник РНЦ «Курчатовский институт» (Москва).

Поделитесь материалом с коллегами и друзьями