В настоящее время участники проекта Pan-STARRS заняты тестированием телескопа, оборудованного самой мощной из существующих в мире цифровых камер с разрешением 1,4 млрд пикселов , начиная от никому не известных малобюджетных лент вроде фильмов "Небесный огонь" и заканчивая культовой классикой ("Ночь комет") и фантастическими блокбастерами, яркими примерами которых являются ленты "Метеор" и "Армагеддон".

Последнее десятилетие XX века было наполнено новостями о неотвратимо приближающихся к нам космических телах, одним из которых была комета Хейла-Боппа. В 1994 году на Юпитер упала комета Шумейкера-Леви 9, фрагменты которой достигали 2 км в диаметре. Наблюдения, осуществляемые в последнее время с помощью новейших спутников и телескопов, показывают, что вероятность столкновения, которой ранее опасалась лишь небольшая группа узких специалистов, на самом деле не так уж мала.

Pan-STARRS на страже

Наиболее амбициозным проектом последнего времени, направленным на своевременное обнаружение околоземных объектов, стали работы по созданию системы Pan-STARRS (Panoramic Survey Telescope and Rapid Response System).

В настоящее время участники проекта Pan-STARRS, в котором принимают участие сотрудники Гавайского университета, ряда других вузов и Военно-воздушных сил США, занимаются тестированием телескопа, оборудованного самой мощной из существующих в мире цифровых камер с разрешением 1,4 млрд пикселов.

На создание системы Pan-STARRS уйдет еще несколько лет. В своем окончательном варианте она будет оснащена четырьмя телескопами, в каждом из которых появится камера с разрешающей способностью 1,4 гигапиксела.

Pan-STARRS должна стать самой мощной, быстрой и всеохватывающей системой слежения за космическим пространством, которая будет контролировать практически все околоземные объекты, имеющие размеры более 300 метров в диаметре, а также множество более мелких тел.

А наблюдать здесь есть за чем. Примерно раз в год в верхних слоях атмосферы Земли взрывается астероид от 5 до 10 метров в диаметре. При этом количество освобождающейся энергии превышает мощность атомной бомбы, сброшенной на Хиросиму. Более крупные тела вполне могут преодолеть атмосферу, принеся с собой огромные разрушения. Падение объекта диаметром около 300 метров приведет к глобальной катастрофе. Астероид, упавший в 1908 году в районе реки Подкаменная Тунгуска, вызвал взрыв мощностью 10-15 мегатонн в тротиловом эквиваленте (это в тысячу раз сильнее атаки на Хиросиму). По некоторым оценкам, в Сибири было повалено 80 млн деревьев. Сила возникшего в результате землетрясения составляла около пяти баллов по шкале Рихтера. При этом метеорит имел всего лишь около 50 метров в диаметре. По мнению американского астронома Юджина Шумейкера, в ближайшие 200 лет нас ждет встреча еще с одним подобным пришельцем.

Оборудованная пока только одним телескопом система Pan-STARRS уже сейчас формирует за ночь изображения общим объемом 1,4 Тбайт. Решение задач по их сжатию, хранению и обработке требует от специалистов по базам данных серьезных усилий.

"Вместо того чтобы заниматься созданием дорогостоящего суперкомпьютера, оборудованного тысячами процессоров, разработчики системы Pan-STARRS предпочли использовать кластер из полусотни ПК-серверов, подключенных к дисковому хранилищу объемом 1,1 петабайт с помощью быстрого сетевого межсоединения Infiniband", -- сообщил один из архитекторов базы данных Pan-STARRS, профессор Университета Джонса Хопкинса Алекс Шалаи.

Таким системам управления базами данных, как IBM DB2, TeraData и Oracle Database, авторы проекта предпочли Microsoft SQL Server 2008.

Склонение чаши весов

Даже в корпорации Microsoft признают, что несмотря на совершенствование технологии сжатия данных и повышение эффективности управления распределением рабочей нагрузки, SQL Server 2008 вряд ли мог бы считаться главным кандидатом на роль претворения в жизнь схемы масштабирования scale-out, предполагающей наращивание мощности системы за счет добавления новых узлов в кластер.

"SQL Server 2008 выводит нас на новый уровень в рамках модели scale-up, когда наращивание мощности осуществляется в пределах одной машины, -- отметил Тед Куммерт. -- А вот приобретение DATAllegro, производителя специализированных серверных устройств для управления крупными хранилищами данных, должно помочь Microsoft добиться более высокой степени масштабируемости и с точки зрения развития кластеризации".

Впрочем, выбор разработчиками Pan-STARRS этой СУБД обусловлен сразу несколькими причинами.

Одна из них связана с ограничениями бюджета. Развертывание ИТ-инфраструктуры Pan-STARRS обойдется ее создателям всего лишь в 750 тыс. долл. Это объясняется невысокой стоимостью массовых моделей компьютеров и серьезными скидками на SQL Server и Windows Server 2008, которые Microsoft предлагает научным и учебным заведениям.

"Представители научного сообщества всегда располагают весьма ограниченным бюджетом, поэтому нам хотелось бы стать примером, которому смогут последовать и другие", -- пояснил Шалаи.

Однако гораздо более важную роль здесь, по-видимому, сыграли долговременные контакты с астрономическим сообществом, которые поддерживал Джим Грей, заслуженный сотрудник Microsoft Research. (Этот авторитетный исследователь технологий управления базами данных пропал без вести в океане в начале 2007 года и, скорее всего, погиб.) В свое время Грей принимал активное участие в создании других астрономических баз данных -- огромного бесплатного архива спутниковых фотографий Земли TerraServer, созданного на базе SQL Server и Web-технологий, а также хранилища астрономических изображений SkyServer, общий объем которого составлял 40 Тбайт.

Платформа распределенных баз данных, которая будет использована в системе Pan-STARRS (и, хочется надеется, в других масштабных прикладных системах), названа GrayWulf - как раз в честь Грея.

"Грей работал с нами более десяти лет, -- отметил Шалаи. -- И конечно, его деятельность достойна всяческого уважения".

"Он изменил астрономию, сделав ее такой, какой она является сегодня", -- подчеркнула Мария Ньето-Сантиэстебан из Университета Джонса Хопкинса, являющаяся техническим руководителем проекта Pan-STARRS.

От лупы к мегахранилищу

Впервые астрономы обратились к идее хранения цифровой информации в середине 70-х годов, вскоре после того, как на смену обычным фотографическим пластинкам начали приходить технологии цифровой съемки.

Высокоэффективные цифровые камеры стали заметным шагом вперед по сравнению с фотопластинками, которые астрономы, пытавшиеся сосчитать звезды и галактики, вынуждены были рассматривать под лупой. Однако разрешение цифровых изображений, находившееся в то время на уровне 260 тыс. пикселов, оставляло желать лучшего.

Системы хранения данных также находились в зачаточном состоянии. Изображения представлялись в низкоуровневом формате, созданном на основе 80-символьных перфокарт. В плоских файлах, к которым все мы привыкли, было трудно осуществлять поиск и выполнять другие манипуляции.

Грей руководил созданием хранилища SkyServer, которое содержит 100 млрд записей и обслуживает 10-15 тыс. профессиональных астрономов, а также бесчисленное количество учащихся.

Система Pan-STARRS, основы которой помогал закладывать Грей, значительно превосходит по своим масштабам предыдущие проекты. Ожидается, что к концу 2010 года она вместит 300 Тбайт данных, а отдельные ее таблицы будут достигать 20 Тбайт. В хранилище появятся данные о более чем 140 млрд космических объектов, причем активное наблюдение будет вестись за о 5,5 млрд объектов.

Расчетная емкость хранения Pan-STARRS составляет 1 петабайт, но вряд ли в ближайшие годы в системе будет размещаться такой большой объем данных. И тем не менее она остается одной из самых крупных на сегодняшний день баз данных в мире.

В кластерных системах данные разбиты на разделы, а в качестве индекса используются отдельные базы данных имен. Поскольку у большинства космических объектов, в отличие от Земли или Альфа-Центавры, нет официальных собственных имен, основная масса поисковых операций выполняется с помощью графического интерфейса, который выглядит примерно так же, как интерфейс систем MapQuest или Google Maps.

Помимо поиска информации об отдельных звездах или галактиках система Pan-STARRS будет использована для решения некоторых задач по глубокой добыче данных, то есть по формированию, если хотите, астрономического интеллекта. К примеру, Шалаи рассчитывает на импорт старой астрономической информации, собранной во времена, предшествовавшие наступлению цифровой эпохи, и создание механизма перекрестного сравнения космической информации -- основной базы данных, в которой будут присутствовать ссылки на всю старую и новую информацию о каждой отдельно взятой звезде или планете.

Pan-STARRS может выступать также в роли "облачного" ресурса для внешних астрономов, которым будет разрешено выполнять удаленные запросы и хранить результаты в базе данных Pan-STARRS. Определенная трудность, по признанию Ньето-Сантиэстебан, заключается здесь в том, что большинство астрономов привыкли разрабатывать приложения на C++, не используя SQL.

Поделитесь материалом с коллегами и друзьями