Научное сообщество сегодня располагает беспрецедентной возможностью полностью трансформировать и кардинально ускорить процесс совершения открытий индивидуальными исследователями и группами ученых. Эта перспектива открылась благодаря ряду взаимосвязанных достижений: доступности огромных объемов данных, экспоненциальному росту быстродействия компьютеров, наличию сверхскоростных сетей и появлению возможности тесного междисциплинарного взаимодействия. Задача в том, чтобы сделать эти достижения доступными не только ограниченному числу больших научных проектов, но и индивидуальным ученым любого уровня. Ключ к решению этой задачи — использование модели SaaS, которая пока не получила широкого применения в научном сообществе.

От grid к облаку

Масштабирование в системных исследованиях: ИТ в науке

Создание инфраструктуры для проведения системных исследований, объединяющих данные о составных частях сложной системы, приходящие из разных источников, приобретает все большую важность.

Ян Фостер, Карл Кессельман

Уже много лет существует идея предоставления вычислительных мощностей ученым по требованию в виде сервиса, а также объединения исследователей и лабораторий во всем мире в виртуальные организации. Сегодня эта идея стала реальностью; например grid-сеть Большого адронного коллайдера регулярно распределяет десятки терабайтов для анализа между сотнями организаций по всему миру; 25 тыс. человек пользуются средой Earth System Grid для доступа к данным климатического моделирования; операторы коммерческих облаков предоставляют по требованию процессорные мощности и ресурсы хранения в объемах, ранее немыслимых для научного сообщества; более 5 млн человек пользуются федеративной системой идентификации InCommon для доступа к удаленным ресурсам с помощью единого набора верительных данных.

Однако, если большие научные проекты могут себе позволить создание и использование выделенной grid-инфраструктуры, то такой возможности нет у малых исследовательских команд, чей ИТ-персонал может состоять из одного студента или технического специалиста. Но чтобы быть конкурентоспособными, такие команды, как и крупные, должны каким-то образом собирать и анализировать десятки терабайтов данных, а также иметь возможность управлять ими и перемещать их. Для этого недостаточно одного только программного обеспечения, нужны еще время и опыт для настройки и эксплуатации системы. Поэтому требуются гораздо более удобные и эффективные способы предоставлять нужные технологии в распоряжение исследователей. Необходимо воспользоваться мощью облаков, чтобы возможность доступа к научным grid-системам появилась у исследовательских команд всех размеров.

Исследование за чашечкой кофе

Предприниматель сегодня может вести бизнес буквально за завтраком в кафе, если передаст хостинг сайта, электронную почту, бухгалтерский учет, управление отношениями с клиентами и другие функции на аутсорсинг сторонним провайдерам, таким как Google или Salesforce.com. Исследования — это не менее сложная и информационно насыщенная деятельность, а объемы данных экспериментов быстро растут: всего за пять лет количество данных, генерируемых аппаратами секвенирования генов, увеличилось примерно на четыре порядка. Многих исследователей отпугивают сложности, связанные со сбором, управлением, переносом, анализом, распространением и архивацией данных, генерируемых экспериментами. Не следует забывать и о потребностях ознакомления с растущим объемом научной литературы, работы со сложным ПО моделирования, поиска и использования источников информации, создания обширных распределенных команд и управления ими, а также решения множества других задач. С учетом всего этого вообще удивительно, что лаборатории каким-то образом справляются с исследованиями. Недавно проведенный опрос установил, что американским ученым приходится 42% времени исследований тратить на решение административных задач.

Супервычисления по требованию

Многие из нас впервые услышали выражение «остановка по требованию» в автобусе, но недавно появились высокотехнологичные решения по требованию.

Леонид Черняк

Хотелось бы, чтобы ученые, подобно предпринимателям, смогли выполнять исследовательские программы, не выходя из кафе. Но для этого должны появиться поставщики эффективных, недорогих исследовательских инструментов, предлагаемых по принципу SaaS. На плечи этих поставщиков ученые могли бы возложить рутинные, отнимающие много времени работы. Если этого удастся добиться, то кардинально снизятся денежные и временные издержки, исследования станут выполняться быстрее, а возможность проводить их появится у большего числа ученых.

Как ни странно, интерес научного сообщества к облачной модели касается сегодня в основном применения инфраструктуры в виде сервиса, то есть вычислительных мощностей и ресурсов хранения, предоставляемых по требованию. Однако это близорукий подход, не учитывающий реальные преимущества крупномасштабного аутсорсинга и экономический эффект, обеспечиваемый облаками. Наиболее крупная проблема, стоящая перед исследователями сегодня, это не отсутствие доступа к вычислительному оборудованию, а высокая сложность информационных технологий и процессов работы с ними. Конечно, терабайты данных требуют новых систем хранения и обработки, но эти ресурсы сами по себе стоят недорого, и в любом случае их покупка и администрирование - это лишь малая часть общей задачи. Трудности управления всем циклом исследовательского процесса отнимают у ученых все доступное им время и отрицательно сказываются на творчестве, именно здесь аутсорсинг может оказать главную помощь.

Globus Online приводит данные в движение

Команда Института вычислений Чикагского университета и Арагонской национальной лаборатории недавно ввела в действие размещаемый сервис Globus Online, с помощью которого можно пользоваться функциями мощной grid-сети (в данном случае системы федерирования ресурсов) без установки какого-либо программного обеспечения.

Globus Online берет на себя задачу переноса больших объемов данных из одного пункта в другой — эта функция предоставляется в виде сервиса. Через браузер или REST-интерфейс можно обратиться к Globus Online, чтобы перенести или синхронизировать файлы и каталоги, подобно тому как Amazon можно "попросить" доставить вам книгу. Globus Online берет на себя все скучные подробности обеспечения защищенности, быстроты и надежности переноса данных. Этой системе уже знакомы часто используемые источники данных (подобно тому, как Amazon «знает» сторонних продавцов), и ее базу легко можно пополнить информацией о новых источниках. В Globus Online также можно занести свой личный профиль, содержащий верительные данные для различных сайтов (похожим образом Amazon может запомнить сведения о кредитной карте).

Для входа на сторонние сайты Globus Online согласует с сайтом и пользователем взаимно удобный механизм аутентификации и управляет получением и передачей необходимых верительных данных (подобно тому, как Amazon доставляет информацию о кредитных картах сторонним продавцам). Чтобы обеспечить высокую скорость передачи, сервис пользуется специализированными протоколами (в частности, GridFTP) и оптимизирует передачи в соответствии с особенностями высокоскоростных сетей (аналогичным образом Amazon поддерживает различные методы доставки). Для надежности Globus Online, подобно курьерской службе FedEx, пытается повторить доставку в случае неудачи и прекращает попытки только по достижении определенного срока давности.

Еще один важный компонент сервиса — клиентская программа Globus Connect, решающая проблему «последней мили». Хотя сервис Globus GridFTP доступен в большинстве крупных исследовательских вычислительных центров, файлы часто нужно переносить и в другие места: на ноутбук, лабораторный сервер, серверный кластер отдела или на научный прибор. На этих системах может не быть установлен GridFTP, они могут находиться за межсетевым экраном или системами трансляции сетевых адресов либо у пользователя может не быть административных привилегий. Globus Connect решает эти проблемы, используя при передаче файлов только исходящие соединения; благодаря этому он может работать за межсетевыми экранами и средой трансляции сетевых адресов (Network Address Translation, NAT). Клиент можно запускать как для временного, так и для долгосрочного использования, и это не требует административных привилегий (с Globus Connect можно сравнить функцию покупки товара в интернет-магазине одним щелчком мыши). Клиентской программой можно пользоваться, например, для простого резервного копирования данных с ноутбука.

Фактически целевая аудитория пользователей Globus Online — все, чьи данные оказались «не в том месте». Первоначально разработчики сервиса ориентировались только на пользователей центров высокопроизводительных вычислений, часто нуждающихся в переносе данных на свои локальные компьютеры, а также между различными центрами. Например, физик Университета Индианы недавно с помощью Globus Online перенес 730 Гбайт результатов моделирования с суперкомпьютера, находящегося в штате Теннесси, на другой в штате Техас всего за полтора часа. Сами создатели сервиса с помощью Globus Online переписали 300 тыс. файлов общим объемом 586 Тбайт из Арагонской национальной лаборатории в Национальный вычислительный центр энергетических исследований и Окриджскую национальную лабораторию в Теннесси за несколько недель. Такой масштаб передачи данных необычен даже для крупных научных проектов, однако теперь эти беспрецедентные операции могут выполнять рядовые пользователи без установки какого-либо ПО.

 

Облака как способ интенсификации и демократизации
Диаграмма передачи 125 файлов в 11 пунктов назначения, выполненной с помощью Globus Online. Ось X показывает число файлов, ось Y — количество попыток передачи, понадобившихся для успешного завершения операции (шкала логарифмическая). Различные пункты назначения обозначены разными цветами. При передаче на третий, седьмой и десятый пункты назначения возникли сложности

 

Почему именно перенос данных?

Возможно, перенос данных -- процедура слишком «скучная», и это действительно так, но суть именно в этом. Переносить данные требуется очень многим, но вряд ли кто-то захочет только для этого становиться специалистом в соответствующей области. А между тем надежный и быстрый перенос нескольких терабайтов -- это на удивление сложная задача: необходимо распознать конечные точки; определить доступные протоколы; пройти через межсетевые экраны; сконфигурировать программное обеспечение; определить доступное пространство; согласовать метод аутентификации; сконфигурировать протоколы; распознать сбои и отреагировать на них; определить ожидаемую и реальную скорость передачи; идентифицировать, диагностировать и исправить ошибки конфигурации сети; выполнить интеграцию с файловыми системами и многое другое. Все эти шаги можно в значительной степени автоматизировать.

Как показал опыт разработчиков сервиса, подход SaaS также имеет определенные преимущества при устранении неисправностей. Например, один из ранних пользователей Globus Online с помощью сервиса перенес данные в 11 центров, расположенных в различных районах США. Все передачи прошли успешно, но, как зафиксировали системы мониторинга, на трех пунктах было большое количество повторных попыток передачи (см. рисунок). Дальнейший анализ показал, что в одном из центров был неверно сконфигурирован межсетевой экран, а на двух других оказались серверы GridFTP старой версии. Эти проблемы оставались незамеченными несколько месяцев, и лишь благодаря Globus Online они были устранены.

Проектируя Globus Online, разработчики отказались от идеи хостинга научных приложений, и, хотя такие сервисы, как Network Enabled Optimization Service (NEOS), nanoHUB, а также различные научные шлюзы, поддерживаемые средой TeraGrid, весьма полезны, все же Globus Online пока решает более «скучную» задачу управления данными. Globus Online дополняет многие другие облачные сервисы, а не соперничает с ними. Например, для обмена файлами можно пользоваться сервисами Dropbox и YouSenIt. Но ни тот, ни другой не позволяют перенести несколько терабайтов на гигабитных скоростях. Немало возможностей предоставляют и собственно сервисы Amazon. Хостинг самого Globus Online осуществляется в облаке Amazon: EC2 используется для хостинга логики управления передачами и их мониторинга, S3 -- для резервного копирования состояния Globus Online, средство Elastic Load Balancer — для балансировки нагрузки и переключения при отказах между экземплярами серверов, работающими в различных центрах обработки данных Amazon. Сервисы Amazon также можно использовать для аренды вычислительных мощностей и ресурсов хранения, но в облаке Amazon есть не все функции, необходимые исследователю.

Планы на будущее

Разработчики Globus Online считают своей главной задачей устранение сложностей, связанных с выполнением рутинных операций, и функциональность этого сервиса быстро расширяется. Например, один из трудоемких процессов переноса данных — это управление доступом к файлам, и создатели Globus Online расширяют сервис, обеспечивая поддержку функций совместного доступа к данным. Если вы делитесь каким-либо файлом с группой людей, то позднее вам нередко может понадобиться делиться с ними и другими файлами, поэтому в Globus Online появилась важная функция управления группами, основанная на системе Grouper проекта Internet2 . При наличии функций управления личными профилями и группами будет проще взаимодействовать с другим программным обеспечением, которое исследователи часто затрудняются правильно настроить, например с системами вики и диспетчерами списков рассылки.

В дальнейшем предполагается автоматизировать некоторые еще более рутинные задачи, отнимающие у исследователей немало времени. Например, ученым, работающим в биомедицинских областях, нередко приходится тратить массу времени на то, чтобы подать заявку на получение одобрения новых исследований в Комиссию по биомедицинской этике США, а затем следить за составом участников ревизионной группы. Поставщики SaaS могли бы автоматизировать чисто бюрократические аспекты подобных задач, а также, например, формирование и отправку отчетов об использовании грантов.

***

Следуя по выбранному пути, разработчики Globus Online постепенно приближаются к достижению главной цели — созданию «исследовательской лаборатории, доступной из кафе». Например, ученый за чашечкой кофе обдумывает новые методы реагирования на вспышки опасного заболевания, и у него появляется идея нового лекарства. Войдя в свою виртуальную лабораторию, он запускает на исполнение вычислительный процесс, реализующий скрининг малых молекул, у которых может быть желаемое действие. Затем инициирует серию автоматизированных экспериментов, в ходе которых тестируются наиболее многообещающие кандидаты лекарственных средств. Исследователь открывает эпидемиологический симулятор, чтобы анализировать влияние снижения уровней выживаемости бактерий на интенсивность эпидемии заболевания. Параллельно он делится результатами с коллегами и получает от них отзывы, а также сканирует колоссальный объем научной литературы, отыскивая результаты близких по теме исследований. Все эти вычисления и эксперименты выполняются не в собственной лаборатории ученого, а в мощных вычислительных центрах, предоставляющих свои услуги за небольшую плату. Сервисы и инструментальные средства, благодаря которым подобная картина может стать реальностью, уже начинают появляться, и вполне вероятной выглядит возможность проведения исследований гораздо дешевле и в гораздо больших количествах, чем это происходит сегодня.

Ян Фостер ( foster@anl.gov ) — профессор Чикагского университета, консультант Арагонской национальной лаборатории. Наряду с Карлом Кессельманом и Стивом Тики считается основоположником grid-технологий.

Ian Foster, Accelerating and Democratizing Science through Cloud-Based Services, IEEE Internet Computing, May/June 2011, IEEE Computer Society, All rights reserved. Reprinted with permission.