Стандарты и будущее grid

Тема апрельского, 2005 года выпуска журнала Computer (IEEE Computer Society, Vol. 38, No. 4, April 2005) — «За пределами Internet» (Beyond Internet). К подготовке номера не привлекались приглашенные редакторы, и тематическая подборка состоит всего из двух статей.

Первая статья номера озаглавлена «Преодоление тупика Internet с помощью виртуализации» (Overcoming the Internet Impasse through Virtualization). Ее авторы — Томас Андерсон (Thomas Anderson), Ларри Петерсон (Larry Peterson), Скотт Шенкер (Scott Shenker) и Джонотан Тернер (Jonathan Turner). Достоинства разработанной более трех десятилетий назад архитектуры Internet обоснованы разнообразными поддерживаемыми ею приложениями и большим числом основанных на ней сетевых технологий. Тем не менее распространение Internet порождает ряд проблем, для решения которых текущая архитектура Сети не приспособлена, а перспективы кардинального изменения существующей архитектуры незначительны. Кроме внесения требуемых изменений в программное обеспечение маршрутизаторов и хостов, для внедрения архитектурных изменений требуется общее согласие множества Internet-провайдеров. Достижение согласия между множеством провайдеров затруднительно само по себе, но, кроме того, попытки добиться такого согласия устраняют все конкурентные преимущества от архитектурных инноваций. До наступления неизбежного краха Internet трудно надеяться на изменения, затрагивающие базовую архитектуру Сети. Более того, ситуация продолжает ухудшаться. Невозможность адаптироваться к новым требованиям приводит к появлению возрастающего числа частных решений, во многих из которых нарушается каноническая архитектура Internet. Осмеиваемые архитектурными пуристами, эти модификации обычно возникают для удовлетворения естественных потребностей, не обеспечиваемых самой архитектурой. Эти уродливые архитектурные «наросты» могут отвечать кратковременным целям, но они существенно ухудшают долговременные гибкость, надежность и управляемость Internet.

Пугающие барьеры на пути внедрения новых архитектур не способствуют, но и не препятствуют напрямую дальнейшим исследованиям. Архитектурные новшества продолжают появляться. Более проблематично проведение реальных экспериментов с новыми архитектурами. Для этого в основном используются испытательные стенды. Однако у традиционных испытательных стендов имеется несколько ограничений. Авторы статьи выдвигают три основных требования, выполнение которых должно способствовать развитию новых архитектур: у исследователей должна иметься возможность экспериментирования с новыми архитектурами на реальном трафике; должен иметься приемлемый путь к практическому внедрению проверенных архитектурных идей; вместо того, чтобы концентрироваться на единственной узкой проблеме, предлагаемые решения должны охватывать широкий спектр архитектурных проблем, стоящих перед Internet. Для удовлетворения этих требований авторы предлагают концепцию виртуального испытательного стенда, на котором одновременно может поддерживаться несколько архитектур, обеспечивающих все коммуникационные потребности клиентов и серверов. Поскольку для такого стенда не требуется всестороннее согласие по поводу архитектуры, он предоставляет более приемлемый сценарий для внедрения радикально новых архитектурных решений, затрагивающих набор проблем Internet. Прототип виртуального испытательного стенда разработан в рамках проекта PlanetLab (www.planet-lab.org).

Вторая статья тематической подборки, написанная Марком Бейкером (Mark Baker), Эми Эпон (Amy Apon), Клейтоном Фернером (Clayton Ferner) и Джеффом Брауном (Jeff Brown), называется обещающе — «Появляющиеся стандарты grid» (Emerging grid Standards). За несколько лет технология grid эволюционировала от тщательно сконфигурированной инфраструктуры, поддерживающей выполнение ограниченного числа приложений категории Grant Challenge на высокопроизводительной аппаратуре, до динамической среды, развитие которой направляется международным сообществом. По мере становления технологии grid в процесс ее развития все более вовлекаются коммерческие компании, что ускоряет разработку надежного программного обеспечения, поддерживающего среды grid за пределами академических лабораторий. В свою очередь, это влияет как на архитектуру grid, так и на связанные с ней протоколы и стандарты.

Принесшее существенную пользу применение к архитектуре grid технологии Web-сервисов, привело к формированию несколько фрагментированной среды разработки. Разработчики программного обеспечения и grid-сервисов добиваются соответствия соглашениям и стандартам, распространенным в их сообществе, однако по различным политическим и техническим причинам имеется несколько соперничающих точек зрения относительно того, как следует реализовывать архитектуру, и на какие стандарты нужно опираться. Это соперничество тормозит разработчиков программного обеспечения grid, поскольку они не уверены, что будущие стандарты будут включать те, что используются сегодня. Основной организацией по стандартизации grid является Global grid Forum (GGF, www.ggf.org). Кроме того, работы по стандартизации ведутся в Organization for the Advancement of Structured Information Standards (OASIS, www.oasis.org), World Wide Consortium (W3C, www.w3c.org), Distributed Management Task Force (DMTF, www.dmtf.prg), Web Services Interoperability Organization (WS-I, www.ws-i.org), сообществе Internet2 (www.internet2.edu) и Liberty Alliance (www.projectliberty.org). Наиболее важным стандартом, призванным определить общую, стандартную и открытую архитектуру grid, является стандарт Open grid Services Architecture, развиваемый GGF. В марте 2004 года была выпущена первая версия стандарта OGSA 1.0, а в июне нынешнего года ожидается выход второй версии.

OGSA представляет собой сервис-ориентированную архитектуру, в которой специфицируется набор распределенных вычислительных паттернов, реализуемых с использованием Web-сервисов. Стандарт предназначается для определения всех основных сервисов, которые могут использоваться в приложениях электронной коммерции или электронных научных коллабораций, включая управление работами и ресурсами, коммуникации и безопасность. Работа по спецификации интерфейсов сервисов, семантики, протоколов и других технических деталей предоставлена разным рабочим группам внутри GGF и другим организациям по стандартизации grid. Первая конкретизация OGSA была осуществлена в документе Open grid Services Infrastructure, выпущенном в июле 2003 года. Этот документ базировался на понятии grid-сервиса, расширении Web-сервиса, в котором обеспечивался стандартный набор механизмов для управления состоянием. В OGSI 1.0 определяется набор принципов и расширений для использования WSDL и XML Schema при организации Web-сервисов с поддержкой состояния. Критики OGSI отмечали ряд проблем в этом стандарте, в том числе его слишком большой объем, потребность в расширении WSDL, сильную объектную ориентированность. Это привело к возникновению движения по определению альтернативной инфрастуктуры grid, основанной на чистых спецификациях Web-сервисов.

В январе 2004 года компании HP, IBM, Fujitsu и Globus Alliance объявили о выпуске WS-Resource Framework (WSRF, www.globus.org/wsrf). Этот документ состоит из набора спецификаций для выражения связи между ресурсами, обладающими состояниями, и Web-сервисами. В спецификациях определяются конкретные форматы сообщений и связанные определения на XML. Окончательные результаты были переданы двум новым техническим комитетам OASIS — WS-Resource Framework и WS-Notification. Первый технический комитет отвечает за стандартизацию спецификаций: WS-Resource Lifetime (способы управления жизненным циклом ресурса и спецификации Web-сервисов для ликвидации ресурса); WS-Resource Properties (способы запрашивания и модификации ресурсов, описываемых XML-документами Resource Property); WS-ServiceGroup (способы представления и управления коллекциями Web-сервисов или WS-ресурсами); WS-BaseFaults (базовый XML-тип, используемый при обмене сообщениями в Web-сервисах для информирования о сбоях). Второй комитет занимается стандартизацией трех спецификаций: WS-BaseNotification (асинхронное оповещение, включая интерфейсы производителя и потребителя); WS-BrokeredNotificatiion (асинхронное оповещение); WS-Topics (организация и категоризация тем для подписки).

Некоторые организации, уже ведущие grid-проекты, не дожидаются принятия OGSA 2.0 и завершения работ над WSRF, а пользуются альтернативными спецификациями Basic Profile (BP1.0) от WS-I, Web Services grid Application Framework (WS-GAF, North-East Regional e-Science Centre, www.neresc.ac.uk/ws-gaf) и WS-I+ (Open Middleware Infrastructure Institute, www.omii.ac.uk). Спецификация BP1.0 была опубликована в апреле 2004 года и содержала руководства по использованию SOAP, WSDL и UDDI. В WS-GAF предлагается подход, отличный от OGSI, к расширению функциональности Web-сервисов для удовлетворения потребностей grid-приложений. В WS-I+ указываются существующие стандарты, которые являются потенциально совместимыми с развивающимися стандартами grid. Фактическим стандартом безопасности в grid является grid Security Infrastructure (GSI, forge.gridforum.org/projects/gsi-wg). В двух новых проектах исследуются альтернативные решения, которые могут повлиять на стандарты GSI. В проектах gridShib (grid.ncsa.uiuc.edu/gridShib) и ESP-GRID (e-science.ox.ac.uk/oesc/projects) будут созданы новые механизмы и стратегии распределенной аутентификации, позволяющие виртуальным организациям в grid интегрироваться с традиционной инфраструктурой корпоративной безопасности. Авторы отмечают, что разработка OGSA и WSRF демонстрирует сотрудничество исследователей из индустрии, академических и правительственных организаций. Эти объединенные усилия позволяют надеяться на счастливое будущее grid, несмотря на существующие сегодня проблемы неопределенности и несогласованности.

В нетематической части номера три статьи. Хай Жуг (Hai Zhuge) из Института компьютерных технологий Китайской академии наук представил статью «Будущая среда взаимосвязи» (The Future Interconnection Environment), отражающую точку зрения китайской части сообщества искусственного интеллекта на будущее мировой компьютерной отрасли. Как считает автор, будущая среда взаимосвязи должна включать технологии искусственного интеллекта и распределенных систем, наследовать преимущества технологий Web, Semantic Web, grid и P2P и расширять их сферу применимости на основе новых принципов. К принципам организации новой среды взаимосвязи автор относит открытость, инкрементальную разработку, экономичность, экологичность, конкуренцию и кооперацию, динамическое масштабирование, целостность и простоту. Автор формулирует ряд проблем, которые требуется решить для построения новой среды:

реорганизация изменчивых ресурсов (требуется новая теория для организации ресурсов в семантически развитых формах и их использования при наличии ограничений целостности);
согласование нормализации и самоорганизации (нормализация организации ресурсов обеспечивает правильность их использования; самоорганизация гарантирует автономию, равноправие и приспосабливаемость при управлении ресурсами; один из возможных подходов к согласованию этих свойств состоит в том, чтобы накладывать нормализованную структуру на более высоких уровнях представления ресурсов, допуская самоорганизацию на низких уровнях);
семантическая взаимосвязь (требуется построить вычислительную модель, применимую как к явной семантике, так и к подразумеваемой семантике, относящейся к восприятию и ощущениям).

China Knowledge grid Research Group разрабатывает e-Science Knowledge grid Environment как экспериментальный микрокосм будущей среды взаимосвязи. Эта развивающаяся, динамическая, самоорганизующаяся, самоуправляемая, масштабируемая система разрабатывается для поддержки разнообразных распределенных и интеллектуальных сервисов.

Статью «Масштабирование сетевых сервисов с использованием программируемых сетевых устройств» (Scaling Network Services Using Programmable Network Devices) написали Христоф Шуба (Christoph Schuba), Джейсон Голдшмит (Jason Goldschmidt), Майкл Спир (Michael Speer) и Мохамед Хефида (Mohamed Hefeeda). Вездесущность Сети побуждает предприятия выполнять многие операции в электронном виде, в онлайновом режиме. Это порождает потребность в эффективном и надежном управлении громадными объемами данных. Успешное решение, применявшееся в последние годы, состояло в концентрации критических компьютерных ресурсов в центрах данных Internet. Подобный центр представляет собой набор компьютерных ресурсов, обычно сосредоточенных в одном физическом месте — зале, этаже строения или целом доме. Компьютерные ресурсы включают Web, приложения, серверы баз данных и сетевые устройства. Большие предприятия обычно используют собственные центры данных Internet, а менее крупные компании могут арендовать компьютерные ресурсы в центрах, принадлежащих поставщикам услуг. Компьютерные ресурсы в подобных центрах обычно организуются по слоям. Например, один набор серверов может быть выделен для Web-доступа (слой 1); другой набор серверов — для выполнения приложений, инициируемых по Web-запросам (слой 2); третий — для хранения данных (слой 3). Каждый слой оптимизируется под свою задачу. Скажем, для Web-сервера требуется высокоскоростной доступ к сети и возможность управлять многими соединениями, в то время как для сервера баз данных нужны большие объемы памяти и возможность быстро выполнять операции ввода/вывода. Слоистая архитектура позволяет инкрементально масштабировать центр данных Internet, поскольку каждый слой можно модернизировать независимо. Для улучшения масштабируемости и эффективности применяются и другие механизмы. Один из таких механизмов состоит в выполнении особенно дорогостоящих операций на специализированных устройствах. Например, для защиты данных в финансовых транзакциях часто используются специальные криптографические устройства. Подобные устройства образуют «нулевой слой» центра данных Internet — они размещаются в сети перед конечными системами и называются сетевыми устройствами нулевого слоя или просто сетевыми устройствами. Кроме использования в центрах данных Internet, сетевые устройства внедряются в некоторых других средах; на границах сетей Internet-провайдеров, в сетях хранения и т.д. Обычно применяется дискретный подход к внедрению множественных сетевых устройств, каждое из которых обеспечивает единственный сетевой сервис. Авторы отмечают, что при возрастании числа сетевых услуг этот подход порождает многочисленные проблемы, связанные с масштабируемостью и управляемостью. Предлагается новая архитектура сетевых сервисов NEon, обеспечивающая интегрированный подход к разработке, использованию и управлению сетевыми сервисами. Система NEon принимает набор входных правил, определяющих функционирование различных сетевых сервисов, и производит унифицированный набор правил, которыми руководствуются устройства обработки пакетов общего назначения. Это служит основой централизованного управления многочисленными сетевыми сервисами, что обеспечивает ряд преимуществ по сравнению с организацией сетевых сервисов с применением дискретного подхода.

Авторами еще одной статьи — «Использование социальных сетей для борьбы со спамом» (Leveraging Social Networks to Fight Spam) — являются Оскар Бойкин (Oscar Boykin) и Ввани Ройчоудхари (Vwani Roychowdhuri). В последние несколько лет резко возросла доля почтовых сообщений, являющихся спамом. 52% пользователей заявили об уменьшении своего доверия к электронной почте, а 25% считают, что объем спама привел к сокращению доли использования ими электронной почты. Этот кризис привел к появлению широкого спектра предложений антиспамовских решений, от разработки более эффективных программных средств до принятия соответствующих законов. Цели различных юридических и технических решений совпадают. Они направлены на то, чтобы сделать рассылку спама невыгодной и тем самым разрушить бизнес-модель спамеров. Для достижения этой цели требуется широкое распространение и использование антиспамовских методов. Для завоевания доверия пользователей соответствующее средство должно быть точным, дружественным пользователю и экономичным. Предлагаемый метод основывается на распознавании уникальных характеристик, свойственных социальным сетям, и на разумном использовании таких сетей для правильного отбора. Надежность решений сильно зависит от достоверности используемых социальных сетей. Авторы разработали несколько интерактивных стратегий генерации достоверных сетей. Общепринятым правилом является то, что доверие основывается не только на том, как хорошо вы знаете некоего человека, но и на том, насколько хорошо этого человека знают другие люди из вашей социальной сети. Авторы показывают, что это интуитивное правило формирования тесных социальных сетей работает и в киберпространстве и его можно использовать для обеспечения эффективного автоматизированного алгоритма фильтрации спама.

В своих обзорах я давно не рекомендовал читателям новые книги, а соответствующая рубрика журнала IEEE Computer не слишком впечатляет. Но в начале нынешнего года вышла книга, на которую в редакции Computer не обратили внимания. Речь идет о четвертом издании хрестоматии систем баз данных, вышедшем под редакцией Майкла Стоунбрейкера и Джозефа Хеллерштейна (Readings in Database Systems Fourth Edition by Joseph Hellerstein, Michael Stonebraker, The MIT Press; 2005, ISBN: 0262693143). В книге собрано 48 лучших статей по тематике баз данных, причем почти половина из них — новая. Эта книга чрезвычайно полезна для студентов и преподавателей, а также для профессионалов в данной области.

Хочу напомнить, что началась подписка на второе полугодие 2005 года на членство и периодические издания IEEE Computer Society (www.computer.org/join). Не упустите время, Сергей Кузнецов, kuzloc@ispras.ru.