Обзор июньского и июльского 2002 года номера журнала Computer (IEEE Computer Society, V. 35, No. 6, 7)

Тема июньского номера обозначена как The New Net («Новая Сеть»). Однако это преувеличение: сетевой тематике в чистом виде посвящены только две статьи, да и их направленность различна.

Первые две статьи (или, скорее, дискуссионные заметки) размещены под рубрикой «Полемика по поводу сертификации в области программного обеспечения». Первая заметка, написанная председателем комитета IEEE Computer Society по профессиональной практике Леонардом Триппом (Leonard Tripp), озаглавлена «Преимущества сертификации» (Benefits of Certification) и посвящена недавно объявленной IEEE Computer Society программе Certified Software Development Professional и тем преимуществам, которые могут от нее получить профессиональные разработчики программного обеспечения. Заметка президента компании Parasoft Адама Колавы (Adam Kolawa) называется «От сертификации больше вреда, чем пользы» (Certification Will Do More Harm than Good). Адам рассуждает одновременно как опытный глава софтверной компании со сложившимися требованиями к квалификации специалистов и как специалист, заинтересованный в развитии компьютерных наук. Он считает предлагаемую сертификацию ненужным доказательством того, что разработчики не забыли те основы, которым их учили в рамках университетских программ. Для повышения квалификации требуется непрерывное образование посредством участия в конференциях и, быть может, путем освоения новых университетских курсов.

Первая большая статья, отнесенная редакторами к тематической подборке, называется «Grid-службы для интеграции распределенных систем» (Grid Services for Distributed System Integration). Авторы статьи: Ян Фостер (Ian Foster), Стивен Тьюк (Steven Tuecke), Карл Кессельман (Carl Kesselman) и Джеффри Ник (Jeffrey Nick). В основном статья посвящена описанию открытой архитектуры Open Grid Services Architecture (OGSA), спецификации которой разрабатываются консорциумом Global Grid Forum (www.gridforum.org). Цель OGSA — обобщить технологии Web-служб и Grid, предоставив возможность создания высококачественных распределенных информационных приложений вертикальных организаций. Это позволит расширить область применения технологии Grid от чисто научных задач до задач «реального» электронного бизнеса. К концу 2002 года ожидается появление основанной на OGSA свободно доступной реализации Globus Toolkit и ряда коммерческих продуктов.

Автор второй статьи подборки — Вильям Кремер (William Kramer). Статья называется «SCinet: испытательный стенд для высокопроизводительных сетевых приложений» (SCinet: Testbed for High-Performance Networked Applications). Раз в год ведущие специалисты в области сверхвысокопроизводительных сетей в течение недели строят сеть SCinet с наилучшими в мире скоростными показателями (пиковая пропускная способность локальной сети SCinet составляла в 2000 году 130 Гбит/с, а в 2001-м — уже 194 Гбит/с). На этой сети запускаются и сравниваются специально созданные приложения; наиболее насыщенное и скоростное приложение получает специальную награду — Fattest and Fastest.

Статью «Yima: сервер непрерывной среды второго поколения» (Yima: A Second Generation Continuous Media Server) написали Сайрус Шахаби (Cyrus Shahabi), Роджер Циммерман (Roger Zimmermann), Кун Фу (Kun Fu) и Шу-Йен Диди Яао (Shu-Yuen Didi Yao). «Непрерывная среда» (continuous media, CM) — собирательное название аудио, видео и других видов данных, которые обычно имеют очень большой объем и доступ к которым должен осуществляться в реальном времени (обычно в потоковом режиме). Основными характеристиками системы Yima, позволяющие авторам считать ее CM-сервером второго поколения, таковы: выполнение одного программного кода в нескольких узлах сети; возможность добавления и изъятия дисков без прерывания потоков; синхронизация нескольких потоков в пределах одного кадра; независимость от вида среды; согласованность с промышленными стандартами и т.д.

Наконец, статья «Эффективное замещение неоднородных объектов в Web-кэшах» (Efficient Replacement of Nonuniform Objects in Web Caches) написана авторами из Южной Кореи: Хиокьюнг Бахн (Hyokyung Bahn), Керн Ко (Kern Koh), Сэнг Льюл Мин (Sang Lyul Min), Сэм Но (Sam Noh). Разумное кэширование данных на Web-клиентах повышает скорость работы пользователей и снижает сетевой трафик. Эффективность кэширования сильно зависит от используемых алгоритмов замещения объектов в кэше. Специфика этих алгоритмов состоит в том, что кэшируемые объекты различаются как по размерам, так и по значимости. Авторы выдвигают ряд требований к алгоритму замещения неоднородных объектов: учет предыдущих обращений к объектам с целью определения объектов, к которым вероятно обращение в ближайшем будущем; возможность эффективной реализации в терминах расхода памяти и времени; учет фактора неоднородности. Предлагаемый авторами алгоритм Least-Unified Value удовлетворяет всем этим требованиям.

Думаю, многих читателей заинтересует книга: Philippe Rigaux, Michel Scholl, Agnes Voisard, «Spatial Databases with Application to GIS» (Morgan Kaufmann, San Francisco, 2001, ISBN 1-55860-588-6, 410 pp.). Судя по рецензии, книга содержит хороший обзор технологии пространственных баз данных, а также ее применимости в современных коммерческих геоинформационных системах.

Встречайте биоинформатику

Июльский номер целиком посвящен биоинформатике. Он включает развернутое введение и пять статей, посвященных разным аспектам построения биоинформационных систем. Приглашенными редакторами номера являются Ленвуд Хет (Lenwood Heath) и Нарен Рамакришнан (Naren Ramakrishnan). Их вводная статья озаглавлена «Возникающие разновидности программных систем биоинформатики» (The Emerging Landscape of Bioinformatics Software Systems). Авторы отмечают основные темы, связанные с разработкой и использованием биоинформационных систем: природа биологических данных; хранение, анализ и выборка данных; компьютерное моделирование и имитация; ориентированная на биологию интеграция информации; добыча данных; обработка изображений и визуализация; создание замкнутого цикла исследований. Данные, получаемые в ходе биологических экспериментов, всегда неполны; поэтому приходится комбинировать индуктивные рассуждения, базирующиеся на существующей биологической информации, с новыми экспериментальными результатами.

Биологические базы данных отличает большой объем и специфические типы данных (геномы, протеины, данные о генах и т.д.). Выборка обычно производится путем задания одной характеристики, например, по заданному нуклеотиду или аминокислоте. Анализ данных включает, например, поиск последовательностей протеинов, наиболее похожих на данную. Моделирование и имитация играют важную роль в биологических исследованиях. Так, процесс деления клеток может моделироваться системой дифференциальных уравнений. Во многих случаях используется имитационное моделирование.

Глобальную интеграцию биологических данных авторы считают несбыточной мечтой, поскольку невозможно заранее предсказать потребности биологов в информации. Однако осмысленная интеграция информации, ориентированной на определенные области биологии, возможна. Уже существует ряд интегрированных информационных источников, основанных на Web-технологиях. Громадные объемы биологических данных затрудняют их «ручной» анализ и вынуждают использовать автоматизированные аналитические системы, основанные на добыче данных. Одна из основных задач биоинформационных систем — добыча данных из интегрированных источников в контексте экспериментальных исследований.

Многие результаты экспериментальной биологии представляются в виде изображений. Поскольку число таких результатов непрерывно растет, требуются средства автоматического извлечения свойств и смысла изображений. Биологов не устраивает двумерная или даже трехмерная визуализация биоинформационных данных; требуется многомерная визуализация.

Первая статья тематической подборки озаглавлена «Сборка последовательностей геномов: алгоритмы и проблемы» (Genome Sequence Assembly: Algorithms and Issues). У статьи три автора: Михай Поп (Mihai Pop), Стивен Залцберг (Steven Salzberg) и Мартин Шамвей (Martin Shumway). Каждая клетка живого организма содержит хромосомы, состоящие из последовательности базовых пар ДНК. Эта последовательность называется геномом и управляет размножением и функционированием каждого организма. Появление автоматизированных синтезаторов ДНК породило геномику, науку, направленную на аналитическое и сравнительное изучение геномов. Конечной целью установления последовательностей геномов является получение всех последовательностей ДНК в организме.

Название второй статьи — «Перспективы нового программного обеспечения компьютерной филогенетики» (Toward New Software for Computational Phylogenetics). Ее авторы — Бернар Море (Bernard Moret), Ли-Сан Ванг (Li-San Wang) и Тенди Варнау (Tandy Warnow). Филогенетика исследует генетическую историю живых организмов. В типичном процессе филогенетической реконструкции используются биомолекулярные данные, такие как последовательности ДНК, и строится дерево, называемое филогенезом, представляющее гипотетическую эволюционную историю. По набору данных можно построить много разных деревьев; в филогенетике имеются критерии выбора «наилучшего» дерева, в наибольшей степени соответствующего современным представлениям о природе эволюции. Задача нахождения наилучшего дерева является NP-полной, и как обычно, на практике применяются эвристические алгоритмы, позволяющие уменьшить пространство поиска. В статье приводится обзор современного состояния алгоритмов и соответствующего программного обеспечения, обсуждаются ближайшие перспективы.

Авторами статьи «BioSig: Информационная система с визуализаций изображений для изучения феномики» (BioSig: An Imaging Bioinformatic System for Studying Phenomens) являются Бахрам Парвин (Bahram Parvin), Кинг Янг (Qing Yang), Джеральд Фортеней (Gerald Fortenay) и Мэри-Хелен Барселлос-Хофф (Mary Helen Barcellos-Hoff). Феномика, или функциональная геномика, изучает какую роль играют геномы в образовании миллиардов фенотипов клетки. Система BioSig обеспечивает модель данных для сохранения результатов экспериментов, вычислительные средства для обобщения большого числа изображений и распределенную архитектуру, поддерживающую удаленную совместную работу исследователей.

Статья «Случайный обход геномов: выделение ДНК в Valis» (A Random Walk Down the Genomes: DNA Evolution in Valis) написана Сальваторе Паксия (Salvatore Paxia), Арчисманом Рудра (Archisman Rudra) и Йи Жоу (Yi Zhou). Исследователи полагают, что новый взгляд на роль ДНК в обменных и управляющих процессах может обеспечить изучение геномов на основе теории информации. Все большую роль в биологических исследованиях играют такие области математики, как динамические системы, теория управления, теория игр, математическая логика и т.д. Вычислительная среда Valis, предназначенная для прототипирования биоинформационных приложений, обеспечивает набор библиотек для чтения данных из реляционных данных и файлов, эффективную реализацию полезных в геномике алгоритмов, разнообразные средства визуализации.

Последняя статья подборки — «Интерактивный анализ результатов иерархической кластеризации» (Interactively Exploring Hierarchical Clastering Results). Ее авторы — Джинвук Сео (Jinwook Seo) и Бен Шнейдерман (Ben Shneiderman). Разработанный авторами иерархический анализатор кластеризации интегрирует несколько интерактивных возможностей: общее представление всего набора данных и возможность видеть детали; динамические запросы, позволяющие удалять неинтересные кластеры и четче показывать интересные; двунаправленные связи между общим представлением набора данных и двухмерными диаграммами рассеяния; сравнение кластеров, позволяющее видеть, как кластеризуются гены с помощью разных алгоритмов.

На этот раз все. До следующего номера, Сергей Кузнецов (kuzloc@ispras.ru).