P2P в науках о жизни

Equilibria предлагает построенный на одноранговых сетях инструментарий, позволяющий связать воедино данные разных форматов

Консалтинговая компания Equilibria, специализирующаяся на вопросах применения ИТ в науках о жизни, разработала инструментарий, в котором крайне нуждаются многие заказчики.

В компанию часто поступают обращения от биотехнических, фармацевтических и иных организаций с просьбой оказать содействие в вопросах интеграции и обеспечить предоставление совместного доступа к нескольким базам данных.

Как правило, организация располагает четырьмя-пятью крупными хранилищами данных, к которым исследователи должны обращаться по мере возникновения потребности. В частности, многим исследователям нужна возможность поиска результатов лабораторного химического анализа молекулярных структур.

В Equilibria постарались понять и обобщить потребности заказчиков и разработали программный инструментарий, позволяющий связать воедино различные данные.

Однако, неоднократно проделав необходимые операции и выявив общие закономерности задач, стоящих в данной отрасли, специалисты Equilibria решили пересмотреть ранее принятый подход к решению вопросов интеграции.

На первый взгляд имеет смысл построить единое хранилище данных. Однако на практике организациям приходится сталкиваться с постоянным ростом разнообразия информации.

«Всегда найдется такой тип данных, который не укладывается в привычную схему, — пояснил директор Equilibria по технологиям Крейг Стриклэнд. — А по мере возникновения новых задач пользователям требуется поддержка самых разных форматов представления информации (плоские файлы, иерархические и реляционные структуры и т. д.)».

Почти в каждой базе данных, созданной для наук о жизни, имеются средства представления и поиска, рассчитанные на многообразные типы данных.

К примеру, часть информации доступна только в виде электронных таблиц Excel, в то время как другие источники используют для организации поиска и получения доступа к данным Web-технологии или апплеты Java.

Но даже если данные представлены в предельно простом формате, требуется обеспечить возможность совместного обращения к ним.

«Пользователи признаются, что им постоянно приходится обмениваться электронными таблицами, — отметил Стриклэнд. — Например, многие компании отправляют образцы химических соединений в независимые лаборатории для проведения тестирования ADME/Tox: A — Adsorption (?поглощение?), D — Distribution (?распространение?), M — Metabolism (?метаболизм?), E — Excretion (?вывод из организма?) и Tox (?токсичность?). Результаты возвращаются в виде таблиц Excel. Исследователи должны знать об их существовании и в дальнейшем иметь возможность подробнее с ними ознакомиться».

Нужны средства, которые позволили бы обращаться с запросом к любым данным независимо от способа их представления.

Для этого в Equilibria решили объединить две технологии: одноранговые (peer-to-peer, P2P) средства информационного обмена сочетаются с изощренным пользовательским интерфейсом, позволяющим выполнять конкретные работы.

У такого подхода есть ряд преимуществ.

Во-первых, за основу взята хорошо зарекомендовавшая себя технология организации взаимодействия.

«Мы позаимствовали то, что уже имеется, — пояснил Стриклэнд. — К примеру, одноранговые сети динамичны и способны самостоятельно настраивать свою конфигурацию (то есть для подключения к сети новых пользователей достаточно внесения минимальных изменений)».

Во-вторых, одноранговая архитектура хорошо масштабируется. В частности, в одноранговой сети KaZaA хранится 6500 Тбайт данных, к которым обращаются около полумиллиарда пользователей.

Для обеспечения взаимодействия с различными базами данных наук о жизни в Equilibria поддерживаются стандарты SOAP, .Net и XML. Сеть превращается в платформу обмена данными.

Большое внимание уделяется базовым вопросам взаимодействия. С тем чтобы облегчить пользователю поиск информации и получение доступа к ней, в Equilibria создали графический интерфейс, который настраивается в зависимости от характера доступа к данным и от типа поисковых операций, выполняемых исследователями.

Применяемая в системе технология поддерживает поиск по ключевым словам, а также стандартный механизм SQL и запросы к структурированным источникам.

Кроме того, если исследователям требуется нечто большее, чем просто поиск по ключевым словам, имеется возможность создания сетевых порталов и словарей.

Его, к примеру, можно задействовать, когда требуется найти нужную молекулярную структуру.

А имея под рукой сетевой словарь (настраиваемый список часто употребляемых слов), пользователю достаточно ввести имя исследователя или лабораторного протокола, после чего поисковый механизм вернет найденные результаты и набор ссылок на соответствующую внутреннюю информацию.

Основная задача графического интерфейса заключается в том, чтобы предоставить пользователям интеллектуальные механизмы, упрощающие выполнение требуемых операций.

К примеру, организация может создать графический интерфейс с выпадающими меню, который помог бы пользователю выбрать подходящее средство поиска и выборки данных.

Кроме того, посредством такого механизма настройки можно разработать форму для стандартного сбора информации из различных источников.

Например, в одну структуру объединяется информация об имени, присвоенном молекуле, ее массе, идентификаторах ее компонентов и все имеющиеся сведения о токсичности.