Наука для Internet и Internet для науки

Владимир Воеводин (НИВЦ МГУ): «Главная задача наших ежегодных конференций — понять в процессе живой дискуссии, что дает Internet для развития науки и как на основе науки развивается сам Internet»

Ежегодную конференцию «Научный сервис в сети Интернет», проходящую в сентябре на Черноморском побережье, принято именовать школой. Возможно, это название закрепилось в силу академических традиций проведения осенних научных семинаров, а может быть, в силу того, что на таких мероприятиях действительно учатся. Причем не только студенты и аспиранты, но и маститые ученые мужи. Как и в прошлом году, организаторами нынешнего мероприятия выступили совместно Московский и Ростовский государственные университеты, а также Институт вычислительной математики РАН.

А потому, мне кажется, следует снисходительно отнестись к тому, что некоторые докладчики, по их же собственному признанию, открыли для себя HTML всего полгода назад, а Internet-службы представляют себе в виде электронных версий школьных учебников.

К слову, таких откровений было совсем немного. В основном же в пленарных сессиях соседствовали вполне солидные доклады об Internet-проектах, поддерживаемых грантами Российского фонда фундаментальных исследований (при поддержке которого проводилась сама эта конференция), Российского гуманитарного научного фонда и Института «Открытое общество». Справедливо и то, что прошедшую конференцию нельзя отнести к сугубо научным мероприятиям. В числе ее участников были отдельные представители ИТ-индустрии, например разработчики сервера Web-приложений Communiware.

Если же говорить о фундаментальной науке, то в современном виде она немыслима без такой дисциплины, как computer science. На нынешней конференции говорили и о прикладных вещах (скажем, о том, как построить открытую базу данных по астрономическим наблюдениям N-ской астрофизической обсерватории), и о работах, которые могут повлиять на глобальное развитие Internet-технологий.

К последней категории можно отнести исследования, проводимые Институтом системного программирования (ИСП) РАН по организации взаимодействия сетей, построенных на базе протоколов IPv4 и IPv6. Пожалуй, излишне говорить, что эта проблема актуальна сегодня и для академических сетей, и для Рунета, и для Сети в целом. Среди бытующих на сегодняшний день подходов к проблеме совместимости наиболее перспективными считаются механизмы преобразования адресов, находящихся в заголовках IP-пакетов (IP/ICMP-трансляция) при трансляции пакетов из сети IPv4 в сеть IPv6 и наоборот. Альтернативными, но менее эффективными вариантами являются механизмы туннелирования, обеспечивающие взаимодействие IPv6-хостов поверх среды передачи IPv4.

В ИСП реализован (как утверждают авторы разработки — впервые) бесконтекстный IP/ICMP-транслятор, функционирующий в среде Linux. Сейчас дорабатывается его версия для FreeBSD. Удобство бесконтекстной трансляции заключается в прозрачности данного механизма с точки зрения взаимодействующих хостов; иными словами, каждому IPv4-адресу не нужно ставить в прямое соответствие некий физический IPv6-адрес. Кроме того, применение бесконтекстного метода позволяет корректно транслировать пакеты данных, использующие иной транспорт, нежели TCP и UDP. С целью проведения дальнейших тестовых испытаний по совместимости IP-сетей разных версий в ИСП предусматривается создание сегмента функционально полной сети IPv6. Результаты дальнейших испытаний определят масштабы и сроки полного перехода академических сетей на IPv6.

Другой проект, связанный с инфраструктурным исследованием IP-сетей, был предложен сотрудниками Института теоретической физики РАН имени Ландау. Он назывался «Кэширование информационных потоков и стратегия оптимизации маршрутов в распределенных системах». Как отмечали докладчики, системы кэширования Internet-трафика позволяют вдвое увеличить пропускную эффективность канала связи, сократив при этом время ожидания на запрос пользователя. Суть кэширования Web-трафика состоит в том, что запрос пользователя перенаправляется на ближайший кэш-сервер, который проверяет наличие искомого документа в своем кэше данных, а затем при необходимости передает запрос на соседний кэш-сервер или на источник данных. Выбор оптимального маршрута обусловливается числом скачков (hop) и средним временем прохождения тестовых пакетов до определенного хоста.

Цель эксперимента — выявить целесообразность создания системы кэширования Internet-трафика национального уровня, наподобие американской иерархической сети IRCache/NLARN. Учитывая, что самым узким местом российского сегмента Internet по-прежнему остается пропускная способность шлюзов в зарубежные сети, эксперимент в Черноголовке решал задачу определения стратегии кэширования доменов первого уровня, исключая домен .ru. Выяснилось, что для ряда доменов (.ca, .de, .edu, .se) эффективность применения многоуровневого кэширования практически равна единице (100%). Однако для большинства других доменов целесообразность кэш-методов оптимизации маршрутов была наглядно доказана. Поскольку с подключением новых физических каналов доступа в зарубежные сети нагрузка на действующие шлюзы перераспределяется, сотрудники ИТФ утверждают, что такого рода исследования нужно проводить с определенной периодичностью.

Среди работ, попавших в регламент конференции, нельзя не упомянуть проект создания российского сегмента сети GRID, осуществляемый под руководством Объединенного института ядерных исследований в Дубне. Концепция GRID включает в себя создание российского сегмента территориально распределенной вычислительной сети с доступом к единому центру хранения данных, поступающих с Большого андронного коллайдера, строящегося в CERN (Швейцария). GRID-структура, как совокупность географически отдаленных компьютерных ресурсов, соединенных высокоскоростными каналами связи, призвана соответствовать всем требованиям международного научного эксперимента. Концепция GRID подразумевает разработку универсального пользовательского интерфейса к распределенным ресурсам из любой точки планеты.

Еще одним проектом, осуществляемым в ИТФ, является создание нейронной вычислительной сети на базе распределенных кластеров, предусматривающей свободный доступ пользователей через Web-интерфейс. Архитектура распределенных кластерных вычислений как нельзя лучше отражает принципы информационного обмена, открытые нейрофизиологами при исследовании деятельности мозга человека. Таким образом, как отмечали авторы эксперимента, применение теории физического распараллеливания вычислений при построении нейросетей представляется чрезвычайно важным научным исследованием, который одновременно соответствует целям и задачам проекта.

Сейчас нейросервер ИТФ работает в двух режимах: обучение и работа нейросети. Одновременно возможна поддержка нескольких специализированных нейросетей. Каждый пользователь, находясь в свободном доступе, получает возможность взаимодействовать с сервером через личную рабочую страницу. В последнее время технологии нейросетей все чаще находят применение в некоторых областях науки, техники и экономики, в частности, там, где требуются недетерминированные алгоритмы обработки данных, а задачу практически невозможно формализовать. К таким задачам можно отнести распознавание и классификацию образов, анализ числовых последовательностей, различные приложения теории управления, экономическое прогнозирование. На 1 июня на сервере было зарегистрировано 70 человек, использующих его вычислительные возможности для решения конкретных практических задач.

Ряд представленных работ можно причислить к категории универсальных Internet-моделей, обслуживающих образовательные и исследовательские нужды учреждений науки. К примеру, Владивостокский госуниверситет занимается созданием распределенной информационной системы сбора, анализа и обработки данных, полученных в ходе физического эксперимента на основе модели распределенных вычислений CORBA. Эти работы проводятся в рамках федеральной целевой программы «Интеграция».

Значительный блок проектов и докладов конференции касался разработки новых поисковых методов в Internet, оптимизированных для выполнения научно-исследовательских задач. Среди них — работа сотрудников МГУ «Агент для поиска информации», представляющая собой обучаемую пользователем программу-посредник между человеком и стандартными поисковыми машинами Internet; cистема вычислительного смыслового поиска и анализа текстовой информации «Ключи от текста», авторство которой принадлежит сотрудникам Московской медицинской академии имени Сеченова, и персонифицированная система обработки запросов поисковых систем, создаваемая в ГосНИИ ИТТ «Информика». По сравнению с прошлогодней конференцией направление работ по проектированию поисковых механизмов не претерпело значительных изменений, однако некоторые решения (например, система «Ключи от текста») уже находятся в стадии опытной апробации и, возможно, в скором времени покажут себя на рынке Internet-решений.

Общее впечатление таково: конференцию «Научный сервис в сети Интернет» не удалось загнать в заповедные рамки «здравого консерватизма» научной мысли, где господствовал бы Фортран и нарисованные вручную блок-схемы программ. Фундаментальная наука стала получать деньги на развитие (пусть пока грантовые), и кое-где это развитие уже обрело контуры реальной отдачи. А перспективы школы на берегу Черного моря, как некой замкнутой модели общения около академических кругов, весьма призрачны. Internet, как единая информационная среда, построенная на единых протоколах, не ведает различий между научными, псевдонаучными или коммерческими приложениями. Главное — технологии, опыт и новые идеи.