Загрязнение воздуха не только негативно влияет на различные компоненты экосистемы и здоровье человека, но и ведет к значительным экономическим потерям. Неудивительно, что вопросы контроля загрязнения окружающей среды имеют большое значение для стран Европы и Азии и курируются специальной комиссией ООН, в рамках которой реализуется программа по контролю за загрязнением воздуха (UNECE ICP Vegetation), направленная на определение наиболее неблагополучных областей, создание региональных карт и улучшение понимания природы долгосрочных трансграничных загрязнений. Изучение атмосферных выпадений тяжелых металлов, азота, стойких органических соединений и радионуклидов в программе базируется на анализе мхов-биомониторов, собираемых каждые пять лет в 39 странах Европы и Азии [1].

До недавнего времени полученные сведения хранились в виде таблиц Excel, которые обрабатывались вручную, а вычисление статистических показателей и создание карт распределения загрязнений выполнялось с помощью пакетов Statistica и ArcGIS. Единая база отсутствовала, что существенно ограничивало возможности коллективной работы и анализа временных трендов. Чтобы исправить эту ситуацию, в Объединенном институте ядерных исследований была разработана платформа — набор взаимосвязанных облачных сервисов и средств для управления и обработки данных биомониторинга, позволяющий упростить и автоматизировать этапы мониторинга, начиная от выбора мест для сбора образцов и заканчивая генерацией карт распределения загрязнений и прогнозированием изменений в окружающей среде [2]. В США имеются похожие проекты, но они в основном ориентированы на предоставление данных мониторинга широкому кругу общественности, а в России и Европе это первое решение, позволяющее всем специалистам, вовлеченным в сеть биологического мониторинга, получать доступ к данным о загрязнении окружающей среды.

При описании точек пробоотбора и результатов исследований образцов может использоваться от 10 до 80 различных слабо формализованных параметров. Данные межлабораторных исследований, анализа стойких органических соединений и радионуклидов также не имеют четкой структуры. Платформа должна позволять хранить данные, не имеющие строгого формата, что исключает использование традиционных реляционных СУБД, поэтому для проекта была выбрана система MongoDB, способная поддерживать среду мониторинга и проводить операции с неструктурированными данными. Для работы платформы используется инфраструктура IaaS OpenNebula [3], развернутая в ОИЯИ.

Сервер приложений для платформы биомониторинга (см. рисунок) написан на PHP, а в качестве веб-сервера используется Nginx. Основная точка доступа к платформе — веб-портал, позволяющий работать с различными типами устройств. В открытой части портала содержатся информация о проекте и данные для общего пользования, а закрытая часть доступна зарегистрированным участникам программы. Любой пользователь может добавлять данные по конкретным странам и областям: пробоотбор, межлабораторные исследования и анализ стойких органических соединений. Для каждого типа данных в MongoDB создана отдельная коллекция: каждая точка пробоотбора хранится в базе в виде отдельного документа JSON-подобной структуры, содержащей как обязательные (идентификатор области, географические координаты, дата сбора образцов и т. д.), так и дополнительные параметры (концентрации различных элементов). Существует возможность создания наборов данных непосредственно в системе и импорта данных из Excel. Для работы с картографической информацией в веб-портале используется JavaScript-библиотека Openlayers.

Архитектура платформы управления данными экологического мониторинга
Архитектура платформы управления данными экологического мониторинга

 

Платформа позволяет работать с данными космических снимков, полученными через python-интерфейс из платформы Google Earth Engine, совместно с данными мониторинга состояния окружающей среды. Все эти сведения используются для обучения нейросети прогнозирования концентрации тяжелых металлов в определенных географических координатах. Вся статистическая обработка, которая ранее производилась в сторонних пакетах, теперь реализована средствами PHP, что позволило не использовать пакет Statistica. Появились новые возможности расчета различных биологических факторов и индексов. Имеется специализированный раздел для проверки данных на статистическую корректность — пользователь уведомляется о наличии выбивающихся из общей картины концентраций элементов. Подобное может случаться как вследствие естественных причин (например, образцы были взяты недалеко от очага загрязнения), так и из-за ошибок при внесении данных. В платформе реализован механизм для анализа и контроля данных посредством карт; на них места сбора образцов представлены в виде кругов, площадь которых зависит от концентрации вредного элемента. Участники программы могут предоставлять открытый доступ к своим картам и статистическим выкладкам.

Для взаимодействия с мобильным приложением и сторонними сервисами, которым требуется доступ к общедоступным данным биомониторинга, в рамках платформы реализован RESTful-сервис. Участники программы могут сохранять данные о точках сбора (координаты, высота над уровнем моря, тип местности, вид мха и пр.) для последующей передачи и записи в систему хранения платформы, что ускоряет исследования. Таким образом, отпадает необходимость промежуточного сохранения данных о точках сбора (например, в Excel, как было раньше) — данные напрямую передаются в хранилище платформы.

С помощью платформы решается и еще одна важная задача — прогнозирование изменения отслеживаемых параметров. После накопления достаточного количества данных за исторически значимый период наблюдений можно строить прогнозные модели загрязнения воздуха. Особый интерес представляют задача прогнозирования концентрации элементов и построение карт загрязнений. В UNECE ICP Vegetation для этих целей традиционно используется система ArcGIS, интерфейс с которой имеется в платформе. Однако есть и другие подходы к прогнозированию — например, использование нейросетей, которые обучаются на различных количественных показателях из точек сбора образцов и данных о концентрациях элементов. С помощью подобных методов можно получить значения концентраций элементов для сети с нужной размерностью, что позволит применить интерполяционные методы без корректировки со стороны пользователя.

Наиболее перспективным источником количественных показателей для обучения нейросети являются космические снимки в различных спектральных каналах. Обычной практикой при реализации такого класса задач является использование общедоступных снимков из проектов LandSat или MODIS с их последующей обработкой в пакетах ENVI или ERDAS. Однако файлы изображений весьма объемны, а чтобы покрыть область страны или региона, требуется несколько изображений. Кроме того, несмотря на наличие различных пакетов для поиска снимков, их функционал ограничен, процесс получения изображений и извлечения статистических показателей из них крайне ресурсоемкий и сложный для автоматизации. Выходом может быть использование системы Google Earth Engine, предоставляющей инструменты поиска и анализа снимков и геоданных от различных поставщиков. Имеется также интерактивная оболочка для разработчиков на JavaScript и программный интерфейс на Python. Для платформы был разработан программный модуль, позволяющий получить количественные показатели из снимков различных спектров в заданных координатах и их корреляции с концентрациями элементов в точках сбора образцов.

***

Предложенная облачная платформа предоставляет участникам программы ICP Vegetation инструменты, позволяющие повысить качество и скорость обработки данных биомониторинга, расширить возможности взаимодействия между участниками, обеспечить базу для анализа ретроспективных сведений и организовать доступ ко всей имеющейся информации, что дает возможность активизировать работы по прогнозированию распространения трансграничных загрязнений. Сейчас в системе содержится информация о более чем 6 тыс. точек пробоотбора в 40 странах, а участники программы могут в режиме онлайн анализировать данные, производить сравнения с другими регионами, строить карты загрязнений и др. Платформа может быть использована и для других областей со схожим процессом исследований — например, для мониторинга состояния почв или водных ресурсов.

Литература

  1. Harmens H. and Mills G. (Eds.) Air Pollution: Deposition to and impacts on vegetation in (South)-East Europe, Caucasus, Central Asia (EECCA/SEE) and South-East Asia. Report prepared by ICP Vegetation, March 2014. ICP Vegetation Programme Coordination Centre, Centre for Ecology and Hydrology, Bangor. UK. — 2014. — 72 p.
  2. Н. Кутовский, А. Нечаевский, Г. Ососков, А. Ужинский, М. Фронасьева. Облачная платформа управления данными биомониторинга проекта Комиссии ООН по воздуху Европы ICP VEGETATION // Геоинформатика. — 2017. — № 2. — С. 11–16. ISSN 1609-364.
  3. Н.А. Балашов, А.В. Баранов, В.В. Кореньков, Н.А. Кутовский, А.В. Нечаевский, Р.Н. Семенов. Облачный сервис ОИЯИ: статус и перспективы. Труды Института системного программирования РАН. ISSN:2079-8156, eISSN:2220-6426. — 2015. Т. 27, № 6. — С. 345–353. URL: http://ispras.ru/proceedings/docs/2015/27/6/isp_27_2015_6_345.pdf (дата обращения: 05.12.2017).

Александр Ужинский (auzhinskiy@jinr.ru) — ведущий программист, Геннадий Ососков (ososkov@jinr.ru) — главный научный сотрудник, Марина Фронтасьева (marina@nf.jinr.ru) — руководитель сектора нейтронного активационного анализа и прикладных исследований, ОИЯИ (Дубна).

Поделитесь материалом с коллегами и друзьями

Купить номер с этой статьей в PDF