Созданное в 1993 году государственное предприятие по добыче и переработке нефти «Роснефть» получило в доверительное управление более 250 месторождений советского периода. Многие из них относились к категории зрелых, частично выработавших свои ресурсы. Эффективная эксплуатация старых и открытие новых залежей были бы невозможны без обширных сейсмических исследований и последующей интерпретации собранной геологической информации. Поэтому развитие технологии хранения, обработки и анализа сейсмических данных является одним из ключевых направлений деятельности «Роснефти».

Непредвиденные обстоятельства

Еще в 2008 году компанией было принято решение создать специальный Центр хранения сейсмической информации (ЦХСИ) на базе научно-исследовательского и проектного института «РН-КрасноярскНИПИнефть» (хотя сама идея создания подобного банка данных вынашивалась давно). Центр должен был решить важнейшие задачи по сбору, обработке и интерпретации полевых данных, полученных в ходе сейсмических исследований, а также обеспечить их длительную сохранность и предоставление оперативного доступа к ним пользователей «Роснефти».

Для этого в ЦХСИ был построен программно-аппаратный комплекс, состоящий из систем ввода исходной информации, ее хранения, обработки, а также системы доступа к данным. Каждый элемент этого комплекса базируется на отдельном оборудовании, но в совокупности все элементы обеспечивают решение общих задач, включая задачу долговременного хранения данных. Для надежности все элементы (кроме системы обработки данных) дублированы – собраны в кластер. Комплекс был введен в промышленную эксплуатацию в 2012 году, и на сегодняшний день в нем хранится более петабайта полезных данных.

Созданию технологического комплекса ЦХСИ препятствовали некоторые внезапно возникшие обстоятельства, с которыми в тот период, вероятно, столкнулись многие российские компании.

«Изначально мы планировали построить комплекс на базе оборудования компании Sun Microsystems. Но, поскольку стоимость проекта была высокой, приобретение оборудования затормозилось, а за это время произошли серьезные изменения на рынке – Oracle приобрела Sun, и было неясно, как в дальнейшем станет развиваться ее продуктовая линейка и обеспечиваться техническая поддержка», – рассказывает Леонид Афанасьев, главный специалист – заместитель начальника отдела технологий ГРР и проектирования «РН-КрасноярскНИПИнефти».

Из планируемого списка оборудования (пять серверов, три дисковые системы хранения и две ленточные библиотеки) были приобретены лишь один сервер Sun для СУБД Oracle и одна система хранения данных Sun.

«В результате мы приняли решение отказаться от построения комплекса на базе серверов и систем хранения Sun и перенести систему на платформу x86 и оборудование компании IBM», – пояснил Афанасьев.

Таким образом, комплекс был построен на базе серверов IBM System X и рабочих станций на базе процессоров x86-архитектуры. Также в системе используются: ленточная библиотека IBM TS3200 и ленточные приводы IBM и HP; система хранения данных IBM. Сеть хранения данных построена на коммутаторах SAN компании IBM (Brocade), а сеть передачи данных (Ethernet) – на коммутаторах Cisco.

То есть собственно система долговременного хранения данных ЦХСИ не работает отдельно – она тесно интегрирована с другими элементами построенного комплекса. Поэтому каждый из них следует рассмотреть подробнее.

Интегрированный комплекс

Первый элемент – система ввода исходной информации – это не что иное, как специализированные рабочие станции с подключенными к ним устройствами ввода-вывода различных форматов: Exabyte (ленты 8 мм), DAT (ленты 4 мм), DLT, LTO разных поколений, IBM TS и др. В состав системы ввода-вывода также включены оптические приводы DVD; пока встречается даже такая экзотика, как диски ZIP.

 

Применение столь широкого спектра оборудования обусловлено тем, что исходная информация от дочерних обществ и сервисных компаний «Роснефти» поступает в ЦХСИ на различных носителях и в различных форматах. А все эти данные нужно прочитать, проверить на целостность, после чего зарегистрировать в системе. По сути это и есть процесс передачи данных в систему хранения.

Второй элемент – система хранения данных – включает в себя ленточную библиотеку, серверы баз данных Oracle и сервер хранения, играющий роль сетевого хранилища (NAS), а также сервер обработки (облачных вычислений).

Важная деталь: в зависимости от типа информации (а это могут быть полевой материал, сейсмические разрезы, сейсмические кубы или уже обработанный материал) данные хранятся в архиве на различных носителях.

Так, полевой материал обычно переносится на ленты LTO. Ленты регистрируются в системе, им присваивается уникальный штрихкод, и они отправляются на хранение в металлические шкафы, расположенные в специализированном хранилище с поддерживаемым микроклиматом. Все эти данные дублируются и хранятся в разных помещениях на территориально разделенных площадках.

Для хранения больших объемов обработанных сейсмических данных (кубов 3D) используется другой подход: данные регистрируются в системе и помещаются на дисковый массив в виде объекта базы данных BFILE (внешний двоичный файл External Binary File). Такой объект хранится вне базы данных как файл операционной системы, но он доступен из таблиц БД.

А вот результаты обработки сейсмических профилей 2D хранятся непосредственно в базе данных Oracle в файлах данных типа BLOB (Binary Large Object).

«Все сейсмические данные имеют строгую географическую привязку к месту проведения полевых работ, – уточняет Афанасьев. – И вся эта информация заносится в базу данных и визуализируется средствами Oracle Spatial. Данные о параметрах сейсмической съемки, хранимые в заголовках файлов, также переносятся в базу. Поэтому информация доступна для анализа в любое время, даже если исходный материал лежит на полке шкафа. Для всех сейсмических разрезов и кубов формируется уменьшенная копия изображения (превью). Это позволяет специалистам, пользующимся системой, ознакомиться с материалами, не загружая их на свой компьютер».

Что касается системы предоставления доступа к данным, то она представляет собой кластер из двух веб-серверов Аpache.

Предпочтение – лентам

Большая часть данных ЦХСИ хранится на лентах. Основным носителем данных являются ленты LTO третьего, четвертого и пятого поколений. В следующем году центр планирует начать использовать ленты шестого поколения.

«Предпочтение лентам было отдано потому, что формат LTO достаточно распространен в отрасли. Стоимость лент в соотношении цены за единицу хранимой информации можно считать низкой. Ленты устойчивы к ударам, и их проще транспортировать, в отличие от жестких дисков. Формат LTO активно развивается, на мой взгляд, у этой технологии есть будущее», – подчеркнул Афанасьев.

На жесткие диски системы хранения отправляются файлы данных СУБД Oracle и BFILE (которые по сути тоже являются объектами Oracle). Есть также отдельная категория данных – результаты работ с сейсмической информацией. Это отчеты и графические приложения к отчетам. До недавнего времени такие материалы записывались на оптические носители CD и DVD, сейчас же они переносятся в базы данных и доступны уже не в виде краткого описания, а в виде полноценного файла отчета, содержащего графические приложения. Это стало возможным благодаря увеличению объема дискового массива системы хранения.

***

Развивать технологический комплекс ЦХСИ предполагается главным образом посредством постоянной модернизации оборудования. В частности, для повышения отказоустойчивости и надежности всей системы планируется заменить существующую систему хранения данных на более производительную, с функциями автоматического переноса данных внутри массива и с поддержкой репликации данных на другую систему хранения.

Также в настоящее время в ЦХСИ тестируется технология автоматизации переноса исходных полевых данных на ленты LTO. А в отдаленной перспективе специалисты «РН-КрасноярскНИПИнефти» рассчитывают построить полностью автоматизированное хранилище, где основное обслуживание системы хранения сейсмических данных «Роснефти» будут выполнять роботизированные системы.