Как облака помогают ускорять обработку данных в геологоразведке

Фото: Stock.adobe.com

Сейсмические данные — это ключ к разведке и добыче нефти. Компания Сейсмотек более 10 лет работает с нефтегазовыми предприятиями в России и за рубежом: помогает заказчикам сделать заключение о потенциале исследуемых участков с помощью анализа больших массивов сейсморазведочных данных. Программный продукт компании Prime (Прайм) состоит из более 400 инструментов, включая 15 графических интерактивных приложений и 250 вычислительных модулей.

Сейсмотек работает с колоссальными объемами данных и сложными математическими задачами — такие расчеты требуют огромных мощностей и длятся долго, иногда до года, и обычно выполняются в несколько этапов. Компании важно иметь в своем распоряжении значительное количество вычислительных ресурсов, а также демонстрировать их наличие потенциальным заказчикам, и это обязательное условие для участия в тендерах.

С самого начала деятельности Сейсмотек принял решение выполнять все вычисления на арендованном физическом («железном») кластере. Такой подход позволял сосредоточиться на качестве самого продукта, не расходуя ресурсы на организацию и обслуживание дата-центра. В 2018 году в России появился новый тренд: резко скакнул вперед рынок облачных провайдеров. Тогда команда Сейсмотека решила протестировать облачную инфраструктуру, чтобы оценить ее производительность и стоимость.

После тестов Сейсмотек перевез свою ИТ-инфраструктуру в облако. На такое решение повлияли два фактора. Первый — ускорение вычислений. В нефтегазовой отрасли сроки выполнения проекта часто играют приоритетную роль, так что открывшаяся возможность использовать неограниченные вычислительные ресурсы создавала серьезное конкурентное преимущество на рынке. Второй — тот факт, что дата-центры выбранного провайдера (Yandex.Cloud) расположены на территории РФ. Российские нефтегазовые компании ограничивают вывоз сейсмической информации за рубеж.

Что такое «облачная адаптация Prime» и зачем она была нужна

Полный переезд на облачную инфраструктуру произошел за полгода. Команда Сейсмотека адаптировала свое ПО Prime, чтобы эффективнее пользоваться возможностями облака. Давайте уточним, что представляет собой адаптация ПО к облачным ресурсам.

Раньше, при работе на железном кластере, Сейсмотек составлял собственные прогнозы и закупал определенное количество серверов на месяц вперед. При этом приходилось искать компромисс. Если закупить слишком много, то вычисления пройдут быстро, но затем может случиться простой ресурсов, который придется оплачивать, так как мощности уже арендованы. Если закупить мало — это позволит сэкономить, но есть вероятность, что команда не успеет выполнить все необходимые вычисления для проектов. «Попасть в десятку» было сложно из-за множества факторов: в расчетах могла проскользнуть ошибка — а значит, нужно запускать расчет заново, клиент мог изменить требования или предоставить новые данные и т.д. Кроме того, обработка сейсморазведочных данных всегда проходит в несколько этапов. Есть стадии интерактивной работы, когда много вычислительных ресурсов не требуется. Затем идет стадия расчетов, для выполнения которых за разумное время уже требуется привлечение значительных ресурсов. Одни этапы длятся по несколько часов, другие — по несколько дней или недель, а иногда и месяцев. Этапы интерактивной работы и вычислений часто не следуют друг за другом, а пересекаются — это усложняет прогнозирование нужных мощностей.

Отметим, что с необходимостью планирования расчетов сталкиваются и те компании, которые оборудуют собственные ЦОДы. В данном случае изменение конфигурации кластера требует как дополнительных затрат, так и дополнительного времени.

Prime изначально был разработан так, чтобы при запуске вычислительного задания происходил запрос в специальный сервис-планировщик, например: «Для этого расчета мне нужно 40 серверов такой-то мощности, на одну неделю». Планировщик проверял, сколько серверов задействовано и есть ли свободные ресурсы в арендованном железном кластере. В случае отсутствия необходимых мощностей вычислительное задание направлялось в очередь ожидания. Таким образом, случалось, что сотрудникам приходилось договариваться и делать выбор, какой проект приоритетнее и какие вычисления должны пройти в первую очередь. 

После облачной адаптации необходимость в сервисе-планировщике отпала. С помощью облака можно гибко получать нужные вычислительные ресурсы, так же быстро их отключать и платить по модели Pay As You Go (платишь только за то, что использовал). Благодаря адаптации для каждого вычислительного задания автоматически создаются требуемые ресурсы с необходимыми характеристиками (количество ядер, объем оперативной и дисковой памяти). После завершения вычислений ресурсы автоматически удаляются. Не возникает простоев, за которые нужно платить. Более того, это даёт право на ошибку, потому что всегда есть возможность выполнить расчет повторно.

В августе этого года Сейсмотеку на пике потребовалось 200 компьютеров – они позволили качественно провести вычисления, но все вместе работали только несколько дней. Если бы компания заказывала такое число ресурсов на месяц вперед, как было при использовании железного кластера, это обошлось бы в крупную сумму, но большую часть времени компьютеры бы просто простаивали. Благодаря облачной адаптации можно создавать необходимое количество виртуальных машин для вычислений и тут же удалять их после завершения расчета – то есть, рационально задействовать и оплачивать вычислительные ресурсы.

Итоги перехода в облако

Команде Сейсмотека больше не нужно заранее прогнозировать количество необходимых ресурсов под проекты, потому что все требующиеся виртуальные машины можно получить согласно запросу моментально. Это позволяет сосредоточиться на текущих проектах и увеличивать их количество, не беспокоясь о том, что для выполнения в срок может не хватить мощностей.

Кроме того, с целью повышения качества обработки сейсмических данных, разработчики Prime начали внедрять в продукт более сложные  вычислительные процедуры, требующие привлечения огромного числа ресурсов и применяемые, например, для построения модели среды, для моделирования помех и полезных сигналов, для решения обратных задач. Соответственно, Prime становится более востребованным для пользователей. На укрепление отношений с клиентами работает еще один фактор — отсутствие ограничений на вычислительные ресурсы позволяет выполнять расчеты в кратчайшие сроки, а значит, не ставить под угрозу сроки проектов. 


Главные показатели любого бизнеса — финансовые. Благодаря переходу в облако Сейсмотек начал экономить на вычислениях до 30% от сумм, уплачиваемых ранее за аренду кластера.

Переход на облако произошел, но процесс развития облачной инфраструктуры для Prime не остановился. Облачные сервисы эволюционируют: появляются новые технологии, подключаются новые сервисы для разработчиков. Совершенствуются и инструменты Prime — сотрудники Сейсмотека используют все современные подходы, в том числе те возможности, которые предоставляет облако, чтобы ускорить, оптимизировать и улучшить работу алгоритмов.

Результатом адаптации программного обеспечения стала версия Prime Cloud, которая дает возможность развернуть инфраструктурную часть виртуального кластера за 30 минут и сразу начать работать в облаке.

Пользователи Prime Cloud также смогли оценить преимущества использования виртуальных ресурсов. К примеру, ООО «НОВАТЭК НТЦ» успешно выполнило в облаке производственный проект по обработке сейсморазведочных данных. Использование возможностей Prime Cloud позволило выполнить масштабный проект с высоким качеством, в короткие сроки и с невысокими расходами на проведение вычислений.

Александр Машика,
Руководитель направления по работе с нефтегазовым сектором
Yandex.Cloud.