Аналитическая ВЫГОН Консалтинг выпустила новое исследование «Возможности использования генеративного ИИ для обеспечения технологического суверенитета российского ТЭК». Согласно выводам экспертов, сегодня в отечественном нефтегазе отсутствуют промышленные решения на базе генеративных моделей, несмотря на высокий уровень внедрения традиционного ИИ.

Знания и функционал лучших зарубежных моделей в сфере ТЭК сегодня ограничены. В развитие генеративного ИИ в мире вкладываются десятки миллиардов долларов. Сложность и качество больших языковых моделей (БЯМ) растут, хотя пока они плохо справляются с задачами, требующими многоступенчатых рассуждений и математических действий. Но в ближайшем будущем БЯМ научатся решать многоуровневые инженерные задачи, анализировать существующие технологии и создавать новые. Какой эффект получит российская нефтегазовая отрасль от использования генеративного ИИ? Способны ли нейросети стать прикладным инструментом для достижения технологического суверенитета в условиях санкций?

Генеративный ИИ (GenAI) – это тип искусственного интеллекта, способный создавать новый контент (текст, изображение, музыка, видео, код и многое другое). В отличие от других видов ИИ, генеративный ИИ обучается на гораздо большем объеме (примерно на три порядка) мультимодальных данных, в основном неструктурированных. Большие языковые модели (БЯМ) являются частным случаем GenAI, специализированным на задачах обработки естественного языка. Каждый месяц в мире появляются 8-10 новых БЯМ, при этом количество мега-моделей (более 1 трлн параметров) растет. Лидерами в этой области выступают западные компании OpenAI, Google, Anthropic, Mistral, Meta (признана экстремистской и запрещена в РФ). Каждая выпускаемая БЯМ превосходит по качеству предыдущую в большинстве тестов, входящих в популярный бенчмарк MMLU (Massive Multitask Language Understanding – сборник экзаменационных вопросов по различным областям знаний, разработанный специально для тестирования нейросетей ведущими университетам США). Потенциал БЯМ огромен: сейчас это краткое изложение текста и ответы на простые вопросы, завтра – автоматизация типовых интеллектуальных операций и автономные роботы. 

Мультиагентные системы (МАС) – разновидность систем на базе БЯМ, в рамках которых могут использоваться различные модели, каждая из которых хорошо решает свой ограниченный круг задач, имеет экспертизу и доступ к внешним инструментам. Ожидается, что в перспективе именно МАС будут способны решать сложные задачи, требующие многоступенчатых логических суждений, например, проектирование. Рост интеллектуальных способностей БЯМ с каждым годом требует использования все больших вычислительных мощностей для обучения модели – графических процессоров (GPU – graphics processing unit). Так, для обучения GPT-4 было использовано в 100 раз больше вычислительных операций, чем для GPT-3. Стоимость обучения при этом растет в разы и приближается к 1 млрд долларов. За 2020-2023 гг. суммарные глобальные инвестиции в GenAI составили около 50 млрд долларов, из них половина пришлась на 2023 г. В прошлом году ведущие разработчики БЯМ разместили рекордные заказы на GPU Nvidia H100, что обещает появление новых моделей с супервозможностями.

Перспективы и направления использования GenAI в нефтегазовой отрасли. Сегодня российские нефтегазовые компании активно используют традиционный ИИ для работы с большими структурированными числовыми данными на всем жизненном цикле продукции: от моделирования геологоразведочных работ и диагностики состояния трубопроводов до создания многокомпонентных рецептур моторных масел. Но, несмотря на высокий уровень внедрения традиционного ИИ, в отечественном нефтегазе сегодня отсутствуют промышленные решения на базе генеративных моделей. Эти технологии пока только «пилотируются» ограниченным кругом российских ВИНКов. Нам не удалось найти информации о таких проектах в открытых источниках.
При этом в условиях санкционных ограничений, переориентации экспортных потоков и
энергоперехода ключевой задачей каждого игрока нефтегазового сектора становится поиск новых прорывных технологий с последующей оценкой их эффективности и оперативным внедрением. GenAI может выступить базовым инструментом для реагирования на эти вызовы.

По оценкам ВЫГОН Консалтинг, в мире ежегодно публикуется более 25 ТБ данных в сфере НИОКР по нефтегазовой тематике. Это базы данных по новым патентам, материалы аналитических агентств, правительственных организаций, научных и отраслевых изданий, деловых СМИ
и т. д. Чтобы быть в курсе событий, аналитики в компаниях должны тратить от 80%
рабочего времени на изучение постоянно обновляемой отраслевой информации. Поиск
технологий для закрытия потребностей бизнеса является трудоемким и, преимущественно, ручным процессом.

Использование генеративного ИИ позволяет охватить больший объем информации, сократить время на ее анализ, повысить скорость и качество решений. Так, например, GenAI сможет повысить автоматизацию функциональных процессов, связанных с инженерией и научно-технической экспертизой. Речь прежде всего идет о прикладной экспертизе, 59% которой может быть автоматизировано. В целом потенциал автоматизации работы профессиональных групп, связанных с инженерией, при использовании нейросетей вырастет почти в два раза – до 57%.

У нейросетей в нефтегазе есть несколько классов задач. К относительно простым можно отнести распознавание текстовых документов, поиск в базе знаний, а также обобщение документов, построение ключевых выводов. Сюда же относится бенчмаркинг, поиск аналогов; распознавание графиков, диаграмм, таблиц, формул; генерация шаблонных отчетов. В классе более интеллектуальных задач – подбор технологий и анализ существующих трендов, оценка состояния производственного объекта или процесса, генерация рекомендаций по предотвращению поломок оборудования, а также прикладная экспертиза для проведения ремонтов. Так, например, в сегменте upstream искусственный ИИ сможет оптимизировать движение бригад, анализировать успешность бурения и геолого-технических мероприятий (гидроразрыв пласта, соляно-кислотные обработки и др.). 

Ключевая ценность от использования GenAI в решении этих задач заключается в повышении эффективности работы инженерного и полевого персонала за счет сокращения времени между выявлением проблемы и подготовке рекомендаций по улучшению процесса. МАС смогут решать еще более сложные многоуровневые инженерные задачи – проектирование процессов, оборудования и инфраструктуры, а также создание (инжиниринг) новых продуктов и технологий. Например, в рамках оптимизации системы разработки месторождения такие модели ИИ способны проанализировать данные о геологии и разработке, выбрать точки для бурения, передать их в гидродинамический симулятор на расчет, получить и оценить технико-экономические показатели (NPV, индекс доходности и т.д.). В результате постановщик задачи получит варианты оптимизации актива для принятия дальнейших решений. При этом, по нашим
оценкам, эксперты, вооруженные МАС на этот процесс потратят на 30% меньше времени, чем команда из людей без участия ИИ. По усредненным оценкам, суммарный отраслевой эффект (экономия) от использования генеративного ИИ, включая МАС, может составить 343 млрд рублей в год. При этом наибольшее влияние (69% от этой суммы) нейросети окажут на upstream (ГРР, разработка и бурение, обустройство и капстроительство, мониторинг и управление добычей).

Проблемы использования БЯМ для поиска и анализа отраслевой информации, а также методы
их решения. Ввиду отсутствия публичных иностранных отраслевых БЯМ для тестирования
существующих сегодня моделей на знание нефтегазовой отрасли мы выбрали топовые на март 2024 г. иностранные Gemini 1, Claude 3 Opus, GPT-4. В качестве предмета тестирования был использован запрос российской нефтегазовой компании, опубликованный на открытой онлайн-платформе для организации работы бизнеса с квалифицированными внештатными специалистами (https://professionals4-0.ru/). Он содержал задачу по анализу применяемых технологий бурения скважин в неустойчивых аргиллитах.

Результат тестирования показал, что топовые БЯМ не способны решить поставленную задачу во многом из-за отсутствия полной отраслевой информации со страновой спецификой в корпусе (обширный массив данных, использованных для первоначального обучения модели). После обучения БЯМ данные в корпусе «заморожены», их актуальность в ответах ограничена актуальностью корпуса. Когда данных для ответа на запрос нет, модель начинает его выдумывать
(«галлюцинировать»). Для получения более корректного ответа необходимо использовать специальные техники формулирования запросов (prompt engineering), которым пользователю нужно обучаться отдельно. Даже с применением специальных техник запросов самые сильные коммерческие БЯМ (GPT-4, Claude 3, Gemini) нередко ошибаются в процессе логических рассуждений, анализе и верификации ответа.

В более сложных отраслевых аналитических задачах коммерческие БЯМ существенно уступают человеку, предоставляя верные ответы только на те вопросы, которые требуют минимальных умственных усилий. Коммерческие иностранные БЯМ строго соблюдают введенный Западом санкционный режим и ограничивают доступ к любой информации, которая может быть использована для отраслевого развития, импортозамещения и обеспечения технологического
суверенитета. Кроме того, использование иностранных БЯМ с открытыми параметрами потенциально может создать угрозу IT-безопасности (внешние атаки на информационную инфраструктуру, промышленный шпионаж и т. д.).

Для погружения готовых БЯМ в отраслевую тематику ВЫГОН Консалтинг провел эксперимент с
использованием метода RAG (Retrieval-Augmented Generation, генерация ответа на основе извлеченных актуальных данных). Была подготовлена специальная база отраслевых данных, включающая статьи, отчеты и патенты. RAG задействовал эту базу для подготовки ответов на запросы из реальных актуальных источников.
Это решение было протестировано на вышеописанной отраслевой задаче и показало лучшие результаты, чем коммерческие БЯМ без RAG: в ответах были указаны конкретные названия технологий, ограничения «заморозки» корпуса модели были преодолены, а количество «галлюцинаций» минимизировано. По результатам эксперимента был сделан вывод о том, что БЯМ, усовершенствованную с помощью RAG, можно использовать в роли «интеллектуального ассистента» для решения конкретных отраслевых задач.

Подходы к созданию отечественных отраслевых БЯМ. Одним из основных барьеров для создания в России продвинутой отраслевой БЯМ является проблема с GPU. По нашей оценке, число доступных для расчетов карт Tesla A100 в России составляет не более 5 тыс. шт. В случае обучения модели на открытых данных возможно воспользоваться услугами дата-центров из третьих стран.
Однако, при обучении достаточно крупных моделей (уровня GPT-5) и регулярном выпуске их новых версий целесообразно рассмотреть приобретение GPU. Из-за экспортных ограничений покупка такого большого количества карт сопряжена с рисками нарушения поставок. Карты A100, H100 и H800 возможно найти в розничной продаже в небольшом количестве. В этом году анонсирован выход существенно более мощных GPU и вопрос покупки нескольких десятков тысяч карт последних моделей с помощью схем параллельного импорта остается открытым.
Фундаментальной проблемой, мешающей интенсивному развитию отечественного БЯМ
выступают большие затраты. Стоимость создания «с нуля» одной мега-модели уровня Claude 3, вышедшей в конце февраля 2024 г. по нашим оценкам превышает 500 млн долларов (примерно 50 млрд рублей). Такие расходы могут позволить себе только западные Биг Техи или консорциум из нескольких компаний. 

Уровень инвестиций в GenAI в нашей стране многократно ниже. По нашим оценкам, российские
Биг Техи суммарно вкладывают в разработку генеративного ИИ около 48,3 млрд рублей в год. При таком уровне инвестиций создание мега-модели мирового уровня возможно только в случае консолидации усилий всех наших компаний. А для создания конкурентоспособных моделей в будущем необходимо наращивать вложения до 100 млрд рублей в год.

Есть три ключевых фактора, влияющих на стоимость создания отраслевой БЯМ. Первый
– это выбор подхода, предполагающий ответ на вопрос: будет ли использована
существующая модель или создана принципиально новая? Второй – это объем и
качество датасетов (наборов обработанных данных, необходимых для машинного
обучения). Третий – это размер модели (количество ее параметров).

Таким образом, донастройка на отраслевых данных (fine-tuning) иностранной модели с
открытыми параметрами (таких как LLaMa, Mistral, Grok, DBRX), которая будет иметь
базовое представление об отрасли, обойдется в сумму от 100 тыс. до 100 млн рублей.
Сопоставимыми будут затраты на дообучение российских БЯМ (GigaChat Сбера и YandeхGPT) для получения модели, способной хорошо ориентироваться в узкой отраслевой области, например, в нефтегазовой геологии. Обучение «с нуля» отечественной БЯМ с широкой отраслевой экспертизой может потребовать от 500 млн до 100 млрд рублей, не включая расходы на разработку и исследования (R&D-инженеров).

Для создания отечественного отраслевого БЯМ в России необходимы четыре составляющие: компетенции как в отрасли, так и ML (machine learning – машинное обучение), вычислительные мощности (GPU), инвестиции, а также объединение усилий Биг Техов, нефтегазовых компаний, экспертных и научных организаций на одной площадке для обмена информацией и разделения финансовой нагрузки. Проектная команда по созданию и донастройке отраслевой БЯМ должна включать не только ML-инженеров, но и отраслевых экспертов, обладающих глубокими знаниями по всем сегментам нефтегазового комплекса.

Консолидация компаний с целью создания отраслевой платформы GenAI позволит сократить расходы на разработку отраслевых прикладных моделей. При этом развитие отраслевых БЯМ должно происходить поэтапно, с постепенным увеличением сложности решаемых задач. К созданию продвинутых мультиагентных решений на базе БЯМ, способных решать сложные отраслевые задачи (проектирование и составление концептуальных планов развития, инжиниринг новых продуктов и технологий) можно приступать только после создания более простой отраслевой БЯМ (поиск аналогов, бенчмаркинг, мониторинг технологических трендов, подготовка шаблонов отчетов) и с учетом опыта создания такой же продвинутой МАС за рубежом.