Прогнозирование нештатных ситуаций на производстве. Инструменты предиктивной аналитики в программном продукте 1С:RCM

Специалист по машинному обучению Владимир Нечаев рассказывает об опыте «Деснол Софт» в разработке системы предиктивной аналитики, которая, анализируя показания датчиков, заблаговременно предупреждает о развивающейся аномалии в работе оборудования, сокращает время простоя производственной установки, а также снижает вероятность возникновения аварийной ситуации.

Machine Learning для прогноза отказов оборудования

В настоящее время в промышленности и на производстве активно развивается применение методов машинного обучения (Machine Learning) и, в частности, прогнозного технического обслуживания (Predictive Maintenance). Возрастающее количество научных публикаций, растущий интерес со стороны государства и коммерческих организаций, появление новых исследовательских групп в РФ и мире — всё говорит о том, что тема чрезвычайно перспективная и актуальная.

За время работы производственных комплексов накоплены огромные массивы данных, собираемые с помощью средств мониторинга. С помощью алгоритмов машинного обучения из этих данных могут быть извлечены закономерности, применяемые для оптимизации различных процессов.

В частности, успешно применяются методы контролируемого и неконтролируемого машинного обучения для определения:

  • аномальных режимов работы оборудования,
  • прогноза и оптимизации остаточного срока службы устройств,
  • планирования мероприятий по обслуживанию и ремонту,
  • оптимизации расхода сырья и топлива.

Ситуация с данными

Данные в промышленности собираются в течение долгих лет. На практике они плохо систематизированы и отсутствует подробная разметка, то есть нет большого количества отметок, сделанных человеком-экспертом о режимах работы, нештатных ситуациях, ремонтах и так далее. Иными словами, многомерные временные ряды, которые представляют собой имеющиеся данные по какому-либо участку производства, покрыты разметкой лишь в малой части либо не покрыты вовсе.

Почему так важна разметка? Она представляет отражение человеческого опыта и других внешних данных — всего того, что мы хотим предсказывать на доступных данных, например, на комплексных показаниях датчиков.

То есть, используя внутренние представления, с помощью алгоритмов контролируемого машинного обучения мы хотим построить такую функцию, которая бы на выходе выдавала информацию, близкую к заключению человека-эксперта. Для этого нужно много размеченных прецедентов. Но в поглощающем большинстве случаев «обучающий сигнал» отсутствует.

Нужно ориентироваться на сами данные и их статистическую природу. Что мы в итоге и сделали.

Постановка проблемы

Давайте рассмотрим один из реальных случаев в энергетическом секторе, над которым мы работали.

Имеется специальная установка — компрессор, который имеет ключевое значение на производственном объекте. Простой в работе установки вызывает простой на всем производстве, что влечет за собой большие убытки. А выход в критический режим работы может вызвать аварию.

На компрессоре установлены датчики, снимающие с определенной периодичностью показания. Эти показания сохраняются в базе данных.

Подробная разметка отсутствует. Есть только информация о том, когда проводились плановые ремонты и когда установка работала в штатном режиме.

Необходимо разработать такую систему или алгоритм, который заблаговременно будет предупреждать персонал о наступлении неблагоприятных событий, нештатных ситуаций, определять отклонения и аномалии в работе установки. Система должна помогать принимать решения о выборе тех или иных мер для продолжения нормального функционирования установки. Система должна указывать на то, в какой части оборудования замечены отклонения, почему получаем именно такой результат — модель должна быть интерпретируемой, то есть объяснимой.

Система должна заблаговременно предупреждать о развивающейся проблеме и, как итог, сократить время простоя установки и снизить вероятность возникновения аварийной ситуации.

Описание данных

Рисунок 1.png

Рис. 1. Иллюстрация к исходным данным. Фрагмент многомерного временного ряда. Каждый график представляет значения датчиков в разные моменты времени.

В распоряжении имеются данные, собранные за 5 лет. Дискретизация: 1 минута. Количество датчиков, с которых снимаются показания: 200 штук. Существует система для сбора и хранения данных телеметрии. Датчики сгруппированы по мнемосхемам. Датчики снимают различные показания: от температуры и давления до положения заслонок и силы тока в разных контурах установки. Разметка в данных отсутствует.

Известно, что в определенный промежуток времени установка работала штатно (в течение примерно двух лет). Также известны временные промежутки, когда установка находилась в состоянии планового технического ремонта. Известна дата внеплановой остановки компрессора, имеются документы по техническому расследованию ситуации.

В целом, разметки данных недостаточно, чтобы построить модель контролируемого машинного обучения (Supervised Learning), поэтому основной упор нужно сделать на неконтролируемый (Unsupervised) или полуконтролируемый (Semisupervised) подходы.

Описание решения проблемы

Данные разделены на тренировочную и тестовую выборки в соотношении 60% к 40%.

На данных обучены несколько моделей.

Мультирегрессионная модель

Мультирегрессионная модель (то есть модель предсказания непрерывных значений всех датчиков) на основе алгоритма машинного обучения — градиентный бустинг над решающими деревьями. Показания датчиков в каждый момент времени предсказываются на основании показаний других датчиков. Это основная используемая модель в алгоритме определения аномалий.

Давайте рассмотрим принцип работы модели.

  • Для предсказания необходимо исключить сильно коррелируемые (то есть линейно связанные) значения.
  • Для каждой точки на основании среднеквадратичной ошибки модели (RMSE) определяется допустимый «коридор» отклонений. RMSE — это наиболее распространённый показатель рассеивания значений случайной величины относительно ее математического ожидания (аналога среднего арифметического с бесконечным числом исходов).
  • Используя значения среднеквадратичной ошибки (RMSE), реальных и предсказанных значений рассчитывается оценка аномальности (anomaly score), которая показывает, во сколько раз реальные значения отличаются от ожидаемых моделью (предсказанных):

✓ если величина оценки аномальности выходит за рамки порогового значения, то детектируется (то есть определяется) аномалия, в обратном случае аномалия не детектируется;

✓ если детектируется аномалия, то определяется «корень» проблемы, то есть на каком датчике или группе датчиков произошло отклонение, для этого анализируются показания датчиков, показания которых наибольшим образом влияют на показания текущего датчика, для этого используется оценка важности переменной в градиентном бустинге;

✓ если поведение установки или ее части меняется вследствие внешнего воздействия (например, заменяется какой-то блок, элемент) и это изменение является штатным, то сначала модель реагирует на это как на аномалию; затем оператор сообщает модели через приложение, что это штатное изменение и модель автоматически дообучается на новых данных.

Модель на основе рекуррентной и сверточной нейронных сетей

Следующая внедренная модель создана на основе нейронных сетей: рекуррентной (RNN, LSTM) и сверточной (CNN). Ключевое отличие данной модели состоит в том, что показания каждого датчика в каждый момент времени предсказываются с явным учетом ретроспективных данных.

Принцип работы модели на основе нейронных сетей.

  • Предсказываются показания датчиков через определенный промежуток времени.
  • По значению среднеквадратичной ошибки оценивается значение оценки аномальности.
  • Далее производятся аналогичные шаги, что и в случае основной модели.

Multi-horizon модель

Также применена Multi-horizon (мультигоризонтная) модель предсказания временных рядов (то есть предсказания делаются на разные интервалы времени) на основе Temporal Fusion Transformers — новейшего подхода предсказания временных рядов на основе архитектуры нейронных сетей «Трансформер». Данная модель предсказывает показания каждого датчика, учитывая зависимости во времени и показания остальных датчиков.

Принцип работы модели.

  • Предсказываются показания датчиков через определенный промежуток времени.
  • С помощью мультирегрессионной модели на основе градиентного бустинга на предсказанных данных определяется оценка аномальности и ее развитие (тренд).

Кроме того, для решения проблемы были исследованы классические подходы Machine Learning (машинного обучения) «без учителя» — такие, как: One Class SVM, Local Outlier Factor, Isolation Forest, Elliptic Envelope. Данные методы не дают качественного контролируемого прогноза аномалий ввиду их ограниченного функционала. Поэтому в реальной системе они не используются.

Выбор пороговых значений и настройка системы

Одним из сложнейших вопросов в самом начале эксплуатации (или, иными словами, при «холодном запуске») системы предсказания нештатных ситуаций является выбор пороговых значений. Для настройки требуется обратная связь от человека-эксперта, который на основании опыта и знаний предметной области может отличить обычный режим работы от аномального.

Рисунок 2.png

Рис. 2. Графики контрольных карт Шухарта.

Помогает решить эту задачу методика контрольных карт Шухарта, которая была внедрена нами в систему и адаптирована под реальную установку с учетом изменчивости ее работы.

Контрольная карта Шухарта — это визуальный инструмент, применяемый в управлении производством и бизнес-процессами, график изменения параметров процесса во времени для осуществления статистического контроля стабильности процесса. Своевременное выявление нестабильности позволяет получить управляемый процесс, без чего никакие улучшения невозможны в принципе. Контрольные карты стандартизованы и описаны в ГОСТе.

В данной методике используется понятие статистически управляемого процесса, когда все, что происходит с установкой, описывается только внутренней статистикой без влияния извне. Статистически неуправляемым процессом называется такое поведение установки, когда внутренние процессы не могут быть описаны лишь историческими данными. Но в настоящем случае статистическая неуправляемость, т.е. аномалия со статистической точки зрения, не всегда означает аномалию в понимании человека-эксперта (компетентного инженера), работающего с установкой. Это означает, что такие выходы за границы, предсказываемые моделью (и описываемые статистически), нужно разделять на штатные и нештатные. Штатными являются, например, плановые переключения на резервный фильтр, которые, как правило, на временном ряду отображаются как резкое изменение. Нештатными являются случаи, которые как раз мы и хотим отсечь от остальных, то есть это искомые «аномалии» в понимании эксперта, например выход из строя какого-то элемента установки или повреждение под воздействием внешних сил.

Методика решает проблему с неопределенностью: какой выход значений за ожидаемые рамки считать действительно нештатным. Разработан унифицированный подход, который можно адаптировать под любую установку/устройство/аппарат, работающую стабильно во времени.

Описание готового решения

Система предиктивной аналитики работает и как самостоятельное приложение, и в составе решения «1С:RCM Управление надежностью», разработчиком которого также является «Деснол Софт».

Продукт «1C:RCM Управление надежностью» предназначен для оптимизации профилактических и диагностических программ технического обслуживания активов на предприятиях различных отраслей. В основе продукта лежит методология RCM (Reliability-Centered Maintenance — техническое обслуживание, ориентированное на обеспечение надежности). Цель применения 1С:RCM — сформировать оптимальную программу обслуживания, необходимую для обеспечения заданного уровня надежности основных фондов при минимальных затратах.

Продукт включает в себя:

  • инструменты для проведения RCM-анализа;
  • подсистему предиктивной аналитики.

Инструменты для проведения RCM-анализа позволяют определить возможные виды отказа, их параметры и составить программу обслуживания с учётом риска возможных видов отказа.

Подсистема предиктивной аналитики позволяет получать данные об аномалиях и автоматически классифицировать в развивающиеся виды отказа.

Применение продукта позволяет повысить эффективность эксплуатации основных фондов и способствует повышению готовности и надежности оборудования при минимальных затратах, повышению безопасности, снижению риска аварий и происшествий, увеличению срока службы оборудования, оптимизации совокупной стоимости владения оборудованием.

business technology.png

© Business photo created by rawpixel.com - www.freepik.com

Поделиться: