Управление надежностью активов. От общего к частному

Риск-ориентированное управление эксплуатацией и ТОиР: предпосылки, первые результаты и рекомендации

Промышленные компании России всё больше интересуются риск-ориентированными индивидуальными подходами к эксплуатации и ремонту технологического оборудования (ТОиР) вместо периодических типовых мероприятий. В случае такого перехода процессы меняются: предприятию нужно учитывать больше факторов риска и выбирать из многообразия стратегий ТОиР. Это неизбежно усложняет процесс принятия решений о ремонтах на всех уровнях. Насколько оправдано каждой компании идти по уникальному пути и пересматривать подход к отдельной единице оборудования или технологической системе? Размышлениям об этих «качелях» от универсального к индивидуальному и посвящена данная статья.
Предпосылки перехода от планово-предупредительных работ к риск-ориентированному подходу
Рост интереса компаний к риск-ориентированному подходу и организации процессов управления надёжностью оборудования очевиден всем, кто так или иначе вовлечен в тему управления производственными активами. Вот несколько наших наблюдений:

  • Ключевые термины из области управления надёжностью производственными активами распространяются и становятся привычными.
  • Активно растёт число выставок, семинаров, образовательных курсов по управлению надёжностью, появляется больше консультантов и профильных специалистов.
  • Регулярно выходят анонсы об успешно реализованных нормативно-методических и комплексных проектах с информатизацией и изменением бизнес-процессов. Такие проекты пропагандируют не только подрядчики-исполнители, но и сами заказчики.
  • Мы отмечаем рост числа игроков на рынке разработки и внедрения информационных систем по управлению надёжностью. Интересно, что в число разработчиков входят даже те компании, для которых разработка программного обеспечения — не основной бизнес.

На наш взгляд, что хоть причины высокого интереса к теме управления надёжностью и не новы, но лежащие в основе интереса проблемы стали достаточно критичными, чтобы привести к масштабным изменениям на рынке.

У участников рынка накопился критический объём претензий к классической организации ремонтов с учётом нормативных сроков и наработок (так называемый планово-предупредительный ремонт, ППР). Среди основных жалоб:
— дорого и неэффективно (до сих пор много отказов и ущерба);
— не учитывается реальное техническое состояние активов и его динамика (не чиним то, что нужно, но ломаем то, что работало);
— классический подход не «дружит» с реальными рисками отказа оборудования (спаслись ремонтом от копеечных потерь, но упустили реальную проблему).

Претензии к ППР усиливаются под влиянием внутренних и внешних факторов, находящихся вне контроля бизнеса.

Внутренние факторы:
  • износ фондов (иногда усугубляется «стахановским» подходом к эксплуатации) и сокращение инвестиций в них;
  • уход персонала и опыта (когда оставшиеся не понимают, как работало раньше);
  • сокращение горизонта планирования («живем как на вулкане!») и запаса экономической прочности (экономия везде и прямо сейчас).

Внешние факторы:
  • уход поставщиков (раньше было у кого попросить помощи);
  • слом концепции сервисного обслуживания (приходится брать в работу то, что раньше обслуживали поставщики или сервисные подрядчики);
  • слом логистических цепочек поставок (когда даже понимая, что и как делать, не делаешь, так как нет ни инструмента, ни запчастей);
  • недостаток квалифицированных кадров.

В итоге за последние несколько лет практически во всех фондоёмких отраслях виден осмысленный тренд на переход от ППР к управлению надёжностью в концепции RCM (Reliability-centered maintenance). Эта методология планирования ТОиР инженерных систем основывается на анализе возможных отказов систем, их элементов и последствий.

Согласно этой методологии, предприятия стали уделять более пристальное внимание к учету отказов и разбору их причин, оценке «здоровья» каждой конкретной единицы оборудования, условий её использования и связанных с этим рисков, выработке индивидуальных способов предотвращения отказов. Также назрела необходимость информатизации этого процесса, чтобы сохранить знания, снизить негативное влияние человеческого фактора и ухода из компании опытных специалистов.

Далее в статье мы попытаемся осмыслить первые практические результаты такого перехода. Мы не претендуем на всеохватность и полноту исследования, но некоторые характерные и важные, на наш взгляд, «перегибы на местах», попытаемся проанализировать.
Сложившаяся практика перехода
Первые попытки перехода от усреднённо-нормативного к риск-ориентированному управлению эксплуатацией и ТОиР много лет назад были предприняты в России из интереса отдельных топ-менеджеров к экспериментам, а не от реальной потребности предприятий. Тренд созревал, и сегодня эти идеи всецело получают поддержку «снизу», так как теоретические положения RCM-методологий отвечают реальным потребностям главных механиков и служб эксплуатации и ремонтов.

К привычным электродвигателям, насосам и редукторам вдруг добавились сложные понятия «функция», «функциональный отказ», «корневая причина отказа» и «не сниженная матрица рисков». Появились и окрепли новые карьерные направления — «APM-менеджер», «инженер по надёжности». Уход зарубежных поставщиков ПО в этой области и связанных с ними бизнес-практик, в свою очередь, спровоцировал «бум» в импортозамещающей разработке.

Мы не осмелимся оценивать успехи каждого проекта — это дело очень индивидуальное. Попытаемся определить то, что можно назвать «резервы роста».

Практически во всех доступных нам для анализа проектах по переходу мы заметили общую логику. Вкратце она выглядит так:

  • Опора на индивидуальный опыт конкретных сотрудников, даже в рамках одной группы компаний (ГК). Идея в том, что специалисты в отдельных филиалах ГК зачастую по-разному анализируют технологические системы или активы с полностью идентичными назначением и характеристиками.
  • Фрагментарная аналитика, не охватывающая аспекты, с которыми не сталкивались. Другими словами, анализу подлежит только статистика отказов и опыт, доступные конкретному специалисту или рабочей группе.
  • Увлечение уникальностью в ущерб унификации. Тут виден явный перегиб — если раньше мы стремились всё делать усреднённо, и это не работало, то теперь мы будем делать всё уникально.
  • Оторванность специалистов по надёжности от планировщиков ТОиР, как по нормативно-справочной информации, так и по подходам к ТОиР в рамках общего бизнес-планирования.

В чем проблемы такой логики? На наш взгляд, здесь скрыты следующие «резервы роста»:

1. Неэффективное использование времени и знаний специалистов по надёжности. Один фактор риска можно интерпретировать по-разному и не единожды, что удлиняет сроки проведения анализа и снижает его качество. В худшем случае последует разбалансировка работы служб, которые будут вынуждены реализовывать соответствующие рекомендации.

2. Сжатый кругозор, когда специалисты полагаются только на свои знания, игнорируя или даже не зная опыт других. В этом случае качество анализа напрямую зависит от опыта небольшой команды, а не обширного опыта рынка. Такая изоляция точно не идёт на пользу предприятию.

3. Сложность увидеть общие проблемы для однотипного оборудования, выявить закономерности, причины и единую стратегию владения, а также начать накапливать репрезентативную и анализируемую статистику.

4. Проблема адаптации рекомендаций «надёжников» к реалиям предприятия. Специалист по надёжности формулирует рекомендацию и её экономическое обоснование, но в итоге она идёт вразрез с возможностями производства. Предлагаемую экспертом периодичность воздействий в реальном производственном графике сложно соблюдать по причине приоритетности других производственных задач. В итоге достижение желанного уровня надёжности для предприятия скорее всего станет нереальным.

Всё вместе это можно назвать «перерегулированием» — когда уходили от общего к частному, но увлеклись и теперь вынуждены откатиться к общему видению, чтобы опять перейти к частному, пересмотрев подход.
Основная проблема при переходе
Итак, «перерегулирование» мы считаем ключевой проблемой перехода. Раскрыть суть этого термина, как мы его понимаем в контексте статьи, можно через анализ двух крайних точек зрения на ненадёжность оборудования: «Все однотипные единицы оборудования „болеют“ одним и тем же с одной частотой» и «Давайте следить за технологическими системами и единицами оборудования по отдельности, так как всё по-разному». На наш взгляд, истина, как и всегда, где-то посередине.

У разных систем и оборудования есть уникальные особенности и общие закономерности. Причём некоторые факторы ненадежности заметны только при анализе многих однотипных систем и единиц оборудования.

Уникальные особенности оборудования:

  • Последствия отказов, так как они определяются местом применения системы. И даже здесь есть возможность для унификации, если речь о системах со схожим местом и способом применения.
  • Техническое состояние элементов системы, история её эксплуатации, ремонтов и «болезней». Здесь уникальность связана с последовательностью событий в жизненном цикле оборудования, но не с видами «болезней» и их причинами.
  • Способы оценки рисков, определяемые географией, экологией, демографией и социальными аспектами региона присутствия предприятия. Однако и здесь есть поле для региональных унификаций.

Общевидовые особенности оборудования:

  • «Болезни» разного вида оборудования. Карта поломок зависит от конструкции, физических и химических процессов при эксплуатации. Описание «болезни» одного насоса полностью применимо к любому другому насосу того же вида без учёта места его применения. Различные условия эксплуатации больше влияют на оценку частоты и глубины разных поломок, чем радикально меняют саму карту.
  • «Лекарства» для оборудования. Одинаковые поломки чинятся одинаковыми средствами. Разница может быть в дозировке воздействий, длительности и стоимости работ с учётом местоположения и окружения оборудования. Разные способы доступа к оборудованию и прочие технологические особенности обычно представлены в виде индивидуальных технических карт и нормативов ремонта.
Выводы и рекомендации по переходу к риск-ориентированному индивидуальному подходу ТОиР

  • Тренд на индивидуальные стратегии не отменяет важности классификации и типизации оборудования. Это помогает определиться с картой возможных неисправностей, выявить их причины и даже категоризировать последствия и способы их решения. Совокупность этой информации мы называем «модель надёжности».

Модель надёжности (RCM-модель) — это аналитическая структура, состоящая из взаимосвязанных определений: функции — функциональные отказы — механизмы и виды отказа / причины — последствия (не сниженный риск) — рекомендации (воздействия и сниженный риск) — стратегии (пакеты воздействий во времени).

  • Любая осознаваемая частная проблема должна рассматриваться в контексте единой модели надёжности для всего класса таких однотипных объектов. И даже если на других объектах такой проблемы не выявлялось — это дело времени.

  • Последствия от поломок (даже одинаковых) индивидуальны. Можно и нужно говорить об общих видах последствий, но объём материального ущерба от них безусловно зависит от конкретного места, условий и периода эксплуатации оборудования. Вопрос оценки ущерба должен быть рассмотрен на этапе анализа надёжности и/или расчёта риска для конкретной системы или единицы оборудования. Ещё вернее — доверить оценку информационной системе, которая соберет нужные данные из разных источников.

  • Способы «профилактики и лечения» едины для каждого конкретного фактора риска. Отличия касаются технологической специфики ТОиР для конкретного объекта и связанных с этим нормативов. Определяя стратегию ремонта в конкретном случае, «надёжник» обязан по умолчанию использовать имеющуюся модель надёжности для однотипных объектов, при необходимости уточняя детали технической карты и нормативов.

  • Необходимо обеспечить плотную связь «надёжника» с технологами. Прежде чем что-то рекомендовать, «надёжник» должен знать возможности предприятия. Нужно учитывать при расчёте эффективности предлагаемых стратегий стоимость воздействий и затраты на организацию процесса их выполнения. Для этого мы предлагаем ограничить фантазию «надёжника» рамками имеющихся технологий, типовых технических карт ТОиР и принимать новые рекомендации только с обоснованиями.
Эффективный процесс RCM-анализа
Мы считаем, что модель надёжности нужно определять на нескольких уровнях.

1. Уровень вида (класса) оборудования — типовая (шаблонная) модель, содержащая:

  • Типовые функции — без привязки к реальному техпроцессу и его КПЭ. Например, типовая функция любого насоса — перекачка жидкости с определённым подъёмом давления от входа к выходу. Что это за жидкость, откуда, куда и в каком объёме она течёт и что будет, если функция прервётся, — определяется на уровне технологической системы, в которой используется насос такого типа. Предполагается, что далее насосы данного вида будут реализовывать именно эту типовую функцию.

  • Типовые функциональные отказы — также определяются самой природой анализируемого вида объекта. Любой насос, даже в разных условиях применения, будет «вредить» одинаково — частично или полностью не качать жидкость, подтекать и пачкать всё вокруг, вибрировать и сверхнормативно шуметь. Конкретные характеристики и последствия таких отказов нужно оценивать индивидуально, но способы «навредить» — общие для всех насосов в мире.

  • Типовые виды отказов и причины — сегодня наиболее унифицированная область со стандартами по кодам видов и причин отказа и их статистикой. Именно эта часть модели определяет карту «болезней», или поломок, и их причин. Роковая ошибка любого «надёжника» — заново придумывать причину отказа, не посмотрев сначала в справочники.

  • Типовые последствия отказов. Здесь унифицировать можно только виды последствий, а реальный материальный ущерб — дело исключительно индивидуальное. Но унификация видов последствий — хорошая практика, которая, в частности, позволит формировать корректные матрицы рисков.

  • Типовые рекомендации. Как мы писали выше, при формировании стратегии ТОиР для конкретной единицы оборудования нужно уточнить технологическую карту и нормативы «лечения». Из рекомендаций должна быть понятна готовность предприятия реализовывать предлагаемые меры.

2. Уровень технического места (единицы оборудования). Для конкретной единицы оборудования, функционирующей в понятном месте технологического процесса, анализ надёжности сводится к двум шагам:

Шаг 1. По факту принадлежности оборудования к определённому виду или классу оно по умолчанию имеет свою модель надёжности (см. выше). Специалист уже на старте работы получает заготовку этой модели и приступает к её анализу.
Шаг 2. Задача «надёжника» — уточнить специфику применения типовых функций и функциональных отказов, привязать оценки последствий (не сниженного риска) к реалиям использования данного оборудования и уточнить рекомендации и оценку сниженного риска. Только в случае наличия крайней специфики дополнить эту модель.

3. Уровень технологической системы требует реализации следующих шагов:

  • Шаг 1. Определение системы. Система определяется как последовательная совокупность технических мест, которая реализует основную функцию — участие в выработкее конечной продукции. Дополнительно необходимо определить вспомогательные или ESG («Environment, Social, Government» — экология, безопасность, законодательство) — функции данной системы при их наличии.

  • Шаг 2. Сбор модели системы из моделей единиц оборудования в её составе. Модель надёжности системы складывается из суммы моделей надёжности входящих в неё технических мест. При включении единицы оборудования в состав анализируемой системы её функции должны быть увязаны с одной из функций системы. Остальная модель надёжности системы должна являться ссылкой на модели её элементов.

  • Шаг 3. Адаптация собранной модели под производственные показатели системы. При определении последствий отказов и матриц не сниженного и сниженного риска по всем элементам системы нужно уточнять объёмные показатели ущерба согласно назначению системы.

  • Шаг.4. Формирование единой стратегии ТОиР по всем элементам системы. Здесь, помимо индивидуальных рекомендаций по интервалам между воздействиями на элементы, нужно учесть комплексность ТОиР — все воздействия должны включаться в пакеты с единым интервалом выполнения при минимальной длительности планового простоя.

По нашему мнению, в процессе анализа надёжности и выработки стратегии нужно соблюдать следующие простые правила:

1. При анализе нового объекта нужно уточнять типовую модель, определённую в соответствии с классификацией объекта. Для любой критической системы или единицы оборудования по умолчанию должна существовать модель и стратегия, требующая её «приземления» на конкретное место и условия эксплуатации.

2. Новые типовые модели можно создавать из частных моделей конкретных объектов при условии изучения всех аспектов надёжности, даже тех, с которыми не сталкивались. Для этого есть мир различных технических стандартов, ассоциации инженеров по надёжности, обмен опытом и консультации с заводами-изготовителями.

3. Все элементы индивидуальной и типовой модели (функции, функциональные отказы, виды и причины отказов, последствия, рекомендации и стратегия) обязаны быть элементами соответствующих справочников — в информационной системе или на бумаге. Появление новой записи в таких справочниках не может быть стихийным, а должно классифицироваться как «событие» с конкретными ритуалами.

Все вышесказанное можно вполне корректно назвать описанием процесса создания Базы знаний по надежности. А создание в наше время Базы знаний с неизбежностью подводит нас к необходимости информатизации этого процесса. И если (или когда) вы решитесь на это — обратите внимание, следует ли выбираемая или создаваемая вами информационная систем описанным выше правилам? Если нет, то проще и дешевле использовать всем знакомый MSExcel.

Спасибо за внимание и успешного путешествия вам «туда и обратно» на пути к надежности!