ГОСТ Р 27.405-2011
5.4 Шаг 4. Анализ отказав и классификация отказов
5.4.1 Общие положения
Когда наблюдается отказ, в первую очередь следует зафиксировать время испытаний
или числа транзакций до отказа. После этого принимают решение, должна ли система быть
остановлена, из-за отказа или она может продолжать работать. Остановить работу системы
может быть необходимо, но следующим причинам:
- по соображениям безопасности;
- для того, чтобы отказ не привел к вторичному отказу, разрушению системы или ее
части;
- в целях проведения анализа неисправности,
- для устранения неисправности, например ремонта составной части или замены
элемента.
Как только классификация отказа установлена, должно быть принято решение:
неисправный элементдолжен быть восстановлен немедленно, или ремонт следует
отложить. В некоторых случаях возможно продолжение испытаний при условии, что анализ
указывает на вероятность того, что отказ не приведет к вторичным отказам и что все еще
возможно проверить главную часть оставшейся системы. Это решение будет требовать
инженерных знаний системы. В протоколе испытаний должно быть зарегистрировано, что
часть системы не работает или не контролируется из-за не устраненной неисправности.
Если принято решение отложить ремонт, влияние па дальнейший ход испытаний
должно быть рассмотрено и документировано, что часть этой системы не будет работать или
избыточность может быть сокращена в ходе дальнейших испытаний. Оборудование с
отказавшей составной частью обычно может быть отремонтировано путем замены модуля,
компонента или перенастройкой. Замененные модули и компоненты будут сохранены для
последующего анализа отказов. Как можно скорее должен быть сделан тщательный анализ
первопричин каждого отказа в целях реализации мер по исправлению положения в системе
Для связанных с ПО отказов вид отказа часто может быть устранен путем изменения
кода. Обычно эти изменения вносят в качестве новой версии ПО, но часто может быть,
возможно продолжение испытаний следующим образом:
- регистрация отказа и времени испытаний до каждого отказа, но не прекращение
испытаний в случае нового отказа;
- регистрация отказа и времени испытаний до каждого отказа и перезагрузка ПО в
случае нового отказа;
- регистрация отказа и времени испытаний до каждого отказа и включение вставки в
ПО, которая нейтрализует отказ, когда он происходит. Это может привести часть ПО к
11