ГОСТ Р 70462.1—2022
Значительное влияние на робастность могут оказывать следующие факторы:
- масштаб значений отдельных измерений;
- разнообразие, репрезентативность и диапазон выбросов;
- выбор реальных или синтетических данных;
- наборы данных, специально используемые для тестирования робастности;
- состязательные и другие примеры, которые исследуют гипотетические крайности предметной
области;
- состав наборов данных для обучения, тестирования и валидации.
4.2 Классификация методов
Следуя описанному выше рабочему процессу определения робастности, в настоящем стандарте
представлены методы и метрики, применимые к различным типам тестирования, то есть статистиче
ские, формальные и эмпирические методы.
Статистические подходы, как правило, основаны на математической оценке некоторых наборов
данных, способствуя обеспечению определенного уровня достоверности результатов. Формальные
методы полагаются на надежное формальное доказательство, чтобы продемонстрировать математи
ческое свойство в предметной области. В настоящем стандарте формальные методы не ограничены
областью синтаксической теории доказательств и включают методы проверки корректности, такие как
проверка модели. Эмпирические методы базируются на экспериментах, наблюдениях и экспертных
оценках.
Несмотря на то что систему можно охарактеризовать посредством наблюдения или доказатель
ства, в настоящем стандарте выбрано разделение методов наблюдения на статистические и эмпири
ческие. Статистические методы генерируют воспроизводимые показатели робастности на основе за
данных наборов данных. Эмпирические методы формируют данные, которые можно
проанализировать статистическими методами, но они не обязательно воспроизводимы из-за
включения субъективной оценки. Поэтому необходимо, чтобы методы из обеих категорий применялись
совместно.
Таким образом, в настоящем стандарте сначала рассмотрены статистические подходы, которые
являются наиболее распространенными при оценке робастности. Для них характерен подход к тести
рованию, определяемый методологией с использованием математических метрик. Затем исследованы
подходы к получению формального доказательства, которые используют для оценки робастности и,
наконец, представлены эмпирические подходы, основанные на субъективных наблюдениях, которые
дополняют оценку робастности, когда статистические и формальные подходы недостаточны или не
целесообразны.
Эти методы не используют для прямой оценки робастности в целом. Каждый из них нацелен на
различные аспекты робастности, предоставляя несколько частичных показателей, сочетание которых
позволяет оценить робастность.
Эксперты по оценке робастности используют эти методы, чтобы ответить на различные виды во
просов по системе, которую они проверяют, например:
- статистические методы позволяют эксперту по оценке проверить, достигают ли свойства систем
предпочтительного целевого порога (например, сколько дефектных единиц произведено);
- формальные методы позволяют эксперту по оценке проверить, доказуемы ли свойства в обла
сти использования (например, всегда ли система работает в заданных пределах безопасности);
- эмпирические методы позволяют эксперту оценить ту степень, в которой свойства системы до
стоверны в тестируемом сценарии (например, является ли наблюдаемое поведение удовлетворитель
ным).
Принцип применения таких методов к оценке робастности заключается в том, чтобы оценить, в
какой степени эти свойства сохраняются при изменении условий:
- при использовании статистических методов: как изменение условий влияет на измеренные ра
бочие характеристики?
- в случае формальных методов: сохраняются ли необходимые свойства при расширении границ
области условий (входных данных)?
- при применении эмпирических методов: сохраняются ли свойства в других сценариях?
Следует отметить, что характеристика робастности нейронных сетей является активной областью
исследований, и существуют ограничения как для подходов к тестированию, так и к валидации. При ис
пользовании подходов к тестированию вариация возможных входных данных вряд ли будет достаточно
5