ГОСТ Р 70462.1—2022
Матрица ошибок С представляет собой квадратную матрицу, где запись
Сгс
в строке г и столбце
с — это количество экземпляров, принадлежащих к классу или категории г, которые классифицируют
как принадлежащие к классу
с.
Матрицы ошибок включают количество истинно положительных, истинно отрицательных, ложно
положительных и ложноотрицательных результатов: на их основе можно рассчитать такие метрики, как
достоверность, полнота по классам и точность. Из элементов матрицы ошибок могут быть
получены дополнительные метрики, такие как энтропия гистограммы, представленная матрицей.
5.2.4 Другие меры
5.2.4.1 Кусочно-линейная функция потерь
Кусочно-линейная функция потерь (hinge loss) — верхняя граница количества ошибок, сделанных
классификатором. В общем случае для классификации с несколькими классами дистанцию до границы
вычисляют методом Краммера— Зингера [16].
5.2.4.2 Каппа Коэна
Каппа Коэна — это мера согласия между экспертами, выполняющими такую же задачу, как и оце
ниваемая система к, вычисляемая по формуле
к =
(р0 ~ Ре)1(
1 -
Ре),
(2)
где
р0
— априорная вероятность согласованности меток на любой выборке в наблюдаемых данных;
ре
— ожидаемое согласие, когда каждый из двух экспертов присваивает метки независимо и в со
ответствии с собственными измеренными априорными распределениями с учетом эмпириче
ских данных.
Эта мера полезна, когда не обязательно существует золотой стандарт оценки, например когда
метки, предоставленные человеком, также являются неточными или когда таких меток не существует, и
для сравнения доступны только автоматизированные методы.
В основном эту меру используют для оценки качества данных после сделанных человеком анно
таций (подверженных ошибкам), но ее также применяют в качестве вспомогательного метода оценки,
когда метки отсутствуют, путем сравнения двух классификаторов друг с другом.
5.3 Статистические методы измерения робастности нейронной сети
5.3.1 Общие положения
При применении метрик по 5.2 к тестовым данным для оценки робастности доступно несколько
статистических методов. В этом подразделе описаны некоторые из доступных статистических методо
логий для выполнения шагов 2 и 3, представленных в 4.1, для планирования и проведения тестирова
ния. Выполнение протокола тестирования не является уникальным для нейронных сетей, и подготовка
включает настройку тестового окружения, сведения о том, что и как измерять, а также сбор данных и
прочие характеристики. Разница в планировании тестирования робастности нейронных сетей заключа
ется в необходимости более тщательного сбора данных (например, об уровне качества, степени дета
лизации, наборах данных для обучения/тестирования/валидации и т. д.). При проведении тестирования
источник данных и доступность вычислительных ресурсов являются существенными вследствие того,
что нейронные сети требуют в некоторых случаях значительных объемов данных и вычислительных
ресурсов.
5.3.2 Контрастные меры
Статистические показатели эффективности применяют сначала к базовому набору данных, а за
тем к одному или нескольким наборам данных, отражающим целевые изменения условий. Если для
каждого из них снижение производительности по сравнению с эталонным тестовым набором достаточ но
низкое, то систему считают надежной.
6 Формальные методы
6.1 Общие положения
Другим аспектом робастности является степень, в которой изменяющиеся обстоятельства влияют
на поведение системы независимо от ее эффективности. Формальные методы подходят для оцен
ки стабильности системы, т. е. степени, в которой ее результат изменяется при изменении входных
11