ГОСТ Р 70462.1—2022
вую очередь к бинарной классификации, но также имеют обобщенные определения в многоклассовых
случаях и случаях со множественными метками.
5.2.3.2 Расширенные метрики
Кривая точности— полноты
Пары метрик «точность/полнота» вычисляют при разных пороговых значениях вывода. Пары
«точность/полнота» отражают компромиссы между точностью и полнотой, когда эти метрики использу ют
для оценки робастности.
Рабочая характеристика приемника (ROC)
Кривая ROC (Receiver operating characteristic) представляет собой график зависимости пропорции
истинно положительных результатов в зависимости от пропорции ложноположительных результатов
при различных настройках гиперпараметров (например, порога принятия решения).
ROC отражает компромисс между долями истинно положительных и ложноположительных по
казателей, когда эти показатели используют для оценки робастности. Кривые ROC применяют, когда
один показатель связан со значительными затратами или преимуществами при оценке робастности,
например: в области медицины, где ложные диагнозы могут приводить к критическим последствиям.
5.2.3.3 Подъем (lift)
Метрика подъема — это мера, сравнивающая относительную эффективность системы прогнози
рования с другой контрольной группой (обычно выбираемой случайным образом).
5.2.3.4 Площадь под кривой
Площадь под кривой измеряет интеграл кривой рабочих характеристик приемника ROC, кото
рая представляет эффективность модели для каждого порога классификации. Кривая ROC показывает
долю истинных положительных результатов относительно доли ложноположительных результатов.
5.2.3.5 Сбалансированная достоверность
Сбалансированная достоверность (balanced accuracy) — это средняя полнота, полученная по
каждому классу [12].
5.2.3.6 Микроусреднение и макроусреднение
В случаях несбалансированных наборов данных такие показатели, как точность или полнота,
рассчитанные для всего набора данных, иногда дезориентируют. Возможной стратегией для решения
этой проблемы является вычисление метрики макроусреднения, которая представляет собой среднее
значение показателя, вычисленного для каждого класса отдельно, вместо метрики микроусреднения,
которую используют стандартным вычислением без разделения классов [13].
5.2.3.7 Коэффициент корреляции Мэтьюза
Коэффициент корреляции Мэтьюза (Matthews correlation coefficient, MCC) — это мера по набору
классификаций (предсказаний). Его диапазон лежит в пределах [-1.+1], в котором +1 представляет
точное предсказание, -1 — противоположное предсказание, а 0 — среднее предсказание. Следует от
метить, что эта метрика обобщается в тех случаях, когда классы не сбалансированы в исходных данных (то
есть значение МСС равно 0 для случайного классификатора на
N
классах, даже если точность этого
классификатора отличается от 1//V) [14], [15].
Коэффициент корреляции Мэтьюза МСС вычисляют по формуле
f
NT+■Nj_
-
Np+•Np^
^{NT+
+WF+)(Wr++
N J){NT- + N
f
+){NT- + Np_)
v ’
где
NT+
— количество истинных положительных результатов;
NT_
— количество истинных отрицательных значений;
Nf+
— количество ложноположительных результатов;
Nf _
— количество ложноотрицательных результатов.
5.2.3.8 Матрица ошибок и связанные метрики
Матрица ошибок (confusion matrix) позволяет провести подробный анализ эффективности класси
фикатора и помочь обойти или выявить слабые места отдельных метрик, поскольку она обеспечивает
более четкий и всесторонний анализ эффективности классификатора. Напротив, использование ма
трицы ошибок в качестве единственной меры эффективности классификатора недостаточно информа
тивно для проведения этого анализа, так как оно не указывает, какие классы наиболее распознаются
или какой тип ошибок совершает классификатор.
10