ГОСТ Р ИСО/МЭК 29794-1—2012
Интегральная функция распределения
Нормализованный показатель сравнения
----------- верно совпали (правый);
-------------ошибочно совпали (левый)
П р и м е ч а н и е — Вертикальные линии показывают один из способов группировки нормапмзированмых
показателей сравнения
Рисунок А.1 — Эмпирические и интегральные функции распределения истинных и ложных показателей
А.4 Размер набора данных для нормализации показателя качества
Набор данных для нормализации показателя качества должен быть достаточно большим, чтобы его можно
было использовать как для обучения, так и для испытания различных собственных алгоритмов оценки качества с
целью нормализировать выходные данные. Они должны соответствовать категориям НДНПК. представленным в
настоящем стандарте. Размер образца N в случае контролируемого испытания может быть оценен следующим
образом:
N> 32
(
10
)
где s — типичная ошибка (шум); d — наименьший полезный эффект (сигнал).
Поскольку количество категорий равно четырем, можно принять d ■ 1. так как при переходе от одной катего
рии к соседней величина изменяется на единицу. Наиболее распространенная ошибка заключается в неверном
размещении показателя качества в ближайшей к нему категории, вместо правильной категории, что дает s = 2.
Такиы образом, на основании уравнения (10) минимальный требуемый размер набора данных на категорию состав
ляет 128 или 512 для НДНПК. Половина набора данных может быть использована для обучения, а вторая
полови на — для испытания. Подход, заключающийся в двойной перекрестной проверке, может быть
использован для вычисления общей вероятности ошибки для случая, когда наборы тестов для обучения и
испытания меняются местами и средняя вероятность ошибки вычисляется на основе выходных данных каждого
набора тестов, как пред лагается а литературе, посвященной статистике и машинному обучению.
15