ГОСТ Р 57986—2017
Было показано, что доверительный интервал для расстояния Махаланобиса распределен таким
образом что, р D имеет F-раслределение cknn-k-’\df.rp,ep = (n -k -’\ )!пк, п— количество спектров и к
— количество используемых длин волн (или частот).
Для обучения алгоритма пользователь должен получить много спектров каждого стандартного
образца для определения вариабельности материала образца в данных обучения. По полученным ре
зультатам затем определяют область многомерного пространства, характеризующую указанный мате
риал. Поэтому крайне важно, чтобы обучающие образцы в максимальной степени отражали всю есте
ственную вариабельность материала.
Особое место в данном подходе отводится анализу прозрачных (не рассеивающих свет) жидко
стей. Прозрачные чистые жидкости практически не имеют внутренней вариабельности. Поэтому раз
мер области, определяющей вариабельность проб (которая для чистых, нерассеивающих жидкостей
равна нулю) сжимается в многомерном пространстве до одиночной точки и, следовательно, ее диаметр
уменьшается практически до нуля. В этом случае размеры области соответствия для неизвестного об
разца становятся настолько малыми, что шум прибора или другие незначительные отклонения условий
измерения могут привести к тому, что валидный образец окажется за пределами области, определен
ной для данного материала.
Существует два пути решения данной проблемы. Первый путь — замена расчета расстояний Ма
халанобиса между неизвестными образцами и известными материалами расчетом Евклидовых рассто
яний. Она производится путем замены обратной матрицы выборочной внутригрупповой вариантности-
ковариантности на единичную матрицу (матрицу, у которой все элементы главной диагонали равны 1, а
все остальные элементы равны 0).
Второй путь заключается в преднамеренном вводе произвольной вариабельности в данные. Это
делается созданием нескольких копий данных с последующим добавлением произвольного числа к каж
дому значению показателя поглощения в расширенном наборе данных. Необходимо найти компромисс
между малыми значениями добавляемого шума (что приведет к тому, что область каждой группы будет
оставаться сравнительно малой иприближаться к точке) ислишком большими значениями, которые будут
приводить к чрезмерному эашумлению данных и стиранию различий между различными материалами.
6.3 Регрессия на главные компоненты
Было установлено, что регрессия на главные компоненты (РГК) может быть использована для
преобразования (сжатия) данных по нескольким длинам волн в ряд независимых компонентов. Помимо
сжатия данных главные компоненты имеют тенденцию к разделению различных источников вариабель
ности в наборе спектров. Если добавить измерение расстояний для групп. РГК может использоваться
для проведения качественного анализа в ближней ИК области.
Основные шаги выполнения измерения расстояния на основе РГК приведены ниже:
- шаг 1: составляется набор образцов для обучения или библиотека, содержащая различаемые
группы (материалы) для последующего определения. Каждая группа представляется несколькими об
разцами;
- шаг 2: спектры образцов или группы разбивают на главные компоненты. Количество главных
компонент, необходимое для адекватного представления образца, определяется измерением остаточ
ной вариабельности в библиотеке спектров;
- шаг 3; для каждой главной компоненты в пространстве группы РГК по данным образцов для
каждого члена группы рассчитывают среднеарифметические значения и стандартные отклонения. По
скольку главные компоненты ортогональны, каждое стандартное отклонение (расстояние) откладыва
ют в ортогональном направлении;
- шаг 4; для последующей классификации образцов рассчитывают векторное произведение спек
тра каждого образца с главными компонентами, полученными при обучении библиотеки. Рассчитывают
расстояние от каждой группы по следующей формуле
D ^ (score, - group,)
S,
где D(— расстояние вдоль оси /-й главной компоненты от среднеарифметического значения результа
тов для данной группы;
score, — показатель образца для Ай главной компоненты;
group, — среднеарифметическое значение показателей группы для Ай главной компоненты:
S, — стандартное отклонение показателей Ай главной компоненты для соответствующей группы.
5