ГОСТ Р 57986—2017
Следует отметить, что несмотря на то. что главные компоненты рассчитывают по всему набору
данных, стандартные отклонения и среднеарифметические значения рассчитываютдля каждой группы
индивидуально. Если расстояниедля всех главных компонент меньше некоторого порогового значения,
тогда проба считается принадлежащей группе. Критерии для определения пороговых значений были
подробно рассмотрены Витфилдом. Из таблиц Витфилда можно вывести простое правило, что при до
статочно большом количестве образцов можно использовать значение 3.
Одна популярная разновидность данного подхода называется «простая модель аналогий клас
сов» (Simple Model of Class Analogies — SIMCA). В SIMCA каждую группу разлагают на свои главные
компоненты. Шаги 1—4 выполняют так. как будто каждая группа является библиотекой. Множество
групп тестируют с помощью множества библиотек главных компонент.
6.4 Корреляция
Коэффициент корреляции долгое время использовался как показатель подобия двух наборов чи
сел. Также можно использовать коэффициент корреляции для сравнения двух спектров с целью клас
сификации проб.
Коэффициент корреляции г обычно определяют как отношение объясненной дисперсии к общей
дисперсии. В качественном анализе в ближней ИК области его используют следующим образом — рас
считывают коэффициент корреляции гмежду известным и неизвестным спектрами
где I — количество длин волн в спектре;
X. — интенсивность поглощения неизвестного образца на г-йдлине волны;
Yj— интенсивность поглощения известного образца на /-й длине волны.
В формуле (3) предполагают, что значения X и Убыли предварительно отцентрированы относитель
но среднего значения (т. е. было рассчитано среднее значение данных для каждой длины волны и вы
чтено из значения интенсивности поглощения при соответствующей длине волны для каждого спектра).
Когда неизвестные и известные спектры идентичны или отличаются на постоянный множитель
(обычно из-за влияния длины оптического пути или размера частиц), формула (3) дает значение 1.
Если спектры различаются, г будет больше 1. Неизвестные образцы обычно классифицируют путем
расчета коэффициента корреляции со всеми спектрами в библиотеке. Спектр библиотеки, дающий ко
эффициент корреляции, максимально близкий к 1, считается наиболее близким к спектру образца.
Преимущество корреляционного подхода состоит в том. чтодля характеризации группы требуется
только один известный образец. Это делаетданный подход чрезвычайно удобным для идентификации.
Однако с данным подходом довольно трудно создать группу из нескольких образцов и произвести ква
лификацию корреляцией. Групповые расстояния и коэффициент корреляции г не связаны линейной
зависимостью.
Кроме того, требуется большая осторожность при использовании корреляции с необработанными
ИК-спектрами. Большая ширина полос многих спектров в ближней ИК области и отличия базовой линии
могут привести к ошибкам идентификации. Спектры, отличающиеся позициями одной или двух полос
(например, соединения-гомологи), обычно тяжело классифицируются с использованием корреляцион
ного подхода. Лучшие результаты получаются после предварительной обработки спектров для макси
мизации разницы между классифицируемыми группами. Обычно применяемые методы подготовкидан
ных используют производные спектров и ограничение диапазона длин волн. Подход с использованием
производных увеличивает различие между спектрами сходных соединений. Ограничение диапазона
длин волн позволяет ограничить сравнение теми спектральными характеристиками, которые соответ
ствуют ключевым функциональным группам.
Распределение коэффициента корреляции является достаточно сложной функцией измеренного
значения. Тем не менее, ее графический вид доступен.
6.5 Многомерные направляющие косинусы
Для определения степени подобия двух спектров или их производных может использоваться ме
тод многомерных направляющих косинусов. Обозначая многомерный вектор, представляющий один
6
Х * Л
(3)