ГОСТ Р 50779.80—2013
Если оценки аттестующих совладают, возможно, что полученные оценки являются верными. Если
оценки различных аттестующих не совпадают, правильность оценок может вызывать сомнения.
Полученные оценки могут быть неупорядоченными, упорядоченными или двоичными.
Неупорядоченные данные представляют собой значения переменных, принимающих два или более
значений без естественного упорядочивания. Например, при дегустации продуктов, значениями
оценок могут быть, например, такие как хрустящий, мягкий. Упорядоченные данные представляют
собойзначенияпеременной,принимающейтриилиболеезначенийсестественным
упорядочиванием, например, значениями такой переменной могут быть: «категорически не согласен»,
«не согласен», «воздерживаюсь», «согласен» и «абсолютно согласен». Однако дистанция между
значениями переменной в этом случае неизвестна. Двоичные данные представляют собой значения
переменных, принимающих только два значения. Например, аттестующие могут классифицировать
единицы продукции на «годные/негодные» или «функционирующие /не функционирующие». Следует
отметить, что двоичные данные фактически являются частным случаем неупорядоченных данных с
двумязначениями. Двоичные данныешироко используют в производстве при наличии
установленного требования, когда проверенные единицы продукции признают соответствующими или
несоответствующими этому требованию. Двоичные данные также используют для оценки
функционирования системы определения значений контролируемой характеристики. Система, когда
контролируемая характеристика принимает только два значения, рассмотрена в приложении А. Таким
образом, в настоящем стандарте неупорядоченные данные отнесены к переменной, принимающей
три или более возможных значений.
Независимо от типа используемых данных при проведении исследования ААА в качестве
показателя применяют процент совпадения оценок. Процент совпадения оценок показывает
количество совпадений оценок при многократных испытаниях для одного аттестующего и нескольких
аттестующих. Процент совпадения оценок Р является фактически точечной оценкой доли
совокупности
Р =’ J00 %,
гдеЛтакь- количество совпадающих оценок при п повторениях испытаний;
п - количество проверяемых объектов (количество повторений испытаний).
Для анализа неупорядоченных данных более всего подходит к-статистика. Она представляет
собой долю неслучайных совпадений оценок.
_ P o t s ’ ехр
К " 1 " % ’
гдеРаы- наблюдаемая доля совпадающих оценок;
Р„,р - математическое ожидание доли совпадающих оценок, если совпадения являются
случайными.
Каппа принимает значения от минус 1 до +1. Чем выше значение к, тем больше доля
совпадающих оценок. Если к принимает значение 1. оценки полностью совпадают. Если к принимает
значение 0, совпадение оценок является случайным. Значения к выше 0.9 считают превосходными.
Значения к менее 0.7 указывают на то. что система определения значений контролируемой
характеристики нуждается в улучшении, а значение к менее 0,4 указывает на то, что эта система
является недостоверной. Обычно требуют, чтобы значение к было не менее 0.7 (к г 0.7).
Двумя наиболее часто применяемыми к-статистиками являются к-статистика Кохена и к-
статистика Флейса. При использовании этих статистик оценки аттестующих обрабатывают по-
разному, и по-разному вычисляют вероятность случайного совпадения данных. При вычислении к-
статистики Кохена предполагается, что аттестующие выбраны и фиксированы, а при вычислении к-
статистики Флейса предполагается, что аттестующие выбраны случайным образом из группы
аттестующих. Это дает два различных метода определения вероятности совпадения оценок. Таким
образом, к-статистика и ее стандартная ошибка о». (SE” ) могут быть вычислены методом Флейса или
методом Кохена. В основе критерия лежит статистика
используемая для проверки нулевой гипотезы Но: к = 0 против альтернативной гипотезы
Н,: к > 0.
Это односторонний критерий. Нулевой гипотезе соответствует нормированное нормальное
распределение Z. Нулевую гипотезу отклоняют, если p-значение меньше назначенного, обычно
равного 0,05.
■>SE - Standard Error.
4