ГОСТ Р 70462.1—2022
При апостериорном тестировании шаги 4 и 5 процесса, изображенного на рисунке 1, слегка из
менены. Шаг 4, вероятно, будет более сложным, потому что правильный ответ заранее неизвестен. Ин
терпретация результатов на шаге 5 — это, скорее всего, предмет консенсуса, а не однозначной истины.
Как правило, для проверки робастности системы определяют данные или тестовые среды, пред
ставляющие широкий спектр тестовых сценариев для нормальных условий эксплуатации и критических
случаев (шаг 2 процесса). Эти входные данные передаются в систему для оценки, а выходные данные
системы (называемые гипотезами) сравниваются с эталонами, то есть с достоверной информацией
(шаг 3). Входные данные предназначены для того, чтобы внести возмущение в систему для проверки ее
робастности, например, используя неблагоприятные примеры. Такие эталоны обычно предоставляют
ся экспертами, выполняющими такую же задачу, как и оцениваемая система, или являются результатом
физических измерений.
В случае априорного тестирования эталоны ссылки предоставляются экспертами, выполняющи
ми аннотации, и обычно они договариваются друг с другом в отношении правильного ответа, который
должен быть получен (высокая степень согласия между экспертами). В таком случае эталон
(ground truth) определяется однозначно. Напротив, при апостериорном тестировании эталоны,
создаваемые экспертами, варьируются, поэтому эталон эксплуатационных испытаний неоднозначен,
так как у задачи есть несколько правильных ответов [46].
Поскольку невозможно определить решение априори все возможные правильные ответы, поэто
му выполняют апостериорные оценки. То есть при рассмотрении входных данных систем эксперты,
предоставляющие аннотации (автоматизированные измерители), могут установить, являются ли они
правильными или неправильными.
Машинный перевод — классический пример той задачи, для которой апостериорная оценка слу
жит полезным дополнением к априорному тестированию. Обычно существуют различные способы
перевода одного и того же предложения с одного языка на другой. Хотя в данном случае часто приме
няют статистические методы путем установления произвольного набора правильных или приемлемых
ответов для сравнения результатов [47], это не является полностью надежным показателем эффектив
ности, и субъективное апостериорное тестирование часто бывает более точным. Также применительно к
навигационной задаче можно использовать несколько траекторий для перемещения из одного места в
другое. В зависимости от способности определить объективный критерий оптимальных траекторий,
апостериорное тестирование может быть выполнено либо статистическими, либо эмпирическими сред
ствами.
Также возможно использовать апостериорную оценку для валидации новой робастной метрики
(новый метод или формула для измерения). Когда качество задачи является субъективным, метрикам
необходимо присвоить баллы качества, которые коррелируют с пользовательским мнением о качестве.
Суждение пользователей — это эталон для оценки автоматических метрик [48].
Однако концепции апостериорной оценки и оценки после развертывания системы пересекаются
в некоторых случаях, особенно при тестировании с конечными пользователями. Например, в случае
оценки качества взаимодействия человека с машиной оценку выполняют апостериорно, поскольку не
возможно установить, каким образом это взаимодействие будет оказывать влияние на все слои насе
ления до того, как оно получит широкое распространение. Для проведения такой оценки можно
варьи ровать профиль пользователя, иметь пул пользователей, адекватно отражающий фактические
условия работы системы, и получать с его помощью эмпирический анализ робастности этой
интерактивной интеллектуальной системы.
7.4 Эталонное тестирование нейронных сетей
Эталонное тестирование (бенчмаркинг, benchmarking) системы, основанной на нейронных сетях,
может способствовать определению степени робастности системы. Часто первоначальное доверие к
решению ИИ, основанному на нейронных сетях, устанавливается с помощью эталонного тестирования.
Например, продолжительное время в распознавании образов и аналогичных применениях методов ИИ
эталонное тестирование было наиболее оптимальным решением для установления доверия к опре
деленному методу [49]. Вместе с тем, проведение эталонного тестирования может иметь элементы
субъективности, например при маркировке или аннотировании тестовых наборов данных экспертами-
практиками.
Эталонное тестирование измеряет производительность системы на основе тщательно разра
ботанных наборов данных, которые в большинстве случаев являются общедоступными. Часто их ис-
16