ГОСТ Р 70462.1—2022
7.2 Эксплуатационные испытания
Хотя существует несколько аспектов, которые необходимо изучить при дальнейшем использова
нии систем ИИ, количество возможных способов анализа поведения и эффективности системы огра
ничено. Системы ИИ обычно в значительной степени состоят из программного обеспечения, поэтому
необходимы стандарты для его тестирования, такие как ISO/IEC/IEEE 29119 [33].
ОсновныецелитестированияпрограммногообеспечениясформулированывISO/IEC/
IEEE 29119-3:2013: «Следует предоставить информацию о качестве элемента тестирования и любом
остаточном риске в отношении того, насколько элемент тестирования протестирован для
обнаружения дефектов в элементе тестирования до его введения в эксплуатацию и для снижения
рисков низкого качества продукции для заинтересованных сторон».
Рабочий процесс оценки робастности нейронной сети, изображенный на рисунке 1, состоит из трех
следующих шагов, которые имеют решающее значение для каждого эксплуатационного испытания:
1) подготовка плана тестирования (plan testing);
2) сбор данных (data sourcing);
3) проведение испытания в реальных условиях эксплуатации (conduct testing).
В отличие от других методов тестирования, при эксплуатационных испытаниях нейронная сеть
интегрируется в систему, которая работает в реалистичной среде для соответствующего приложения.
Система также должна реализовывать сбор данных, поэтому поиск и сбор данных являются неотъем
лемой частью проектирования и проведения экспериментов.
Дефекты и низкое качество продукции также вызывают беспокойство при тестировании систем
ИИ. Однако отказ системы ИИ в функциональном тесте не обязательно связан с ошибкой («software
bug») программного обеспечения или с ошибочным дизайном. При этом системы ИИ, демонстриру
ющие случайные сбои, иногда используют, поскольку их по-прежнему считают полезными для дости
жения предполагаемой цели, в частности в тех случаях, когда отсутствуют реальные
альтернативы. Системы ИИ эффективны в основном во время эксплуатационных испытаний или при
внедрении, на пример в случае с такими системами, как виртуальные помощники, что относится ко
многим системам ИИ, функционирующим во взаимодействии с природной средой и пользователями
или зависящим от них.
Вопросы разрешения неопределенности в отношении эффективности продукта и рисков, связан
ных с его внедрением, — предмет многих нормативных актов в области медицины. Например, в Европе
медицинские устройства, в том числе с использованием ИИ, должны соответствовать ИСО 14155. По
рядок прохождения клинической оценки или клинических испытаний программного обеспечения с при
менением ИИ, являющегося медицинским изделием, определяется национальным или региональным
законодательством [34], [35], [36].
Для немедицинских устройств, использующих ИИ, эксплуатационные испытания в течение про
должительного времени являются признанным средством сравнения и оценки робастности решений.
Вот несколько примеров:
- испытания на распознавание лиц [37], [38], [39];
- тестирование систем поддержки принятия решений для сельскохозяйственных приложений [40];
- практика испытаний беспилотных автомобилей [41];
- тестирование систем распознавания речи и голоса [42], [43];
- сетевой робот на вокзале [44].
Эксплуатационные испытания систем ИИ различаются по методологии, количеству пользователей
или использованных образцов, статусу ответственной организации/лиц и документации результатов.
7.3 Апостериорное тестирование
В некоторых случаях можно формально подтвердить робастность интеллектуальной системы.
Когда это невозможно, что часто бывает с нейронными сетями [45], выполняют валидацию путем эмпи
рического тестирования робастности системы, и оценка на основе ввода/вывода востребована в дан
ном контексте. В таком виде оценки существуют методы априорного тестирования и апостериорного
тестирования. В то время как при априорном тестировании ожидаемый результат известен, и
поэтому применимы статистические показатели, при апостериорном тестировании результат заранее
неизве стен. В этом случае возможно предпринять автоматизированные действия, чтобы по-прежнему
прово дить статистические измерения косвенными средствами. В противном случае единственным
доступ ным методом является эмпирический, основанный на суждении людей.
15