ГОСТ Р 70255—2022
7.1 Требования к представительности (полноте и несмещенности) тестовых наборов
данных
Тестовый набор данных должен быть репрезентативен, содержать целевой набор изображений и
ситуаций по отношению к каждому существенному фактору эксплуатации.
Для обеспечения представительности тестового набора данных необходимо:
а) проводить испытания алгоритма обнаружения и распознавания дорожных знаков на тестовом
наборе, подготовленном в соответствии со статистическими закономерностями распределения суще
ственных факторов эксплуатации, что позволит обеспечить тестирование алгоритма обнаружения и
распознавания дорожных знаков на соответствие реальной картине распределения дорожно-транс
портных ситуаций;
б) обеспечить повторные испытания со специально смещенной выборкой относительно количе
ства объектов распознавания независимо от их реального статистического распределения. Для этих
целей можно воспользоваться следующей процедурой:
1)выделить объекты распознавания, частота встречаемости которых в реальном окружении
ВАТС ниже средней частоты встречаемости всех объектов распознавания более, чем на 3 стандарт
ных отклонения (редкие объекты).
Примечание — Уровень определения редких знаков является рекомендуемым и может быть изменен;
2) для выделенных объектов подготовить для испытаний «смещенную» выборку, которая позво
ляет лучше проанализировать поведение алгоритма в части редких объектов. Например, путем сем-
плирования с изменением частоты соответствующих объектов распознавания, которая приближена к
среднему по всем вариантам объектов распознавания, или путем ввода весовых коэффициентов при
оценке ошибки в соответствующих классах. Конкретный способ должен быть явно определен в про
грамме испытаний алгоритма до начала этих испытаний;
3) провести испытания с подготовленной выборкой, чтобы убедиться, что алгоритм распознава
ния обрабатывает редкие объекты с достаточным качеством.
Кроме того, при испытаниях алгоритма обнаружения и распознавания дорожных знаков на пред
мет реагирования на редкие дорожно-транспортные ситуации допускается использовать иные методы
тестирования, включая применение весовых коэффициентов для различных существенных
факторов эксплуатации, семплирования, аугментации (см. 7.4) и другие техники.
Такой принцип подбора тестового набора данных позволит обеспечить проверку возможностей
алгоритма по распознаванию всех объектов распознавания в различных контекстах (вариантах комби
наций значений существенных признаков), поскольку для обеспечения доверия к результатам работы
алгоритма необходимо, чтобы точность распознавания не зависела от частоты встречаемости конкрет
ного объекта распознавания при эксплуатации алгоритма.
7.2 Фрагменты тестовых наборов данных (демонстрационные наборы данных)
Основной набор тестовых данных, содержащий фрагменты различных ситуаций и дорожные зна
ки, доступен по ссылке:
https://disk.yandex.ru/cl/N-AxTFKsxjnhzw
.
Тестовый набор описывает существенные факторы эксплуатации и содержит два набора данных:
- «Дорожные знаки отсутствуют»;
- «Дорожные знаки присутствуют».
Тестовый набор данных содержит тактико-технические характеристики видеорегистратора, ме
таданные видеосъемки (координаты ВАТС, пример видеодорожки с присутствием знаков дорожного
движения, время съемки).
Приведенный классификатор является исчерпывающим перечнем существенных факторов экс
плуатации для рассматриваемого алгоритма обнаружения и распознавания дорожных знаков, при этом
сценарии дорожно-транспортных ситуаций должны генерироваться на основе приведенного перечня
существенных факторов эксплуатации при испытании алгоритма обнаружения и распознавания до
рожных знаков с учетом тех или иных законов распределения существенных факторов эксплуатации.
7.3 Правила формирования представительных тестовых наборов данных (включая, в
случае необходимости, описание представительной совокупности тестовых сценариев)
Тестовый набор данных содержит следующий набор файлов:
4