ГОСТ Р 59921.0—2022
3.3 Термины в сфере наборов данных
3.3.1
данные реальной клинической практики;
RWD (real-world data, RWD): Информация о состоя
нии здоровья пациентов и/или об оказании медицинской помощи, полученная из различных источни
ков вне рамок предрегистрационных клинических исследований.
П р и м е ч а н и я
1 Данные о практическом применении могут быть собраны из разных источников, например:
- электронные медицинские карты;
- заявления и действия по выставлению счетов;
- реестры медицинских изделий и заболеваний;
- данные от пациентов, полученные в том числе в домашних условиях;
- данные, собранные из других источников, которые могут информировать о состоянии здоровья, напри
мер, от мобильных устройств.
2 К частному случаю данных о практическом применении могут быть отнесены данные, собранные систе
мой искусственного интеллекта после выхода в эксплуатацию, которые могут дать представление о работе про
дукта, используемого в условиях практического применения и при регулярном использовании
пользователями.
3 См. [2].
[ГОСТ Р 59921.3—2021, пункт 3.2]
3.3.2
верифицированный набор данных
(ground truth): Набор данных с верифицированной меди
цинской информацией.
[ГОСТ Р 59921.5—2022, пункт 3.2]
П р и м е ч а н и е — Верификация информации должна быть проведена в соответствии с ГОСТ Р 59921.5.
3.3.3
обучающие данные
(training data): Подмножество образцов входных данных, используе
мых для создания модели алгоритмами машинного обучения.
3.3.4
тестовая [контрольная] выборка
(test sample): Уникальная (отличная от обучающей и прове
рочной) выборка, на которой проводят объективную оценку качества параметров обученной системы
искусственного интеллекта.
[ГОСТ Р 59921.5—2022, пункт 3.27]
3.3.5
проверочная выборка
(validation sample): Выборка, на которой проводят проверку применимо
сти параметров системы искусственного интеллекта для отличных от обучающей выборки наборов
данных.
[ГОСТ Р 59921.5—2022, пункт 3.17]
3.3.6
разметка [аннотация] данных
(data labeling): Этап обработки структурированных и неструкту
рированных данных, в процессе которого данным (в том числе текстовым документам, фото- и ви
деоизображениям) присваиваются идентификаторы, отражающие тип данных (классификация дан
ных), и (или) осуществляется интерпретация данных для решения конкретной задачи, в том числе с
использованием систем искусственного интеллекта.
П р и м е ч а н и е — См. [2].
[ГОСТ Р 59921.5—2022, пункт 3.19]
П р и м е ч а н и е — Основные задачи машинного обучения с учителем в области обработки изображений
можно разбить на три группы:
- сегментация изображений;
- классификация изображений;
- обнаружение объектов и их маркировка (аннотирование).
5