ГОСТ ISO/TS 22220—2013
по телефону или когда популяция является многонациональной, и не весь персонал, регистрирующий субъектов
медицинской помощи, может правильно понимать национальные варианты написания фамилий. Проблемы поиска
совпадения фамилий, имен и отчества могут быть даже более сложными, если имена, имеющие одинаковое зву
чание. имеют разнообразные написания (Catherine. Katherine. Kathryn) или используются уменьшительные имена
(Bill), а «правильное» имя субъекта медицинской помощи (William) не введено в регистрационную систему (что
часто случается в унаследованных системах).
При разработке алгоритма поиска совпадения необходимо идентифицировать элементы данных, которые с
большой вероятностью точны (например, пол), а также элементы данных с большим числом возможных значений,
(например, фамилии, имена улиц).
С.4 Детерминированный и вероятностный поиск совпадения данных
Поиск совпадения идентифицирующих данных выполняют разнообразными методами, которые делятся на
две категории: детерминированные и вероятностные. Эти термины на самом деле обозначают два крайних случая
в широком спектре методов, а не два полностью различающихся метода.
При детерминированных методах совпадение одного набора идентифицирующей информации с другим
определяется с помощью сопоставления значений конкретных атрибутов этих наборов. Например, записи могут
сопоставляться по фамилии, инициалу имени, дате рождения и полу. Совпадение имеет место, когда эти детали
пар записей совпадают, иначе они будут считаться различающимися. При использовании детерминированных ме
тодов идентификаторы «John D’Arcy Langton» и «John D’Arcy Langdon» не будут считаться совпадающими. Край ней
формой детерминированного связывания записей является совпадение, определяемое с помощью статисти ческого
ключа связи (SLK — statistical linkage key), в котором, например, зашифровано сочетание фамилии, даты рождения
и пола.
При вероятностных методах упомянутые строки будут считаться с высокой вероятностью совпадающими.
В них для определения того, относится ли пара записей к одному и тому же субьекгу. используется вероятностный
подход. Чтобы оценить степень сходства пары записей, вероятностям совпадения присваиваются веса. При ана
лизе совпадения пары записей каждый результат сравнения полей, участвующих в сравнении, имеет свой вес.
Для оценки вероятности совпадения сопоставляемой пары записей веса суммируются, и в зависимости от
полученного результата пара считается достоверно совпадающей, несовпадающей или возможно совпадающей. В
зависимости от типа сравнения веса могут быть не зависящими от значения или зависящими от него.
Общие или не зависящие от значения веса основываются на согпасованности/рассогласованности заданно
го поля, например: при применении общих весов сотасованностифассогласованности даты рождения может быть
присвоен статический положительный/отрицательный вес.
Веса, зависящие от значения, вычисляются в зависимости от конкретных сравниваемых значений. Напри
мер. при сравнении инициалов можно задать один вес совпадению инициалов со значением «А», другой — совпа
дению инициалов со значением «В». В общем случав редким значениям назначаются большие веса,
например, в большинстве частей Австралии совпадение с фамилией «Jones» будет иметь меньший вес. чем
совпадение с фамилией eTshabalala».
Веса в высокой степени зависят от распределения значений поля. Например, если в наборе данных про
порции записей о мужчинах и женщинах примерно равные, то совпадение пола будет иметь только небольшой
положительный вес (в конце концов, существует вероятность пятьдесят-на-лятьдесят, что в любых двух случайно
выбранных записях будет указан один и тот же пол). Несовпадению пола обычно присваивается высокий отрица
тельный вес (в большинстве наборов данных различия пола в записях, относящихся к одному и тому же субьекгу
медицинской помощи, встречаются редко).
Отметим, что эти процессы свойственны не только для компьютерных технологий. Лицо, предпринимающее
ручную проверку записей, аналогичным образом формирует мнение о вероятности того, что различные записи от
носятся к одному и тому же субьекту медицинской помощи.
С.5 Текущий и ретроспективный поиск совпадения
Заслуживают обсуждения два друтих варианта поиска совпадения: текущий (активный) и ретроспективный
(пассивный).
Текущий (активный) поиск совпадения вычисляется непосредственно в процессе регистрации или оказания
медицинской помощи (в режиме реального времени или с помощью немедленного ручного просмотра данных, на
ходящихся в распоряжении медрегистратора). В этом случае для выявления совпадения субъекту могут быть «не
отходя от места» заданы дополнительные вопросы, и качество данных может быть подтверждено или улучшено.
Ретроспективный (пассивный) поиск совпадения проводится уже после того как процесс регистрации или оказания
медицинской помощи произошел, и для уточнения возможности совладения может понадобиться привлечение
третьей стороны.
С.6 Выбор методологии совпадения
Методология поиска совладения, используемая на практике, должна учитывать назначение результатов
поиска, природу и качество сопоставляемых данных и относительные риски, связанные с ошибками первого
69