ГОСТ Р 7.0.91—2015
Хотя классификационная и фасетная структура, используемая на этой стадии, может быть рудиментар
ной и не определяет возможную структуру тезауруса, она помогает выработке представления о такой
структуре. Главным результатом этой аналитической стадии должен быть список или набор нескольких
списков терминов, сгруппированных по темам или фасетам с указанием для каждого термина источни ка
и частотности. Вооруженный этими данным, редактор имеет возможность начать систематическое
построение тезауруса.
13.3Построение тезауруса
13.3.1 Основные положения
Термины должны обрабатываться по тематическим/фасетным группам или по иерархиям. Группы
синонимов и почти синонимов должны обрабатываться совместно, между ними должны быть установ
лены отношения эквивалентности. На этой стадии следует аккуратно выбирать термины и их иерархи
ческие отношения, принимая во внимание возможное дублирование, пересечение, пропуск терминов и
необходимую степень подробности. В этом процессе могут быть выработаны и введены лексические
примечания к терминам. Лучше всего, если запоминание даты ввода и формирование идентификатора
термина будет осуществляться автоматически с помощью программного обеспечения, и не потребуется
вводить их вручную с клавиатуры.
Если при предварительном сборе материала окажется, что существует тезаурус, определенная
часть которого может быть заимствована, открывается возможность ввести ее непосредственно в ис
пользуемую систему ведения тезауруса. Это сократит время, особенно если программное обеспечение
позволяет ввод структурированных данных с лексическими примечаниями и отношениями терминов.
Но при этом необходимо получить разрешение от правообладателей.
В некоторые программные продукты можно непосредственно ввести неструктурированные списки
терминов. Это сохраняет не так уж много времени, поскольку необходимо еще вводить отношения и
проводить тщательную проверку правописания, которое может быть случайно нарушено.
13.3.2 Последовательность построения тезауруса
При работе с иерархиями возникает вопрос, строить ли иерархию сверху вниз или снизу вверх.
Необходимо иметь обзор верхних уровней, что обеспечит надлежаще сбалансированное тематическое
покрытие тезауруса. Использование этого обзора помогает поместить предложения приглашенных спе
циалистов и пользователей в контекст общей структуры.
С другой стороны, работа на более дробных уровнях имеет тенденцию вскрывать аномалии, спо
собные повлиять на структуру верхних уровней. Наличие множества понятий нижних уровней иерар
хии, которые не находят подходящего размещения, говорит о необходимости развития соответствую
щей надструктуры.
Полезны обе стратегии построения и их следует применять комбинированно. Сначала до работы
на нижних уроа»*ях нужно подготовить заготовку структуры верхнего уровня. По мере продвижения ра
боты на нижних уровнях заготовка верхних уровней должна изменяться в соответствии с возникающи
ми потребностями.
Целесообразно работать с группами иерархически связанных терминов, вводя их совместно с
отношениями эквивалентности и иерархии. На этой стадии отношения ассоциации не могут быть вве
дены столь же легко, поскольку термины на другом конце ассоциаций обычно располагаются в другой
иерархии, которую еще только предстоит разработать. Ассоциативные отношения обычно вводят на
более поздней стадии, когда в системе представлен основной массив терминов.
При любой последовательности работ следует проводить контроль качества в таких аспектах как
полнота, дублирование, правописание, корректный выбор отношений и т. п.
13.3.3 Построение многоязычного тезауруса
При построении многоязычного тезауруса могут применяться три подхода. Выбор подхода за
висит от степени доступности человеческих, временных и финансовых ресурсов. Следует также при
нимать во внимание контекст предполагаемого использования, например, существует ли одноязычный
тезаурус в рассматриваемой области, и использовался ли он для индексирования документов, к кото
рым надо получить доступ.
а) Перевод одноязычного тезауруса
Перевод является распространенным и сравнительно недорогим путем построения многоязычно
го тезауруса. Он особенно выгоден, когда документы поискового массива уже были заиндексированы
по одноязычному тезаурусу. Однако, если был принят этот подход, язык исходного одноязычного теза
уруса приобретает статус доминирующего языка. Процесс перевода порождает в переводном языке
64