ГОСТ Р 7.0.91—2015
13.1.4 Распределение ответственности
На ранних стадиях разработки должен быть назначен редактор, который возьмет на себя ответ
ственность за ведение проекта на всех его этапах, возможно включающее как составление первона
чальной версии, так и ведение тезауруса в дальнейшем. В зависимости от объема работ в помощь
редактору может быть образована редакционная коллегия, а возможно и коллегия рецензентов. Когда
редактирование тезауруса соединено с анализом эффективности предметного индексирования по те
заурусу информационных ресурсов, это дает определенные преимущества.
13.1.5 Выбор программного обеспечения
Хотя тезаурус может быть создан без какого-либо программного обеспечения, такой ход событий
не может быть рекомендован. Повышение эффективности разработки и возможность предотвращения
канцелярских ошибок лежит на пути использования специально разработанной системы управления
тезаурусом.
Для выбора программного обеспечения должен быть составлен перечень требований на основе
положений раздела 14 и других соображений. Следует оценить все продукты, имеющиеся на рынке.
Если ни один из них не обладает всеми требуемыми свойствами, может оказаться необходимым опре
деленный компромисс. Если же компромисс невозможен, следует адаптировать к своим требованиям
один из существующих продуктов, либо разработать новое программное обеспечение.
13.2Ранняя стадия создания
13.2.1 Как и когда начинать
Поскольку тезаурус создается для поддержки индексирования и поиска в базе данных или другом
ресурсе, тезаурус должен быть создан до начала наполнения базы данных, чтобы обеспечить систе
матичность индексирования. Однако до построения значительной части базы данных бывает трудно
решить, какие термины необходимы в тезаурусе. Для того чтобы исключить последующее переиндек-
сирование, хотя бы часть тезауруса должна быть готова заранее. Однако следует предусмотреть не
обходимость дальнейшего продолжения работы над тезаурусом.
Существуют программные средства, позволяющие проанализировать совокупность текстов в тре
буемой предметной области и выявить значимые слова и фразы с их частотой использования. Некото
рые программные пакеты имеют возможность скомпоновать выявленные термины в структурирован
ный формат. Хотя автоматически созданный тезаурус скорее всего не будет соответствовать качеству
интеллектуально созданного тезауруса, но как источник идей его можно использовать для ускорения
интеллектуального процесса.
13.2.2 Сбор терминов и понятий
Как отмечено в 5.1. термины в тезаурусе это только представители понятий, на которых основыва
ется тезаурус. При построении тезауруса конечная цель состоит в сборе и организации понятий, но на
практике это достигается сбором терминов и упорядочением их так. чтобы они адекватно представляли
требуемые понятия.
Предпочтительные источники терминов перечислены в 13.1.4. перечисления а) — d). Необходимо
иметь полный набор литературы, освещающей центральные вопросы разрабатываемой области зна
ния. Как описано в 13.2.1, для выявления ключевых слов и фраз в текстах может быть использована ав
томатическая технология. Поскольку сравнительно просто исследовать материал, который уже введен в
систему, необходимо, как можно больше внимания уделять выяснению того, что именно потребуется
искать пользователям, например, анализировать списки запросов, которые были зарегистрированы
справочной службой. При выработке предложений по включению в тезаурус понятий и терминов следу
ет учитывать и мнение самих пользователей.
На начальной стадии нет необходимости принимать решения о правильном представлении по
нятий. Первоначальная задача состоит в собирании имеющихся терминов с указанием их источника и
частотности.
13.2.3 Анализ терминов
Еще до ввода в тезаурус собранные термины должны быть рассортированы в систематическом
порядке. Если система ведения тезауруса не обеспечивает поддержку этой задачи, то для первона
чальной сортировки могут быть использованы стандартные программы персонального компьютера, на
пример, электронные таблицы. При этом, если термины поучены из машиночитаемого источника, то
этот процесс выполняется легко и быстро. Когда собранные термины будут записаны в электронных та
блицах с их источником и частотностью, следует их распределить по предметным областям и фасетам
(см. раздел 11) так, чтобы сходные термины со всеми их синонимами и вариантами оказались рядом.
63