ГОСТ Р 7.0.66—2010
- терминами, отражающими новые понятия, проверив их точность по словарям, энциклопедиям,
справочникам, классификационным таблицам, информационно-поисковым тезаурусам, терминологи
ческим стандартам и другим источникам, признанным авторитетными и в данной области.
7.2 Выбор терминов индексирования осуществляют согласно ГОСТ 7.25 или опубликованного
информационно-поискового тезауруса, который используют при составлении запросов к ИПС.
При использовании тезауруса допускается сокращать число терминов, включаемых в ПОД. за
счет исключения общих понятий, которые могут быть привлечены на этапе поиска документа или на
этапе составления поискового предписания на основании ссылок в статьях тезауруса.
7.3 Понятия, не представленные в словаре индексирования, но необходимые для формирова
ния ПОД. выражают одним из двух способов:
- новым специфическим термином, который включают в ПОД и в словарь.
- более общим термином, имеющимся в ИПЯ: при этом специфический термин направляют в
службу ведения ИПЯ для включения в словарь.
Новые понятия представляют наиболее близкими из существующих в ИПЯ лексических единиц, а
также оценивают полезность включения новых терминов в словарь с точки зрения эффективности
поиска.
7.4 При индексировании свободными ключевыми словами, взятыми из текста документа, они
должны быть приведены к канонической форме по ГОСТ 7.25. Длину словосочетаний рекомендуется
ограничивать двумя-тремя словоформами.
Схема индексирования с использованием информационно-поискового тезауруса приведена в
приложении А.
8 Формирование поискового образа документа
8.1 ПОД состоит из выбранных терминов индексирования, организованных с помощью грамма
тических средств ИПЯ данной ИПС.
8.2 В состав ПОД могут быть включены следующие категории данных, предусмотренные техно
логией индексирования конкретной ИПС:
- данные о степени нормализации терминов индексирования и применяемыйдля этогословарь;
- индивидуальные характеристики термина индексирования;
- связь терминов индексирования в синтаксических конструкциях ПОД.
Для включения в ПОД фактографических данных применяют грамматические категории, приве
денные в разделе 9.
8.3 По степени нормализации различают два типа терминов координатного индексирова
ния — дескрипторы и ключевые слова.
8.4 Термины индексирования должны быть представлены в ПОД в соответствии с орфографи
ческими правилами используемого в системе естественного языка.
8.4.1 Дескрипторы допускается представлять условными кодами, которые указаны в используе
мом словаре индексирования. В этом случае ИПС должна обеспечивать автоматический поиск орфог
рафических форм дескрипторов по их кодам.
8.4.2 Ключевые слова в многоязычных информационных системах с ПОД на основе различных
национальных языков должны быть снабжены пометами о принадлежности к тому или иному естест
венному языку.
8.5 Индивидуальные характеристики терминов индексирования являются факультативными
элементами ПОД, и их используют для уточнения содержания документа, организации процедур
информационного поиска или дальнейшей аналитико-синтетической обработкидокументов в системе.
К индивидуальным характеристикам относятданные о семантической и морфологической катего
риях термина индексирования, его роли и информационном весе, способе получения и предполагае
мом использовании.
8.5.1Семантическая характеристика термина индексирования заключается в отнесении его к
следующим лексикографическим категориям;
1) термин, выражающий научное или техническое понятие,
2) имя собственное, идентификатор;
3) наименование параметра;
4) значение параметра {выраженное текстом или именованной величиной);
5) числовое выражение;
6) обозначение единицы величины.
4