ГОСТ Р 7.0.66—2010
значений интервала может отсутствовать, если значение параметра ограничено только с одной
стороны.
Указание об одновременности используют, когда у одного объекта сообщения наблюдаются все
заданные значения параметра. Указание об альтернативности используют, когда параметры одного
объекта сообщения должны быть выбраны из числа заданных.
9.9 Значения параметра могут быть представлены синтаксической конструкцией из двух терми
нов индексирования - числового выражения и наименования единицы величины — при необходимости
производить операции расчета или численного сравнения.
9.10 Числовые значения и их размерности в ПОД должны соответствовать требованиям к пред
ставлению числовых данных.
10 Автоматизированное индексирование
10.1 Цель автоматизации индексирования — это минимизация материальных и человеческих
ресурсов, затрачиваемых на процедуру индексирования, а также достижение стабильности и единооб
разия ее результатов.
10.2 Автоматизированное индексирование (АИ) осуществляют:
а) по тексту первичного документа;
б) по заглавию и аннотации или реферату документа.
АИ по тексту первичного документа должно включать в себя процедуру сжатия ПОД.
10.3 С использованием компьютерной техники осуществляют следующие содержательные эта
пы АИ:
1) выявление информативных частей документа;
2) идентификацию слов текста иприведение их к нормализованному виду(морфологический ана
лиз и синтез);
3) формирование списка ключевых слов исходного текста;
4) подбор дескрипторов по тезаурусу;
5) формирование ПОД.
10.4 Выявление информативных частей документа
Технология АИ должна предусматривать идентификацию и предоставление индексатору или
программе индексирования наиболее информативных фрагментов документа из списка, указанных в
5.1. Могут быть предусмотрены алгоритмы выявления информативных фрагментов по другим фор
мальным критериям, а также по решению специалиста-индексатора.
10.5 Идентификация слов текста
10.5.1 Процесс идентификации слов текстадолжен включать в себя отождествление словоформ
одного слова и определение ключевых слов текста. При этом может быть необходимо использование
интеллектуальных процедур для решения таких задач, как выявление и обработка синтаксических
конструкций, выявление и разрешение омонимии.
10.5.2 Для идентификации слов текста используют машинные словари {словари основ, пара
дигм, словосочетаний и т.д.). Словаридолжны быть представлены в базеданных системы иобеспече
ны средствами визуализации и ведения.
10.6 Формирование списка ключевых слов текста
10.6.1 В процессе формирования списка ключевых слов текста проводят синтаксический анализ
текста с учетом правил сочетаемости грамматических категорий данного естественного языка.
10.6.2 Синтаксический анализ текста решает задачи:
а) разделение текста на фрагменты по заданным критериям;
6) установление синтаксических зависимостей между словоформами текста;
в) отождествление словосочетаний;
г) нормализация выявленных ключевых слов.
10.7 Автоматическое формирование ПОД
10.7.1В процедуре АИ допускается формирование ПОД из свободных ключевых слов или дес
крипторов информационно-поискового тезауруса, используемого в данной области.
7