2
формирование поискового образа документа из терминов индексирования.
Перечисленные этапы могут быть объединены в составе технологических процедур при условии надлежащего выполнения каждого из этапов.
1.2. Поисковый образ документа (ПОД) формируют из выбранных терминов индексирования при помощи грамматических средств информационно-поискового языка (ИПЯ).
1.3. В процессе индексирования не рекомендуется описывать документ как физический объект (с точки зрения его формы, объема и пр.). Допускается отражать в ПОД подобную информацию, если она позволяет более точно установить соответствие документа информационной потребности пользователя системы.
2. АНАЛИЗ ДОКУМЕНТА
2.1. При анализе документа индексатору должна быть предоставлена возможность ознакомиться с документом в полном объеме. При невозможности исчерпывающего ознакомления с документом индексатор должен изучить имеющиеся текстовые части документа (основные источники индексирования):
справочный аппарат документа - заглавие (наименование), аннотацию, реферат, содержание (оглавление), предисловие, заключение и др.;
введение;
заголовки частей и глав;
первые фразы глав и параграфов;
иллюстрации, схемы, таблицы и подписи к ним;
слова и группы слов, которые в тексте подчеркнуты или выделены полиграфическими средствами.
Индексирование только по заглавиям является неполноценным. При индексировании по рефератам и аннотациям следует следить за адекватностью передачи в них содержания документа.
2.2. При анализе нетекстовых (аудиовизуальных и других) документов, которые помимо чтения требуют просмотра, прослушивания, испытания объекта в действии и других подобных процедур, допускается индексирование их по имеющемуся текстовому компоненту (наименованию, краткому описанию и т.п.), но и в этом случае индексатору должна быть предоставлена возможность полного ознакомления с документом, если текстовый материал представляется недостаточным.
3. ВЫБОР ПОНЯТИй, ХАРАКТЕРИЗУЮЩИХ СОДЕРЖАНИЕ ДОКУМЕНТА
3.1. Число характеристик и понятий, отраженных в ПОД, определяет его полноту и является важнейшим показателем качества индексирования.
3.1.1. В ПОД необходимо отразить все понятия, которые могут иметь ценность для пользователей системы.
В документе может быть выявлено более одной темы из сферы интересов пользователей. Эти темы должны рассматриваться раздельно.
3.1.2. Тематика, отражаемая при индексировании, не должна ограничиваться узкими рамками непосредственных интересов пользователей ИПС. Следует включать в ПОД также понятия, связанные с побочными аспектами документа (например, социальные и экономические аспекты научно-технических исследований).
3.1.3. При выборе понятий основным критерием является потенциальная ценность понятия для выражения содержания документа или для его поиска. При этом необходимо ориентироваться на типичные запросы к ИПС:
отбирать понятия, наиболее употребительные в коллективе пользователей ИПС;
уточнять состав лексики и грамматические правила ИПЯ па основе обратной связи с пользователями.
Изменения, вносимые в ИПЯ, не должны нарушать общую структуру и логику, заложенные при его создании.