ГОСТРИСО 24619—2013
жде опубликованных текстов и по ним доступны соответствующие метаданные, то такие тексты и их части при необ
ходимости тоже будут адресоваться с использованием обычных соглашений по косвенному цитированию.
К числу практических рекомендаций по адресации фрагментов текстовых файлов относятся следующие ма
териалы:
- по использованию байтовых или символьных сдвигов для указания позиций или «пропусков» а тексте име
ется релевантная технология. Типстера (26]. GATE (10] и всевозможные производные методы от GATE.
- IETF RFC 5147, URI Fragment Identifiers for the text/plaln Media Type (Идентификаторы URI для текстовых и
открытых мультимедийных фрагментов), основывающиеся на использовании строковых или символьных сдвигов
либо тех и других одновременно:
-для документов XML. HTML, XPomter имеется, нвпример. технология Annotea (2). которая представляет со
бой проект, поддерживаемый консорциумом W3C и предназначенный для расширения сотрудничества в области
электронных документов на основе использования тегов, закладок и прочих атрибутов аннотирования.
А.4.4 Источники знаний
К источникам знаний относятся словари, терминологии, реестры основных понятий, онтологии и т. п. Эта
предметная область отличается динамичными разработками, в том числе в части форматов представления инфор
мации. В задачу настоящего раздела не входит исчерпывающее описание современного состояния разработок; его
основная цель — показать лишь некоторые возникающие проблемы. В настоящем стандарте не ставится также за
дача предложить какие-то конкретные решения, поскольку выбор способов доступа к тем или иным разделам имею
щихся ресурсов, как и гарантирование живучести используемых механизмов адресации — это сфера
ответственности конкретных профессиональных сообществ, которые могут остановить свой выбор, например, на
методах, проверенных практикой. Таким методом может быть использование постоянных унифицированных указа
телей ресурсов (PURL), как в стандарте «Дублинское ядро*.
Что касается словарей, то в этой области ИСО 24613:2008 (15] предлагается метамодель для представления
информации в лексических базах данных. Необходимо, чтобы эта информация была доступной на разных уровнях
для внешних ресурсов или инструментальных средств, которые обеспечивают адресацию отдельных лексических
единиц, смысловых значений или даже более мелких информационных объектов, таких как хранимые в словаре
морфологические части слов. Когда словарь представляется в формате XML. для описания ссылок на него может
использоваться расширяемая спецификация XPomter. Сам словарь может тоже содержать ссылки на внешние ре
сурсы. такие как звук или видео, для иллюстрации произношения или примеров использования лексических еди
ниц. Такие ссылки, как правило, относятся не только к ресурсу в целом, но и к его частям, таким как
видеофрагменты. В случае обращения к части ресурса его идентификатор должен быть дополнен специализиро
ванным указателем раздела ресурса, предназначенным для обеспечения доступа к нужному фрагменту информа
ции. Наконец, лексиконы LMF. как и все другие модели, охватываемые семейством стандартов технического
комитета ИСО/ТК 37. обеспечивают ссылки на элементы Реестра категорий данных OCR (Data Category Registry),
определенного ИСО 12620.
Такие инструментальные средства, как LEXUS (17] (где реализована схема лексической разметки), работают
а среде мультимедийных словарей, а которых ресурсы различных типов оказываются тесно переплетеннымидругс
другом. В таких случаях необходимо иметь механизм непротиворечивой адресации дпя гарантии
совместимости ресурсов.
Применительно к терминологиям и реестрам основных понятий, таким как ISO DCR, должна существовать
возможность обращения к отдельным статьям. Базовый уровень совместимости может быть обеспечен путем вы
борки статей, которые считаются идентичными, и объявления их таковыми.
Если отдельный ресурс может адресоваться с использованием некоторого унифицированного механизма, та
кого как PID-идентификатор. то идентификаторы разделов ресурса в значительной степени зависят от типа запраши
ваемого ресурса. Для некоторых типов ресурсов появляются стандарты, в которых рассматривается эта проблема,
однако существуют типы, для которых ситуация остается в значительной мере неясной, что иллюстрируется следую
щим примером.
Пример — Применительно к базам знаний, которые содержат в дополнение к определениям кон
цептов еще и отношения между ними, для представления информации все чаще используется формат
RDF. В таких случаях для обращения к графу или подграфу должен применяться идентификатор разде ла
ресурса. Для этой цели обсуждались различные технические решения, в том числе стандартизован ные
запросы, сформулированные на языке запросов ROF 112).
А.5 Адресация коллекций ресурсов
Проблема адресации коллекций ресурсов, относящихся к классу «публикуемых*, хорошо известна, однако
до сих пор нет ясности в отношении сложившихся практических методов, а используемые механизмы доступа не
всегда пригодны для машинной реализации и удобной интерпретации. Обычно пользователи работают с публика
циями текстовых лингвистических корпусов так. как описано в документе Пенсильванского университета, касаю
щемся корпуса американского варианта разговорного английского языка:
15