Приложение В
(справочное)
ГОСТРИСО 24615—2016
Связь с системой лингвистического аннотирования
Для реализации системы SynAF необходимо руководствоваться требованиями ИСО 24612 к системе линг
вистического аннотирования (LAF — Linguistic Annotation Framework). LAF обеспечивает общую основу для пред
ставления аннотаций, описанную в работах Айда (№е) и Ромари (Romary) [14). [15). [16). Разработка этой основы
строилась на достижениях сложившейся практики и обобщении различных принципов лингвистического аннотиро
вания. использовавшихся на протяжении последних 15— 20 лет. Ядром системы является спецификация опорной
абстрактной модели, из которой получаются аннотации, ориентированные на конкретные цели информационного
обмена.
2121
Рисунок В.1 — LAF как базовый продукт
Рисунок В.1 иллюстрирует принципы использования LAF применительно к шести различным форматам
пользовательских аннотаций (с метками от А до F). которые требуют двух преобразований для каждой схемы,
одно — для отображения в базовый формат и одно — для преобразования из базового формата, представленного
разработчиком схемы. Следовательно, максимальное число схемных преобразований составит 2л. в отличие от
(лг—
п )
преобразований при отсутствии базового формата.
Для преобразования к опорной модели схема аннотирования должна быть изоморфна абстрактной модели
(или сделана таковой в процессе преобразования); эта модель состоит, во-первых, из эталонной структуры для при-
вязки внешних аннотаций к первичным данным, представленной ориентированным графом (орграфом), и, во-вто
рых. из представления структуры свойств содержимого аннотации. Таким образом, аннотация представляет собой
орграф ссылок на л-мерные области первичных данных, равно как и на другие аннотации, в этой графе узлы анноти
руются структурами элементов, которые, в свою очередь, формируют содержимое (контент) аннотации. Формаль но
LAF включает в себя следующие компоненты;
- модель данных для аннотаций, основанную на вышеуказанных орграфах и определенную как граф аннота
ций; граф аннотаций G — это совокупность вершин V(G) (термин «вершина» является синонимом термина «узел»)
и множества дуг E(G). Вершины идуги могут снабжаться одним или несколькими свойствами. Свойство определяет ся
четверкой элементов (G’. VE. К. V). где G’ — это граф, VE — вершина в G’. К — имя свойства и V — значение
свойства;
- первичные данные с базовой сегментацией, которая определяет дуги, идущие от одного виртуального узла к
другому и расположенные, между «символами» первичныхданных, гдесимвол определяется как смежная байтовая
последовательность конкретной длины (по умолчанию для текста принимается значение UTF-16). Результирующий
граф G трактуется как реберный граф G’. узлами которого являются дуги графа G и который представляется листо
выми («стоковыми») вершинами. Эти вершины образуют основу для однослойного или многослойного аннотирова
ния. Над первичными данными может определяться множество сегментаций, а одна и та же сегментация может
соотноситься с множественными аннотациями;
- публикации модели данных, одна из которых обозначается как опорная;
- методы манипулирования моделью данных.
Следует иметь в виду, что LAF не порождает спецификаций для категорий содержимого аннотаций (то есть
аннотаций, описывающих соответствующие лингвистические явления); стандартизация таких аннотаций требует
гораздо более сложных разработок. Архитектура LAF ориентирована на взаимодействие с реестром категорий дан
ных [Data Category Registry (OCR)], содержащим предопределенные элементы данных и схемы, которые могут
использоваться непосредственно в аннотациях вместе со средствами определения новых категорий и
модификации существующих [14]. [15].
13