ГОСТ Р ИСО 24614-1—2013
Пример для китайского языка показан в форме графа на рисунке 6.
Первичные данные: Й ЗШ Й Й
Первичная сегментация:
"ч.’Чу
(YV
0 П1%2
А
3
№
4
Й
5
Пословная сегментация:
/V
\
0П1%2
fu
3
т
4
£]5
Рисунок 6. Иллюстрация первичной сегментации и пословной сегментации
На уровне первичной сегментации каждый символ помечается как интервал между двумя
указателями местоположения (например, первый символ «6» на рисунке 6 помечается интервалом
<0,1>). На уровне лингвистического аннотирования пословной сегментации первый результат «ЙЗЙ»
(«white vegetable/ белое растение») определяется как слово, помеченное интервалом <0,2>,
поскольку эти два символа не могут рассматриваться независимо. Второй единицей является слово
из одного символа «Я» («и»).
Третьей единицей «ЙЙ» («pig meat/свиное мясо», «pork/свинина»)
является фразовое образование, помеченное интервалом <3,5> с внутренней структурой, которая
состоит из двух WSU «Й» («pig/свиное») и «Й» («meat/мясо»), помеченных интервалами <3.4> и
<4,5>. соответственно. В последнем случае существует два WSU, поскольку эти два символа могут
существовать независимо, и каждый из них может вносить свой вклад в смысловое значение.
Пословная сегментация применяется к необработанному тексту и заканчивается разбиением
заданного текста на последовательность WSU; в свою очередь. WSU может иметь внутреннюю
структуру сегментации, когда разрешаются альтернативные сегментации. Во фрагменте текста
задано предложение «Джон покинул Соединённые Штаты Америки»: это предложение сначала можно
разделить на сегменты, называемые «маркерами», на основе некоторых правил сегментации - в
данном случае просто на основе идентификации пробелов (для языков, в которых не используются
пробелы, например, для китайского языка, для расстановки меток необходимо использовать другие
правила). Затем, путём обращения к словарю цепочка сегментов, таких как
«the United States of
America», может трактоваться как одна лексическая единица, называемая «словом» или MWE и
рассматриваемая как тип слова. Результаты второго этапа зависят от содержания словаря:
некоторые словари могут включать не всю цепочку «the United States of America» как лемму, а только
«United States of America» или даже только «United States».
4 Общие принципы пословной сегментации
4.1 Универсальный принцип морфологии
Универсальный принцип, положенный в основу стандарта ИСО 24614. состоит в том. что в
каждом языке констатируется наличие слов и меньших лексических единиц, называемых
«морфемами».
4.2 Принципы обоснования наличия WSU
4.2.1 Общие положения
Для контроля правильности выделения единиц пословной сегментации ниже приводятся две
группы не зависящих от конкретного языка принципов: одна основана на лингвистической концепции, а
другая выбрана с практической точки зрения. Специфичные для того или иного языка исключения
описываются в других частях ИСО 24614, где рассматриваются конкретные языки. В разных
ситуациях могут использоваться разные принципы, даже применительно к идентичным строкам
текста.
4.2.2 Принципы, основанные на лингвистической концепции
а)Принцип связанной морфемы
9