ГОСТ Р ИСО 24614-1—2013
2.21 редупликация (reduplication): Явление повторения слова целиком или частично.
2.22 основа (stem):
Л
ингвистическая единица, чья форма меньше или равна форме
единственной лексемы и которая может подвергаться инфлективному, агглютинативному,
композиционному или словообразовательному процессу.
(ISO 24613:2008]
2.23 слово (word):
Л
ексема, которая, как минимум, характеризуется частью речи.
[ISO 24613:2008]
2.24 форма слова (word form): Морфосинтаксический вариант данного слова.
П р и м е р - В английском языке цепочка слов «find», «finds», «found», и «finding» представляет
различные формы слова «find».
2.25пословнаясегментация(wordsegmentation):Процессразделениятекстана
последовательность единиц пословной сегментации.
2.26 единица пословной сегментации (word segmentation unit WSU): Форма слова или
символьная строка некоторого другого типа, которая трактуется как единица текста.
П р и м е ч а н и е- Символьная строка, которая не является формой слова, может состоять из
цифровых символов, иностранных символов, знаков пунктуации или некоторых других разнообразных символов,
таких как китайские иероглифы, химические знаки, например. НгО. или сочетание латинских и цифровых
символов, например, F16.
2.27структура слова (word structure): Внутренняя структура слова, выявляемая при
морфологическом анализе.
П р и м е ч а н и е -В агглютинативных языках, например, корейском, японском и турецком, слово может
состоять из последовательности морфем со сравнительно высоким отношением морфем на слово, где каждый
включенный аффикс (как словообразовательный, так и инфлективный) обычно однозначно выражает конкретное
грамматическое значение. Структура слова в этих языках может быть очень сложной, со свободными
морфемами и отдельными аффиксами как составляющими его элементами.
2.28составное слово (word compound): Сложное слово, общее значение которого
совершенно не выводимо из составляющих его частей.
П р и м е р - «Hotdog» (бутерброд с сосиской), «ice-cream» (мороженое), «blackboard» (информационная
доска).
3 Базовая структура для пословной сегментации
3.1 Основные понятия, относящиеся к пословной сегментации
Понятия, описанные в данном разделе, важны для понимания принципов пословной
сегментации.
На рисунке 1 показано взаимоотношение между абстрактнымисущностями «морфемой» и
«лексемой» и конкретными сущностями, «морфом», «формами слова» и «словарём». Конкретной
формой морфемы является морф. Конкретной формой лексемы является форма слова. Словарь
составляется в основном из лемм, которые выводятся из форм слова с помощью процесса
лемматизации.
ПРИМЕЧАНИЕ 1: Термины, такие как «морфема» и «слово» имеют различные значения в областях
лингвистики и терминологии. Эти и другие термины используются (как описано в разделе 2) в соответствии с их
лингвистической интерпретацией.
4