Хорошие продукты и сервисы
Наш Поиск (введите запрос без опечаток)
Наш Поиск по гостам (введите запрос без опечаток)
Поиск
Поиск
Бизнес гороскоп на текущую неделю c 29.12.2025 по 04.01.2026
Открыть шифр замка из трёх цифр с ограничениями

ГОСТ Р ИСО 24614-1-2013; Страница 11

или поделиться

Ещё ГОСТы из 41757, используйте поиск в верху страницы ГОСТ Р ИСО 24610-2-2013 Менеджмент языковых ресурсов. Структуры элементов. Часть 2. Декларация системы элементов (В настоящем стандарте предлагается формат представления, хранения и обмена для структур элементов в прикладных системах, основанных на использовании естественного языка, как для аннотирования, так и для формирования лингвистических данных. Основная цель состоит в том, чтобы предложить такой формат машинной обработки, который позволяет определить иерархию типов и декларировать ограничения, накладываемые на множество спецификаций элементов и на операции со структурами элементов, обеспечивая таким образом средства контроля соответствия каждой структуры элементов их базовой спецификации) ГОСТ Р ИСО 24616-2013 Менеджмент языковых ресурсов. Многоязычная информационная система (Настоящий стандарт предоставляет общую платформу для моделирования и организации многоязычной информации в различных областях применения, таких как локализация, перевод, мультимедийное аннотирование, управление документооборотом, поддержка электронных библиотек и разнообразные прикладные информационные модели и моделирование предприятий. Описываемая в стандарте многоязычная информационная система MLIF (multilingual information framework) содержит в себе метамодель и совокупность общих категорий данных (по ИСО 12620:2009) для различных областей применения) ГОСТ 32335-2013 Смазки пластичные. Определение коррозионного воздействия на медную пластинку (Настоящий стандарт устанавливает метод определения коррозионного воздействия пластичных смазок на медную пластинку)
Страница 11
Страница 1 Untitled document
ГОСТ Р ИСО 24614-1—2013
Пример для китайского языка показан в форме графа на рисунке 6.
Первичные данные: Й ЗШ Й Й
Первичная сегментация:
.Чу
(YV
0 П1%2
А
3
4
Й
5
Пословная сегментация:
/V
\
0П1%2
fu
3
т
4
£]5
Рисунок 6. Иллюстрация первичной сегментации и пословной сегментации
На уровне первичной сегментации каждый символ помечается как интервал между двумя
указателями местоположения (например, первый символ «6» на рисунке 6 помечается интервалом
<0,1>). На уровне лингвистического аннотирования пословной сегментации первый результат «ЙЗЙ»
(«white vegetable/ белое растение») определяется как слово, помеченное интервалом <0,2>,
поскольку эти два символа не могут рассматриваться независимо. Второй единицей является слово
из одного символа «Я» («и»).
Третьей единицей «ЙЙ» («pig meat/свиное мясо», «pork/свинина»)
является фразовое образование, помеченное интервалом <3,5> с внутренней структурой, которая
состоит из двух WSU «Й» («pig/свиное») и «Й» («meat/мясо»), помеченных интервалами <3.4> и
<4,5>. соответственно. В последнем случае существует два WSU, поскольку эти два символа могут
существовать независимо, и каждый из них может вносить свой вклад в смысловое значение.
Пословная сегментация применяется к необработанному тексту и заканчивается разбиением
заданного текста на последовательность WSU; в свою очередь. WSU может иметь внутреннюю
структуру сегментации, когда разрешаются альтернативные сегментации. Во фрагменте текста
задано предложение «Джон покинул Соединённые Штаты Америки»: это предложение сначала можно
разделить на сегменты, называемые «маркерами», на основе некоторых правил сегментации - в
данном случае просто на основе идентификации пробелов (для языков, в которых не используются
пробелы, например, для китайского языка, для расстановки меток необходимо использовать другие
правила). Затем, путём обращения к словарю цепочка сегментов, таких как
«the United States of
America», может трактоваться как одна лексическая единица, называемая «словом» или MWE и
рассматриваемая как тип слова. Результаты второго этапа зависят от содержания словаря:
некоторые словари могут включать не всю цепочку «the United States of America» как лемму, а только
«United States of America» или даже только «United States».
4 Общие принципы пословной сегментации
4.1 Универсальный принцип морфологии
Универсальный принцип, положенный в основу стандарта ИСО 24614. состоит в том. что в
каждом языке констатируется наличие слов и меньших лексических единиц, называемых
«морфемами».
4.2 Принципы обоснования наличия WSU
4.2.1 Общие положения
Для контроля правильности выделения единиц пословной сегментации ниже приводятся две
группы не зависящих от конкретного языка принципов: одна основана на лингвистической концепции, а
другая выбрана с практической точки зрения. Специфичные для того или иного языка исключения
описываются в других частях ИСО 24614, где рассматриваются конкретные языки. В разных
ситуациях могут использоваться разные принципы, даже применительно к идентичным строкам
текста.
4.2.2 Принципы, основанные на лингвистической концепции
а)Принцип связанной морфемы
9