Хорошие продукты и сервисы
Наш Поиск (введите запрос без опечаток)
Наш Поиск по гостам (введите запрос без опечаток)
Поиск
Поиск
Бизнес гороскоп на текущую неделю c 29.12.2025 по 04.01.2026
Открыть шифр замка из трёх цифр с ограничениями

ГОСТ Р ИСО 24614-1-2013; Страница 3

или поделиться

Ещё ГОСТы из 41757, используйте поиск в верху страницы ГОСТ Р ИСО 24610-2-2013 Менеджмент языковых ресурсов. Структуры элементов. Часть 2. Декларация системы элементов (В настоящем стандарте предлагается формат представления, хранения и обмена для структур элементов в прикладных системах, основанных на использовании естественного языка, как для аннотирования, так и для формирования лингвистических данных. Основная цель состоит в том, чтобы предложить такой формат машинной обработки, который позволяет определить иерархию типов и декларировать ограничения, накладываемые на множество спецификаций элементов и на операции со структурами элементов, обеспечивая таким образом средства контроля соответствия каждой структуры элементов их базовой спецификации) ГОСТ Р ИСО 24616-2013 Менеджмент языковых ресурсов. Многоязычная информационная система (Настоящий стандарт предоставляет общую платформу для моделирования и организации многоязычной информации в различных областях применения, таких как локализация, перевод, мультимедийное аннотирование, управление документооборотом, поддержка электронных библиотек и разнообразные прикладные информационные модели и моделирование предприятий. Описываемая в стандарте многоязычная информационная система MLIF (multilingual information framework) содержит в себе метамодель и совокупность общих категорий данных (по ИСО 12620:2009) для различных областей применения) ГОСТ 32335-2013 Смазки пластичные. Определение коррозионного воздействия на медную пластинку (Настоящий стандарт устанавливает метод определения коррозионного воздействия пластичных смазок на медную пластинку)
Страница 3
Страница 1 Untitled document
ГОСТ Р ИСО 24614-1—2013
Н А Ц И О Н А
Л
Ь Н Ы ЙС Т А Н Д А Р ТР О С С И Й С К О ЙФ Е Д Е Р А Ц И И
Менеджмент языковых ресурсов. Пословная сегментация письменных текстов. Часть 1.
Основные концепции и общие принципы
Language resource management - Word segmentation of written texts - Part 1: Basic concepts and general principles
Дата введения — 2015—01—01
1 Область применения
В настоящем стандарте представляются основные понятия и общие принципы пословной
сегментации и даются не зависящие от языка руководящие указания по сегментации письменных
текстов надежным и воспроизводимым способом на единицы пословной сегментации (WSU).
ПРИМЕЧАНИЕ: В связанной с языком научно-исследовательской и практической работе слово
является фундаментальным и необходимым понятием. Поэтому для целей сегментации текста на
слова важно иметь универсальное определение того, что включает слово. Нельзя просто
использовать для разграничения слов правила, основанные на идентификации пробелов и знаков
пунктуации. Такие правила не учитывают случаи сложных слов, которые пишутся через дефис,
сокращений, идиом или словоподобных выражений, содержащих символы или цифры. Пословная
сегментация еще более проблематична в языках, которые не содержат пробелов для разделения
слов, например, для китайского и японского языков, а также в агглютинативных языках, где некоторые
классы функциональных слое реализуются как аффиксы, например, в корейском языке.
Некоторые применения и сферы, которые требуют сегментировать тексты на слова и к которым,
следовательно, применима данная часть ИСО 24614, представлены ниже
Перевод
Подсчет слов является главным методом оценки стоимости перевода. Пословная сегментация -
это стандартная функция в системах переводческой памяти и в инструментальных средствах
автоматизированного перевода (CAT). Пословная сегментация выполняется средствами извлечения
терминов, которые иногда предоставляются в системах управления терминологией и в средствах
CAT.
Управление контентом
Большинство систем и баз данных для управления информационным содержанием (контентом)
предусматривают поиск по отдельным словам. Содержание, по которому производится поиск, должно
быть сегментировано, чтобы была возможность сравнения со словом поиска. Кроме того, поисковые
функции требуют знания границ слов.
Технологии распознавания речи
Системы речевого воспроизведения текста синтезируют речь на базе слов и поэтому требуют
пословной сегментации для обеспечения возможности словарного поиска, расстановки ударений,
установления просодического образца идр.
Прикладная лингвистика
Различные системы обработки текстов на естественных языках (NLP) должны сегментировать
текст на слова для того, чтобы выполнить свои функции. Системы NLP включают:
- морфосинтаксические программы обработки.
- синтаксические анализаторы.
- программы проверки правописания.
- системы классификации текстов, и
- лингвистическое аннотирование корпуса текстов.
Л
ексикография
Л
ексические ресурсы часто оцениваются по их объёму - обычно на основе подсчёта числа слов.
ПРИМЕЧАНИЕ: Объём языковых ресурсов - весьма важный показатель для управления ими.
Количественное определение объёма языковых ресурсов, как правило, основывается на подсчёте
количества слов. Однако поскольку в приложениях NLP используются разные методы сегментации,
каждый из них подсчитывает число слов по-разному и даёт в итоге разные суммы для одного и того же
текста. Наличие надёжной воспроизводимой стандартной меры могло бы обеспечить получение
сопоставимых результатов. Однако это не значит, что приложения не могут использовать свои
специфическиеметодысегментации;например,всистемесинтезаречитекстможет
сегментироваться на меньшие или большие единицы по сравнению с другими приложениями.
Издание официальное
1