ГОСТ Р ИСО 24614-1—2013
При заданных необработанных первичных данных текст сегментируется на символы и
маркируется указателями местоположения, а затем сегментируется на подходящие базовые единицы в
соответствии с требованиями стандарта ИСО 24612. Необработанные и аннотированные текстовые
корпусы обеспечивают основу для построения словаря, который содержит словоформы и. возможно,
список связанных морфем и символов. Также предоставляется набор правил пословной сегментации.
Эти корпусы, правила пословной сегментации и словарь вместе составляют ресурсы, необходимые
для преобразования первичной сегментации к сегментации, образуемой WSU.
8