ГОСТ Р 53556.6 -2013
фонемы.
FO_Contour_each_Phone»ie- параметр определяет половину значения Я). Гц, в
момент времени FD_Contour_each_Phoneme_Time.
FO_Contour_each_Phoneme_Time - параметр определяет целочисленное время, мс. для
позиции FO_Contour_each_Phoneme.
Energy_Contour_each_Phoneme - три 8-битовых данных соответствуют значениям
энергии в позициях старта, середины и окончания фонемы. Величина энергии X
вычисляется как
х =ш/(501о&Д.р),
гдеАр.р является значением сигнала речи в размахе в определенной позиции.
Sentence.„Duration - параметр определяет продолжительность предложения, мс.
PositionjnJSentence- параметр определяет позицию текущей остановки в
предложении как прошедшее время, мс.
Offset - параметр определяет продолжительность очень короткой паузы перед стартом
вывода синтезируемой речи. мс.
Number_of_Lip_Shape - параметр определяет число вариантов формы губ, которые
будут обработаны.
Up_ShapeJn_Sentence - параметр определяет позицию каждой формы губ с начала
предложения, мс.
LipJShape - параметр определяет число индексации для текущей реализации формы
губ, которая будет обработана.
6 Процесс декодирования преобразования текста в речь MPEG- 4
Audio
ПредметомстандартизацииархитектурыдекодераМ-TTSявляютсятолько
интерфейсы, относящиеся к декодеру M-TTS.
В этой архитектуре различаются следующие типы интерфейсов:
интерфейс между демультиплексором и синтаксическим декодером;
интерфейс между синтаксическим декодером и синтезатором речи;
интерфейс от синтезатора речи к наборщику;
интерфейс от наборщика ксинтезатору речи;
интерфейс между синтезатором речи и преобразователем фоне.м/закладок в FAP.
6.1 Интерфейс между демультиплексором и синтаксическим декодером
Получая поток битов, демультиплексор передает кодированные потоки битов M-TTS
на синтаксический декодер.
8