ГОСТ Р 53556.6-2013
Составляющая функция ttsPlay позволяет пользователю запускать синтез речи в
прямом направлении, в то время как ttsForward и ttsBackword позволяют пользователю
менятьпозициюзапускавоспроизведенияв прямомиобратномнаправлениях
соответственно. Функции иsStopSyliable, ttsStopWord и ttsStopPhrase определяют интерфейс
для пользователей, чтобы останавливать синтез речи на указанной границе, такой как слог,
слово и фраза. Составляющая функция ttsChangeSpeechRate является интерфейсом для
изменения темпа синтезируемый речи. Параметр скорости принимает значения от I до 16.
Составляющая функция ttsChangePitchDynamicRange является интерфейсом для изменения
динамического диапазона основного тона синтезируемой речи. Используя параметр этой
функции, уровень, пользователь может менять динамический диапазон от I до 16. Также
пользователь может изменить высоту оновного тона от 1 до 16 при использовании
параметра высоты в составляющей функции ttsChangePitchHeight. Составляющие функции
ttsChangeGender н ttsChangeAge позволяют пользователю изменять пол и возраст
производителя синтетической речи, назначая значения их параметрам, полу и возрасту
соответственно.
6.5 Интерфейс между синтезатором речи и конвертером фонем/закладок в FAP
В структуре MPEG-А синтезатор речи и анимация лица управляются синхронно.
Синтезаторречигенерируетсинтетическуюречь.ОдновременноTTSподает
phonemeSymbol и phonemeDuration, а также закладки в конвертер Phoneme/Bookmark-to-
FAP. Преобразователь фонем/закладок в FAP генерирует соответствующую анимацию лица
согласно phonemeSymbol. phonemeDuration и закладкам.
Синтезируемая речь и анимация лица относительно синхронизированы кроме времени
абсолютного смешивания. Синхронизация времени абсолютного смешивания приходит из
той же самой отметки времени смешивания потока битов TTS. Если Lip_Shape_Enable
устанавливается,тоLipJShapeJn_Sentenceиспользуется,чтобыгенерировать
phonemeDuration. Иначе TTS обеспечивает продолжительности фонем. Синтезатор речи
генерирует биты ударения и/нли wordBegin, когда у соответствующей фонемы есть
ударение, и/или начинается слово, соответственно.
В рамках MTTS_Text начало закладки для использования параметров анимации лица
идентифицируется ’<FAP’. Закладка длится до закрывающей угловой скобки ’>’
ЗакладкаподаетсяTtsFAPInterfaceсфонемойследующегословатекущего
предложения после закладки. Если после закладки нет никакого слова, закладка подается
TtsFAPInterface с последней фонемой предыдущего слова в текущем предложении. Чтобы
обеспечить анимацию сложных выражений и движения, разрешена последовательность до
40 закладок без слов между ними, starttime определяет время, мс. относительно начала
10