ГОСТ Р 53556.6 - 2013
Приложение А
(справочное)
Приложении декодера преобразования текста в речь MPEG-4 Audio
А.1 Общее
Эта часть приложения описывает прикладные сценарии для декодера M-TTS.
А.2 Прикладной сценарий: рассказчик истории MPEG-4 но требованию (STOD)
В приложении STOD пользователи могут выбрать историю из огромной базы данных
библиотек истории, которые сохраняются на жестких дисках или компакт-дисках. Система
STOD читает вслух историю через декодер М-TTS с инструментом анимации лица MPEG-A
или с соответственно выбранными образами. Пользователь может остановить и продолжить
воспроизведение в любой момент, когда он захочет, через пользовательские интерфейсы
локальной машины (например, мышь или клавиатура). Пользователь может также выбрать
пол, возраст, и теми речи электронного рассказчика историй.
Синхронизация между декодером М-TTS с инструментом анимации лица MPEG-4
реализуется при использовании того же самого времени композиции декодера М-TTS для
инструмента анимации лица MPEG-Л.
А.З Прикладной сценарий: преобразование текста в речь с кинофильмом XIPEG-
4Audio
В этомприложении синхронизируемоевоспроизведение декодера М-TTS и
закодированного кинофильма является самой важной проблемой. Архитектура декодера М-
TTS может обеспечить несколько степеней синхронизации. Выравнивая время смешивания
каждого TTSJSentence, может быть легко достигнута грубая степень синхронизации и
функциональности режима приема. Чтобы получить более тонкую степень синхронизации,
следует использовать информацию о LipJShape. Наиболее гонкая степень синхронизации
может быть достигнута при использовании информации о просодии и связанной с видео
информации, такой как Sentence_Duration. Position_in_Sentence и Offset.
С этой возможностью синхронизации декодер М-TTS может использоваться для
копирования кинофильма, используя LipJShape и Lip_ShapeJn_Sentence.
А.4 Закладки, использущне TTS и анимацию лица MPEG-4 Audio
соответственно режиму спецэффектов
Закладки позволяют анимировать лицо, используя параметры анимации лица (FAP) в
сочетании с анимацией рта, полученной из фонем. FAP закладки применяются к лицу, пока
12