ГОСТ Р 53556.0—2009
скоростью передачи данных разрешен, возможна работа с более низкой средней скоростью передачи
данных. Закодированная речь, использующая режим переменной скорости со средней скоростью переда чи
данных 1.5 кбит/с и средней скоростью передачи данных 3.0 кбит/с. по существу обладает тем же
качеством, что и при фиксированной скорости 2.0 кбит/с и 4.0 кбит/с соответственно. Функция изменения
тона и скорости во время декодирования поддерживается для всех режимов. Метод ER HVXC имеет син
таксис полезногобитового потока с классами чувствительности к ошибкам, который используется с инстру
ментом ЕР; при этом поддерживается функциональность маскировки ошибок для использования в кана
лах. подверженных ошибкам, например мобильных каналах связи. ER HVXC речевой кодер предназнача
ется для следующего диапазона приложений; мобильной и спутниковой связи, телефонной связи через
Интернет, для компактных носителей и баз речевых данных.
CELP MPEG-4 — известный алгоритм кодирования с новой функциональностью. Обычные кодеры
CELP предлагают сжатие при единственной скорости передачи данных и оптимизированы для конкретных
приложений. Сжатие — одна из функций, выполняемых CELP MPEG-4. Дополнительно MPEG-4 позволяет
использовать один основной кодер во множестве приложений, выполнять масштабируемость скорости пе
редачи данных и ширины полосы пропускания, а также генерировать полезные битовые потоки в произ
вольных скоростях передачи данных. Кодер CELP MPEG-4 поддерживает две частоты дискретизации, а
именно 8 и 16 кГц. Ширина полосы пропускания составляет 100—3800 Гцдля частоты дискретизации 8 кГц и
50—7000 Гц — для частотыдискретизации 16 кГц. Инструмент сжатия тишины включает всебя детектор
голосовой активности (VAD). модуль прерывистой передачи (DTX) и модуль генератора комфортного шума
(CNG). Инструмент кодирует/декодирует входной сигнал с более низкой скоростью передачи данных во
время паузы в разговоре (тихие фреймы). Во время разговора (в речевых фреймах) используется кодиро
вание и декодирование CELP MPEG-4.
Инструмент сжатия тишины уменьшает среднюю скорость передачи данных благодаря использова
нию сжатия с более низкой скоростью передачи данных для тишины. В кодере используется детектор
голосовой активности для того, чтобы различить области с нормальной речевой активностью и области с
тишиной или фоном. Во время нормальной речевой активности используется кодирование CELP. В других
временных интервалах передается дескриптор включения тишины (SID)для более низкой скорости переда
чи данных. Дескриптор SID запускает генератор комфортного шума (CNG) в декодере. Амплитуда и
спект ральная форма комфортного шума зависит от энергии и LPC-параметров. которые определяются
метода ми.аналогичными используемым в нормальном фрейме CELP. Эти параметры являются опционной
частью SID и могут быть обновлены по требованию.
MPEG провел обширные проверочные испытания в реальныхусловиях прослушивания, чтобы дока
зать эффективность набора инструментов кодирования речи.
3.3.1.3 Интерфейс преобразования текста в речь
Возможность преобразования текста в речь (TTS) стала распространенным типом информации и
играет важную роль в различных областях мультимедийного приложения. Например, используя функцио
нальность TTS. можно создать мультимедийный контент сдикторским текстом, не записывая естественную
речь.До MPEG-4 не было способа для поставщика мультимедийного контента дать команды неизвестной
системе TTS. С помощью MPEG-4 стандартизирован интерфейс TTS, какотдельный общий интерфейсдля
систем TTS. Этот интерфейс позволяет передавать речевую информацию в международном фонетическом
алфавите (IPA) или в текстовой (письменной)форме любого языка.
Гибридный/многоуровневый масштабируемый интерфейс TTS MPEG-4 является развитием обычной
оболочки TTS. Этот расширенный интерфейс TTS. используя просодическую информацию, взятую из есте
ственной речи, и суммируя ее с входным текстом, генерирует наиболее высокое качество синтетической
речи. Интерфейс и его формат полезного битового потока являются масштабируемыми в терминах этой
добавленной информации; например, если некоторые параметры просодической информации недоступны,
декодер может сгенерировать отсутствующие параметры поопределенным правилам. Нормативные алго
ритмы для синтеза речи и преобразование текста в фонемы в MPEG-4 не указаны, однако, отвечая цели,
которая заложена воснове интерфейса TTS MPEG-4, декодер должен полностью использовать всю предо
ставленную информацию согласно уровню потребностей пользователя.
Аналогично интерфейсу систем синтеза текста в речь MPEG-4 специфицирует объединенный
метод кодирования фонематической информации, параметров анимации лица (FA) и других параметров
анимации (АР). Используя данную методику, отдельный полезный битовый поток может использоваться
для управления интерфейсом преобразования текста в речь и декодером визуального объекта анимации
лица. Функциональность TTS простирается от обычного TTS до кодирования естественной речи, а в при-
8