ГОСТ Р 53556.0—2009
кладмых областях — от простого TTS до звуковой презентации с TTS и дублирования кинофильмов с ис
пользованием TTS.
3.3.2 Инструменты кодирования звуковых сигналов
3.3.2.1 Назначение
Инструменты кодирования звуковых сигналов разработаны для передачи идекодирования записан
ных музыкальных и других аудиосаундтреков.
3.3.2.2 Инструменты основного аудиокодирования
ГОСТ Р 53556 стандартизирует кодирование сигналов естественного звука при скоростях передачи
данных в пределах от 6 кбит/с до нескольких сотен кбит/с на аудиоканал для моно-, двух каналов и муль
тиканальных стереоканалов. Общее высококачественное сжатие обеспечивается стандартом MPEG-4
ААС. представляющим собой стандарт MPEG-2 ААС с определенными усовершенствованиями. Для ско
рости передачи цифровыхсигналов 64 кбит/с на канал и выше этот кодер прошел проверочное тестирова ние
при строгих условиях выполнения критерия «неразличимого качества», как это определено Европейс ким
союзом радиовещания.
Инструменты основного аудиокодирования (GA— general audio) включают набор инструментовААС,
расширенный альтернативным квантованием и схемами кодирования Twin-VQ и BSAC. Общий аудиокодер
использует перцептуальный банк фильтров, сложную модель маскирования, технику формирования шума,
канальное сопряжение, бесшумное кодирование и распределение бит. чтобы обеспечить максимальное
сжатие при максимально возможном качестве. Стандарты психоакустического кодирования, разрабатывае
мые группой MPEG, представляют современное состояние этой технологии, начиная со стандарта MPEG-1
аудио. Стандарт MPEG-4, основное аудиокодирование, продолжает эту традицию.
Для скоростей передачи данных впределах от 6 кбит/сдо 64 кбит/с на канал ГОСТ Р 53556 обеспечи
вает расширения инструментов GA кодирования, которые позволяют владельцу контента достичь кодиро
вания высшего качествадля желательной скорости передачи данных. Более того, с GA кодеромдоступны
различные варианты масштабирования скорости передачиданных. Методы малой скорости передачи дан
ных и способы масштабирования, предоставленные в пределах этого комплекта инструментов, были также
проверены с помощью формальных текстов MPEG.
Функциональные возможности кодирования с малой задержкой в соответствии с ГОСТ Р 53556 позво
ляют распространить использование GA с низкой скоростью передачи данных на приложения, требующие
малой задержки в цепочке кодирования/декодирования (например, полнодуплексная связь в реальном
времени). В отличие от традиционных кодеров с малой задержкой, основанных на технологии кодирования
речи, концепция этого кодера с малой задержкой основана на общем перцептуальном звуковом кодирова
нии и таким образом является подходящей для широкого диапазона сигналов звуковой частоты. В частнос ти
— кодер получен из испытанной архитектуры MPEG-2/4 ААС и емудоступны все возможности кодирова ния
2 (стерео) или больше (многоканальных) звуковых каналов кодером с малой задержкой. Он работает до
частот дискретизации 48 кГц и использует меньшую длину фрейма — 512 или 480 отсчетов, по сравне нию
с 1024 или 960 отсчетами, используемыми встандарте MPEG-2/4 ААС для обеспечения кодирования
общих сигналов звуковой частоты с алгоритмической задержкой, не превышающей 20 мс. Размер окна,
используемого в анализе и синтезе банка фильтров, уменьшен вдва раза. Никаких переключений блоков
не используется с тем. чтобы избежать задержки «предвидения» из-за блока, переключающего решение.
Для того чтобы уменьшить артефакты предэха в случае сигналов с переходными процессами, использова
но переключение формы окна. Для частей сигнала без переходных процессов используется синусное окно, в
то время как «окно с малым перекрытием» используется для частей с переходным процессом. Использо
вание буфера битов в кодирующем устройстве минимизировано для получения желательной задержки. В
крайнем случае никакие битовые буфера не используются вообще.
Побитовое арифметическое кодирование MPEG-4 BSAC используется в комбинации с инструмента
ми ААС кодирования и заменяет бесшумовое кодирование квантованных спектральных данных и масш
табных коэффициентов. MPEG-4 BSAC обеспечивает тонкуюградацию масштабирования сшагом 1кбит/с на
аудиоканал и с шагом 2 кбит/с — для сигнала стерео. Используется один поток базового уровня и
много малых потоков уровня расширения. Для того чтобы получить тонкую масштабируемость шага, к
квантован ным спектральнымданным применяется схема нарезания бит. Сначала квантованные
спектральные значе ния группируют вдиапазонах частот. Каждая из этих групп содержит квантованные
спектральные значения в их двоичном представлении. После этого биты группы обрабатывают всекторах
согласно их значениям. То есть сначала обрабатывают все старшие значащие биты (MSB) квантованных
значений в группе. Эта нарезка битов при кодировании использует схемуарифметического
кодированиядля получения энтропий-
9