ГОСТ Р 53556.0—2009
Звуковая композиция — это использование множества индивидуальных «звуковых объектов» и мето
дов их объединениядля создания единственного саундтрека. Это похоже на процесс записи саундтрека в
мультиканальном соединении каждого музыкального инструмента, голоса актера и звуковых эффектов вих
собственных каналах и затем «смешиванием» множества каналов на единственный канал или единствен
ную стереопару. В MPEG-4 может передаваться само мультиканальное соединение с отдельными звуко
выми источниками, использующими различные кодирующий инструменты, и ряд команддля смешивания
также передается в битовом потоке. Поскольку получено множество звуковых объектов, они декодируются
отдельно, но не воспроизводятся для слушателя, а используются команды для смешивания, чтобы подго
товить единственный саундтрек из «сырого материала», данного в объектах. Этот финальный саундтрек
затем и проигрывается слушателю.
Проиллюстрироватьэффективностьэтого подхода можно таким примером: предположим, для опре
деленного приложения мы хотим передать голос человека, говорящего в звукоотражающей окружающей
среде с музыкальным фоном, в режиме стерео, с очень высоким качеством. Традиционный подход к коди
рованию потребовал бы использования общего кодирования звука с 32 кбит/с на канал или выше: но
звуковой источник слишком сложен, чтобы быть хорошо смоделированным простым, основанным на моде ли,
кодером. Однако в MPEG-4 мы можем представить саундтрек как соединение нескольких объектов: голос
человека с реверберацией добавляется к треку синтетической музыки. Мы передаем голосдиктора,
используя инструмент CELP при скорости 16 кбит/с, синтетическую музыку, используя инструмент SA при
скорости 2 кбит/с, и позволяем малому числу ресурсов (только несколько сотен байтов в качестве фиксиро
ванной издержки) описывать стереосмешивание и реверберацию. Используя MPEG-4 и объектно-баэиро-
ванный подход, можно описывать потоком со скоростью менее 20 кбит/с поток, для которого могла бы
потребоваться скорость64 кбит/с, при традиционном кодировании с эквивалентным качеством.
Дополнительно наличие структурированной информации саундтрека позволяет включить втерминале
декодирования более сложное взаимодействие с клиентской стороной. Например, слушателю можно пре
доставить (пожеланию автора контента) возможность приглушить музыкальный фон. Эти функциональные
возможности были бы невозможны, если бы музыка и речь были закодированы в один и тот же звуковой
трек.
С двоичным форматом для сцен (BIFS — binary format for scenes) MPEG-4, определенном в части
MPEG-4 системы, инструмент, названный AudioBIFS, позволяет авторам контента описывать звуковые сце
ны, используя эту объектно-основанную структуру, где множество источников могут смешиваться и объе
диняться и где предусмотрено интерактивное управление для их комбинации. Данный метод предостав
ляет возможность управления типовой разрешающей способностью по смешиванию. Динамическая заг
рузка заказных обрабатывающих сигнал программ позволяет автору контента точно запрашивать специфи
ческий или нормативный цифровой фильтр, ревербератор илидругую эффект-обрабатывающую программу.
Наконец, здесь предоставлен интерфейс ктерминал-зависимым методам 3D пространственного звучания
для описания виртуального мира и другого 3D звукового материала.
ПосколькуAudioBIFS является частью общей спецификации BIFS, то структура используется, чтобы
синхронизировать аудио и видео, аудио- и компьютерную графику или аудио сдругим материалом.
3.3.6 Инструменты масштабируемости
Инструменты масштабируемости разработаны для создания битовых потоков, которые могут быть
переданы без перекодирования на различных скоростях передачи данных.
Многие из типов потока в MPEG-4 масштабируются тем или иным способом. Далее рассмотрены
несколько типов масштабируемости.
Масштабируемость скорости передачиданных позволяет преобразовать битовый поток в потокс бо
лее низкой скоростью передачи данных, чтобы преобразованный поток мог быть все еще декодирован в
значащий сигнал. Преобразование битового потока может осуществляться или во время передачи, или в
декодере. Масштабируемостьдоступнадля каждой схемы кодирования естественного аудио или для ком
бинации различных схем кодирования естественного аудио.
Масштабируемость ширины полосы — специфический случай масштабируемости скорости передачи
данных, посредством которого отчасти битового потока, представляющей часть частотного спектра, можно
отказаться во время передачи или декодирования. Этодоступно для речевого кодера с алгоритмом комп
рессии речи CELP, уровень расширения которого преобразовывает узкую полосу речевого кодера в широ кую
полосу речевого кодера. Общие инструменты звукового кодирования, управляющие частотной облас тью.
также предлагают очень гибкое управление пропускной способностью для различных уровней кодиро вания.
12