ГОСТ Р 53556.2—2012
5.5.3 Процесс управления скоростью
Определим коэффициент изменения скорости как
spd:
spd
=
N, IN2
(1)
где
N,
является продолжительностью речевого оригинала и
N2
является продолжительностью речи с
управляемой скоростью. Поэтому.
0 £ л <
N,
и 0
й т
<
N3.
Если скоростью управляют соответственно фактору временного масштабирования в поле speed узла
AudioSource BIFS. отношение изменения скорости равно:
spd = 11speed
В основном измененные параметры временной шкалы выражены как:
mdf_ param [т]
=
рагат
(m х spd].(2)
где
рагат
являются:
pch. vuv. Isp
и
am.
Однако,
т
х
spd
не является целым числом.
Поэтому определяем:
fr0 =
т
х
spd
(3)
fr,
=
fr0
+ 1,
чтобы генерировать параметры при временном индексе
т
х
spd
линейной интерполяцией парамет
ров при временных индексах
fr0
и
fr,.
Чтобы выполнить линейную интерполяцию, определим:
left
=
т
х
spd
-
fr0
(4)
right
= fr, - m х
spd
Тогда уравнение (2) может быть аппроксимировано как.
mdf_ рагат[т]
=
рагат [frj fr0
+
рагат [fr,]
х
left,
(5)
где
рагат
являются:
pch, vuv, Isp
и
am.
Для
Isp [п]
[/] и
ат[п]
(/] эта линейная интерполяция применяется с фиксируемым индексом
Параметр
vex
vex
[л] [/] имеет сигналы возбуждения для фреймов
UV
в результате просмотра книги шифров.
Берутся отсчеты
FRM
из vex [л] [/], центрированные вокруг времени
mxspd,
и вычисляется энергия
по отсчетам
FRM.
Затем генерируется состоящий из отсчетов
FRM
Гауссовский шум. и его норма корректи
руется так, чтобыего энергия была равна энергии из отсчетов
FRM,
взятых из vex [л] [/]. Эта последователь
ность Гауссовского шума с регулируемым усилением используется для
mdf_vex
[л?] (/].
Главная операция изменения временной шкалы может быть выражена уравнением (5), однако до
интерполяции нужно рассмотреть решения
VIUV
при
fr0
и fr,.
Стратегии интерполяции и замены, адаптированные к решениям
VIUV,
описаны ниже. В объяснении
полностью речевой и смешанный речевой (vuv [л] •/ 0) сгруппированы как
’ Voiced"
(речевой), и только
случай vuv[л] = 0 расценивается как ’
Unvoiced
" (неречевой). В случае варьируемой скорости кодирования
режим
“BackgroundNoise’
(фоновый шум) (vuv(л]= 1) также рассматривается как
"Unvoiced’.
Когда решения
V/UV
при
fr0
и fr, являются
Voiced—Voiced.
новый индекс
VAJVmdf_ vuv
[л)] получают следующим образом:
tmp_ vuv
= vuv
[fr0]
x
right * vuv
[frf] x
left
if(tmp_ vuv>2)
mdf
_
vuv
[Л7] = 3
else if(tmp _ vuv>
1)
mdf_ vuv
[Л7] = 2
else if (tmp_ vuv>
0)
mdf
_
vuv
[m] = 1
30