ГОСТ Р 70462.1—2022
А.З Примеры звуковых возмущений
А.3.1 Основы
Звуковые возмущения могут влиять на широкий спектр систем обработки звука. Значительное количество
систем основано на вводе голосовых команд как первичном интерфейсе управления устройством. Например, вир
туальные помощники с функциями автоматического распознавания речи (Automatic Speech Recognition, ASR), уста
навливаемые на домашних или мобильных устройствах, способны управлять освещением, домашней утварью,
системами безопасности дома, а также осуществлять покупки и помогать с телефонными звонками и отправкой
сообщений. Однако такие системы могут быть чувствительны к возмущениям входных звуковых данных, что потен
циально может привести к неспособности распознать команду, незапланированному или даже к злоумышленному
действию, если возмущение связано с атакой.
Имеется два основных типа звуковых возмущений:
- модифицирующих акустический сигнал в частотном диапазоне слышимости человеком;
- основанных на ультразвуке.
В обзорных работах [71], [72] изложены методики для этих типов возмущений.
А.3.2 Звуковые возмущения в частотном диапазоне слышимости человеком
Одними из первых работ, в которых рассматривались автоматизированные атаки на входной речевой сиг
нал, являются работы [73] и [74]. Возмущенные сигналы воспринимаются как определенные команды для системы
автоматического распознавания речи, но не воспринимаемы человеком, и в некоторых случаях даже не заметны
человеку. Эти методы, по сути, изменяют акустические характеристики сигнала, на которые ориентируются
многие системы распознавания речи (например, Mel-frequency cepstral coefficients).
В [75] описано возмущение сигнала, основанное на генетическом алгоритме, которое применяется против
облегченной/простой ASR. В [76] представлена усовершенствованная версия этого возмущения, основанная на
современной системе DeepSpeech. Метод SirenAttack, изложенный в [77], является широко применимой атакой на
основе оптимизации роем частиц.
В [78] приведен пример речевой атаки, в котором незначительные возмущения исходной речи приводят к
ошибочной работе Mozilla DeepSpeech ASR. Возмущения заданы математической оптимизационной методикой,
формирующей сигнал, воспринимаемый как иной заранее заданный текст. Это атака типа «белый ящик», т. е. ме
тодика требует знаний об атакуемой системе.
В [79] разработаны неощутимые атакующие аудиосигналы (что проверено в ходе эксперимента с людьми)
путем задействования психоакустических принципов слуховой маскировки. Такие сигналы обладают 100 %-ной
эффективностью для произвольных полнофразовых целей (команд). В этой работе также достигнут прогресс
в создании примеров аудиопротиводействия в физическом мире путем построения возмущений, которые
остают ся эффективными даже после применения реалистично смоделированных искажений окружающей
среды. В [80] предложена аналогичная идея с использованием психоакустического скрытия для атаки на систему
ASR. Оба эти метода являются атаками «белого ящика».
В [81] демонстрируется существование универсальных атакующих аудиовозмущений, которые приводят к
ошибочной транскрипции аудиосигналов средствами систем распознавания речи. Предложен алгоритм нахожде
ния единичного квазинеощутимого возмущения, которое при добавлении к произвольному речевому сигналу, ско рее
всего, может привести к ложному срабатыванию модели распознавания речи. Этот метод применен к системе
распознавания речи Mozilla DeepSpeech. Также в работе показано, что подобные возмущения обобщаются на зна
чительное количество других моделей, не доступных в ходе обучения. Например, с помощью теста на переноси
мость показана применимость атаки на ASR, основанные на WaveNetg.
Подход, описанный в [82], показывает возможность отдачи скрытых голосовых команд путем их внедрения в
песни, проигрывание которых позволяет в существенной мере управлять целевой системой через распознавание
речи без обнаружения.
А.3.3 Атаки, основанные на ультразвуке
Ультразвуковые атаки в основном опираются на нелинейность записывающего устройства, приводя к записи
неслышимого звука. Впервые этот эффект был достигнут в работе [83], в которой модулированные ультразвуковые
передачи преобразованы через микрофон и нелинейный усилитель в корректные команды, исполняемые в разно
образных коммерческих системах распознавания речи. В работе [84] также отмечено, что нелинейности в динами
ках усложняют атакующему задачу по увеличению радиуса атаки, поэтому использовано множество динамиков в
виде массива ультразвуковых динамиков (ultrasonic loudspeaker array) для проведения атаки на ASR на большом
расстоянии.
В [85] применены неслышимые ультразвуковые передачи для записи слышимых сигналов с помощью скры
того канала с высокой пропускной способностью (high-bandwidth covert channel) в своем методе BackDoor. В ра
боте [86] развиты идеи метода BackDoor, что не требует программного обеспечения для микрофона, поэтому воз
мущение можно использовать на различных развернутых микрофонах или ассистентах.
Кроме того, в работе [87] рассмотрены атаки на системы классификации звуков, в настоящее время исполь
зующих только ультразвуковой диапазон.
21