ГОСТ Р 53452—2009
При этом диалог успешно завершен, если инициатор считает, что получатель находится в состоянии,
длядостижения которого предназначалсядиалог. Целевое состояниеможет состоятьв том. чтополуча
тельимеетнекоторую информацию или выполняетзаданиев интересахинициатора. Возможно, чтоеди
нственное сообщение прошло от инициатора к получателю и имело желаемые последствия,
наблюдаемые инициатором.
4 Описание важных переменных речевых технологий
4.1 Введение
На пригодность речевых и лингвистических систем влияют различные факторы. Поэтому опти
мальное использование системы может быть связано с условиями ее применения. Для оптимизации
использования системы необходимо определить связанные сзаданием характеристики и требования к
производительностисистемыдо еепроектирования. Кважным характеристикамотносятсятребованияк
типу речи пользователя, производственному заданию, обучению, окружающей среде, устройствам
ввода и системе.
4.2 Тип речи
Отдельные слова: ряд слов, произносимых отдельно; часто используется для задач управления,
контроля или ввода данных. Краткие паузы указывают границы слов.
Слитно произносимые слова: ряд слов, произносимых без пауз; часто используетсядля управле
ния. контроля или ввода данных, таких как ряды чисел. Такие системы обычно проходят обучение на
отдельныхсловах.
Чтение текста: речь, читаемая непрерывно, например, чтение книги без пауз.
Диктовка: речь, читаемая непрерывно, но с управляемой скоростью и особым вниманием к пра
вильностипроизношения. Пользовательосведомленоработесавтоматическим распознаванием речи.
Произвольная речь: разговорная речь, включающая все виды прерываний, таких как кашель,
неуверенность, замедление ит. д. Обычноэтоситуации. когда пользовательнеосведомлено распозна
вании речи.
4.3 Аспекты, зависящие от пользователя
Зависимость от пользователя: зависимость от пользователя имеет значение для системы, пред
назначенной и обученной для работы с одним пользователем или небольшой группой пользователей.
Для системы, предназначеннойиобученнойдля работысомногими пользователями, втом число стеми,
которых не было при обучении системы, имеет значение независимость от пользователя.
Пол: речь мужчин и женщин обычно отличается по основной частоте (высоте тона) и спектру. Это
можетоказыватьвлияниена распознавание, если система необученадля работыспользователемдан
ного пола.
Возраст: возраст пользователя, так же. как ипол. оказываетвлияние на высотутона испектр голо
са. Группировка пользователей по возрасту может охватывать следующие периоды: 12—18. 19—22,
22—65лет. Однако в пределахкаждой группы возможны существенныеотклонения похарактеристикам
речи. Для пользователей в возрасте моложе 12истарше 65 лет могут иметь местоочень большие инди
видуальные вариации.
Голосовоеусилие: уровень речевогосигнала зависитот голосового усилия пользователя. Голосо
вое усилие определяется измерением эквивалентного непрерывного уровня звукового давления речи,
измеряемого на расстоянии одного метра напротив рта.
Темп речи: количество элементов речи, произносимых за установленный промежуток времени,
количество слов в минутуили слогов в секунду. Нормальный темп составляет 3—5 слогов всекунду.
Родной язык, акцент: как правило, уровеньраспознавания нижедля пользователей, говорящих на
неродном языке, и пользователей ссильным акцентом.
4.4 Задание (специализированное описание важных параметров распознавания)
Объем словаря: объемсловаря зависитотрешаемойзадачи. Для выполнения задач управленияи
контроляможетбытьдостаточно от 15до 100 слов. Дляраспознаванияречисбольшимсловарным запа
сом может потребоваться 50000 слов и более. В последнем случае возможно использование слов, не
представленных в словаре (OOV1’).
Сложностьсинтаксиса: длядревовиднойструктуры командс вложенным менюдостаточноограни
ченного набора слов. Количество возможных альтернатив на каждом уровне должно соответствовать
сложности задачи.
11
OOV — Out-Of-Vocabulary words.
4