ГОСТ Р 53452—2009
2.14 программа распознавания речи (speech recognizer): Программноесредство, обеспечиваю
щее распознавание речи.
П р и м е ч а н и е — Это процесс, с помощью которого компьютер трансформирует акустический речевой
сигнал а текст.
2.15 синтез речи (speech synthesis): Генерация речи на основе данных.
2.16 понимание речи (speech understanding): Технология извлечения семантического содержа
ния речи.
2.17 субъективная оценка (subjectiveassessment): Оценка, обычнополученнаяснепосредствен
ным участием людей в процессе измерений.
2.18 синтез речи по тексту(text-to-speech synthesis):Генерацияслышимойречи наосноветекста.
2.19 словарь (vocabulary): Наборслов, используемых в контексте.
2.20 объем словаря (vocabulary size): Количество слов в словаре программы распознавания
речи.
3 Описание речевых технологий
3.1 Введение
Речевые технологии предусматриваютавтоматическое распознавание речи, говорящего пользо
вателя. атакжесинтезречи ит. п. Обработкаестественногоязыка (NLP)включаетвсебя пониманиеэле
ментов текста и управлениедиалогом между пользователем и машиной. Современные технологии, по
большейчасти, основаны на алгоритмах, которые используютобработку цифровогосигналас помощью
процессора цифровых сигналов или (персональной) компьютерной системы. Алгоритмы формируют
ответы практически в реальном времени. Производительность зависит от применения. Например, сис
тема распознаванияречис небольшим объемомсловаря, обученнаядляработы сречьюодного пользо
вателя (например, при управлении личным портативным телефоном), намного удобнее (для этого
пользователя), чем система, имеющая большой объем словаря и разработанная для большой группы
неизвестных пользователей (например, система информационных услуг общественной телефонной
сети).
Для товаров иуслуг, использующих речевыетехнологии, можно выделить 4 главных направления
применения:
a) управление и контроль. Взаимодействие между пользователем и системой осуществляется с
помощью автоматического распознавания речи (ASR). ASR обычно используют при мультимодальном
проектировании, в котором речевое управление системой является одним из возможных способов
управления (т. е. клавиатура, мышь, сенсорный экран ит. д. могут бытьальтернативными средствами).
Управление при помощи системы ASR характернодля ситуаций, когда рукиоператора заняты.
b
) услуги и телефонные приложения. Услуги, такие как информационный киоск, обычно требуют
сочетания управления распознаванием, пониманием, синтезом речи идиалогом для управления некон
тролируемым диалогом пользователя с системой. Существующие современные системы охватывают
относительно простые структуры диалога, такие как туристические информационные системы (день,
время, «откуда—куда») ителефонные центры (выбор требуемой информации).
c) генерация документов. Системы речевого ввода текста, обученныедля работы на нескольких
языках, уже присутствуют на рынке. Эти системы могут использовать стандартные системы обработки
текста. Простые применения предусматривают вводданныхустановленного вида (например, медицин
ские отчеты), более сложные системы позволяют диктовать целые документы и управлять системой
обработки текста. Этиболеесложные системы обычно обученыдля работы со словарем большогообъ
ема и зависят от особенностей речи пользователя. Однако для обеспечения приемлемой производи
тельности система должна быть знакома с пользователем и областью использования. Обычно это
выполняют в два этапа: с помощью адаптивного акустического сеанса обучения, в котором пользова
тель должен читать установленный текст, и представлением нескольких документов, написанных для
пользователя, которые предназначены для расширениясловаря икорректировки языковой модели.
d) поиск документов. Поиск готовыхдокументов (в архиве речевыхдокументов), поиск информа
ции илиопределенныхотрывковдокументов или высказыванийопределенного пользователяпредстав
ляет интересдля архивногодокументирования иуправления, а такжедля компиляции кратких обзоров.
Различныетехнологии используютдлямаркировки произношения, напримервASR. определения слова
и распознавания говорящего. Определенные алгоритмы поиска используют для восстановления
запрошенной информации.
2