ГОСТ Р 53452—2009
3.2 Доступные технологии
3.2.1 Распознавание речи
Системы автоматического распознавания речи способны производить транскрипцию текстовой
строкиречи. Дляэтой цели используютобученные системы. Современныесистемы, использующие сло
варь большого объема, извлекают из речи установленные спектральные параметры, которые иденти
фицируют ее подэлементы (фонемы). При этом слова описывают в виде цепочки этих фонем. Схема
распознавания может использовать фонемы различных уровней, относящихся к фонетическим моде
лям, словам (словарю) и статистическомуописанию словесныхкомбинаций (языковой модели). Обуче
ние фонетическим моделям необходимо для работы с большим количеством пользователей, что
приводит коснованномунастатистикепредставлению. Статистическийподходобычнооснованнаскры
том марковском моделировании (НММ11) или нейронной сети (NN2>).Для составления словаря и языко
вой модели обычно используют доступный текст в цифровой форме, который является
репрезентативным для области применения.
3.2.2 Идентификация и верификация пользователя
Автоматическая идентификация пользователя — это способность системы распознать пользова
теля в группе известных пользователей. Она отвечает на вопрос: «Кому принадлежитданный образец
речи?». Метод включает в себядва этапа: моделирование речи популяции пользователей (обучение) и
сравнение неизвестной речи с моделями речи всех пользователей (тестирование).
Верификация пользователя — это метод проверки того, что говорящий является тем. за которого
он себя выдает. Основой системы верификации пользователя является алгоритм, сопоставляющий
высказывание пользователя с моделью, построенной в процессе обучения на основе авторизованных
зарегистрированных высказываний пользователя. Если речь соответствует модели в пределахдопус
тимых отклонений, то система признает пользователя соответствующим заявленной личности. Для
защитыотсамозванцев, пытающихся обманутьсистему, используютзапись голосазарегистрированно
го пользователя. При этомдля верификациисистема обычно требуетот пользователя произнести уста
новленную фразу, например последовательность чисел, выбранных случайным образом каждый раз,
когда пользователь пытается получитьдоступ. Для обеспечения достоверности верификации система
верификации обращается ксистеме распознавания.
3.2.3 Синтез речи
Для синтеза речи используют два метода: первый, обычно называемый «консервированной
речью», генерирует речь на основе сохраняемых сообщений. Чтобы сохранить пространство памяти,
обычно используют методы кодирования для сжатия сообщений. Такой метод синтеза позволяет полу
чить высококачественную речь, особенно в приложениях с быстрым откликом, где используют набор
стандартныхответов. Второйметод — это«синтезречипотексту». Он позволяет генерироватьсообще
ние понаписанномутексту. Обычноон включаетвсебяпервыйэтаплингвистическойобработки, на кото
ром исходный текст преобразуется во внутреннее представление с помощью фонемических и
интонационныхмаркеров, ивторойэтап генерациизвука наосновеэтогопредставления.Генерациязву
ка может быть выполнена либо полностью по правилам сложных моделей, обычно используемых для
описания речи (форматный синтез, интонация), либо с помощью соединения коротких, предварительно
сохраненных элементовречи (соединительный синтез).Качество речи,полученнойпри
соединительном синтезе, обычно более высокое.
3.2.4 Понимание речи
Системы понимания речи могутбытьотнесены кодномуиздвух видов. Первый видрассматривает
взаимодействие человека с машиной. В этом случае человек и машина работают совместно над реше
нием конкретной проблемы. Интерактивная природа задачидает возможность машине задать вопрос в
случае, когдаона не понимаетнамерений пользователя. В свою очередьпользовательможет перефра
зировать запрос или команду. Системы второго вида предназначены для извлечения необходимой
информации из речи, без возможности обратной связи или взаимодействия (например, при
резюмировании разговорнойдокументации).
3.2.5 Управление диалогом
Диалогом обычно считают взаимодействие двух партнеров, во время которого некоторая инфор
мация поступаетотодного кдругому. Более полезно рассматриватьдиалогкакначалоодним из партне
ров обмена информацией для достижения определенной цели. Поэтому партнеров в диалоге следует
рассматривать асимметрично: одного — как инициатора диалога, другого — как получателя инфор
мации.
НММ — Hidden Markov Model.
21 NN — Neural Network.
3