ГОСТ Р 53452—2009
транзакции иее средняядлина значительно выше, чем таковые в условиях эксплуатации, так как в пер
вомслучаеиспытателям оплачено взаимодействиес системойи они не всегда реагировали на несогла
сованность и повторения в диалоге, тогда как реальные пользователи застревали при первой
пропущенной команде впроцедуре бронированиябилетов. Оценки порезультатам лабораторныхиэкс
плуатационных испытаний должны быть коррелированны. Это позволяет оценить качество процедуры
оценки систем.
5.3 Прозрачность системы
Прозрачность системы можетбытьлюбой: от метода белого ящикадо метода черного ящика. При
оценкесистемы методом белогоящика исследовательимеетполныйдоступ квнутреннейработесисте
мы идокументации (когдадокументация недоступна, метод часто называют методом стеклянного ящи ка).
Исследователь имеет возможность выбрать точки для измерений, т. е. точки, между которыми он будет
выполнять измерения выбранного репрезентативного параметра функционирования системы. При
оценке системы методом черного ящика исследователь рассматривает только взаимосвязь вход ных и
выходныхданных системы безучета механизма ихсвязи.
На практике чащевсегоисследовательимеетмало возможностейдля контроляпрозрачностисис
темы. а применяемый метод оценки использует возможности, предлагаемые системой. В некоторых
случаяхвозможноиспользование методасерогоящика, если всистемепредусмотрены точкиполучения
информации, например, когдадоступны функции прослеживанияили устраненияошибокилимогутбыть
просмотрены модули многократногоиспользования. В этом случае, возможно, исследователю придется
строить гипотезу о выполнении системой функции между точками измерений, так как он может иметь
лишь ее частичное описание. Стоит отметить, что нет обязательного точного соответствия между
действующими модулями, образующими систему, инабором функций, которые могут быть подвергнуты
оценке. Например, в любой диалоговой системе управление диалогом является важной функцией, в
выполнении которой могут быть задействованы на различных этапах обработки входной информации
различные модули.
5.4 Сравнение субъективных и объективных методов
Методы оценки разделяются на субъективные (оценка с прямым участием в измеренияхлюдей) и
объективные (оценка без прямого участия в измерениях людей, обычно с использованием предвари
тельно записанной речи). Существуют также методы, представляющие собой их комбинацию. Преиму
ществомобъективныхметодов является получение воспроизводимыхрезультатов, а такжеи то. чтоони
автоматизированы по своей природе и. следовательно, более дешевы. Недостатокобъективных мето
дов при оценке речевых и языковых применений состоит в том, что они не всегда подходятдля понима
ния естественного языка и речевого взаимодействия. Субъективные методы больше подходят для
оценкипримененийсистемсболеевысоким семантическим или диалоговым содержимым. Недостатком
субъективных методов являетсято. что человекне может выполнятьизмерения с высокой воспроизво
димостью и не может работатьс мелкоструктурными шкалами измерений (всреднем человек использу ет
шкалы с градаций не более чем 5—10 уровней). Использование сглаживающих статистических
методов, таких как каппа-статистика, для оценки согласованности между экспертами может помочь, но
они неустраняютэтот недостаток. Крометого, ихиспользование обычнотребуетпривлечениябольшего
количества испытателей, тем самым увеличивая стоимость оценки.
5.5 Системы распознавания речи
Существует много параметров, характеризующих системы распознавания речи. Однако так как
устройства ввода разговорной речи управляются на основе обучения с последующей статистической
обработкой, объективные испытаниямногихвидовсистемтребуютналичия предварительнозаписанно
го. четко определенного набораданных, которыйделят на обучающий набор и испытательный набор, с
пропорциейобучающейчастик испытательной9:1. частосиспользованием многочисленныхиспытаний
на основе различных сегментов общего набора данных. Очевидно, что испытания системы на основе
испытательной частиданныхдемонстрируютверхнийпределпроизводительности, которыйневстреча
ется на практике. До испытаний должно быть проведенодостаточное обучение. Не существуетобщего
правила определения «достаточности» обучения. Процедуру обучения определяет изготовитель. Обу
чение некоторыхсистем производятне с помощьюпредварительнойзаписи речи, а с помощью прямого
микрофонного ввода. В особых случаях к речи может быть добавлен шум — определенные шумовые
сигналы или шум окружающей среды (в офисе или автомобиле). Критическими параметрами, которые
оказываютсильное влияниена результаты, являютсянетолько компоненты акустическогодекодера, но
также лингвистические факторы, такие как объем словаря и лингвистическая модель, используемая в
системе. Во встроенных системах, таких как программное обеспечение для обработки диктовки,
существует многодругих параметров, включая исправлениеошибок, которые не могут быть проверены
полностью при испытаниях.
7