ГОСТ Р 53452—2009
Спектр стратегий оценки и соответствующих испытаний крайне неоднороден. Прежде всего, тер
мины в области оценки систем с использованием речевых технологий сильно различаются. Различия
касаются следующих терминов: оценка (assessment) и сравнительная оценка (evaluation); лаборатор
ные и эксплуатационные методы: прозрачность системы (метод черного и прозрачного ящика, иногда
белого или серого ящика); субъективные и объективные испытания. Эти термины не являются
полностью независимыми.
Важным источником неоднородности в области стратегий оценки и испытаний является разнооб
разие областей применения. Динамика текущих исследований, разработоки маркетингатоваров, атак
же возрастающее разнообразие устройств, связанных с речевыми технологиями, означает, что
отдельный продукт зачастую требует новой индивидуальной стратегии оценки с соответствующими
испытаниями. Натуральность синтезированной речи требуется, например, в индустрии электронных
развлечений или образовательной сфере. Несложно придумать сценарии, в которых натуральность не
является главным критерием и система должна звучать как искусственная система. В таких случаях
более важен критерий разборчивости звучания независимо от того, нравится ли маркетологам товар с
голосом, похожим начеловеческий.
Другой источникнеоднородности кроется в увеличивающемся использовании встроенных систем
с разговорными устройствами ввода/вывода, иногда с критическими для безопасности функциями. Это
подразумевает быстрый рост сложности человеко-машинных интерфейсов, с которыми многие сущес
твующие виды оценки не могут справляться икоторые требуютбольшой осторожности при использова
нии и привлечении экспертов для определения границ применения речевых технологий. Примером в
этойобластиявляетсяголосовоеуправлениев реальномвременисистемамикритериевбезопасностии
автоматизированнымисистемами предупреждения об опасности.
Выбор метода оценкизависит от цели оценки, состоящей в:
a) сравнении различныхсистем или разных версий одной системы;
b
) валидации использования системыдля поставленной задачи или установленного критерия;
c) диагностикедисфункций и их происхождения:
d) прогнозе поведения системы в заданныхусловиях.
5.2 Сравнительная оценка в лабораторных условиях и в условиях эксплуатации
В лабораторных условиях формируют лишь некоторые показатели окружающей среды, в которой
используют систему, и не учитывают и не оценивают воздействие остальных показателей, тогда как
оценка в условияхэксплуатации исследуетфактические показатели системы в ееобласти применения,
окружающей среде, для которой предназначена система. Поэтому система может показать хорошие
результаты влабораторныхусловиях, ноне сможетдостичьих вусловияхэксплуатации. Ключевой про
блемой при переходе от лабораторной оценки к оценке в условиях эксплуатации является устранение
шума, возникающего приизмеренияхв конкретной среде. При этоместьреальныепроблемы, возникаю
щие в работе, например, при оценке соответствиясистемы ее предполагаемому использованию. Оцен ка
в условиях эксплуатации позволяет учесть показатели системы, важные для пригодности ее
использования, но необязательно напрямую связанные сее функционированием (если эти показатели
лежат за порогом приемлемости). Следовательно, некоторые измерения становятся не важны для
оценки показателей собственно метода, но больше связаны с эргономикой или даже возможностью
реализации.
При выборе условий оценки следует учитывать свойства оценки в условиях эксплуатации илабо
раторной оценки:
Оценка в условияхэксплуатацииЛабораторная оценка
Реальное применениеЛабораторное применение
Неконтролируемые условияВоспроизводимые условия
ДорогоНедорого
Большой набор переменныхМаленький набор переменных
Испытания на пригодностьиспользованияИспытания для оценки параметровтехнологии
Внешние критерииВнутренние критерии
Дляоценки системс использованием речевыхтехнологий может бытьпримененосочетаниеобоих
методов. Спомощью калибровки базы репрезентативныхданных(например, записанныхв ходеиспыта
ний вусловияхэксплуатации)могутбытьопределены значения параметров, которые могутбытьисполь
зованы при проведениилабораторныхэкспериментов.
Поскольку естественный язык связан с человеческой психикой, поведение пользователей и их
реакция на речевую технологию оказывают значительное влияние на измеряемые показатели в реаль
ных условиях эксплуатации. Например, при тестировании телефонного сервера для заказа железнодо
рожных билетов в лабораторных условиях былообнаружено, что измеренная интенсивность успешной
6