ГОСТ Р 53452—2009
Приложение В
(справочное)
Критерии качества работы
Система распознавания выражений включает в себя системы, разработанные для слов, устных команд, тек
стовых строк, пользователей и языков. Техническая оценка (т. е. лабораторная оценка) систем распознавания речи
обычно использует интенсивность распознавания как показатель качества работы. В связи с этим используют
интенсивность ошибок. Под точностью понимают количество ошибок каждого типа (отклонения, ложный ввод, лож
ная тревога) Вместо общего показателя качества работы системы распознавания может быть использовано (для
системы распознавания речи) отклонение несловарных слов. Несловарное слово (OOV) — это слово, сказанное
пользователем, но не включенное всловарь системы. Следовательно. OOV не может бытьраспознаноправильно.
При проблемно-ориентированной оценке готовой системы потенциальными пользователями критерии
качества работы системы обычно связаны с заданием, т. е. количеством успешных соединений, временем соеди
нения и исправления ошибок. Системы с древовидной структурой ввода могут вызвать дезориентацию пользовате ля
относительно прогноза о завершении задания. Пользователь должен быть осведомлен о состоянии системы.
Ситуационная осведомленность играет важную роль для успешного завершения задания или. в случае ошибок, для
исправления ошибок.
Интенсивность ошибок распознавания слов находят по формуле
где iv — интенсивность ошибок распознавания слое;
I — количество введенных символов (слов):
d — количество удалений;
s — количество замен:
N — количество слов.
Интенсивностьошибок распознавания слов может быть выражена также в процентах. Стандартное отклоне
ние iv (sw) рассчитывают по формуле
ISO 9921. Ergonomics — Assessment of speech communication
Cohen J..A coefficientof agreementfor nominalscales. Educationaland Psychological Measurement. 20. pp. 37—46.1960
Cohen J.. Weighted kappa: nominal scale agreement with provision for scaled disagreement or partial credit. Psychological
Bulletin. (70)4. PP- 213—220
Barnett. J.. Bamberg. P.. Held. M.. Huerta. J., Manganaro, L. and Weiss. A. (1995). Comparative performance in large
vocabulary isolated word recognition in five European languages. Proc. Eurospeech ’95 Madrid. Spain, pp. 189— 192
ELRA (European Linguistic Resources Association). ELRAi’ELDA. «
http://www.*cp.grenet.fr/ELRA/home.html»
Gibbon. Dafydd. Inge Mertms & Roger Moore, eds. (2000). Handbook of Multimodal and Spoken Language Systems:
Resources. Terminology and Product Evaluation Boston. Dordrecht. London. Kluwer Academic Publishers
Gibbon. Dafydd, Roger Moore & Richard Winskl, eds. (1997). Handbook of Standards and Resources for Spoken Language
Systems. Berlin: Mouton de Gruyter
King. M. eta I.. Evaluation of Natural Language Processing Systems — EAGLES Final Report. EAG-WEG-PR.2, (October
1996). ISBN-87-90708-00-8
Krippendorf. K.. Content Analysis: An Introduction to Its Methodology. Sage Publications. Beverly Hills. CA. 1980
LDC (Linguistic Data Consortium). «http.fAvivw.ldc.upenn.edu»
Leeuwen. D A. van. and Steeneken. H.J.M., Handbook of Standards and Resources for Spoken Language Systems.
Chapter Assessment of recognition systems, pp. 381—407. Mouton de Gruyter, Berlin. New-York (1997)
iv =
/ + <
N
J r s
(B.1).
(B.2)
Библиография
11