Например, Бобцов

ОЦЕНКА ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛА ОБЩЕГО РЕШЕНИЯ АНСАМБЛЯ КЛАССИФИКАТОРОВ

74
УДК 004.83

Ю. Н. МАТВЕЕВ
ОЦЕНКА ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛА ОБЩЕГО РЕШЕНИЯ АНСАМБЛЯ КЛАССИФИКАТОРОВ

Предложен алгоритм оценки доверительного интервала общего решения ансамбля классификаторов, выходом каждого из которых является логарифмическое отношение правдоподобия.
Ключевые слова: доверительный интервал, общее решение, ансамбль классификаторов, идентификация дикторов, голосовая биометрическая система.
Введение. При построении голосовых биометрических систем для повышения надежности идентификации личности по голосу (идентификации диктора) часто используется набор автоматических, полуавтоматических и экспертных методов исследования фонограмм, основанных на признаках речи различной природы. В качестве надежного итогового решения используется обобщающее, построенное на базе решений каждого из перечисленных методов идентификации.
По результатам исследования фонограмм для каждого метода выдается мера доказательности, которая строится на основе оценки степени тождества/различия дикторов. В качестве меры доказательности принят логарифм отношения правдоподобия (LR-оценка, Likelihood Ratio) каждого метода:

log(LR)

=

log

⎛ ⎜ ⎝

P(X P( X

| |

H0 ) H1 )

⎞ ⎟ ⎠

,

(1)

где P(X|H0) — вероятность получения данных исследования Х при истинности гипотезы H0, P(X|H1) — вероятность получения данных исследования Х при истинности гипотезы H1.
Для автоматических методов идентификации оценка значений P(Х|Н0), P(Х|Н1) производится без участия эксперта. Для получения зависимости вероятностей P(Х|Н0), P(Х|Н1) от расстояния между векторами признаков сравниваемых сигналов на этапе разработки исполь-
зуются большие речевые базы данных, на которых устанавливается статистическая связь ве-
роятностей с расстоянием. Тем не менее представительность этих баз данных ограничена ус-
ловиями, в которых собирались фонограммы. В силу этого для условий, отличных от тех, на
которые алгоритм был точно настроен, реальные значения вероятности истинности того или
иного идентификационного решения становятся меньше. Наиболее важными факторами,
влияющими на надежность решения автоматической системы, являются различия в свойствах
канала записи эталонной (образцовой) и исследуемой (спорной) фонограмм, различное фи-

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2013. Т. 56, № 2

Оценка доверительного интервала общего решения ансамбля классификаторов

75

зиологическое и эмоциональное состояние диктора, несопоставимый речевой материал или условия внешней среды.
Для учета влияния этих факторов следует выявить их наличие и ввести к LR-оценке в формуле (1) степенную поправку, например, в форме степенного показателя Q:

LR

=

⎛ ⎜ ⎝

P( X P(X

| |

H0 H1

) )

⎞ ⎟ ⎠

Q

.

Эта степенная поправка учитывает сопоставимость исследуемых фонограмм с теми факторами, на которые ориентирован выбранный метод идентификации. Значение Q=1 соответствует тому, что качество фонограмм полностью удовлетворяет заявленным требованиям. Значение Q, близкое к нулю, соответствует тому, что качество фонограмм значительно ниже того, при котором метод сохраняет работоспособность; LR-оценка стремится к единице, а значит, невозможно принять решение по идентификации диктора.
Формула получения итогового обобщающего решения, т.е. итоговой оценки, наиболее часто реализуется в виде логарифмического отношения правдоподобия:

LLR = log(LR) = ∑ log(LRi ),

(2)

i

где LRi = FRRi /FARi — оценка отношения правдоподобия (LR-оценка) i-го метода идентификации, FRRi и FARi — оценки вероятностей ошибок первого и второго рода i-го метода иден-

тификации соответственно.

Согласно руководству [1], результат измерения является только аппроксимацией или

оценкой значения измеряемой величины и, таким образом, будет полным, только когда до-

полняется установлением неопределенности этой оценки. В соответствии с этим ставится за-

дача установления неопределенности итоговой LLR-оценки.

На практике существует много возможных источников неопределенности, например,

неполное определение и несовершенная реализация определения измеряемой величины; не-

репрезентативная выборка измерений; неполное представление о влиянии условий окружаю-

щей среды на измерения или несовершенное измерение параметров окружающей среды; не-

достоверные значения констант и других параметров, полученных из внешних источников и

используемых в алгоритме обработки данных; аппроксимации и предположения, используе-

мые в методе измерения и измерительной процедуре и т.д. [2, раздел 3.3.2]. Практически все

перечисленные источники неопределенности присутствуют при идентификации дикторов.

Согласно руководству [1], неопределенность — параметр, связанный с результатом из-

мерения (оценкой), характеризующий дисперсию значений, которые могли быть обоснованно

приписаны измеряемой величине. Параметром может быть, например, стандартное отклоне-

ние или полуширина интервала, имеющего установленный доверительный уровень. Стан-

дартные отклонения оценивают из предполагаемых распределений вероятностей, основанных

на опыте или другой информации.

Доверительное оценивание. В настоящее время в системах распознавания (верифика-

ции и идентификации) диктора все чаще применяется концепция доверительности [3—7].

В этом случае дополнительно определяется доверительная вероятность (доверительный ин-

тервал), указывающая на надежность полученного результата (оценки).

В соответствии с ГОСТ доверительный интервал с заданной вероятностью накрывает

неизвестное значение оцениваемого параметра распределения. Границы доверительного ин-

тервала называют доверительными границами. Оцениванием с помощью доверительного ин-

тервала называют способ оценки, при котором с заданной доверительной вероятностью уста-

навливают границы доверительного интервала.

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2013. Т. 56, № 2

76 Ю. Н. Матвеев
Несмотря на то что доверительные интервалы обычно применяют при оценке одного числового параметра, для многих двухпараметрических и трехпараметрических распределений (в задачах распознавания дикторов — нормальных, бинормальных, гамма-распределений) обычно используют точечные оценки и построенные на их основе доверительные границы для каждого из параметров отдельно.
Исходя из формулы (2) алгоритм оценки доверительного интервала итоговой LLRоценки состоит из следующих шагов.
1) Оценка доверительных интервалов значений FARi и FRRi для отдельных методов идентификации дикторов.
2) Оценка доверительных интервалов LRi-оценок отдельных методов идентификации дикторов.
3) Оценка доверительного интервала итоговой LLR-оценки. Основные подходы к оценке доверительных интервалов FAR и FRR. В литературе рассматривается несколько подходов к оценке значений FAR и FRR. В общем случае эти подходы делятся на параметрические и непараметрические методы оценки. Непараметрические методы, наиболее популярными из которых являются методы бутстрепа, „блочного“ бутстрепа и т.д. [3, 8], требуют проведения множества тестов на различных выборках, что не подходит для экспертных и полуавтоматических методов идентификации дикторов из-за большой трудоемкости. В параметрических методах используется предположение о виде распределения значений FAR и FRR при определении доверительных интервалов. Наиболее часто в работах по распознаванию дикторов делаются следующие предположения [9]: — о бинормальном распределении, — о нормальном распределении, — о биномиальном распределении. Допустим, что определены некоторое выборочное распределение D и некоторый доверительный порог δ. В предположении о бинормальном распределении генерирование доверительных интервалов и их границ производится с использованием доверительных границ Хотеллинга [3]. В предположении о нормальном распределении генерирование доверительных интервалов и границ производится путем расчета среднего µ и стандартного отклонения σ распределения D. Затем ищется статистическая константа z двусторонней доверительной границы δ для распределения размерности |D|, что дает доверительный интервал µ ± zσ. В предположении о биномиальном распределении дисперсия рассчитывается как
V = µ(1–µ), что дает доверительный интервал µ ± z V / | D |.
На практике наиболее часто используется предположение о биномиальном распределении. Решение, приведенное в работе [10], основывается на параметрической оценке доверительных интервалов значений FRR и FAR по методу, описанному в работе [11].
Оценка доверительных интервалов FAR и FRR оценок отдельных методов идентификации дикторов. Введем следующие обозначения: Pк — априорная вероятность появления целевой личности (клиента), Pз = 1 – Pк — априорная вероятность появления злоумышленника (импостера).
Значение этих параметров зависит от типа приложения. Например, в случае идентификации диктора при радиопередаче предполагается Pк < 1, в то время как в системах контроля доступа предполагается Pз 0 тестовое произнесение принадлежит искомому диктору, LLR < 0 — нецелевому
(злоумышленнику). Модуль значения LLR соответствует степени уверенности (большее зна-
чение по модулю соответствует большей уверенности).
Следовательно, при LLR > 0 наибольший интерес представляет величина ∆dLLR, которую можно найти по формуле:

∑( )∆L LLR =

∆L LLRF2RRi + ∆L LLRF2ARi ,

i

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2013. Т. 56, № 2

78 Ю. Н. Матвеев

где

∑ ∑∆d LLRFRRi =

j

w

j

ln

⎛ ⎜⎝⎜

FRR FAR

j j

⎞ ⎠⎟⎟ −

j ≠i

wj

ln

⎛ ⎜⎝⎜

FRR FAR

j j

⎞ ⎠⎟⎟



wi

ln

⎛ ⎜ ⎝

FRRi − ∆FRRi FARi

⎞ ⎟

=



=

wi

ln

⎛ ⎜ ⎝

FRRi FARi

⎞ ⎟ ⎠



wi

ln

⎛ ⎜



FRRi − ∆FRRi FARi

⎞ ⎟ ⎠

=

wi

ln

⎛ ⎜



FRRi FRRi − ∆FRRi

⎞ ⎟

,



∆d LLRFARi

=

wi

ln

⎛ ⎜ ⎝

FRRi FARi

⎞ ⎟



wi



ln

⎛ ⎜ ⎝

FRRi FARi − ∆FARi

⎞ ⎟

=



wi

ln

⎛ ⎜ ⎝

FARi − ∆FARi FARi

⎞ ⎟

,



wi = Di. Аналогично при LLR < 0 наибольший интерес представляет величина ∆uLLR, которую можно найти по формуле:

∑( )∆u LLR =

∆u LLRF2RRi + ∆u LLRF2ARi ,

i

где

∆d LLRFRRi

=

wi

ln

⎛ ⎜ ⎝

FRRi + ∆FARi FARi

⎞ ⎟ ⎠



wi

ln

⎛ ⎜ ⎝

FRRi FARi

⎞ ⎟ ⎠

=

wi

ln

⎛ ⎜ ⎝

FRRi + ∆FRRi FRRi

⎞ ⎟

,



∆d LLRFARi

=

wi

ln

⎛ ⎜ ⎝

FRRi FARi − ∆FARi

⎞ ⎟ ⎠



wi

ln

⎛ ⎜ ⎝

FRRi FARi

⎞ ⎟= ⎠

wi

ln

⎛ ⎜ ⎝

FARi FARi − ∆FARi

⎞ ⎟

,



wi = Di.

Заключение. В статье описан алгоритм оценки доверительного интервала для общего

решения ансамбля из нескольких классификаторов (методов идентификации дикторов): ав-

томатических, полуавтоматических и экспертных методов исследования фонограмм, осно-

ванных на признаках речи различной природы.

Описанный алгоритм оценки общего доверительного интервала основан на определе-

нии доверительных интервалов ошибок первого и второго рода (FAR и FRR) различных ме-

тодов идентификации, составляющих ансамбль, в предположении о биномиальном характере

распределения этих ошибок, а также оценке методом распространения ошибок доверительно-

го интервала общего решения ансамбля по доверительным интервалам ошибок первого и

второго рода (∆FARi и ∆FRRi) каждого из методов ансамбля.

СПИСОК ЛИТЕРАТУРЫ
1. Руководство по выражению неопределенности измерения / Пер. с англ., под науч. ред. проф. В. А. Слаева. ВНИИМ им. Д. И. Менделеева, 1999.
2. Походун А. И. Экспериментальные методы исследований. Погрешности и неопределенности измерений: Учеб. пособие. СПб: СПбГУ ИТМО, 2006. 112 с.
3. Vogt R., Sridharan S., Mason M. Making confident speaker verification decisions with minimal speech // Proc. of Interspeech. Brisbane, Australia, 2008. P. 1405—1408.
4. Campbell W., Reynolds D., Campbell J., Brady K. Estimating and evaluating confidence for forensic speaker recognition // Proc. of ICASSP. Philadelphia, PA, USA, 2005. Vol. 1. P. 717—720.
5. Huggins J. G. M. Confidence metrics for speaker identification // Proc. of ICSLP. Denver, Colorado, USA, 2002. P. 1381—1384.
6. Richiardi J., Prodanov P., Drygajlo A. Speaker verification with confidence and reliability measures // Proc. of ICASSP. Toulouse, France, 2006. Vol. 1. P. 641—644.
7. Richiardi J., Drygajlo A., Prodanov P. Confidence and reliability measures in speaker verification // J. of the Franklin Institute. 2006. Vol. 343, N 6. P. 574—595.

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2013. Т. 56, № 2

Оценка доверительного интервала общего решения ансамбля классификаторов

79

8. Koval S., Lokhanova A. Confidence Bounds Curves as a Tool for Evaluation of Automatic Speaker Recognition Results Uncertainty // Proc. 14th Intern. Conf. on Speech and Computer. SPECOM 2011. Kazan, 2011. P. 284—289.

9. Wu J. C., Martin A. F., Kacker R. N. Measures, Uncertainties, and Significance Test in Operational ROC Analysis // J. of Research of the National Institute of Standards and Technology. 2011. Vol. 116, N 1. P. 517—537.

10. Biosecure Tool. Performance evaluation of a biometric verification system, version 1.0. France, Aurelien Mayoue: GET-INT. 2007.

11. Bolle R. M., Ratha N. K., Pankanti S. Error analysis of pattern recognition systems — the subsets bootstrap // Computer Vision and Image Understanding. 2004. Vol. 93, N 1. P. 1—33.

12. Мятлев В. Д., Панченко Л. А., Терехин А. Т. Основы математической статистики. М.: МАКС Пресс, 2002.

13. Lab Reference Manual (LR09): Propagation of Uncertainty [Электронный ресурс]: .

Юрий Николаевич Матвеев

Сведения об авторе — д-р техн. наук; ООО „ЦРТ-инновации“, Санкт-Петербург; главный науч-
ный сотрудник; Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, кафедра речевых информационных систем; профессор; E-mail: matveev@mail.ifmo.ru

Рекомендована кафедрой речевых информационных систем

Поступила в редакцию 22.10.12 г.

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2013. Т. 56, № 2