СРАВНЕНИЕ РАЗЛИЧНЫХ СМЕСЕЙ ГАУССОВЫХ PLDA-МОДЕЛЕЙ В ЗАДАЧЕ ТЕКСТОНЕЗАВИСИМОГО РАСПОЗНАВАНИЯ ДИКТОРА

51
УДК 681.3
Т. С. ПЕХОВСКИЙ, А. Ю. СИЗОВ
СРАВНЕНИЕ РАЗЛИЧНЫХ СМЕСЕЙ ГАУССОВЫХ PLDA-МОДЕЛЕЙ В ЗАДАЧЕ ТЕКСТОНЕЗАВИСИМОГО РАСПОЗНАВАНИЯ ДИКТОРА
Исследуется актуальность использования классической смеси PLDA-моделей c распределением Гаусса в качестве априорного в пространстве i-векторов для задачи верификации диктора. Исследуются условия эксперимента, в которых это использование выгодно при существующих ограничениях размеров обучающих баз. Показано, что в рамках кроссканальной задачи использование смеси двух PLDA-моделей эффективнее, чем традиционная схема с использованием одной PLDA-модели. Ключевые слова: i-вектор, совместный факторный анализ, смесь PLDAмоделей, распознавание диктора.
Введение. В последнее десятилетие активно развиваются технологии текстонезависимого распознавания личностей по голосу (дикторов). В работах Рейнольдса впервые было предложено для таких задач использовать смеси гауссовых распределений (Gaussian Mixture Models, GMM) [1, 2]. В работе [2] была показана эффективность универсальной фоновой модели (Universal Background Model, UBM), также показана эффективность МАР-адаптации (Maximum A-Posteriori Probability) модели GMM-UBM при получении модели диктора.
Модель GMM-UBM обычно обучается на большой базе дикторов, с использованием критерия максимального правдоподобия и, как правило, имеет 2048 компонент. Модель диктора здесь получается путем адаптации только средних модели GMM-UBM и последующей конкатенации отдельных компонент, с формированием при этом GMM-супервектора средних — высокоразмерного вектора признаков m(s, h) для h-й сессии s-го диктора.
Работы Кенни [3—5] посвящены модели совместного факторного анализа (Joint Factor Analysis, JFA) и ее различным редуцированным версиям [6—8]. JFA — это порождающая модель, используемая с целью эффективного решения проблем междикторской и межсессионной вариативности диктора в GMM-подходе. Модель JFA можно использовать (см., например, [9]) для получения оценок верификации по критерию Неймана—Пирсона. Прогресс
ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2013. Т. 56, № 2

52 Т. С. Пеховский, А. Ю. Сизов
современных систем верификации диктора обусловлен использованием новых низкоразмерных векторов признаков, порождаемых одной из версий JFA. В этой новой модели [10] не выполняется расщепление пространства GMM-супервектора на дикторское и канальное подпространства. Процесс обучения T-матрицы полной изменчивости [10] аналогичен процессу обучения матрицы собственных голосов [3], за исключением того, что
— в случае матрицы собственных голосов все сессии обучающего диктора конкатенируются для последующего обучения;
— в случае T-матрицы все сессии обучающего диктора расцениваются как произведенные различными дикторами.
Таким образом, вектор полной изменчивости w(s, h) [10] сохраняет зависимость и от канала, и от диктора и является полным низкоразмерным аналогом супервектора m(s, h). Задача расщепления пространства полной изменчивости на подпространство диктора и подпространство канала реализуется, например, с помощью линейного дискриминантного анализа (Linear Discriminate Analysis, LDA). Дальнейшее развитие текстонезависимого распознавания диктора связано большей частью с использованием векторов w(s, h) в качестве входных векторов-признаков — i-векторов.
Результаты последних конкурсов по оцениванию систем распознавания дикторов (Speaker Recognition Evaluation, SRE) Национального института стандартов и технологий (National institute of Standards and Technologies, NIST) [11] показали высокую эффективность различных методов, использующих низкоразмерные i-векторы. Среди них самыми перспективными являются методы, основанные на модели вероятностного линейного дискриминантного анализа (Probabilistic LDA, PLDA) [12, 13]. В работе [12], посвященной распознаванию лиц, было представлено точное решение процедуры обучения гауссовой PLDA-модели (G-PLDA) с использованием критерия максимального правдоподобия. В работе [13] Кенни реализовал вариационное байесовское обучение PLDA-модели для верификации диктора с использованием тяжелохвостых распределений (HT-PLDA), отметив, что t-распределение Стьюдента должно более адекватно описывать такие негауссовы эффекты канала, как грубые искажения речи в случае записи через удаленный микрофон. Модель HT-PLDA продемонстрировала высокую эффективность при тестировании на однородном телефонном корпусе. Дальнейшее развитие подхода PLDA показало, что такую же эффективность систем верификации можно получить при использовании G-PLDA-модели, если осуществить нормализацию длины i-вектора [14].
В настоящей работе исследуются условия, при которых актуально использование классических смесей моделей G-PLDA [12], обучаемых „без учителя“ (unsupervised mixtures, U-mix) в пространстве i-векторов. U-mix позволяют осуществлять нелинейное покрытие структуры плотности данных обучающей базы, не требуя исходного знания о сегментации данных, что должно повысить эффективность системы верификации на тестовой базе, имеющей подобную структуру. По мнению авторов настоящей статьи, применение U-mix PLDA будет более актуальным в той ситуации, когда в обучающей базе априори существуют физически разнородные кластеры. Примером такой постановки задачи может являться стандартная для NIST кроссканальная задача верификации диктора, в которой обучающая база содержит данные, полученные в микрофонных и телефонных каналах.
Следует отметить, что работа [15] посвящена использованию смесей PLDA для решения кроссгендерной задачи верификации. Но, в отличие от предлагаемой нами U-mix-системы, в работе [15] обучались отдельные PLDA-системы для двух полов (компоненты смеси), обучаемые „с учителем“ (supervised mixtures, S-mix), на сегментированном материале своих полов, а смесь PLDA-моделей была реализована путем мягкого байесовского комбинирования достоверностей отдельных PLDA-систем.
ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2013. Т. 56, № 2

Сравнение различных смесей гауссовых PLDA-моделей

53

В настоящей работе также ставится цель сравнить эффективность систем верификации диктора, построенных на базе моделей U-mix PLDA и на базе S-mix PLDA-моделей по схеме Кенни [16].
Обучение моделей U-mix PLDA. Поскольку в работе [12] формулы обновления гиперпараметров для G-PLDA-модели представлены без вывода, детально опишем точный вывод процедуры обучения смеси на основе критерия максимального правдоподобия.
Модель G-PLDA. Каждая из компонент рассматриваемой смеси PLDA-моделей состоит из единственной гауссовой модели фактора диктора, определенного в пространстве i-векторов. Формальное отличие от классического факторного анализа (Factor Analysis, FA) [17] заключается в том, что обучающий s-й диктор представлен своими R(s) сессиями, что, в свою очередь, характерно для схемы обучения PLDA-модели:

⎛ ⎜ ⎜ ⎜ ⎝

D(s,1) #
D(s,R(s))

⎞ ⎟ ⎟ ⎟ ⎠

=

⎛ ⎜ ⎜⎜⎝

µ # µ

⎞ ⎟ ⎟⎟⎠

+

⎡U

⎢ ⎢

#

⎢⎣ 0

" % "

0 # U

⎛ x(s,1)

V # V

⎤ ⎥ ⎥ ⎦⎥

⎜ ⎜ ⎜ ⎜ ⎜⎝

# x(s,R(s))
y(s)

⎞ ⎟

⎛ ε(s,1)

⎟ ⎟

+

⎜ ⎜

#

⎟ ⎟⎠

⎜ ⎝

ε(

s,R

(

s))

⎞ ⎟ ⎟ ⎟ ⎠

=

D(s)

=

µ

+

Az(s)

+

ε(s) ,

(1)

где µ — F-мерный вектор средних; V = (F × Qy ) -матрица, столбцы которой можно тракто-
вать как собственные голоса; U = (F × Qx ) -матрица, ее столбцы — это собственные каналы, а шумовая (F×F)-матрица ковариации Σ — общая для всех моделей в смеси. Легко заметить, что для каждой r-й сессии (1) приобретает вид:

[ ]D(s,r) = µ + U

V

⎛ ⎝⎜⎜

x( s,r ) y(s)

⎞ ⎟⎠⎟

+

ε(s,r

)

= µ + Wh(s,r)

+ ε(s,r) .

Здесь y, x, ε(s,r) ∝ N (0, Σ) — скрытые переменные, представляющие факторы диктора, фак-
торы канала и шум соответственно. Будем предполагать гауссов характер априорных распределений этих переменных.
Построение смеси G-PLDA моделей. Начинаем с построения функции правдоподобия смеси PLDA, состоящей из M моделей, используя обучающую базу из независимых дикторов, имеющих по R(s) сессий. Тогда логарифм функции правдоподобия на неполных данных есть:

∑ ∑L =

S

ln

⎪⎧ ⎨

M

πm pm (D(s) | θm )⎫⎪⎬,

s ⎩⎪ m

⎭⎪

где πm — веса смеси, θm = {Wm ,µm , Σ} — гиперпараметры m-й модели, а маргинальное прав-
доподобие pm (D(s) | θm ) относится к отдельной вероятностной модели PLDA и выражается как
∫pm (D(s) | θm ) = pm (D(s) | θm , zm ) p(zm )d zm .
Здесь с вектором данных s-го диктора D(s) связывается ряд бинарных скрытых переменных
M
∑ρ(ms) ∈{0,1} , ρ(ms) = 1. Тогда параметры для этой модели смеси могут быть определены m=1
стандартным EM-алгоритмом [17] с использованием функции правдоподобия на полных данных Lc :

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2013. Т. 56, № 2

54 Т. С. Пеховский, А. Ю. Сизов

∑∑ { }S M

Lc =

ρ(ms) ln

πm

pm

(D(

s)

,

z

(s) m

| θm )

,

sm

где совместная вероятность:

pm

(

D(

s)

,

z

(s) m

| θm ) =

pm (D(s)

| θm , z(ms) ) p(z(ms) )

=

{ } { }= (2π)−R(s)F / 2 | Σ |−1/ 2 exp

−

1 2

(am(s)

)T

Σ

−1(am(s) )

(2π)−Q / 2 exp

−

1 2

z

(s m

)T

z

(s) m

.

В формуле (2) Q = Qy + R(s)Qx , а am(s) есть вектор:

(2) (3)

( )am(s) = D(s) − Am z(ms) − µm .

Далее, следуя модели смеси FA [17], для математического ожидания полной функции

< Lc > относительно апостериорного распределения P(z|D), легко получить:

∑ ∑< Lc >=

S s

M m

γm (s) ⎣⎡⎢ln πm

−

1 2

<

z

(s)T m

z

(s) m

>

−

1 2

ln

|

Σ

|

−

{−

1 2

(D(s)

−

µm )T

Σ−1 (D(s)

− µm )

− 2(D(s)

−

µm )T

Σ−1

Am

<

z

(s) m

>+

}+tr[AmT Σ−1 Am

<

z(ms) z(ms)T

>]

⎤ ⎥⎦

+

const.

Перейдем от схемы полного вектора z к представлению вектора h. Этот переход весьма

облегчает последующие формулы обновления параметров в М-шаге EM-алгоритма и является

очевидным, если рассмотреть скаляр под знаком экспоненты в формуле (3):

R(s)

∑< (am(s) )T Σ−1(am(s) ) >P(z|D) =<

(ξ(ms,r) )T Σˆ −1(ξ(ms,r) ) >P(h|D) ,

r =1

где ξ(ms,r) есть вектор:

( )ξ(ms,r) = D(s,r) − Wmhm(s,r) − µm .

Тогда математическое ожидание полной функции < Lc > относительно апостериорного

распределения P(z|D) будет иметь вид:

∑ ∑< Lc >=

S s

M

γ

m

(s)

⎡ ⎢

m⎣

ln

πm

−

R(s) 2

ln

|

Σ

|

−

∑ ∑−

1 2

⎪⎧ ⎨ ⎩⎪

R(s) r

(D(s,r

)

− µm )T

Σ −1 ( D ( s,r )

R(s)
− µm ) − 2 (D(s,r)
r

− µm )T Σ−1Wm

<

hm( s,r )

>+

∑+

tr

⎡ ⎢

R(s)
WmT

Σ−1Wm

⎣⎢ r=1

< hm(s,r) hm(s,r)T

>⎥⎤⎫⎪⎬⎤⎥ + const, ⎦⎥ ⎭⎪⎦⎥

где компоненты парного вектора h и его ковариации должны браться из компонент полного

вектора z и его ковариации [12]:

< hm(s,r) > ← < zm(s,r) >,

< hm(s,r)hm(s,r)T > ← < zm(s,r) zm(s,r)T >,

найденных, как будет описано далее, на E-шаге EM-алгоритма. Тогда на М-шаге, в стацио-

нарной точке для функции < LC > , будем иметь следующие формулы для обновления пара-

метров:

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2013. Т. 56, № 2

Сравнение различных смесей гауссовых PLDA-моделей

55

S R(s)

∑∑ ∑ ∑ ∑ ∑πm

=

Nm N

=

S

1
M
γ (ms )

S

γ

(s m

)

,

s

µm =

γ(ms)
s

r

(D(s,r) − Wm < hm(s,r) >)

S

γ

(s) m

R(s)

,

sm

s

∑ ∑ ∑ ∑Wm

⎡ =⎢

S

R(s)

γ

(s) m

(D(s,r) − µm ) < hm(s,r)

>T

⎤ ⎥

⎡ ⎢

S

R(s)

γ

(s) m

< hm(s,r)hm(s,r)T

⎤ >⎥

−1

,

⎢⎣ s r

⎦⎥ ⎣⎢ s r

⎦⎥

(4)

∑∑ ∑ ( )( )diag

⎡ ⎢

S

M R(s)

γ

(s) m

<

D(s,r) − Wm hm(s,r) − µm

D(s,r) − Wm hm(s,r)

− µm

T

⎤ >⎥

Σ = ⎣⎢ s m

r

SM

⎦⎥ .

∑ ∑ γ(ms) R(s)

sm

Заметим, что в настоящей работе везде используется шумовая матрица ковариации Σ —

общая для всех анализаторов. В формуле (4) представлен ее диагональный случай. Е-шаг

EM-алгоритма для смеси PLDA-моделей стандартен, так как он будет выполнен в представле-

нии полного вектора z. На этом шаге [17] необходимо найти апостериорное распределение

< z(ms) >= Σ(mZ ) AmT Σ−1(D(s) − µm )

и соответствующую матрицу:

< z(ms) z(ms)T

>=

Σ (mz )

+

<

z

(s) m

><

z(ms)T

>,

где апостериорная матрица ковариации для обобщенного скрытого вектора z есть

Σ(mz) = (I + AmT Σ−1 Am )−1, I — единичная матрица.
Также необходимо найти γ(ms) (responsibilities) — апостериорное распределение для на-
бора скрытых переменных ρ(ms) , обслуживающих смесь [17]:

∑ ∑ ∑ ∫ ∫γ(ms)

=

ρ(ms)
M
ρ(ks)

=

πm pm (D(s) ) M πk pk (D(s) )

=

πm
M
πk

pm (D(s) | z) p(z)dz , pk (D(s) | z) p(z)dz

kk

k

находим точное значение маргинального правдоподобия (evidence):

∫ ∫pm (D(s) ) = pm (D(s) , z)dz = pm (D(s) | z) p(z)dz =

{ }= (2π)−FR(s)/2 | Cm |−1/2

exp

−

1 2

(D(s)

− µm )T

C

−1 m

(

D(s)

− µm)

(5)

(здесь и далее для удобства записи будем опускать θm ). И, таким образом, выражение для логарифма ответственностей:

ln ρ(ms)

=

ln(πm

)

−

1 2

ln

Cm

−

1 2

(D(s)

−

µm

)T

C

−1 m

(

D(s)

−

µm

)

+

const

,

где матрица ковариации Cm в (5), после взятия интеграла для вектора диктора D(s) , состоящего из R(s) сессий, может быть представлена как:

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2013. Т. 56, № 2

56 Т. С. Пеховский, А. Ю. Сизов

C m = Σ + Am AmT =

⎡Σ ⎢ =⎢ ⎢ ⎢ ⎣

Σ

%

⎤ ⎥ ⎥ ⎥ Σ⎥⎦

+

⎡U ⎢ ⎢

mU

T m

+ VmVmT

VmVmT

⎢ ⎢

#

⎢ ⎣

VmVmT

VmVmT UmUmT + VmVmT
#
"

" " % VmVmT

VmVmT

⎤ ⎥

# VmVmT

⎥ ⎥

.

⎥

U

mU

T m

+

VmVmT

⎥ ⎦

Обращение матриц ковариации Cm и Σ(mz) представляет при точном выводе определен-

ную трудность. Но их обращение может быть сведено к обращению отдельных блоков.

Стадия верификации. Случай U-mix PLDA. Оценка PLDA для смеси имеет ту же

структуру, что и оценка для отдельной PLDA-модели [13]:

Score

=

ln

P(D1, D2 P(D1 | I )P(

|T D2

) |

I

)

,

где выражение для маргинального правдоподобия в числителе (случай R(s)=2) и двух — в знаменателе (случай R(s)=1) посчитано, в отличие от [13], точно:

∑ ∫P(D(s) ) = M πm pm (D(s) | z) p(z)dz = m

M

∑=

m

πm ⎡⎣(2π)−R(s)F /2 | Cm |−1/2

exp{−

1 2

(D(s)

− µm )T

C

−1 m

(

D(s)

− µm )}⎤⎦

и, согласно (1), представляет собой достоверность смеси PLDA-моделей.

Случай S-mix PLDA. Представим реализацию S-mix PLDA по Кенни [16], состоящую из

M отдельных PLDA-моделей:

∑ ∑Score

=

ln

P(D1, D2 P(D1, D2

|T) | I)

=

ln

P(D1, D2 | m,T )P(m | T )

P(D1

m
| m,

I )P(m

|

I )P(D2

|

m′,

I )P(m′

|

I)

=

m,m′

∑ P(D1, D2 | m,T )P(m | T )

∑= ln

m
Q(m,m′) P(D1

|

m, I )P(D2

|

m′,

I)

,

m,m′

где априорные распределения для целевых дикторов и „самозванцев“ (imposters) выбираются
равными для каждой m-й компоненты смеси Кенни [16]: P(m | T ) = P(m | I ) = 1 / M ,

Q(m,m′) = P(m | I )P(m′ | I ) = 1 / M 2 .

Таким образом, это можно рассматривать как вариант байесовского комбинирования

отдельных PLDA-систем на стадии верификации.

Эксперименты. Предобработка речевого сигнала. Все записи были сегментированы на участки „речь“ и „пауза“. Участки „пауза“ затем были удалены из записей. В экспериментах

использовались 39-мерные мэл-частотные кепстральные коэффициенты (mel-frequency cepstral coefficients, MFCC) [1]. MFCC-векторы состояли из 13 кепстральных коэффициентов,

их первых и вторых производных, вычисляемых по 5 соседним кадрам. Использовались кадры c окном 22 мс и со сдвигом окна в 11 мс. Каждый кадр был преэмфазирован [1] и домно-

жен на окно Хэмминга. Также везде применялась стандартная процедура вычитания кепстрального среднего из кепстральных коэффициентов.

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2013. Т. 56, № 2

Сравнение различных смесей гауссовых PLDA-моделей

57

Универсальная фоновая модель (UBM). Использовалась гендернезависимая UBM, имею-

щая 512 компонент и полученная с помощью EM-обучения на основе критерия максимально-

го правдоподобия на телефонных базах NIST SRE 1998—2008 годов (все языки, оба пола).

Системы PLDA обучались на записях голосов 4329 мужчин и женщин. Использовалась диа-

гональная, а не полноковариационная GMM-UBM.

Кроссканальный экстрактор i-векторов. В кроссканальной задаче необходимо исполь-

зовать универсальный экстрактор i-векторов, который бы мог адекватно работать как в теле-

фонном, так микрофонном каналах. Здесь проблемой является несбалансированность количе-

ства записей в телефонном и микрофонном каналах. Последних в несколько раз меньше в ба-

зах NIST, чем первых. В этом случае, как предложено в работе [18], используется универ-

сальный экстрактор i-векторов, который бы подходил как для микрофонных записей речи,

так и для телефонных. Он основан на отдельных оценках максимального правдоподобия двух

T-матриц полной изменчивости. Математически это можно выразить для дикторо- и канало-

зависимого супервектора µ следующим образом:

µ = µ0 + T ′w′ + T ′′w′′ .

(6)

В настоящей работе телефонная T' матрица с 400 базисными столбцами обучена на

11 256 телефонных записях из NIST 2002/2003/2004/2005/2006/2008 от 1250 дикторов-

мужчин (только английский язык). Микрофонная T'' матрица той же размерности обучалась

на 4705 микрофонных записях из NIST 2005/2006/2008 от 203 дикторов-мужчин (только анг-

лийский язык), согласно [18]. Таким образом была решена проблема значительной несбалан-

сированности наборов телефонных и микрофонных записей. После оценки T'' и T' конкате-

нируются, чтобы получить смешанную T-матрицу:

µ = µ0 + Tw,

(7)

где w-векторы есть интересующие нас итоговые i-векторы. Таким образом, используется

кроссканальный экстрактор i-векторов размерности с 700 базисными столбцами.

Однородный экстрактор i-векторов. В кроссканальной задаче также будет использо-

ваться обычный экстрактор i-векторов (6), но обученный только на телефонных записях, на-

зовем его однородным экстрактором i-векторов. Такой необычный, на первый взгляд, выбор

объясняется следующими причинами. Апостериорное распределение i-векторов обучающей

базы экстрактора i-векторов (7), согласно JFA, всегда будет близко к его априорному N (0,1) .

Таким же распределение i-векторов будет и для любой другой базы, близкой по условиям за-

писи к обучающей (по каналу, по полу, по языку и т.д.). Но, как показали эксперименты, при

существенном рассогласовании базы обучения и тестовой базы всегда наблюдается сущест-

венный сдвиг центра распределения i-векторов тестовой базы относительно нуля. Это приво-

дит к деградации равновероятной ошибки первого и второго рода (Equal Error Rate, EER) сис-

темы, основанной на одной PLDA-модели. Но для случая обучения, например, двух PLDA

моделей на двух физически явных кластерах (например, каналы в кроссканальной задаче) та-

кое поведение однородного экстрактора будет способствовать разделению кластеров в про-

странстве i-векторов. Идея заключается в том, что таким образом улучшаются условия при-

менения смеси PLDA-моделей в пространстве i-векторов, которое изначально более подходит

под одну модель. Кроме того, будет использоваться однородный телефонный экстрактор i-

векторов T'.

Переход в LDA-пространство. Как уже было отмечено выше, JFA-экстрактор i-векторов

генерирует i-векторы, содержащие информацию как о дикторе, так и о канале. Поэтому еще

одним условием, способствующим успешному применению смеси PLDA, будет переход от

входных i-векторов к их проекциям, получаемым в результате LDA-преобразования. Это по-

зволяет:

— уменьшить канальный шум;

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2013. Т. 56, № 2

58 Т. С. Пеховский, А. Ю. Сизов

— получить добавочную редукцию размерности входных векторов.

Такая верификационная схема TV → LDA → PLDA была успешно применена в раз-

личных работах по верификации диктора, а именно в кроссгендерных [15] и кроссканальных

[16, 19] задачах. Метод LDA широко используется для редукции размерности в задачах клас-

сификации. В нашей работе LDA-преобразование редуцирует i-векторы до 200-мерного про-

странства, заполненного собственными векторами, соответствующими самым большим соб-

ственным значениям следующей обобщенной задачи о собственных значениях λ и собствен-

ных векторах x:

Sb x = λSw x,

(8)

где Sb и Sw — соответственно матрицы межклассовой и внутриклассовой вариативности.

После решения обобщенной задачи (8) получаем LDA-матрицу, которую применяем к

i-векторам в обучающих и тестовых базах. Были построены две LDA-матрицы. В случае

кроссканального экстрактора обучалась LDA-матрица размерностью 700×200 на данных обу-

чения этого экстрактора, в случае однородного экстрактора — LDA-матрица размерностью

400×200 только на 11 256 телефонных записях, использованных для обучения однородного экстрактора.

LDA-проекции i-векторов затем подвергались процедуре нормализации, согласно [14],

но только для тестовой базы (U-L-G конфигурация в терминах [14]). Эта нормализация со-

стоит в проектировании LDA-векторов на единичную сферу.

Условия обучения. Обучались две модели S-mix G-PLDA (M=2, 3) и две U-mix G-PLDA

(M=1, 2). Для модели S-mix PLDA (M=3) независимо были обучены (везде — только англий-

ский язык):

— Phone-PLDA — модель, обученная на 11 256 телефонных записях из NIST

2002/2003/2004/2005/2006/2008 от 1250 дикторов-мужчин;

— Mic-PLDA — модель, обученная на 4705 микрофонных записях из NIST

2005/2006/2008 от 203 дикторов-мужчин;

— CI-PLDA — каналонезависимая PLDA-модель, обученная на совокупном наборе дан-

ных систем Phone-PLDA и Mic-PLDA.

При обучении возникает проблема сильной несбалансированности наборов телефонных

и микрофонных записей NIST. Авторы решили эту проблему, взяв из 11 256 только 5000 те-

лефонных записей дикторов, которые были представлены в микрофонном канале, и добавив к

этому набору все записи по микрофонному каналу. Так же, как и в работе [16], модель S-mix

PLDA (M=3) выполнена с помощью комбинирования этих трех моделей на стадии получения

оценок, a S-mix PLDA (M=2) состояла из комбинации двух систем — Phone-PLDA и Mic-

PLDA. Обучение компонент проводилось согласно вариационному байесовскому выводу

Кенни [13]. Модели U-mix PLDA (M=1, 2) обучались на всем смешанном наборе данных двух

систем Phone-PLDA и Mic-PLDA. Везде количество столбцов матрицы собственных голосов

V для всех PLDA-моделей было Qy = 200 , а U=0. Везде в целях ускорения сходимости при

обучении на основании максимального правдоподобия добавлялись итерации минимизации

дивергенции Кульбака—Лейблера фазы обучения по Кенни [13]. Шумовая матрица ковариа-

ции Σ в (4) для всех случаев имела полноковариационный вид.

Результаты тестирования для кроссканала (det3). Результаты сравнения моделей

U-mix и S-mix PLDA относительно результатов основного (core-core) теста на мужских голо-

сах базы NIST SRE 2010 для кроссканальной задачи (det3) [11] представлены в табл. 1. Для

оценки эффективности систем использовались ошибка EER и новый нормализованный ми-

нимум функции стоимости обнаружения NIST (Minimum Detection Cost Function, minDCF)

как метрика [11].

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2013. Т. 56, № 2

Сравнение различных смесей гауссовых PLDA-моделей

59

Система
S-mix G-PLDA Кроссканальный экстрактор
U-mix G-PLDA Кроссканальный экстрактор
U-mix G-PLDA Однородный экстрактор

M=1 — 3,82 % [0,579] 4,06 % [0,601]

M=2
4,31 % [0,598]
3,70 % [0,535]
3,22 % [0,525]

Таблица 1 M=3 3,83 % [0,577]
—
—

Из табл. 1 следует, во-первых, что модель S-mix G-PLDA лучше всего работает при М=3

и осуществляет относительную редукцию EER системы на 11 % при М=2, а во-вторых, что

модель U-mix G-PLDA при М=2 немного выигрывает (EER=3,70 %) у лучшей S-mix-системы

при М=3 (EER=3,83 %) даже при использовании кроссканального экстрактора. Наконец,

лучшей (EER=3,22 %) оказалась модель S-mix G-PLDA при М=2, использующая однородный

экстрактор.

Результаты тестирования для телефонного канала (det5). Результаты сравнения сис-

тем верификации, полученных на неконтролируемой смеси PLDA-моделей, для однородного

(телефон) по каналу условия (det5) представлены в табл. 2. Целью эксперимента было выяс-

нить, можно ли наблюдать на однородном корпусе (телефон, мужчины, английский язык)

структуру плотности, соответствующую выбору более чем одной модели G-PLDA. Из табл. 2

видно, что S-mix G-PLDA при М=2 существенно проигрывает (EER=3,97 %) системе G-PLDA

(EER=3,69 %).

Таблица 2

Система

M=1 M=2

U-mix G-PLDA Однородный экстрактор

3,69 % [0,532]

3,97 % [0,585]

Обсуждение. Как ожидалось, идея однородного экстрактора оказалась весьма полезной для использования моделей U-mix PLDA. Однородный экстрактор породил на тестовой базе det3 такую же двухкластерную (телефон—микрофон) структуру плотности в пространстве i-векторов, что и в обучающем множестве. Это непосредственно следует из сравнения 2-й и 3-й строк табл. 1, видно, что в случае U-mix G-PLDA при М=2 во время обучения на основе максимального правдоподобия произошел захват смесью этой структуры, что положительно повлияло на эффективность этой системы (EER=3,22 %) и негативно — на эффективность системы на основе модели U-mix G-PLDA при М=1 (EER возрос с 3,82 до 4,06 %). Последнее свидетельствует о несоответствии структуры данных, порожденной однородным экстрактором, модели одной G-PLDA. Напротив, как следует из табл. 2, в случае однородного тестового условия (det5) эта структура, порожденная однородным экстрактором, соответствует одной модели G-PLDA. Можно сказать, что на текущий момент количество дикторов в доступных речевых базах недостаточно для эффективного использования смесей PLDA-моделей при М>1 в случае однородной базы данных. Таким образом, проведенные тестовые эксперименты показывают эффективность подхода моделей U-mix PLDA для кроссканальной задачи верификации диктора, которая превосходит по эффективности модель S-mix G-PLDA [16].
Заключение. В статье предложено использовать модель U-mix PLDA для решения кроссканальной задачи верификации диктора. Проведенные эксперименты на данных NIST SRE 2010 позволяют сделать следующие выводы.
1. На однородных базах данных использовать более одной модели нецелесообразно, даже в пространстве LDA-векторов, так как существующие обучающие базы на данный момент не обладают достаточным количеством дикторов.
2. На кроссканальной задаче смеси PLDA моделей можно успешно применять, но в пространстве LDA-векторов и при использовании однородного экстрактора.

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2013. Т. 56, № 2

60 Т. С. Пеховский, А. Ю. Сизов
3. Схема однородного экстрактора в совокупности со смесью двух моделей оказывает существенную конкуренцию схеме кроссканального экстрактора с одним гауссовым анализатором в стандартной кроссканальной задаче NIST.
В будущем планируется реализовать модель U-mix G-PLDA при использовании полной байесовской структуры. Это позволит автоматически определять релевантную размерность матриц факторов диктора и канала, а также количество компонент смеси для обучающей базы.
Работа проводилась при финансовой поддержке Министерства образования и науки Российской Федерации.
СПИСОК ЛИТЕРАТУРЫ
1. Reynolds D. A., Rose R. C. Robust text-independent speaker identification using Gaussian mixture speaker models // IEEE Trans. Speech Audio Process. 1995. N 3. P. 72—83.
2. Reynolds D. A., Quatieri T. F., Dunn R. B. Speaker Verification Using Adapted Gaussian Mixture Models // Digit. Signal Process. 2000. N 10. P. 19—41.
3. Kenny P. Joint factor analysis of speaker and session variability: Theory and algorithms // Technical report CRIM06/08-13. 2005.
4. Kenny P., Boulianne G., Ouellet P., Dumouchel P. Joint factor analysis versus eigenchannels in speaker recognition // IEEE Trans. Audio, Speech, Lang. Process. 2007. Vol. 15. P. 1435—1447.
5. Kenny P., Ouellet P., Dehak N., Gupta V., Dumouchel P. A Study of Inter-Speaker Variability in Speaker Verification // IEEE Trans. Audio, Speech and Lang. Process. 2008. Vol. 16. P. 980—988.
6. Vogt R., Sridharan S. Explicit modeling of session variability for speaker verification // Comput. Speech and Lang. 2008. Vol. 22. P. 17—38.
7. Burget L., Matejka P., Glembek O., Cernocky J. Analysis of feature extraction and channel compensation in GMM speaker recognition system // IEEE Trans. on Audio, Speech and Lang. Process. 2007. Vol. 15. P. 1979—1986.
8. Pekhovsky T., Oparin I. Eigen Channel Method for Text-Independent Russian Speaker Verification // Proc. of the XII Intern. Conf. “Speech and Comput.” SpeCom'08. Moscow, Russia, 2008. P. 385—390.
9. Glembek O., Burget L., Brummer N., Kenny P. Comparison of Scoring Methods used in Speaker Recognition with Joint Factor Analysis // IEEE Int. Conf. on Acoust., Speech, and Signal Process. Taipei, Taiwan, 2009.
10. Dehak N., Kenny P., Dehak R., Dumouchel P., Ouellet P. Front-end factor analysis for speaker verification // IEEE Trans. on Audio, Speech, and Lang. Process. 2010. Vol. 19. P. 788—798.
11. [Электронный ресурс]: .
12. Prince S. J. D., Elder J. H. Probabilistic linear discriminant analysis for inferences about identity // Proc. 11th Intern. Conf. on Comput. Vision. Rio de Janeiro, Brazil, 2007. P. 1—8.
13. Kenny P. Bayesian speaker verification with heavy tailed priors // Proc. Odyssey Speak. and Lang. Recognit. Workshop. Brno, Czech Republic, 2010.
14. Garcia-Romero D., Espy-Wilso C. Y. Analysis of i-vector length normalization in speaker recognition systems // Proc. of Interspeech. Florence, Italy, 2011. P. 249—252.
15. Senoussaoui M., Kenny P., Brummer N., Villiers E., Dumouchel P. Mixture of PLDA Models in I-Vector Space for Gender-Independent Speaker Recognition // Proc. of Interspeech. Florence, Italy, 2011. P. 25—28.
16. Simonchik K., Pekhovsky T., Shulipa A., Afanasev A. Supervised Mixture of PLDA Models for Cross-Channel Speaker Verification // Proc. Interspeech. Portland, USA, 2012.
17. Tipping M., Bishop C. M. Mixtures of probabilistic principal component analyzers // Neural Comput. 1999. Vol. 11. P. 443—482.
18. Senoussaoui M., Kenny P., Dehak N., Dumouchel P. An i-vector extractor suitable for speaker recognition with both microphone and telephone speech // Proc. Odyssey Speak. Recognit. Workshop. Brno, Czech Republic, 2010.
19. Senoussaoui M., Kenny P., Dumouchel P., Castaldo F. Well-calibrated heavy tailed Bayesian speaker verification for microphone speech // Proc. ICASSP. Prague, Czech Republic, 2011.
ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2013. Т. 56, № 2

Классификация эмоционального состояния диктора

61

Тимур Сахиевич Пеховский Александр Юрьевич Сизов

Сведения об авторах — канд. физ-мат. наук; ООО „ЦРТ-инновации“, Санкт-Петербург; веду-
щий научный сотрудник; Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, кафедра речевых информационных систем; доцент; E-mail: tim@speechpro.com — студент; Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, кафедра речевых информационных систем; E-mail: sizov@speechpro.com

Рекомендована кафедрой речевых информационных систем

Поступила в редакцию 22.10.12 г.

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2013. Т. 56, № 2