АНАЛИЗ ВОЗМОЖНОСТИ ПРИМЕНЕНИЯ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ НА ОСНОВЕ МНОГООБРАЗИЙ В ЗАДАЧАХ РАСПОЗНАВАНИЯ ДИКТОРОВ

70 Ю. Н. Матвеев, А. К. Шулипа

3. Настасенко М. В., Дырмовский Д. В. Эффективное использование речевой информации и биометрических технологий в силовых структурах // Вестн. МГТУ им. Н. Э. Баумана. Сер. „Приборостроение“. 2011. Вып. № 3. С. 18—25.

4. Матвеев Ю. Н. Технологии биометрической идентификации личности по голосу и другим модальностям // Вестн. МГТУ им. Н. Э. Баумана. Сер. „Приборостроение“. 2012. № 3 (3). С. 46—61.

5. Дырмовский Д. В., Коваль С. Л. Особенности человеко-машинного интерфейса современных систем биометрической идентификации // Изв. вузов. Приборостроение. 2013. Т. 56, № 2. С. 66—74.

Дмитрий Викторович Дырмовский
Сергей Львович Коваль Михаил Васильевич Хитров

Сведения об авторах — ООО „ЦРТ“, Санкт-Петербург; директор филиала; Санкт-Петер-
бургский национальный исследовательский университет информационных технологий, механики и оптики, кафедра речевых информационных систем; соискатель; E-mail: ddv@speechpro.com — канд. техн. наук, доцент; ООО „ЦРТ“, Санкт-Петербург; главный эксперт; E-mail: koval@speechpro.com — канд. техн. наук; ООО „ЦРТ“, Санкт-Петербург; генеральный директор; Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, кафедра речевых информационных систем; заведующий кафедрой; E-mail: khitrov@speechpro.com

Рекомендована кафедрой речевых информационных систем

Поступила в редакцию 22.10.13 г.

УДК 004.93+57.087.1
Ю. Н. МАТВЕЕВ, А. К. ШУЛИПА
АНАЛИЗ ВОЗМОЖНОСТИ ПРИМЕНЕНИЯ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ НА ОСНОВЕ МНОГООБРАЗИЙ
В ЗАДАЧАХ РАСПОЗНАВАНИЯ ДИКТОРОВ
Исследованы особенности применения методов обучения на основе многообразий, широко используемых в приложениях по распознаванию изображений, для решения задач распознавания личностей по голосу (дикторов). Проанализированы результаты экспериментов по использованию таких методов.
Ключевые слова: обучение на основе многообразий, распознавание диктора.
Введение. Алгоритмы машинного обучения на основе многообразий [1] пока мало применяются в системах распознавания дикторов. Для текстонезависимого распознавания дикторов, как правило, используются методы, базирующиеся на моделировании статистических распределений речевых признаков на основе смесей гауссовых распределений, GMM [2]. Согласно оценке Национального института стандартов и технологий США (NIST), компании, занимающие лидирующие позиции в распознавании дикторов, реализуют и совершенствуют свои алгоритмы в рамках подходов на основе гауссовых смесей [3, 4]. Тем не менее в некоторых работах [5, 6] предпринимались попытки использования алгоритмов машинного обучения на основе многообразий для решения задач распознавания дикторов.
В настоящей работе рассмотрены такие алгоритмы, описываются результаты их использования и делается заключение о возможности их применения для решения задач распознавания дикторов.
Метод диффузных карт. В работе [5] решалась задача текстонезависимой идентификации дикторов. Для отображения статистических моделей речевых признаков на низкоразмер-
ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2014. Т. 57, № 2

Анализ возможности применения методов машинного обучения на основе многообразий 71

ное пространство использовался метод диффузных карт (Diffusion Maps). Предложенная в [5]

система идентификации была реализована в три этапа.

1. Извлечение речевых признаков на произнесениях дикторов. В качестве речевых при-

знаков были выбраны мел-частотные кепстральные коэффициенты (mel-frequency cepstral

coefficient, MFCC) [8], для их расчета использовалась стандартная процедура [9].

Помимо кепстральных коэффициентов вычислялись их производные. Размерность вектора

признаков складывалась из 13 коэффициентов и 13 производных, что соответствовало

26-мерным векторам. В итоге каждое произнесение представлялось в виде последовательно-

сти векторов.

Статистическая модель распределения признаков на произнесении строилась следую-

щим образом: для каждой компоненты вектора признаков на всем произнесении определя-

лись среднее, дисперсия, минимум и максимум (только для кепстральных коэффициентов).

В результате каждое произнесение описывалось статистической моделью в виде 78-мерного

вектора (26 средних + 26 дисперсий + 26 минимальных-максимальных значений).

2. Отображение обучающей выборки данных в низкоразмерное пространство с исполь-

зованием метода диффузных карт. В новом пространстве элементы данных кластеризуются

в соответствии с их принадлежностью дикторам. После расчета речевых признаков и стати-

стических моделей производилось отображение 78-мерных векторов, соответствующих мо-

делям каждого произнесения, в низкоразмерное пространство. Для преобразования пространст-

ва был применен метод диффузных карт. Причем рассматривались симметричный и несиммет-

ричный (случайный выбор) варианты расчета диффузионных матриц (подробней см. [5]).

3. Проецирование тестового произнесения в низкоразмерное пространство с использо-

ванием геометрических гармоник [7], затем выявление методом k ближайших соседей

(k-nearest neighbor, k-NN) принадлежности произнесения к какому-либо из дикторов обучаю-

щей выборки.

На стадии классификации для тестового произнесения находилась статистическая мо-

дель, которая отображалась в низкоразмерное пространство, с этой целью использовалась

формула, позволяющая выразить координаты тестового произнесения в новом пространстве

на основе базиса собственных векторов, полученного на этапе обучения. Классификация тес-

тового произнесения в низкоразмерном пространстве проводилась методом k-NN при k=10.

В работе также были исследованы результаты использования классификаторов на осно-

ве смеси гауссовых распределений (пятикомпонентная смесь) и k-NN (в этих случаях класси-

фикация проводилась без предварительной редукции пространства).

Для экспериментов была выбрана база YOHO, в которой содержатся произнесения

106 дикторов-мужчин и 32 женщин, длительность чистой речи не превышает 2—3 с [10].

Дикторы для идентификации выбирались случайным образом, поэтому значения каждого па-

раметра, полученные в нескольких попытках при фиксированном числе дикторов, усредня-

лись, чтобы результат зависел только от числа дикторов в наборе.

Тестирование проводилось при двух вариантах тестовой и обучающей выборки, в пер-

вом случае объем базы тестирования был в 9 раз меньше объема базы обучения (табл. 1).

Таблица 1

Результаты идентификации (%) на наборе произнесений

от различного числа дикторов

Число дикторов

Метод

диффузных карт

несимметричный

симметричный

GMM k-NN

2 100

100 100 99,2

3 99,5

99,3 99,5 98,2

5 99,4

99,1 99,5 97,7

10 97,8

96,9 98,1 95,1

20 94,4

93,2 97,5 92,0

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2014. Т. 57, № 2

72 Ю. Н. Матвеев, А. К. Шулипа

Во втором случае тестовая база была в 4 раза меньше базы обучения (табл. 2). Получен-

ные результаты показывают, что использование предварительной нелинейной редукции по-

вышает эффективность текстонезависимой идентификации в случае, когда база обучения

меньше тестовой.

Таблица 2

Результаты идентификации (%) на наборе произнесений

от различного числа дикторов

Число дикторов

Метод диффузных карт несимметричный симметричный

GMM

k-NN

2 98,2

99,1 97,4 97,9

3 97,8

98,7 95,2 97,8

5 96,5

96,0 92,1 93,4

10 92,5

91,9 87,4 89,0

20 86,4

84,6 83,3 84,5

Уровень ошибки идентификации при редукции пространства с 78-мерного до 3-мерного примерно одинаков, что свидетельствует о применимости метода диффузных карт для выделения значимых дикторозависимых признаков.
Следует, однако, отметить, что выбранная для исследований речевая база записывалась при использовании одного и того же микрофона, поэтому вариативность, связанная с влиянием эффектов канала, сведена к минимуму, это позволило достичь сравнительно высокого качества идентификации (в среднем более 90 %).
Методы Isomap и Laplacian Eigenmaps. В работе [6] исследовалась возможность применения методов нелинейной редукции пространства к текстонезависимой верификации диктора. Топологическая структура данных моделировалась алгоритмами Isomap и Laplacian Eigenmaps, что позволило сократить размерность входного пространства данных в четыре раза без снижения качества верификации.
Структурная схема системы верификации диктора GMM-SVM, которая применялась в исследованиях, приведена на рисунке.

UBM

Произнесение диктора
(речевой сигнал)

Извлечение признаков

Адаптация модели

 X1 

M



 

X2

 

Супервектор GMM

 ... 

 

X

n

 

Принять / Отклонить

Нормализация оценок
сходства

SVM классификатор

Это стандартная структура системы верификации диктора [2], в которой в качестве входных векторов признаков используются супервекторы GMM-UBM [11], отражающие структуру произнесений, а в качестве бинарного классификатора используется машина опорных векторов (Support Vector Machine, SVM) [2]. В системе сначала выполняется предвари-

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2014. Т. 57, № 2

Анализ возможности применения методов машинного обучения на основе многообразий 73

тельная обработка тестового произнесения для выделения признаков, построение супервек-

тора GMM, а затем выполняется классификация в модуле SVM, где принимается решение о

принадлежности тестового и эталонного произнесений одному и тому же диктору.

Для экспериментальных исследований использовалось несколько речевых баз:

— обучение универсальной фоновой модели (UBM) проводилось на базе NIST-2004 [3];

— тестовое множество составляли фонограммы 1348 дикторов-мужчин, взятые из базы

NIST-2005;

— в качестве вспомогательной базы импостеров (самозванцев) для обучения SVM вы-

браны фонограммы 380 дикторов из базы Фишера [3].

Базовый эксперимент заключался в построении статистических моделей тестового про-

изнесения и эталона на основе адаптации GMM-UBM-MAP [12] в виде супервекторов, полу-

ченных объединением средних компонент смеси гауссовых распределений, и последующей

классификации в модуле SVN. Результаты базового эксперимента сравнивались с результа-

тами экспериментов, в которых исследовалось влияние нелинейной редукции пространства

супервекторов на эффективность системы верификации GMM-SVM.

Для построения системы распознавания дикторов с использованием методов обучения

на основе многообразий (Isomap, Laplacian Eigenmaps) выполнялась следующая последова-

тельность шагов.

1) Как и в базовом эксперименте, предварительно вычислялось N моделей (GMM-UBM)

для эталонного, тестового произнесений и произнесений из базы SVM импостеров.

2) Супервекторы конфигурировались в виде матриц:

 x1

M1



  

 x(1,1)

x2 ...  x(1, 2) ...

xC 

 x(1, C )

  

,

 ...

... ... ... 

 

x(D,1)

...

... x(D,C)

(1)

где i 1, ..., N , D — размерность векторов признаков, C — число компонент гауссовой смеси.

3) На основе полученных на предыдущем шаге матриц Мi, для каждого значения

d 1, ...,

D

формировались

матрицы

A

d N

,C

размерности

[NC]:

1

A

d N

,C



  

 M1 (d ,1)

2 ...  M1(d , 2) ...

C

 M1(d

,

C

)

  

.

 ...

... ...

... 

M N (d,1) ... ... M N (d ,C)

(2)

Набор матриц AdN,C при d 1, ..., D соответствует представлениям GMM моделей N

произнесений в C-мерном пространстве.

4)

Для

каждого

подмножества,

выраженного

матрицами

A

d N

,C

при

d 1, ..., D ,

выпол-

нялось снижение размерности пространства RCRG с учетом сохранения топологических

особенностей.

В качестве алгоритмов нелинейной редукции пространства использовались Isomap и

Laplacian Eigenmaps:

 F AdN,C  AdN ,G ,

(3)

F — алгоритм преобразования пространства, G — размерность нового пространства, G