АНАЛИЗ ВОЗМОЖНОСТИ ПРИМЕНЕНИЯ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ НА ОСНОВЕ МНОГООБРАЗИЙ В ЗАДАЧАХ РАСПОЗНАВАНИЯ ДИКТОРОВ
70 Ю. Н. Матвеев, А. К. Шулипа
3. Настасенко М. В., Дырмовский Д. В. Эффективное использование речевой информации и биометрических технологий в силовых структурах // Вестн. МГТУ им. Н. Э. Баумана. Сер. „Приборостроение“. 2011. Вып. № 3. С. 18—25.
4. Матвеев Ю. Н. Технологии биометрической идентификации личности по голосу и другим модальностям // Вестн. МГТУ им. Н. Э. Баумана. Сер. „Приборостроение“. 2012. № 3 (3). С. 46—61.
5. Дырмовский Д. В., Коваль С. Л. Особенности человеко-машинного интерфейса современных систем биометрической идентификации // Изв. вузов. Приборостроение. 2013. Т. 56, № 2. С. 66—74.
Дмитрий Викторович Дырмовский
Сергей Львович Коваль Михаил Васильевич Хитров
Сведения об авторах — ООО „ЦРТ“, Санкт-Петербург; директор филиала; Санкт-Петер-
бургский национальный исследовательский университет информационных технологий, механики и оптики, кафедра речевых информационных систем; соискатель; E-mail: ddv@speechpro.com — канд. техн. наук, доцент; ООО „ЦРТ“, Санкт-Петербург; главный эксперт; E-mail: koval@speechpro.com — канд. техн. наук; ООО „ЦРТ“, Санкт-Петербург; генеральный директор; Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, кафедра речевых информационных систем; заведующий кафедрой; E-mail: khitrov@speechpro.com
Рекомендована кафедрой речевых информационных систем
Поступила в редакцию 22.10.13 г.
УДК 004.93+57.087.1
Ю. Н. МАТВЕЕВ, А. К. ШУЛИПА
АНАЛИЗ ВОЗМОЖНОСТИ ПРИМЕНЕНИЯ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ НА ОСНОВЕ МНОГООБРАЗИЙ
В ЗАДАЧАХ РАСПОЗНАВАНИЯ ДИКТОРОВ
Исследованы особенности применения методов обучения на основе многообразий, широко используемых в приложениях по распознаванию изображений, для решения задач распознавания личностей по голосу (дикторов). Проанализированы результаты экспериментов по использованию таких методов.
Ключевые слова: обучение на основе многообразий, распознавание диктора.
Введение. Алгоритмы машинного обучения на основе многообразий [1] пока мало применяются в системах распознавания дикторов. Для текстонезависимого распознавания дикторов, как правило, используются методы, базирующиеся на моделировании статистических распределений речевых признаков на основе смесей гауссовых распределений, GMM [2]. Согласно оценке Национального института стандартов и технологий США (NIST), компании, занимающие лидирующие позиции в распознавании дикторов, реализуют и совершенствуют свои алгоритмы в рамках подходов на основе гауссовых смесей [3, 4]. Тем не менее в некоторых работах [5, 6] предпринимались попытки использования алгоритмов машинного обучения на основе многообразий для решения задач распознавания дикторов.
В настоящей работе рассмотрены такие алгоритмы, описываются результаты их использования и делается заключение о возможности их применения для решения задач распознавания дикторов.
Метод диффузных карт. В работе [5] решалась задача текстонезависимой идентификации дикторов. Для отображения статистических моделей речевых признаков на низкоразмер-
ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2014. Т. 57, № 2
Анализ возможности применения методов машинного обучения на основе многообразий 71
ное пространство использовался метод диффузных карт (Diffusion Maps). Предложенная в [5]
система идентификации была реализована в три этапа.
1. Извлечение речевых признаков на произнесениях дикторов. В качестве речевых при-
знаков были выбраны мел-частотные кепстральные коэффициенты (mel-frequency cepstral
coefficient, MFCC) [8], для их расчета использовалась стандартная процедура [9].
Помимо кепстральных коэффициентов вычислялись их производные. Размерность вектора
признаков складывалась из 13 коэффициентов и 13 производных, что соответствовало
26-мерным векторам. В итоге каждое произнесение представлялось в виде последовательно-
сти векторов.
Статистическая модель распределения признаков на произнесении строилась следую-
щим образом: для каждой компоненты вектора признаков на всем произнесении определя-
лись среднее, дисперсия, минимум и максимум (только для кепстральных коэффициентов).
В результате каждое произнесение описывалось статистической моделью в виде 78-мерного
вектора (26 средних + 26 дисперсий + 26 минимальных-максимальных значений).
2. Отображение обучающей выборки данных в низкоразмерное пространство с исполь-
зованием метода диффузных карт. В новом пространстве элементы данных кластеризуются
в соответствии с их принадлежностью дикторам. После расчета речевых признаков и стати-
стических моделей производилось отображение 78-мерных векторов, соответствующих мо-
делям каждого произнесения, в низкоразмерное пространство. Для преобразования пространст-
ва был применен метод диффузных карт. Причем рассматривались симметричный и несиммет-
ричный (случайный выбор) варианты расчета диффузионных матриц (подробней см. [5]).
3. Проецирование тестового произнесения в низкоразмерное пространство с использо-
ванием геометрических гармоник [7], затем выявление методом k ближайших соседей
(k-nearest neighbor, k-NN) принадлежности произнесения к какому-либо из дикторов обучаю-
щей выборки.
На стадии классификации для тестового произнесения находилась статистическая мо-
дель, которая отображалась в низкоразмерное пространство, с этой целью использовалась
формула, позволяющая выразить координаты тестового произнесения в новом пространстве
на основе базиса собственных векторов, полученного на этапе обучения. Классификация тес-
тового произнесения в низкоразмерном пространстве проводилась методом k-NN при k=10.
В работе также были исследованы результаты использования классификаторов на осно-
ве смеси гауссовых распределений (пятикомпонентная смесь) и k-NN (в этих случаях класси-
фикация проводилась без предварительной редукции пространства).
Для экспериментов была выбрана база YOHO, в которой содержатся произнесения
106 дикторов-мужчин и 32 женщин, длительность чистой речи не превышает 2—3 с [10].
Дикторы для идентификации выбирались случайным образом, поэтому значения каждого па-
раметра, полученные в нескольких попытках при фиксированном числе дикторов, усредня-
лись, чтобы результат зависел только от числа дикторов в наборе.
Тестирование проводилось при двух вариантах тестовой и обучающей выборки, в пер-
вом случае объем базы тестирования был в 9 раз меньше объема базы обучения (табл. 1).
Таблица 1
Результаты идентификации (%) на наборе произнесений
от различного числа дикторов
Число дикторов
Метод
диффузных карт
несимметричный
симметричный
GMM k-NN
2 100
100 100 99,2
3 99,5
99,3 99,5 98,2
5 99,4
99,1 99,5 97,7
10 97,8
96,9 98,1 95,1
20 94,4
93,2 97,5 92,0
ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2014. Т. 57, № 2
72 Ю. Н. Матвеев, А. К. Шулипа
Во втором случае тестовая база была в 4 раза меньше базы обучения (табл. 2). Получен-
ные результаты показывают, что использование предварительной нелинейной редукции по-
вышает эффективность текстонезависимой идентификации в случае, когда база обучения
меньше тестовой.
Таблица 2
Результаты идентификации (%) на наборе произнесений
от различного числа дикторов
Число дикторов
Метод диффузных карт несимметричный симметричный
GMM
k-NN
2 98,2
99,1 97,4 97,9
3 97,8
98,7 95,2 97,8
5 96,5
96,0 92,1 93,4
10 92,5
91,9 87,4 89,0
20 86,4
84,6 83,3 84,5
Уровень ошибки идентификации при редукции пространства с 78-мерного до 3-мерного примерно одинаков, что свидетельствует о применимости метода диффузных карт для выделения значимых дикторозависимых признаков.
Следует, однако, отметить, что выбранная для исследований речевая база записывалась при использовании одного и того же микрофона, поэтому вариативность, связанная с влиянием эффектов канала, сведена к минимуму, это позволило достичь сравнительно высокого качества идентификации (в среднем более 90 %).
Методы Isomap и Laplacian Eigenmaps. В работе [6] исследовалась возможность применения методов нелинейной редукции пространства к текстонезависимой верификации диктора. Топологическая структура данных моделировалась алгоритмами Isomap и Laplacian Eigenmaps, что позволило сократить размерность входного пространства данных в четыре раза без снижения качества верификации.
Структурная схема системы верификации диктора GMM-SVM, которая применялась в исследованиях, приведена на рисунке.
UBM
Произнесение диктора
(речевой сигнал)
Извлечение признаков
Адаптация модели
X1
M
X2
Супервектор GMM
...
X
n
Принять / Отклонить
Нормализация оценок
сходства
SVM классификатор
Это стандартная структура системы верификации диктора [2], в которой в качестве входных векторов признаков используются супервекторы GMM-UBM [11], отражающие структуру произнесений, а в качестве бинарного классификатора используется машина опорных векторов (Support Vector Machine, SVM) [2]. В системе сначала выполняется предвари-
ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2014. Т. 57, № 2
Анализ возможности применения методов машинного обучения на основе многообразий 73
тельная обработка тестового произнесения для выделения признаков, построение супервек-
тора GMM, а затем выполняется классификация в модуле SVM, где принимается решение о
принадлежности тестового и эталонного произнесений одному и тому же диктору.
Для экспериментальных исследований использовалось несколько речевых баз:
— обучение универсальной фоновой модели (UBM) проводилось на базе NIST-2004 [3];
— тестовое множество составляли фонограммы 1348 дикторов-мужчин, взятые из базы
NIST-2005;
— в качестве вспомогательной базы импостеров (самозванцев) для обучения SVM вы-
браны фонограммы 380 дикторов из базы Фишера [3].
Базовый эксперимент заключался в построении статистических моделей тестового про-
изнесения и эталона на основе адаптации GMM-UBM-MAP [12] в виде супервекторов, полу-
ченных объединением средних компонент смеси гауссовых распределений, и последующей
классификации в модуле SVN. Результаты базового эксперимента сравнивались с результа-
тами экспериментов, в которых исследовалось влияние нелинейной редукции пространства
супервекторов на эффективность системы верификации GMM-SVM.
Для построения системы распознавания дикторов с использованием методов обучения
на основе многообразий (Isomap, Laplacian Eigenmaps) выполнялась следующая последова-
тельность шагов.
1) Как и в базовом эксперименте, предварительно вычислялось N моделей (GMM-UBM)
для эталонного, тестового произнесений и произнесений из базы SVM импостеров.
2) Супервекторы конфигурировались в виде матриц:
x1
M1
x(1,1)
x2 ... x(1, 2) ...
xC
x(1, C )
,
...
... ... ...
x(D,1)
...
... x(D,C)
(1)
где i 1, ..., N , D — размерность векторов признаков, C — число компонент гауссовой смеси.
3) На основе полученных на предыдущем шаге матриц Мi, для каждого значения
d 1, ...,
D
формировались
матрицы
A
d N
,C
размерности
[NC]:
1
A
d N
,C
M1 (d ,1)
2 ... M1(d , 2) ...
C
M1(d
,
C
)
.
...
... ...
...
M N (d,1) ... ... M N (d ,C)
(2)
Набор матриц AdN,C при d 1, ..., D соответствует представлениям GMM моделей N
произнесений в C-мерном пространстве.
4)
Для
каждого
подмножества,
выраженного
матрицами
A
d N
,C
при
d 1, ..., D ,
выпол-
нялось снижение размерности пространства RCRG с учетом сохранения топологических
особенностей.
В качестве алгоритмов нелинейной редукции пространства использовались Isomap и
Laplacian Eigenmaps:
F AdN,C AdN ,G ,
(3)
F — алгоритм преобразования пространства, G — размерность нового пространства, G
3. Настасенко М. В., Дырмовский Д. В. Эффективное использование речевой информации и биометрических технологий в силовых структурах // Вестн. МГТУ им. Н. Э. Баумана. Сер. „Приборостроение“. 2011. Вып. № 3. С. 18—25.
4. Матвеев Ю. Н. Технологии биометрической идентификации личности по голосу и другим модальностям // Вестн. МГТУ им. Н. Э. Баумана. Сер. „Приборостроение“. 2012. № 3 (3). С. 46—61.
5. Дырмовский Д. В., Коваль С. Л. Особенности человеко-машинного интерфейса современных систем биометрической идентификации // Изв. вузов. Приборостроение. 2013. Т. 56, № 2. С. 66—74.
Дмитрий Викторович Дырмовский
Сергей Львович Коваль Михаил Васильевич Хитров
Сведения об авторах — ООО „ЦРТ“, Санкт-Петербург; директор филиала; Санкт-Петер-
бургский национальный исследовательский университет информационных технологий, механики и оптики, кафедра речевых информационных систем; соискатель; E-mail: ddv@speechpro.com — канд. техн. наук, доцент; ООО „ЦРТ“, Санкт-Петербург; главный эксперт; E-mail: koval@speechpro.com — канд. техн. наук; ООО „ЦРТ“, Санкт-Петербург; генеральный директор; Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, кафедра речевых информационных систем; заведующий кафедрой; E-mail: khitrov@speechpro.com
Рекомендована кафедрой речевых информационных систем
Поступила в редакцию 22.10.13 г.
УДК 004.93+57.087.1
Ю. Н. МАТВЕЕВ, А. К. ШУЛИПА
АНАЛИЗ ВОЗМОЖНОСТИ ПРИМЕНЕНИЯ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ НА ОСНОВЕ МНОГООБРАЗИЙ
В ЗАДАЧАХ РАСПОЗНАВАНИЯ ДИКТОРОВ
Исследованы особенности применения методов обучения на основе многообразий, широко используемых в приложениях по распознаванию изображений, для решения задач распознавания личностей по голосу (дикторов). Проанализированы результаты экспериментов по использованию таких методов.
Ключевые слова: обучение на основе многообразий, распознавание диктора.
Введение. Алгоритмы машинного обучения на основе многообразий [1] пока мало применяются в системах распознавания дикторов. Для текстонезависимого распознавания дикторов, как правило, используются методы, базирующиеся на моделировании статистических распределений речевых признаков на основе смесей гауссовых распределений, GMM [2]. Согласно оценке Национального института стандартов и технологий США (NIST), компании, занимающие лидирующие позиции в распознавании дикторов, реализуют и совершенствуют свои алгоритмы в рамках подходов на основе гауссовых смесей [3, 4]. Тем не менее в некоторых работах [5, 6] предпринимались попытки использования алгоритмов машинного обучения на основе многообразий для решения задач распознавания дикторов.
В настоящей работе рассмотрены такие алгоритмы, описываются результаты их использования и делается заключение о возможности их применения для решения задач распознавания дикторов.
Метод диффузных карт. В работе [5] решалась задача текстонезависимой идентификации дикторов. Для отображения статистических моделей речевых признаков на низкоразмер-
ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2014. Т. 57, № 2
Анализ возможности применения методов машинного обучения на основе многообразий 71
ное пространство использовался метод диффузных карт (Diffusion Maps). Предложенная в [5]
система идентификации была реализована в три этапа.
1. Извлечение речевых признаков на произнесениях дикторов. В качестве речевых при-
знаков были выбраны мел-частотные кепстральные коэффициенты (mel-frequency cepstral
coefficient, MFCC) [8], для их расчета использовалась стандартная процедура [9].
Помимо кепстральных коэффициентов вычислялись их производные. Размерность вектора
признаков складывалась из 13 коэффициентов и 13 производных, что соответствовало
26-мерным векторам. В итоге каждое произнесение представлялось в виде последовательно-
сти векторов.
Статистическая модель распределения признаков на произнесении строилась следую-
щим образом: для каждой компоненты вектора признаков на всем произнесении определя-
лись среднее, дисперсия, минимум и максимум (только для кепстральных коэффициентов).
В результате каждое произнесение описывалось статистической моделью в виде 78-мерного
вектора (26 средних + 26 дисперсий + 26 минимальных-максимальных значений).
2. Отображение обучающей выборки данных в низкоразмерное пространство с исполь-
зованием метода диффузных карт. В новом пространстве элементы данных кластеризуются
в соответствии с их принадлежностью дикторам. После расчета речевых признаков и стати-
стических моделей производилось отображение 78-мерных векторов, соответствующих мо-
делям каждого произнесения, в низкоразмерное пространство. Для преобразования пространст-
ва был применен метод диффузных карт. Причем рассматривались симметричный и несиммет-
ричный (случайный выбор) варианты расчета диффузионных матриц (подробней см. [5]).
3. Проецирование тестового произнесения в низкоразмерное пространство с использо-
ванием геометрических гармоник [7], затем выявление методом k ближайших соседей
(k-nearest neighbor, k-NN) принадлежности произнесения к какому-либо из дикторов обучаю-
щей выборки.
На стадии классификации для тестового произнесения находилась статистическая мо-
дель, которая отображалась в низкоразмерное пространство, с этой целью использовалась
формула, позволяющая выразить координаты тестового произнесения в новом пространстве
на основе базиса собственных векторов, полученного на этапе обучения. Классификация тес-
тового произнесения в низкоразмерном пространстве проводилась методом k-NN при k=10.
В работе также были исследованы результаты использования классификаторов на осно-
ве смеси гауссовых распределений (пятикомпонентная смесь) и k-NN (в этих случаях класси-
фикация проводилась без предварительной редукции пространства).
Для экспериментов была выбрана база YOHO, в которой содержатся произнесения
106 дикторов-мужчин и 32 женщин, длительность чистой речи не превышает 2—3 с [10].
Дикторы для идентификации выбирались случайным образом, поэтому значения каждого па-
раметра, полученные в нескольких попытках при фиксированном числе дикторов, усредня-
лись, чтобы результат зависел только от числа дикторов в наборе.
Тестирование проводилось при двух вариантах тестовой и обучающей выборки, в пер-
вом случае объем базы тестирования был в 9 раз меньше объема базы обучения (табл. 1).
Таблица 1
Результаты идентификации (%) на наборе произнесений
от различного числа дикторов
Число дикторов
Метод
диффузных карт
несимметричный
симметричный
GMM k-NN
2 100
100 100 99,2
3 99,5
99,3 99,5 98,2
5 99,4
99,1 99,5 97,7
10 97,8
96,9 98,1 95,1
20 94,4
93,2 97,5 92,0
ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2014. Т. 57, № 2
72 Ю. Н. Матвеев, А. К. Шулипа
Во втором случае тестовая база была в 4 раза меньше базы обучения (табл. 2). Получен-
ные результаты показывают, что использование предварительной нелинейной редукции по-
вышает эффективность текстонезависимой идентификации в случае, когда база обучения
меньше тестовой.
Таблица 2
Результаты идентификации (%) на наборе произнесений
от различного числа дикторов
Число дикторов
Метод диффузных карт несимметричный симметричный
GMM
k-NN
2 98,2
99,1 97,4 97,9
3 97,8
98,7 95,2 97,8
5 96,5
96,0 92,1 93,4
10 92,5
91,9 87,4 89,0
20 86,4
84,6 83,3 84,5
Уровень ошибки идентификации при редукции пространства с 78-мерного до 3-мерного примерно одинаков, что свидетельствует о применимости метода диффузных карт для выделения значимых дикторозависимых признаков.
Следует, однако, отметить, что выбранная для исследований речевая база записывалась при использовании одного и того же микрофона, поэтому вариативность, связанная с влиянием эффектов канала, сведена к минимуму, это позволило достичь сравнительно высокого качества идентификации (в среднем более 90 %).
Методы Isomap и Laplacian Eigenmaps. В работе [6] исследовалась возможность применения методов нелинейной редукции пространства к текстонезависимой верификации диктора. Топологическая структура данных моделировалась алгоритмами Isomap и Laplacian Eigenmaps, что позволило сократить размерность входного пространства данных в четыре раза без снижения качества верификации.
Структурная схема системы верификации диктора GMM-SVM, которая применялась в исследованиях, приведена на рисунке.
UBM
Произнесение диктора
(речевой сигнал)
Извлечение признаков
Адаптация модели
X1
M
X2
Супервектор GMM
...
X
n
Принять / Отклонить
Нормализация оценок
сходства
SVM классификатор
Это стандартная структура системы верификации диктора [2], в которой в качестве входных векторов признаков используются супервекторы GMM-UBM [11], отражающие структуру произнесений, а в качестве бинарного классификатора используется машина опорных векторов (Support Vector Machine, SVM) [2]. В системе сначала выполняется предвари-
ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2014. Т. 57, № 2
Анализ возможности применения методов машинного обучения на основе многообразий 73
тельная обработка тестового произнесения для выделения признаков, построение супервек-
тора GMM, а затем выполняется классификация в модуле SVM, где принимается решение о
принадлежности тестового и эталонного произнесений одному и тому же диктору.
Для экспериментальных исследований использовалось несколько речевых баз:
— обучение универсальной фоновой модели (UBM) проводилось на базе NIST-2004 [3];
— тестовое множество составляли фонограммы 1348 дикторов-мужчин, взятые из базы
NIST-2005;
— в качестве вспомогательной базы импостеров (самозванцев) для обучения SVM вы-
браны фонограммы 380 дикторов из базы Фишера [3].
Базовый эксперимент заключался в построении статистических моделей тестового про-
изнесения и эталона на основе адаптации GMM-UBM-MAP [12] в виде супервекторов, полу-
ченных объединением средних компонент смеси гауссовых распределений, и последующей
классификации в модуле SVN. Результаты базового эксперимента сравнивались с результа-
тами экспериментов, в которых исследовалось влияние нелинейной редукции пространства
супервекторов на эффективность системы верификации GMM-SVM.
Для построения системы распознавания дикторов с использованием методов обучения
на основе многообразий (Isomap, Laplacian Eigenmaps) выполнялась следующая последова-
тельность шагов.
1) Как и в базовом эксперименте, предварительно вычислялось N моделей (GMM-UBM)
для эталонного, тестового произнесений и произнесений из базы SVM импостеров.
2) Супервекторы конфигурировались в виде матриц:
x1
M1
x(1,1)
x2 ... x(1, 2) ...
xC
x(1, C )
,
...
... ... ...
x(D,1)
...
... x(D,C)
(1)
где i 1, ..., N , D — размерность векторов признаков, C — число компонент гауссовой смеси.
3) На основе полученных на предыдущем шаге матриц Мi, для каждого значения
d 1, ...,
D
формировались
матрицы
A
d N
,C
размерности
[NC]:
1
A
d N
,C
M1 (d ,1)
2 ... M1(d , 2) ...
C
M1(d
,
C
)
.
...
... ...
...
M N (d,1) ... ... M N (d ,C)
(2)
Набор матриц AdN,C при d 1, ..., D соответствует представлениям GMM моделей N
произнесений в C-мерном пространстве.
4)
Для
каждого
подмножества,
выраженного
матрицами
A
d N
,C
при
d 1, ..., D ,
выпол-
нялось снижение размерности пространства RCRG с учетом сохранения топологических
особенностей.
В качестве алгоритмов нелинейной редукции пространства использовались Isomap и
Laplacian Eigenmaps:
F AdN,C AdN ,G ,
(3)
F — алгоритм преобразования пространства, G — размерность нового пространства, G