ИССЛЕДОВАНИЕ АЛГОРИТМОВ ВЫБОРА ОПОРНЫХ ПИКСЕЛОВ В ЗАДАЧАХ ВЫДЕЛЕНИЯ СЕГМЕНТОВ КАДРА ВИДЕОПОСЛЕДОВАТЕЛЬНОСТИ

9
УДК 004.627
И. C. РУБИНА, А. Ю. ТРОПЧЕНКО
ИССЛЕДОВАНИЕ АЛГОРИТМОВ ВЫБОРА ОПОРНЫХ ПИКСЕЛОВ В ЗАДАЧАХ ВЫДЕЛЕНИЯ СЕГМЕНТОВ КАДРА ВИДЕОПОСЛЕДОВАТЕЛЬНОСТИ
Предложена схема выделения опорных пикселов, основанная на исследовании существующих алгоритмов и возможности их применения в задачах классификации сегментов кадра видеопоследовательности. Ключевые слова: сегментный подход, блок переменного размера, опорные точки, классификация сегментов, компенсация движения.
Введение. Задача классификации сегментов кадра возникает при компенсации движения объектов в целях устранения временной избыточности видеоряда, предполагающей наличие подобия соседних кадров видеопоследовательности. Кроме того, разделение сегментов на группы в соответствии с некоторым признаком позволяет осуществить приближение к объектному подходу, что обеспечивает возможность более гибкого манипулирования содержимым видеоряда, а также решения таких прикладных задач, как выявление факта движения и определение траектории движущихся объектов.
Выбор данного подхода к компенсации движения объектов естественных видеосцен обусловлен возможностью устранения значительного количества недостатков решений, основанных на попиксельном подходе, характеризующемся высокой трудоемкостью алгоритма, и объектном подходе, отличающемся сложностью определения формы объекта прогнозирования.
Исходными данными для подобного рода задач являются прямоугольные блоки (сегменты), каждому из которых соответствует вектор движения, устанавливающий связь блоков двух соседних кадров с максимальным значением коэффициента их соответствия и определяющий параметры параллельного переноса. Разделяя объекты на классы, можно в значительной степени сократить количество векторов движения. Необходимо заметить, что согласно ряду исследований выбор критерия соответствия не влияет существенно на качество компенсации движения [1], в связи с чем следует руководствоваться требованием минимума вычислительных затрат.
Подход к устранению временной избыточности видеопоследовательности на основе блоков можно реализовать при помощи сегментов фиксированного и переменного размера. При этом выбор размера блока всегда является компромиссом, так как использование большого количества мелких блоков позволяет более подробно описывать движение в рамках кадра посредством уменьшения степени сжатия за счет увеличения количества передаваемой
ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2012. Т. 55, № 1

10 И. C. Рубина, А. Ю. Тропченко

информации о движении. Алгоритм компенсации движения на основе блоков переменного

размера позволяет нивелировать данное ограничение за счет применения малых блоков для

областей с мелкими деталями и динамичным движением и больших блоков для однородных

областей типа „фон“. Как показали эксперименты, применение этого алгоритма для одной и

той же видеопоследовательности обеспечивает сокращение потока векторов движения на 60 %

по сравнению с подходом, основанным на использовании блоков фиксированного размера [2].

Однако даже в рамках данного подхода возникает ряд проблем. Для блоков большого

размера выбор размера сегмента осуществляется по принципу мажоритарности, что способ-

ствует поглощению малых областей плавного движения. Кроме того, в связи с небольшим

количеством анализируемых пикселов для блоков малого размера возможно возникновение

ложных соответствий. Решить первую проблему можно, исключив использование блоков

большого размера, а вторую — с помощью классификации блоков в соответствии с некото-

рым признаком.

В настоящей статье в качестве такого признака предлагается использовать фактор при-

надлежности большинства пикселов блока некоторой области, определяемой маской, постро-

енной по представленному набору опорных точек.

Схемы алгоритмов. В ходе исследования были проанализированы существующие схе-

мы выделения опорных пикселов на кадрах видеопоследовательности относительно их при-

менимости к решению задач компенсации движения объекта. В настоящее время наибольшее

распространение получили следующие алгоритмы:

— алгоритм ADC (Absolute Difference Criteria), в котором используется критерий абсо-

лютного отклонения; данный показатель соответствия отличается минимальными вычисли-

тельными затратами, однако в ходе экспериментов было выявлено, что этот алгоритм выде-

ляет неоправданно большое количество опорных точек, зависящее от перепадов освещенно-

сти сцены, а также от равномерности представленной текстуры кадра;

— алгоритм детектирования Харриса, описанный в работе [3], при высокой трудоемко-

сти реализации не позволяет выделить стабильный набор точек;

— алгоритм SIFT (Scale-Invariant Feature Transform), описанный в работе [4], в дополне-

ние к алгоритму ADC использует предварительную линейную свертку изображения с ядром

Гаусса:

∑ ∑y(i,

j)

=

1 2πσ2

m k =−m

m n=−m

−
e

k

2 +n2 2σ

y′(i

+

k,

j

+

n)

,

где y′ и y — значения исходной и сглаженной яркости пикселов в точках кадра с координа-
тами (i, j); (2m+1)×(2m+1) — размер ядра Гаусса; σ — параметр отклонения фильтра. Исследования проводились для разных размеров ядра Гаусса при σ = 1. При использо-
вании ядра размером 5×5 была зафиксирована наилучшая способность фильтрации шумов, что обеспечило подходящий набор опорных точек.
По результатам проведенного анализа алгоритм SIFT был выбран в качестве основы для расчета маски классификации.
С учетом выбранной схемы был разработан следующий алгоритм построения маски классификации.
1. Выделение опорных точек по алгоритму SIFT. 2. Создание локальной окрестности — зоны интереса — для каждой точки: границы строки интереса, а также левых и правых границ изображения. 3. Создание массива строк интереса из строк длиной более 2 пкс. 4. Объединение строк в зоны интереса по принципу их стыковки со смещением в 2 пкс сверху или снизу.

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2012. Т. 55, № 1

Исследование алгоритмов выбора опорных пикселов

11

5. Создание второго массива строк интереса из коротких строк в областях резких перепадов яркости, а также строк, составленных из опорных точек и точек зоны интереса.
6. Объединение коротких строк в зоны интереса по принципу их стыковки без смещения сверху или снизу.
Данный алгоритм основан на механизме „неслияния“ зон интереса через их границу, имеющую ширину в 1 пкс. Благодаря объединению коротких строк по указанной схеме происходит различение граничных строк обрамления и областей с перепадами яркости. Для уменьшения трудоемкости алгоритма предлагается его реализацию осуществлять на кадре пониженного разрешения, что, как показало исследование, практически не сказывается на качестве классификации. Стартовые кадры видеопоследовательностей (а), а также соответствующие результаты построения масок (б) представлены на рис. 1.

а) б)

Рис. 1
Полученная в результате выполнения алгоритма маска используется в алгоритме компенсации движения на основе блоков переменного размера (VSBM — Variable Size Block Compensation) с точностью 0,25 пкс. Основные этапы такого алгоритма сводятся к следующим действиям.
1. Изображение делится на блоки равного размера. 2. Для каждого блока выполняется проверка условия: если ошибка соответствия обрабатываемого блока и наиболее подходящего блока опорного кадра выше некоторого порога, то блок делится на четыре блока меньшего размера. 3. При достижении максимально заданного числа блоков или требуемой точности совпадения кадров процесс для данного блока останавливается.
ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2012. Т. 55, № 1

12 И. C. Рубина, А. Ю. Тропченко
Процесс соответствия блоков зонам интереса выполняется по принципу мажоритарности в зависимости от значения маски пикселов, принадлежащих блоку. В алгоритме один вектор движения присваивается группе сегментов, принадлежащих одной зоне интереса. Результаты выполнения предложенного алгоритма представлены на рис. 2.

Рис. 2

В связи с трудоемкостью алгоритма полного перебора целесообразно применение метода

усредненной пирамиды (MP — Median Pyramidе) для отбора соотносимых блоков, который тре-

бует меньших вычислительных затрат при схожем качестве восстановленной видеопоследова-

тельности. Алгоритм MP предполагает осуществление компенсации движения на кадре понижен-

ного разрешения с дальнейшим уточнением векторов на кадре более высокого разрешения [5]. В

рамках данного исследования предлагается использовать пирамиду Гаусса с тремя ступенями.

Экспериментальные результаты. Для тестирования разработанного алгоритма были

выбраны стандартные тестовые последовательности группы MPEG — „Теннис“, „Бригадир“

и „Береговая охрана“.

В ходе экспериментов для алгоритма VSBM и модифицированных алгоритмов VSBM

на основе выделения опорных пикселов (VSBMP) и на основе схемы отбора блоков

(VSBMPM) были получены следующие зависимости:

— пиковое соотношение сигнал/шум для всего перечня размеров блока, вычисляемое в

соответствии с формулой

PSNR

= 10

lg

(2n −1)2
MSE

,

где n — разрядность цветовой схемы, для цветового пространства YUV равная 8; MSE —

среднее квадратическое отклонение яркости пикселов исходного изображения от яркости

изображения, восстановленного после сжатия, определяемое как

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2012. Т. 55, № 1

Исследование алгоритмов выбора опорных пикселов

13

∑ ∑MSE

=

1 MN

M −1 N −1 i=0 j=0

I (i, j) − K (i, j)

2,

где M, N — размеры кадра; I(i, j) и K(i, j) — яркость соответствующих пикселов компенси-

руемого и опорного кадров;

— RD (Ration Distortion) — характеристика, определяющая зависимость искажения сиг-

нала (PSNR) от коэффициента сжатия (R(D));

— вычислительная сложность алгоритма (Q), измеряемая как среднее количество базовых

операций (б.о.) (сложения/вычитания и сравнения) на блок для всего перечня его размеров.

Для тестовой последовательности „Теннис“ на рис. 3, а представлена зависимость вели-

чины PSNR от площади S блока выделяемого сегмента, которая увеличивается с шагом d по

каждой из сторон; на рис. 3, б приведена зависимость вычислительной сложности алгоритма

Q от величин S и d, а на рис. 3, в — зависимость R(D).

а) PSNR, дБ 55,00

VSBMP VSBM VSBMPM

45,00

35,00

25,00

15,00
б) Q, б.о./блок

2×2,+2

1700

1300

2×2,+6 2×2,+14 4×4,+4 4×4,+12 4×4,+28 8×8,+24 8×8,+56 S, d, пкс
VSBMP VSBMPM VSBM

900

500

100 2×2,+2 2×2,+6 2×2,+14 4×4,+4 4×4,+12 4×4,+28 8×8,+24 8×8,+56 S, d, пкс

в) R 9,5

VSBM VSBMPM VSBMP

9

8,5

8

20,00

25,00

30,00 35,00 40,00 45,00 Рис. 3

50,00 55,00

D

Анализ результатов, представленных на рис. 3, а также в таблице, показал, что предложенный алгоритм способствует улучшению показателей сжатия при несущественном понижении качества воспроизведенной видеопоследовательности (если PSNR > 30дБ, то качество

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2012. Т. 55, № 1

14 И. C. Рубина, А. Ю. Тропченко

считается хорошим). При использовании алгоритма VSBMPM было достигнуто снижение вычислительной трудоемкости при схожих показателях коэффициента сжатия и незначительном ухудшении качества. Необходимо также заметить, что при максимальном значении
размера блока, равном 64×64, проявляется эффект мажоритарности.

Размер блока,

пкс

min max

4×4

2×2 8×8

16×16

8×8

4×4 16×16

32×32

8×8

32×32 64×64

VSBM PSNR, дБ R(D)
58,3 8,30 48,7 8,34 41,9 8,52 35,8 8,76 32,9 8,95 30,7 9,15 29,9 9,42 25,8 9,15

Q, б.о. 153 240 271 307 359 440 585
1048

Исследуемый алгоритм VSBMP
PSNR, дБ R(D) Q, б.о. 50,5 8,79 206 42,1 8,82 342 35,7 8,96 473 30,7 9,13 605 28 9,27 758 26 9,41 937 25,6 9,60 1187 22 9,41 1751

VSMPM PSNR, дБ R(D)
46,6 8,79 39,4 8,82 32,9 8,96 28,5 9,13 26 9,27 24,3 9,41 23,2 9,60 20,3 9,41

Q, б.о. 163 260 311 367 439 540 705 1188

Заключение. В ходе исследования разработана схема выделения локальных областей кадра (зон интереса), основанная на методе SIFT выбора опорных точек, отличающаяся уменьшением вычислительных затрат и допустимым уровнем точности с возможностью использования в задачах классификации сегментов кадра.
Применение предложенной схемы обеспечивает более высокий коэффициент сжатия видеопоследовательности, чем в схеме VSBM, но при более значимых вычислительных затратах. Этот показатель можно улучшить, как было показано, за счет применения алгоритма усредненной пирамиды отбора блоков для сравнения.

СПИСОК ЛИТЕРАТУРЫ

1. Srinivasan R., Rao K. R. Predictive coding based on efficient motion estimation // Proc. of ICC. 1984. P. 521—526.

2. Ribas-Corbera J., Neuhoff D. L. On the optimal block size for block-based, motion compensated video coders // SPIE Proc. of Visual Communications and Image Processing. 1997. Vol. 3024. P. 1132—1143.

3. Harris C., Stephens M. Combined corner and edge detector // Proc. of the 4th Alvey Vision Conference. 1988. P. 147—151.

4. Lowe D. G. Object recognition from local scale-invariant features // Proc. of the Intern. Conf. on Computer Vision. 1999. Vol. 2. P. 1150—1157.

5. Рубина И. С. Анализ методов построения траектории движущихся объектов на основе сегментации видеоданных // Науч.-техн. вестн. СПбГУ ИТМО. 2011. Вып. 72.

Сведения об авторах

Ирина Семеновна Рубина

— аспирант; Санкт-Петербургский национальный исследовательский

университет информационных технологий, механики и оптики, ка-

федра вычислительной техники; E-mail: rubren@mail.ru

Александр Ювенальевич Тропченко — д-р техн. наук, профессор; Санкт-Петербургский национальный ис-

следовательский университет информационных технологий, меха-

ники и оптики, кафедра вычислительной техники;

E-mail: tau@d1.ifmo.ru

Рекомендована кафедрой вычислительной техники

Поступила в редакцию 03.03.11 г.

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2012. Т. 55, № 1