Распознавание жестов на видеопоследовательности в режиме реального времени на основе применения метода Виолы - Джонса, алгоритма CAMShift, вейвлет-преобразования и метода главных компонент | Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2013. № 2(23).

Распознавание жестов на видеопоследовательности в режиме реального времени на основе применения метода Виолы - Джонса, алгоритма CAMShift, вейвлет-преобразования и метода главных компонент

Предложен новый алгоритм распознавания жестов на цифровых изображениях, основанный на совместном применении вейвлет-преобразования и метода главных компонент. Представлены результаты тестирования работы предложенного алгоритма. Показано, что использование указанного алгоритма дает возможность эффективного распознавания жестов на цифровых изображениях. Предложен оригинальный комплексный алгоритм, основанный на методе Виолы - Джонса, алгоритме CAMShift, вейвлет-преобразова-нии и методе главных компонент, предназначенный для распознавания жестов на видеопоследовательности. На основе проведенных численных экспериментов установлено, что предложенный алгоритм позволяет распознавать жесты на видеопоследовательности в режиме реального времени.

Real-time hand gesture recognition base on Viola -Jones method, algorithm CAMShift, wavelet transform and principal component analysis.pdf Распознавание жестов является одной из наиболее сложных и актуальных задач в области обработки изображений. Системы распознавания жестов предназначены для идентификации определенных человеческих жестов с целью использования их для передачи информации или для управления различными устройствами. В данной работе рассматривается задача распознавания жестов на цифровых изображениях и видеопоследовательности в режиме реального времени. Для решения задачи распознавания объектов на видеопоследовательности необходимо решить задачу поиска и отслеживания объектов. Метод Виолы - Джонса [1, 2] является самым популярным методом для поиска области объектов на изображении, из-за его высокой скорости и эффективности. Детектор Виолы -Джонса основан на трех главных идеях: интегральном представлении изображения, методе построения классификатора на основе алгоритма адаптивного бус-тинга (AdaBoost) и методе комбинирования классификаторов в каскадную структуру. Эти идеи позволяют построить детектор, способный работать в режиме реального времени. Информация о статистическом распределении цветовой информации изображения также нашла применение в алгоритмах отслеживания объектов. Так, в 1998 г. Гарри Брадски создал алгоритм CAMShift (Continuously Adaptive MeanShift) [3], который на основе цветовой информации был способен отслеживать объекты. Процесс распознавания объектов обычно состоит из двух этапов: первый этап - извлечение и сохранение признаков известных объектов в базу данных, второй этап - сравнение признаков объектов с признаками, находящимися в базе данных. В настоящее время установлено, что вейвлет-преобразование является хорошим способом для получения характеристик изображения. В данной работе используются вейвлет-преобразования Хаара и Добеши для извлечения признаков жестов на изображениях. В задаче распознавания объектов метод главных компонент успешно применяется в процессе сравнения компонент, характеризующих неизвестное изображение, с компонентами, соответствующими известным изображениям. Целью данной работы являются создание нового алгоритма, основанного на применении вейвлет-преобразования и метода главных компонент для распознавания жестов на цифровых изображениях, и разработка оригинального комплексного алгоритма, основанного на применении метода Виолы - Джонса, алгоритма CAMShift, вейвлет-преобразования и метода главных компонент для распознавания жестов на видеопоследовательности в режиме реального времени. 1. Метод Виолы - Джонса Метод был разработан и представлен в 2001 г. Полом Виолой и Майклом Джонсом и до сих пор эффективен для поиска объектов на цифровых изображениях и видеопоследовательностях в режиме реального времени [1, 2]. Основной его идеей является использование каскада простых классификаторов - детекторов характеристик вместо одного сложного классификатора. На базе этой идеи возможно построение детектора, способного работать в режиме реального времени. Характеристики используются вместо непосредственных значений пикселей по многим причинам. Основной причиной является то, что характеристики могут описывать те знания о классе объектов, которые трудно выявить на конечном числе обучающих данных. Вторая важная причина использования характеристик: системы, построенные на их основе, работают гораздо быстрее, чем системы, работающие напрямую с пикселями. 1.1. Интегральное представление изображений Для того чтобы рассчитывать яркость прямоугольного участка изображения, используется интегральное представление [4]. Оно часто используется и в других методах, например в вейвлет-преобразованиях, Speeded up robust feature (SURF), фильтрах Хаара и многих разработанных алгоритмах. Интегральное представление позволяет быстро рассчитывать суммарную яркость произвольного прямоугольника на данном изображении, причем время расчета не зависит от площади прямоугольника. Интегральное представление изображения представляет собой матрицу, совпадающую по размерам с исходным изображением. В каждом ее элементе хранится сумма интенсивностей всех пикселей, находящихся левее и выше данного элемента. Элементы матрицы рассчитываются по следующей формуле: I (X, у) = i i( х', y'), x'< х, y < у где I(x,y) - значение точки (х,у) интегрального изображения; i(x,y) - значение интенсивности исходного изображения. На основе применения интегрального представления изображения вычисление признаков одинакового вида, но с разными геометрическими параметрами, происходит за одинаковое время. Каждый элемент матрицы I(x,y) представляет собой сумму пикселей в прямоугольнике от i(0,0) до i(x,y), т.е. значение каждого элемента I(x,y) равно сумме значений всех пикселей левее и выше данного пикселя i(x,y). Расчет матрицы занимает линейное время, пропорциональное числу пикселей в изображении, и его можно производить по следующей формуле: I(х, y) = i(x, y) -1(x -1, y -1) +1(x, y -1) +1(x -1, y). Интегральное представление имеет интересную особенность. По интегральной матрице можно очень быстро вычислить сумму пикселей произвольного прямоугольника. 1.2. Хаар-подобные характеристики С точки зрения необходимости использования достаточно простых алгоритмов получения признаков, перспективным является применение хаар-подобных характеристик (Haar wavelet-like features), представляющих собой результат сравнения яркостей в двух прямоугольных областях изображения. В частности, как уже отмечалось выше, Виола и Джонс предложили использовать три вида характеристик. Значением характеристики из двух прямоугольников является разница между суммой пикселей в этих прямоугольных областях. Области имеют одинаковый размер и форму и по горизонтали и по вертикали. Предположим, что задано множество объектов A и множество допустимых ответов B. Пусть gA^-B называется решающей функцией. Решающая функция g должна допускать эффективную компьютерную реализацию, по этой причине её также называют алгоритмом. Признак (feature) f объекта a - отображение fA^-Df, где Df - множество допустимых значений признака. В частности, любой алгоритм gA^-B также можно рассматривать как признак. Если задан набор признаков f1,...,fn, то вектор x = (/1(a),...,fn(a)) называется признаковым описанием объекта aEA. Признаковые описания допустимо отождествлять с самими объектами. При этом множество A = D/1 x...xDfn называют признаковым пространством [5]. Вычисляемым значением такого признака будет F = U - V, где U - сумма значений яркостей точек, закрываемых светлой частью признака; V - сумма значений яркостей точек, закрываемых темной частью признака. Для их вычисления используется понятие интегрального изображения. Хаар-подобные признаки описывают значение перепада яркости по оси X и Y изображения соответственно. 1.3. Метод построения классификатора на основе алгоритма бустинга Бустинг - комплекс методов, способствующих повышению точности аналитических моделей. Бустинг (boosting) означает дословно «усиление» «слабых» моделей - это процедура последовательного построения композиции алгоритмов машинного обучения, когда каждый следующий алгоритм стремится компенсировать недостатки композиции всех предыдущих алгоритмов. Идея бустинга была предложена Робертом Шапиро (Schapire) в конце 90-х гг. прошлого века [6], когда надо было найти решение вопроса о том, каким образом, имея множество плохих (незначительно отличающихся от случайных) алгоритмов обучения, получить один хороший. В результате работы алгоритма бустинга на каждой итерации формируется простой классификатор вида где pj - показывает направление знака неравенства; 6j - значение порога; f (z) -вычисленное значение признака; z - окно изображения размером 20x20 пикселей. Полученный классификатор имеет минимальную ошибку по отношению к текущим значениям весов, задействованным в процедуре обучения для определения ошибки. Развитием данного подхода явилась разработка более совершенного семейства алгоритмов бустинга AdaBoost (адаптивное улучшение), осуществленная Йоавом Фройндом и Робертом Шапиро в 1999 г. В AdaBoost можно использовать произвольное число классификаторов и производить обучение на одном наборе примеров, поочередно применяя их на различных шагах. В методе Виолы - Джонса вариант AdaBoost используется как для выбора особенностей, так и для обучения классификатора. В его оригинальной форме обучающий алгоритм AdaBoost используется для повышения эффективности классификации простого (иногда называемого слабым) обучающего алгоритма. Для повышения скорости обнаружения используется каскадная структура, фокусирующая свою работу на наиболее информативных областях изображения. Каскад состоит из слоев, которые представляют собой классификаторы, обученные с помощью процедуры бустинга. 2. Алгоритм отслеживания объекта CAMShift Алгоритм CAMShift был создан Гарри Брадски в 1998 г. и способен отслеживать лица [3]. Он комбинирует алгоритм отслеживания объекта Mean Shift, основанный на карте вероятности цвета кожи, с адаптивным шагом изменения размера области отслеживания. Вероятность цвета кожи каждого пикселя изображения определяется методом Histogram Backprojection, основанным на цвете, представленном в виде цветового тона (Hue) модели HSV. Так как алгоритм CAMShift способен отслеживать лица на основе вероятности цвета кожи, то он может применяться для отслеживания руки. Преимуществами данного алгоритма являются: низкие требования к вычислительным ресурсам, гибкие настройки точности позиционирования, возможность работы в различных условиях освещенности. Также дополнительным преимуществом алгоритма является возможность работы в условиях частичного перекрытия отслеживаемого объекта. Указанные выше свойства алгоритма обусловлены использованием модели объекта, построенной на основе гистограммы яркости и цвета, а также использованием процедуры Mean Shift для точного позиционирования положения объекта. 3. Вейвлет-преобразование Вейвлет-преобразование широко используется для анализа нестационарных процессов. Оно показало свою эффективность для решения широкого класса задач, связанных с обработкой изображения. Коэффициенты вейвлет-преобразо-вания содержат информацию об анализируемом процессе и используемом вейвле-те. Поэтому выбор анализирующего вейвлета определяется тем, какую информацию необходимо извлечь из процесса. Каждый вейвлет имеет характерные особенности во временной и частотной областях, поэтому иногда с помощью разных вейвлетов можно полнее выявить и подчеркнуть те или иные свойства анализируемого процесса. В работах [7, 8] представлены разложение изображения и извлечение его признаков для классификации изображений самолетов на основе применения вейв-лет-преобразования Хаара и многослойной нейронной сети. В данной работе используются вейвлет-преобразования Хаара и Добеши для извлечения признаков изображения жестов. Пример применения вейвлет-преобразования Добеши для извлечения признаков изображения жеста представлен на рис. 1. Рис. 1. Пример извлечения признаков жеста: исходное изображение жеста (а); результат после применения вейвлет-преобразования Добеши (б) 4. Метод главных компонент Метод главных компонент (Principal Component Analysis, PCA) - один из наиболее распространенных методов для уменьшения размерности данных, потери наименьшего количества информации. Он заключается в линейном ортогональном преобразовании входного вектора P размерности N в выходной вектор Q размерности M, M

Ключевые слова

Распознавание жестов, метод Виолы - Джонса, алгоритм CAMShift, вейвлет-преобразование, метод главных компонент, Hand gesture recognition, method Viola-Jones, algorithm CAMShift, wavelet transform, principal component analysis

Авторы

ФИООрганизацияДополнительноE-mail
Фан Нгок ХоангТомский политехнический университетаспирант кафедры вычислительной техники института кибернетикиhoangpn285@gmail.com
Буй Тхи Тху ЧангТомский политехнический университетаспирант, программист кафедры вычислительной техники Института кибернетикиtrangbt.084@gmail.com
Спицын Владимир ГригорьевичТомский политехнический университетдоктор технических наук, профессор кафедры вычислительной техники Института кибернетикиspvg@tpu.ru
Всего: 3

Ссылки

Viola P., Jones M.J. Rapid object detection using a boosted cascade of simple features // IEEE Conf. on Computer Vision and Pattern Recognition. Kauai, Hawaii, USA, 2001. V. 1. P. 511-518.
Viola P., Jones M.J. Robust real-time face detection // International Journal of Computer Vision. 2004. V. 57. No. 2. P. 137-154.
Bradski G.R. Computer vision face tracking for use in a perceptual user interface // Intel Technology Journal. 1998, 2nd Quarter.
Гонсалес P., Вудс Р. Цифровая обработка изображений. М.: Техносфера, 2005. 1072 с.
Местецкий Л.М. Математические методы распознавания образов. М.: МГУ, ВМиК, 2002-2004. С. 42-44.
Freund Y., Schapire R.E. A Short introduction to boosting // J. Japanese Society for Artifical Intelligence. September 1999. V. 14. No. 5. P. 771-780.
Буй Тхи Тху Чанг, Спицын В.Г. Разложение цифровых изображений с помощью двумерного дискретного вейвлет-преобразования и быстрого преобразования // Известия Томского политехнического университета. 2011. Т. 318. № 5. С. 73-76.
Буй Тхи Тху Чанг, Фан НгокХоанг, Спицын В.Г. Алгоритмическое и программное обеспечение для классификации цифровых изображений с помощью вейвлет-преобразова-ния Хаара и нейронных сетей // Известия Томского политехнического университета. 2011. Т. 319. № 5.
Pearson K. On lines and planes of closest fit to systems of points in space // Philosophical Magazine. 1901. V. 2. No. 6. P. 559-572.
Kim T.K., Wong S.F., Cipolla R. Cambrige Hand Gesture Data set. URL: http://www.iis.ee.ic. ac.uk/~tkkim/ges_db.htm (дата обращения 10.02.2012).
 Распознавание жестов на видеопоследовательности в режиме реального времени на основе применения метода Виолы - Джонса, алгоритма CAMShift, вейвлет-преобразования и метода главных компонент | Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2013. № 2(23).

Распознавание жестов на видеопоследовательности в режиме реального времени на основе применения метода Виолы - Джонса, алгоритма CAMShift, вейвлет-преобразования и метода главных компонент | Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2013. № 2(23).

Полнотекстовая версия