Рассматривается алгоритм стабилизации видеопотока, как методическая разработка для специализации «Компьютерное зрение в автоматизации технологических процессов и производств» в Томском государственном университете систем управления и радиоэлектроники. Основное внимание уделено цифровой обработке изображения, используя перспективное дискретное вейвлет-преобразование.
THE ALGORITHM OF VIDEOSTREAM STABILIZATION IN TASKS OF SPECIALIZATION «COMPUTER VISION IN AUTOMATIONS OF THE TECHNOLOGICAL PROCESSES AND PRODUCTIONS».pdf Компьютерное зрение - относительно молодая техническая область, которая развивается с 60-x гг. прошлого века. Эта научная дисциплина тесно связана с такими научными областями, как оптика, физика твердого тела, квантовая механика, нейробиология (биологическое зрение), обработка сигналов, статистика, оптимизационная математика, геометрия. Область применения компьютерного зрения довольно широка: медицина (микроскопия, рентгенография, ангиография, ультразвуковые исследования и томография), промышленность (контроль качества, измерение положения и ориентации деталей), военное применение (управление, обнаружение и идентификация объектов), новые области применения - это автономные транспортные средства обнаружения лесных пожаров, нефтяных пятен и др., поддержка создания видеоэффектов для кино и телевидения [1].Многие проблемы в обучении студентов широкого круга технических специальностей могут быть успешно преодолены с использованием набора новейших программнo-алгоритмических средств [2].Проиллюстрируем это на примере подготовки специалистов по направлению «Компьютерное зрение в автоматизации технологических процессов и производств», которое осуществляется на кафедре электронных средств автоматизации и управления Томского университета систем управления и радиоэлектроники с 2008 г.На протяжении обучающего процесса был разработан методический материал для изучения задач и проблем компьютерного зрения, а также смежной области - обработки изображений. Выделены следующие направления подготовки:•пространственные и частотные методы обработки изображений;•основы формирования регистрируемых изображений;•теория распознавания объектов изображения;•моделирование систем компьютерного зрения;•методы и алгоритмы сегментации изображений;•морфологический анализ изображений.В образовательном процессе очень важно, чтобы студент научился пользоваться и применять комплексно все полученные знания для решения реальных задач.Одной из таких задач является изучение алгоритма стабилизации видеопотока, изучение решения которой позволяет студентам увидеть связи компьютерного зрения с другими научными смежными областями (рис. 1). Рис. 1. Связь между компьютерным зрением и другими областями [3]Для решения такой задачи используются статистическая обработка векторов (анализ и получение информации из сигналов, основываясь на их статистических свойствах), цифровая обработка сигналов (преобразование сигналов, представленных в цифровой форме), цифровая обработка изображений. В этом направлении обучаемые более тесно познакомятся с алгоритмами подавления шумов, восстановления изображения и др. Также в обработке сигналов используется дискретное вейвлет-преобразование. Вейвлет-анализ является перспективным направлением цифровой обработки сигналов, его инструменты находят применение в самых различных сферах интеллектуальной деятельности. Рассмотрим базовую часть задачи стабилизации видеопотока [4]. Одно из основных отличий от профессиональной съёмки от любительской заключается в том, что профессионалы, как правило, снимают со штативами, кранами, тележками и прочими приспособлениями, обеспечивающими неподвижность или плавное движение камеры, тогда как любители обычно об этом не задумываются. Как следствие, часто в любительской съёмке происходит дрожание кадра, а поскольку человек лучше всего реагирует на движение, то хаотичное движение является сильным раздражителем для глаза. Поэтому просмотр клипов с дрожанием очень неприятен для человека.Видео с дрожанием - это обычно домашнее (любительское) видео, которое появляется при съемках на фотоаппарат, сотовый телефон или любительскую камеру. На рис. 2 приведена последовательность кадров из ролика с дрожанием.Введем некоторые обозначения:1) - кадры видео, где значение в точке определяет ее цвет;2) - сдвиг вдоль Ox, вдоль Oy, увеличение и поворот i-го кадра относительно (i-1)-го;3) - сдвиг кадра, связанный с дрожанием;4) - преднамеренный сдвиг кадра (без дрожания).Значение определяется по формуле .В данных обозначениях задача формулируется так: необходимо найти для всех и привести сдвиги между кадрами в соответствие с .Рис. 2. Последовательность кадров из видео с дрожанием кадраДля завершения картины определим математически понятие сдвига между двумя кадрами [4]:1) пусть - два кадра;2) - оператор, осуществляющий сдвиг, поворот и увеличение;3) тогда определяется по формулеПервым и одним из самых сложных и трудозатратных шагов алгоритма является выделение опорных точек на изображении. Для этого шага применяется дискретное вейвлет-преобразование (ДВП), которое нам поможет выделить наиболее значимые детали на изображении.Определим один уровень ДВП. ДВП сигнала x получаем применением набора фильтров. Сначала сигнал пропускается через низкочастотный (low-pass) фильтр с импульсным откликом g, и получается свёртка: Одновременно сигнал раскладывается с помощью высокочастотного (high-pass) фильтра h. В результате получаются детализирующие коэффициенты (после ВЧ-фильтра) и коэффициенты аппроксимации (после НЧ-фильтра). Эти два фильтра связаны между собой и называются квадратурными зеркальными фильтрами (QMF).Так как половина частотного диапазона сигнала была отфильтрована, то, согласно теореме Котельникова, отсчёты сигналов можно проредить в 2 раза:Такое разложение вдвое уменьшило разрешение по времени в силу прореживания сигнала. Однако каждый из получившихся сигналов представляет половину частотной полосы исходного сигнала, так что частотное разрешение удвоилось.Рис. 3. Схема разложения сигнала в ДВПТаким образом, разложение можно повторять несколько раз для дальнейшего увеличения частотного разрешения с дальнейшим прореживанием коэффициентов после НЧ- и ВЧ-фильтрации. Это можно представить в виде двоичного дерева (рис. 4), где листья и узлы соответствуют пространствам с различной частотно-временной локализацией.Рис. 4. Дерево разложенияНа практике алгоритм применения ДВП для изображения можно представить в таком виде, как на (рис. 5).Рис. 5. Пример применения вейвлет-обработки для анализа изображенийДля поиска опорных точек в алгоритме используется 2-й и 3-й уровни ДВП. Таким образом, избавляемся от огромного количества лишней информации (шум, мелкие детали и т.д.).Как видно из рис. 2, изображение разделяется на квадранты. В каждом квадранте из массива найденных опорных точек для стабилизации будет использована только одна точка.Проанализировав два соседних кадра, имеем набор опорных точек. По опорным точкам, изменившим свои координаты, строятся векторы движения. Исходя из найденных векторов, рассчитываются для каждого кадра по одному вектору смещения на каждую ось координат.Разработанный алгоритм стабилизации видеопотока наглядно демонстрирует применение сразу нескольких методов цифровой обработки изображений, использования вейвлет-анализа, статистической обработки данных (векторов). Также параллельно студенты осваивают несколько основных направлений подготовки по специальности: пространственные и частотные методы обработки изображений, теория распознавания объектов изображения, методы и алгоритмы сегментации изображений. Кроме того, использование базовых алгоритмов позволяет повысить фундаментальность образования специалистов. Набор заданий в учебном процессе с использованием таких программно-алгоритмических средств может быть широко использован, а составляющие части алгоритма могут быть задействованы в других смежных дисциплинах, читаемых студентам по другим специальностям. Таким образом, в перспективе студенты будут способны получить новые как общие, так и конкретные знания и применять эти навыки на практике.Естественным продолжением работы является создание общедоступной и интерактивной версии учебно-методического комплекса, показывающего работу алгоритма стабилизации видеопотока с наглядной демонстрацией работы всех используемых алгоритмов. Это позволит обеспечить рост эффективности обучения. Применение интерактивной версии может быть полезно как для очной, так и для удаленной подготовки специалистов и предоставит широкие возможности для самообразования студентов, следовательно, позволит повысить информационное наполнение и эффективность использования часа аудиторных занятий. Таким образом, авторы предполагают, что создание подобных общедоступных и интерактивных версий программно-алгоритмических средств позволит перейти на качественно новый уровень обучения.
Обзор базовой литературы по компьютерному зрению / В.В. Титков, В.В. Щербаков, И.В. Шакиров // Современные техника и технологии. - Томск, 2009. - Т.1. - С. 237-239.
Арамеев Д.В., Гужов В.И. Виртуальный доступ к обучающим средам // Открытое и дистанционное образование. - Томск, 2008. - № 4 (32). - С. 34-36
Стрельников К. Методы подавления дрожания кадра в видео // Компьютерная графика и мультимедиа: сетевой журнал [Электронный ресурс] / Лаборатория компьютерной графики и мультимедиа, Лаборатории математических методов обработки изображений при ф-те ВМиК МГУ