Universitat Autònoma de Barcelona. Departament de Ciències de la Computació
Aquesta tesi està centrada en la detecció de moviment i el seu aprofitament per la sumarització de les escenes de vídeo en imatges mosaic. Mentre construir la imatge mosaic amb càmeres pivotants és un tema ben conegut, no es aquest el cas per les càmeres amb moviment. El primer pas consisteix en alinear totes les imatges en un únic sistema de coordenades. Aquest procés, anomenat alineament d’imatges, prové de l’estimació de la transformació que projecta cada imatge de vídeo en aquest sistema de coordenades comú. La imatge mosaic es genera assignant a cada punt, un cert valor derivat de la informació transmesa per les diferents imatges amb informació sobre aquest punt. Moviment i mosaics estan profundament relacionats. La tesi s'estructura en sis capítols. Després d'una introducció als aspectes de percepció del moviment en una seqüència de vídeo i exposar el pla de la tesi, el segon capítol aborda el problema de la detecció de moviment amb càmeres estàtiques. Amb aquesta finalitat, es presenta una àmplia descripció dels algoritmes de separació del fons de la imatge descrits en la literatura. Es presenta a continuació l'algoritme de sostracció de fons desenvolupat en la tesi. Aquest algorisme combina diferents senyals visuals i utilitza un model gràfic probabilístic per garantir la coherència espai-‐temporal per al model de fons. Aquest model representa cada píxel com una variable aleatòria amb dos estats, de fons i de primer pla. Llavors, s’utilitza un camps probabilístic de Markov (MRF) per descriure la correlació entre els píxels veïns en el volum de l'espai-‐temps. A més a més , es presenta un marc general de combinar diferents fonts d'informació relacionades amb el moviment per tal d'augmentar la precisió de la màscara de moviment. El següent pas és fer front al problema de la detecció de moviment quan la càmera no és estàtica, que s'analitza en el capítol 3. En particular, es considera el cas sense paral·laxi. Aquest és un cas comú, en càmeres PTZ o perspectives aèries no produeixen paral·laxi de moviment. Per a compensar les transformacions afins 2D causades per la càmera es proposa utilitzar un seguiment de nucli múltiple, assumint que la major part de la trama pertany al fons. El primer pas és introduir Seguiment de Nucli Múltiple i es descriu com es pot formular per aquest propòsit en particular. A continuació, la generació del mosaic de fons es defineix i es valida la capacitat d'adaptació a través del temps. El capítol 4 presenta un nou algorisme d'alineació de imatges, el Directe-‐Local, Indirecte-‐Global (DLIG), que compensa el moviment 2D mitjançant una transformació projectiva. La idea clau de l'alineació DLIG és dividir el problema d'alineació de imatges en el problema de registrar un conjunt de trossos d'imatge espacialment relacionats. El registrament d’un tros d’imatge es realitza iterativament imposant tan una bona concordança local com una bona coherència espacial global. L’alineament d’un tros d’imatge es porta a terme utilitzant un algoritme de seguiment, de manera que es molt eficient per aconseguir una concordança local. L'algorisme utilitza el registrat de trossos d’imatge per obtenir un registrat multiimatge i utilitza les coordenades mosaic per relacionar el tros actual de la imatge a trossos provinents de altres imatges que comparteixen parcialment el camp de vista. La registració multimatge impedeix el problema d'acumulació d'errors, un dels problemes més importants en mosaics. També es mostra com incrustar un algoritme de seguiment basat en nucli per tal d'obtenir un algoritme de construcció de mosaics precís i eficient. El capítol 5 encara el problema de la generació de mosaics quan l'escena gravada conté paral·laxi de moviment. La solució desenvolupada proposa alinear la seqüència de vídeo en un volum d'espai-‐temps basat en el seguiment eficient de característiques utilitzant un algoritme de seguiment de nucli. El càlcul és ràpid i, com el moviment, es calcula només per a unes poques regions de la imatge, i tot i així proporciona una estimació del moviment 3D precisa. Aquest càlcul és més ràpid i més precís que l’estat de l’art que es basen en un mètode d'alineació directa. La síntesi de la imatge del mosaic encara amb el mètode innovador presentat a la tesi barcode Blending , un nou mètode per utilitzar el blending piràmidal en les imatges mosaic, que és molt eficient. Barcode Blending permet superar la complexitat de la construcció de piràmides per a múltiples tires estretes, en base a combinar totes les tires en una sola etapa de mescla. Finalment la tesi acaba am les conclusions i el treball futur a fer en el capítol sisè.
This thesis is focused on motion detection and its use for the summarization of video scenes in mosaic images. While mosaicing with pivoting cameras is a well-known topic, this is not the case with full motion cameras. The first step is to align all the images into a single coordinate system. This process, named image alignment, comes from the estimation of the transform that projects every video image into this common coordinate system. The mosaic image is generated assigning to each point some value derived from the information conveyed for the different images with information about that point. Motion and Mosaicing are deeply related. The thesis is organized in six chapters. After an introduction to the perceptual aspects of motion in a video sequence and exposing the plan of the thesis, the second chapter deals with the problem of detecting motion using static cameras. To this end, an extensive description of the main background subtraction algorithms in the literature is presented. The original background subtraction algorithm developed in the thesis is presented. This algorithm combines different visual cues and uses a probabilistic graphical model to provide spatio-temporal consistency to the background model. This model represents each pixel as a random variable with two states, background and foreground. Then, Markov Random Fields (MRF) is used to describe the correlation between neighbouring pixels in the space-time volume. In addition, a general framework to combine different motion related information sources is presented in order to increase the accuracy of the motion mask. The next step is to face the problem of detecting motion when the camera is not static, which is analysed in the chapter 3. In particular, the case with no parallax is considered. This is a common case as PTZ cameras or aerial perspectives do not produce motion parallax. It is proposed to compensate for 2D affine transformations caused by the camera by using Multiple Kernel Tracking, assuming that the major part of the frame belongs to the background. The first step is to introduce Multiple Kernel Tracking describing how it can be formulated for this particular purpose. Then the generation of the background mosaic is defined and it adaptability over time. Chapter 4 presents a new frame alignment algorithm, the Direct Local Indirect global (DLIG), which compensates the 2D motion using a projective transformation. The key idea of the DLIG alignment is to divide the frame alignment problem into the problem of registering a set of spatially related image patches. The registration is iteratively computed by sequentially imposing a good local match and global spatial coherence. The patch registration is performed using a tracking algorithm, so a very efficient local matching can be achieved. The algorithm uses the patch-based registration to obtain multiframe registration, using the mosaic coordinates to relate the current frame to patches from different frames that partially share the current field of view. Multiframe registration prevents the error accumulation problem, one of the most important problems in mosaicing. It is also show how to embed a Kernel Tracking algorithm in order to obtain a precise and efficient mosaicing algorithm. The chapter 5 moves to the problem of generating mosaics when the recorded scene contains motion parallax. The developed solution proposes to align the video sequence in a space-time volume based on efficient feature tracking using a Kernel Tracking algorithm. Computation is fast and, as the motion, is computed only for a few regions of the image, yet still gives accurate 3D motion. This computation is faster and more accurate than the previous work that is based on a direct alignment method. The synthesis of the mosaic image is faced with the novel Barcode Blending , a new approach for using pyramid blending in video mosaics, which is very efficient. Barcode Blending overcomes the complexity of building pyramids for multiple narrow strips, combining all strips in a single blending step. This thesis finishes with the conclusions and future work in chapter 6.
Motion detection; Mosaiging; Computer vision
68 - Industries, crafts and trades for finished or assembled articles
Tecnologies
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.