Towards end-to-end vetworks for visual tracking in RGB and TIR videos

Author

Zhang, Lichao

Director

van deWeijer, Joost

Gonzalez Garcia, Abel

Shahbaz Khan, Fahad

Date of defense

2019-11-19

ISBN

9788449091704

Pages

136 p.



Department/Institute

Universitat Autònoma de Barcelona. Departament de Ciències de la Computació

Abstract

Siendo un tema de investigación fundamental, el seguimiento visual juega un importante papel en la visión por computador. Se ha aplicado extensamente en diversos campos, incluyendo la conducción autónoma, navegación y robótica. El objetivo del seguimiento visual es estimar la trayectoria de un objeto en una secuencia de imágenes, habiendo seleccionado manualmente el objeto en el primer fotograma del video. El seguimiento se considera una tarea compleja debido a la gran grama de variaciones que presentan los videos del mundo real. En los últimos años, los métodos de aprendizaje profundo entrenados de extremo-a-extremo han dominado la investigación sobre seguimiento. El seguimiento visual se puede aplicar a diferentes modalidades tales como RGB o infrarrojo térmico (TIR). En esta tesis, identificamos varios problemas de los sistemas de seguimiento actuales. La falta de conjuntos de datos etiquetados a gran escala dificulta el uso del aprendizaje profundo, especialmente en relación al entrenamiento de extremo-a-extremo para el seguimiento de imágenes TIR. Por lo tanto, numerosos métodos para el seguimiento en TIR todavía se basan en representaciones diseñadas manualmente. Esta situación también ocurre en el seguimiento multimodal, como por ejemplo, el seguimiento en RGB-T. Otra razón que dificulta el desarrollo del seguimiento RGB-T es que existe poca investigación sobre los mecanismos de fusión para combinar imágenes de modalidades RGB y TIR. Por otra parte, uno de los componentes más importantes de la mayoría de los seguidores es el módulo de actualización. En las arquitecturas de seguimiento de extremo-a-extremo actuales, como por ejemplo los seguidores Siameses, la actualización en línea del modelo no se tiene en cuenta durante la etapa de entrenamiento. Suelen utilizar una estrategia de actualización lineal durante la etapa de inferencia, o no actualizan el modelo en absoluto. A pesar de los positivos resultados obtenidos mediante esta actualización diseñada a mano, su simplicidad limita la ganancia potencial que se podría obtener al aprender a actualizar de manera automática. Para abordar la escasez de datos para el seguimiento TIR y RGB-T, proponemos la traducción de imagen-a-imagen para generar un conjunto de datos TIR sintéticos a gran escala. Este conjunto de datos nos permite realizar una entrenamiento de extremo-a-extremo para el seguimiento TIR. Además, investigamos varios mecanismos de fusión para el seguimiento RGB-T. Los seguidores multimodales también reciben entrenamiento de extremo-a-extremo sobre los datos sintéticos. Para mejorar la actualización en línea estándar, planteamos la tarea de actualización como un problema de optimización que puede resolverse mediante el entrenamiento de una red neuronal. Por lo tanto, nuestro enfoque reduce los componentes diseñados a mano en el proceso de seguimiento y da un paso más en la dirección de una red de seguimiento entrenada de extremo-a-extremo que incluye la actualización durante la optimización. Extensos experimentos en varios conjuntos de datos de referencia de las modalidades RGB, TIR y RGB-T demuestran la eficacia de los métodos propuestos. Específicamente, los datos sintéticos de TIR son efectivos para el entrenamiento de extremo-a-extremo, nuestros mecanismos de fusión superan a los equivalentes de modalidad única, y nuestra red de actualización supera a la actualización lineal estándar.


As a fundamental research topic, visual tracking plays an important role in computer vision. It has been widely applied in many fields, including autonomous driving, navigation, and robotics. The target of visual tracking is to estimate the trajectory of an object in a sequence of images, where the object is selected manually in the first frame. Tracking is regarded as a difficult task because real-world videos exhibit a large range of variations. In recent years end-to-end training of deep learning methods has dominated tracking research. Visual tracking can be applied to different modalities, such as RGB and thermal infrared (TIR). In this thesis, we identify several problems of current tracking systems. The lack of large-scale labeled datasets hampers the usage of deep learning, especially end-to-end training, for tracking in TIR images. Therefore, many methods for tracking on TIR data are still based on hand-crafted features. This situation also happens in multi-modal tracking, e.g. RGB-T tracking. Another reason, which hampers the development of RGB-T tracking, is that there exists little research on the fusion mechanisms for combining information from RGB and TIR modalities. One of the crucial components of most trackers is the update module. For the currently existing end-to-end tracking architecture, e.g, Siamese trackers, the online model update is still not taken into consideration at the training stage. They use no-update or a linear update strategy during the inference stage. While such a hand-crafted approach to updating has led to improved results, its simplicity limits the potential gain likely to be obtained by learning to update. To address the data-scarcity for TIR and RGB-T tracking, we use image-to-image translation to generate a large-scale synthetic TIR dataset. This dataset allows us to perform end-to-end training for TIR tracking. Furthermore, we investigate several fusion mechanisms for RGB-T tracking. The multi-modal trackers are also trained in an end-to-end manner on the synthetic data. To improve the standard online update, we pose the updating step as an optimization problem which can be solved by training a neural network. Our approach thereby reduces the hand-crafted components in the tracking pipeline and sets a further step in the direction of a complete end-to-end trained tracking network which also considers updating during optimization. Extensive experiments on several benchmark datasets from the RGB, TIR and RGB-T modalities demonstrate the effectiveness of our proposed methods. Specifically, synthetic TIR data is effective for end-to-end training, our fusion mechanisms outperform the single modality counterparts, and our update network outperforms the standard linear update.

Keywords

Visió per computador; Visión por computador; Aprenentatge profund; Aprendizaje profundo; Deep learning; Seguiment visual; Seguimiento visual; Visual tracking; Computer vision

Subjects

004 - Computer science

Knowledge Area

Tecnologies

Documents

lizh1de1.pdf

3.220Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

This item appears in the following Collection(s)