Universitat Autònoma de Barcelona. Departament de Ciències de la Computació
En los últimos años, el número de aplicaciones de consumo basadas en visión por computadora han incrementado drásticamente. Actualmente, soluciones basadas en visión por computadora pueden ser encontradas en video juegos, aplicaciones móviles y en automóviles, por nombrar algunas. Idealmente, el desempeño de estas aplicaciones debiera ser igual ante cualquier factor externo, como cambios en la iluminación o del clima. Sin embargo, esto no es siempre posible utilizando sólo información del espectro visible, debido a las limitaciones inherentes de las imágenes de esta banda espectral. Razón por la cual, el uso de imágenes de diferentes bandas espectrales se está volviendo más común. Las posibilidades que ofrece el uso de imágenes de diferentes espectros, hacen que su estudio sea un tema relevante de investigación y desarrollo. Al igual que, en el caso monocular, el procesamiento de imágenes multiespectrales necesita de algoritmos que puedan manejar su información. Herramientas tradicionales como descriptores locales de características, que son la base de varias técnicas de visión por computadora, deben ser ajustadas para operar en estas nuevas condiciones. Métodos tradicionales de detección, descripción y correspondencia, suelen tener un desempeño limitado en entornos multispectrales, al compararlos con su desempeño en el caso monocular visible. Esto se debe, principalmente a las diferencias naturales que existen entre las diferentes bandas espectrales, no consideradas en su diseño. En esta tesis, nos enfocamos en el problema de la descripción de características locales de imágenes provenientes de diferentes bandas espectrales. En este contexto, el trabajo que se presenta contiene tres grandes contribuciones. En una primera instancia, propone el uso combinado de información frecuencial y espacial para la descripción de imágenes. Luego, realiza un estudio de diferentes técnicas basadas en redes convolucionales para describir imágenes provenientes de diferentes bandas espectrales. Los resultados muestran que este tipo de técnicas sobrepasan los resultados obtenidos por descriptores clásicos. En esta línea, presentamos una nueva red llamada Q-Net, que mejora el estado del arte en descriptores multiespectrales basados en redes convolucionales. La tercera contribución es una propuesta para el uso de estos nuevos descriptores en una aplicación de visión por computadora. En concreto, enfrentamos el problema de odometria visual, utilizando imágenes de diferentes espectros. Finalmente, dos conjuntos de datos fueron generados y compartidos con la comunidad científica en el desarrollo de esta tesis, que esperamos sean utilizados en estudios por otros investigadores.
Over the last few years, the number of consumer computer vision applications has increased dramatically. Today, computer vision solutions can be found in video game consoles, smartphone applications, driving assistance—just to name a few. Ideally, we require the performance of those applications, particularly those that are safety-critical to remain constant under any external environmental factors, such as changes in illumination or weather conditions. However, this is not always possible or very difficult to obtain by only using visible imagery, due to the inherent limitations of the images from that spectral band. For that reason, the use of images from different or multiple spectral bands is becoming more appealing. The aforementioned possible advantages of using images from multiples spectral bands on various vision applications make multi-spectral image processing a relevant topic for research and development. Like in visible image processing, multi-spectral image processing needs tools and algorithms to handle information from various spectral bands. Furthermore, traditional tools such as local feature detection, which is the basis of many vision tasks such as visual odometry, image registration, or structure from motion, must be adjusted or reformulated to operate under new conditions. Traditional feature detection, description, and matching methods tend to underperform in multi-spectral settings, in comparison to monocular settings, due to the natural differences between each spectral band. The work in this thesis is focused on the local feature description problem when cross-spectral images are considered. In this context, this dissertation has three main contributions. Firstly, the work starts by proposing the usage of a combination of frequency and spatial information, in a multi-scale scheme, as feature description. Evaluations of this proposal, based on classical hand-made feature descriptors, and comparisons with state of the art cross-spectral approaches help to find and understand limitations of such strategy. Secondly, different convolutional neural network (CNN) based architectures are evaluated when used to describe cross-spectral image patches. Results showed that CNN-based methods, designed to work with visible monocular images, could be successfully applied to the description of images from two different spectral bands, with just minor modifications. In this framework, a novel CNN-based network model, specifically intended to describe image patches from two different spectral bands, is proposed. This network, referred to as Q-Net, outperforms state of the art in the cross-spectral domain, including both previous hand-made solutions as well as L2 CNN-based architectures. The third contribution of this dissertation is in the cross-spectral feature description application domain. The multispectral odometry problem is tackled showing a real application of cross-spectral descriptors In addition to the three main contributions mentioned above, in this dissertation, two different multi-spectral datasets are generated and shared with the community to be used as benchmarks for further studies.
Descriptors de caracaterístiques locals; Descriptores de características locales; Local feature descriptors; Espectres creuats; Espectros cruzados; Cross-spectral; Espectre infraroig; Espectro infrarojo; Infrared spectrum
6 - Applied Sciences
Tecnologies
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.