Universitat Autònoma de Barcelona. Departament de Ciències de la Computació
Actualmente el sensor de imagen está normando la industria del teléfono inteligente. Mientras algunas marcas de telefonía exploran añadiendo más cámaras, otros como Google, le mantienen con un solo sensor a sus teléfonos inteligentes; pero este sensor está equipado con Deep Learning (DL) para mejorar la calidad de imagen. Sin embargo, en lo que todas las marcas estan de acuerdo es en la necesidad de investigar en los nuevos sensores de imagen; por ejemplo, Omnivisión y PixelTeq (fabricantes de sensores de imagen) presentaron en el 2015 nuevos sensores basados en la tecnología CMOS denominado multispectral single sensors (SSCs). Esta disertación presenta los beneficios de usar un SSC multiespectral que como se mencionó arriba, simultáneamente adquiere imágenes de las bandas visible e infrarrojo cercano (NIR). El principal beneficio cuando se trabajó con imágenes del rango espectral desde 400 a 1100 nanómetros, es la reducción de costo en la configuración del hardware. Solo se requiere una cámara SSC en vez de dos; además, la calibración de cámaras y el registrado de imágenes ya no son requeridas. Con relación a la banda espectral NIR, aunque esta banda es la más cercana a la banda visible y comparte algunas propiedades, la sensibilidad del sensor depende del material de la escena debido a que el comportamiento en la absorción/reflejo capturada de una escena es distinta al canal visible. Muchos trabajos en la literatura han probado los beneficios de trabajar con NIR (por ejemplo para mejorar la calidad de imágenes RGB, remover sombras, quitar neblina, etc). A pesar de las ventajas de usar SSC (por ejemplo baja latencia) existen inconvenientes a ser resueltos. Uno de esos inconvenientes corresponde a la naturaleza del sensor, que además de capturar imagen RGB, cuando no tiene instalado en filtro NIR, también captura información del espectro NIR. Este fenómeno es conocido como RGB y NIR cruzado. Esta tesis primeramente aborda este problema en imágenes complejas y seguidamente muestra las bondades de usar imágenes multiespectrales en la tarea de detección de bordes. La restauración de color desde una imagen RGBN es el tema relacionado al fenómeno RGB y NIR cruzado. Aunque en la literatura se propone un conjunto de procesos para resolver este problema, en esta tesis se proponen distintos enfoques, basados en DL, para sustraer la información NIR adicional que está en los canales RGB. Más precisamente, se propone una Artificial Neural Network (ANN) y dos Convolutional Neural Networks (CNN); como los métodos son basados en DL, se genera una base de datos con pares de imágenes (RGB infectada con NIR y solo RGB). Las imágenes adquiridas son de escenarios complejos con suficiente radiación solar para estudiar las propiedades de absorción/reflejo a las escenas consideradas. Se ha llevado acabo una evaluación profunda del modelo CNN, las diferencias de muchas de las imágenes restauradas son casi imperceptible al ojo humano. La siguiente propuesta de esta tesis es la validación del uso de las imágenes obtenidas en SSC en la tarea de detección de bordes. Tres métodos basados en CCN son propuestos. Mientras el primero se basa en uno de los modelos más usados en la literatura, Hollistically-nested edge detection (HED) denominado multispectral HED (MS-HED), los otros dos son propuestos luego de observar las limitaciones de MS-HED. Estas dos nuevas arquitecturas han sido diseñadas desde cero para usar solo esa configuración (entrenando desde cero); una vez que la primera arquitectura es válida en el dominio visible, un pequeño rediseño es propuesto al modelo original para abordar el problema multiespectral. Al igual que en el caso anterior, una base de datos es generada para abordar el problema de la detección de bordes. Aunque la detección de bordes es abordada en el dominio multiespectral, sus resultados cuantitativos y cualitativos demuestran la generalización en otros conjuntos de datos usados para detección de bordes, alcanzando resultados del estado del arte.
The image sensor, nowadays, is rolling the smartphone industry. While some phone brands explore equipping more image sensors, others, like Google, maintain their smartphones with just one sensor; but this sensor is equipped with Deep Learning to enhance the image quality. However, what all brands agree on is the need to research new image sensors; for instance, in 2015 Omnivision and PixelTeq (sensor manufacturers) presented new CMOS based image sensors, which are capable of capturing multispectral bands, these sensors are defined as multispectral Single Sensor Camera (SSC). This dissertation presents the benefits of using a multispectral SSCs that, as aforementioned, simultaneously acquires images in the visible and near-infrared (NIR) bands. The principal benefits while addressing problems related to image bands in the spectral range of 400 to 1100 nanometers, there are cost reductions in the hardware setup because only one SSC is needed instead of two; moreover, the cameras’ calibration and images alignment are not required any more. Concerning to the NIR spectrum, even though this band is close to the visible band and shares many properties, the sensor sensitivity is material dependent due to different behavior of absorption/reflectance capturing a given scene compared to visible channels. Many works in literature have proven the benefits of working with NIR to enhance RGB images (e.g., image enhancement, remove shadows in the RGB images, dehazing, etc.). In spite of the advantage of using SSC (e.g., low latency), there are some drawback to be solved. One of this drawback corresponds to the nature of the silicon-based sensor, which in addition to capture the RGB image, when the infrared cut off filter is not installed it also acquires NIR information into the visible image. This phenomenon is called RGB and NIR crosstalking. This thesis firstly faces this problem in challenging images and then it shows the benefit of using multispectral images in the edge detection task. The RGB color restoration from RGBN image is the topic tackled in RGB and NIR crosstalking. Even though in the literature a set of processes have been proposed to face this issue, in this thesis novel approaches, based on DL, are proposed to subtract the additional NIR included in the RGB channel. More precisely, an Artificial Neural Network (NN) and two Convolutional Neural Network (CNN) models are proposed; as the DL based models need a dataset with a large collection of image pairs (RGB infected by NIR and target RGB image), a large dataset is collected to address the color restoration. The collected images are from challenging scenes where the sunlight radiation is sufficient to give absorption/reflectance properties to the considered scenes. An extensive evaluation has been conducted on the CNN models, differences from most of the restored images are almost imperceptible to the human eye. The next proposal of the thesis is the validation of the usage of SSC images in the edge detection task. Three methods based on CNN have been proposed. While the first one is based on the most used model, holistically-nested edge detection (HED) termed as multispectral HED (MS-HED), the other two have been proposed observing the drawbacks of MS-HED. These two novel architectures have been designed from scratch (training from scratch); after the first architecture is validated in the visible domain a slight redesign is proposed to tackle the multispectral domain. Again, another dataset is collected to face this problem with SSCs. Even though edge detection is confronted in the multispectral domain, its qualitative and quantitative evaluation demonstrates the generalization in other datasets used for edge detection, improving state-of-the-art results.
Càmera multiespectral de sensor únic; Camara multiespectral de sensor única; Multispectral single sensor camera; Aprenentatge profund; Aprendizaje profundo; Deep learning; Detecció de vores; Detección de bordes; Edge detection
004 - Informática
Tecnologies