On Considering Semantics for Multi-image Processing

Autor/a

Xue, Danna

Director/a

Herranz Arribas, Luis

Zhang , Yanning

Vázquez i Corral, Javier

Tutor/a

Baldrich i Caselles, Ramon

Fecha de defensa

2024-07-11

Páginas

126 p.



Programa de doctorado

Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica

Resumen

En el processament de múltiples imatges, l'aprofitament de la informació semàntica és essencial per a operacions conscients del contingut i per assegurar la consistència entre les imatges. Tanmateix, això presenta desafiaments en obtenir dades semàntiques d'alta precisió ràpidament, adaptar la informació semàntica a diferents tasques i mantenir la consistència en els resultats del processament. Aquesta tesi aborda aquests desafiaments mitjançant diversos enfocaments proposats: Segmentació semàntica adaptable: Introduïm un marc flexible per a l'entrenament de models de segmentació semàntica amb destil·lació de coneixements, permetent una adaptació ràpida entre els compromisos de precisió i eficiència. Per millorar encara més la precisió dels models compactes, s'introdueix supervisió de contorns per obtenir millors detalls dels límits dels objectes. Integració semàntica en la recolorització: Explorem la integració de característiques semàntiques en la recolorització múltiples imatges. A més, proposem introduir característiques de noms de colors en l'harmonització del color. Demostrem que la integració de la semàntica millora la consistència i harmonia del color de la imatge, produint millors efectes visuals perceptius. Anàlisi de l'impacte temporal: Investiguem l'impacte de la informació temporal en la qualitat de restauració de múltiples imatges, destacant el compromís entre percepció i distorsió i la importància de l'alineació. Demostrem que el compromís entre percepció i distorsió encara existeix en introduir informació temporal, i que l'alineació empitjora tant la percepció com la distorsió. La nostra anàlisi proporciona una referència per dissenyar algoritmes de restauració de múltiples fotogrames i estratègies de filmació potencials. Cada enfocament contribueix a superar els desafiaments de l'aprofitament de la informació semàntica en el processament de múltiples imatges, amb l'objectiu de millorar tant l'eficiència com l'eficàcia en diverses aplicacions.


En el procesamiento de múltiples imágenes, aprovechar la semántica es esencial para operaciones basadas en el contenido y garantizar la consistencia entre imágenes. Esto presenta desafíos en la obtención rápida de datos semánticos de alta precisión, adaptar la información semántica a diferentes tareas y mantener la consistencia en los resultados. Esta tesis aborda estos desafíos a través de varios enfoques: Segmentación semántica adaptable: Introducimos un marco flexible para entrenar modelos de segmentación semántica con destilación de conocimientos, lo que permite una rápida adaptación entre los compromisos de precisión y eficiencia. Para mejorar aún más la precisión de los modelos compactos, se introduce supervisión de contornos para obtener mejores detalles de los límites de los objetos. Integración semántica en la recoloración: Exploramos la integración de características semánticas en la recolorización de imágenes basado en paletas para mejorar la consistencia del color en múltiples imágenes. Además, proponemos introducir características de nombres de colores en la armonización del color. Demostramos que la integración de semántica mejora la consistencia y armonía del color de la imagen, produciendo mejores efectos visuales perceptuales. Análisis del impacto temporal: Investigamos el impacto de la información temporal en la calidad de restauración de múltiples imágenes, destacando el compromiso entre percepción y distorsión y la importancia de la alineación. Demostramos que el compromiso entre percepción y distorsión todavía existe al introducir información temporal, y que la falta de alineación empeora tanto la percepción como la distorsión. Nuestro análisis proporciona una referencia para diseñar algoritmos de restauración de múltiples fotogramas y estrategias de filmación potenciales. Cada enfoque contribuye a superar los desafíos de aprovechar la información semántica en el procesamiento de múltiples imágenes, para mejorar tanto la eficiencia como la efectividad en diversas aplicaciones de procesamiento de imágenes.


In multi-image processing, leveraging semantic information is essential for content-aware operations and ensuring consistency across images. However, this presents challenges in obtaining high-precision semantic data quickly, tailoring semantic information to different tasks, and maintaining consistency across processing results. This thesis addresses these challenges through several proposed approaches: Slimmable semantic segmentation: We introduce a flexible framework for training semantic segmentation models with knowledge distillation, enabling quick adaptation between accuracy and efficiency trade-offs. To further improve the accuracy of the compact models, boundary supervision is introduced to obtain better object boundary details. Semantic integration in recoloring: We explore the integration of semantic features into palette-based image recoloring to enhance color consistency across multiple images. Moreover, we propose to introduce color naming features in color harmonization. We demonstrate that the integration of semantics improves image color consistency and harmony, producing better perceptual visual effects. Temporal impact analysis: We investigate the impact of temporal information on multi-image restoration quality, highlighting the perception-distortion tradeoff and the importance of alignment. We demonstrate that the perception-distortion tradeoff still exists when introducing temporal information, and misalignment worsens both perception and distortion. Our analysis provides a reference for designing multi-frame restoration algorithms and potential shooting strategies. Each approach contributes to overcoming the challenges of leveraging semantic information in multi-image processing, aiming to enhance both efficiency and effectiveness in various image processing applications.

Palabras clave

Aprenentatge profund; Deep learning; Aprendizaje profundo; Segmentació semàntica; SEmantic segmentation; Segmentación semántica; Restauració d'imatges; Image restoration; Restauración de imágenes

Materias

04

Área de conocimiento

Tecnologies

Documentos

daxu1de1.pdf

27.66Mb

 

Derechos

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/4.0/

Este ítem aparece en la(s) siguiente(s) colección(ones)