Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
Este trabajo estudia la utilidad de representaciones jerárquicas basadas en regiones para el procesado de imagen y de secuencias de vídeo. Las representaciones basadas en regiones ofrecen una forma de realizar un primer nivel de abstracción y reducir el número de elementos a procesar con respecto a la representación clásica basada en el pixel. En este trabajo se revisan las dos representaciones que han demostrado ser de utilidad para el procesado basado en regiones, a saber el grafo de regiones adyacentes y el árbol, y se discute por qué las representaciones basadas en árboles son más adecuadas para nuestro propósito. De hecho, los árboles permiten la representación de la imagen de forma jerárquica y pueden ser aplicadas sobre éste técnicas eficientes y complejas. En este trabajo se discuten dos cuestiones principales: cómo puede ser creada la representación jerárquica a partir de una imagen determinada y cómo se puede manipular o procesar el árbol.<br/><br/>Se han desarrollado dos representaciones basadas en árboles: el Árbol de Máximos, y el Árbol de Particiones Binario. El Árbol de Máximos estructura de forma compacta las componentes conexas que surgen de todos los posibles conjuntos de niveles de una imagen de nivel de gris. Es una representación adecuada para la implementación de operadores conexos antiextensivos, desde operadores clásicos (por ejemplo, filtro de área) hasta operadores nuevos (como el filtro de movimiento desarrollado en este trabajo). El Árbol de Particiones Binario estructura el conjunto de regiones que se obtiene durante la ejecución de un algoritmo de fusión basado en regiones. Desarrollado para superar alguno de los inconvenientes impuestos por el árbol de Máximos -- en particular la falta de flexibilidad de la creación del árbol y la auto-dualidad de la representación del árbol --, ha demostrado ser una representación apta para un gran número de aplicaciones, tal y como se muestra en este trabajo.<br/><br/>Las estrategias de procesado se basan en técnicas de poda. Las técnicas de poda eliminan algunas ramas del árbol basándose en un algoritmo de análisis aplicado a los nodos del árbol. Las técnicas de poda aplicadas al árbol de Máximos permiten obtener operadores anti-extensivos, mientras que para el caso del árbol de Particiones Binario se obtienen operadores auto-duales si éste ha sido creado de forma auto-dual. Las técnicas de poda desarrolladas en este trabajo están dirigidas hacia las siguiente aplicaciones: filtrado, segmentación y recuperación de datos basada en el contenido.<br/><br/>Las aplicaciones de filtrado (en el contexto de los operadores conexos) y segmentación están basados en el mismo principio: los nodos del árbol son analizados de acuerdo a un criterio determinado, y la decisión de eliminar o preservar un nodo se basada normalmente en un umbral aplicado sobre la anterior medida del criterio. La poda se realiza entonces de acuerdo con la ésta decisión. Como resultado, la imagen asociada al árbol podado representa una versión filtrada o segmentada de la imagen original de acuerdo con el criterio seleccionado. Alguno de los criterios discutidos en este trabajo están basados, por ejemplo, en área, movimiento, marcador & propagación o una estrategia de tasa-distorsión. El problema de la falta de robustez de las estrategias clásicas para criterios no crecientes es estudiado y solucionado gracias a un algoritmo de optimización basado en el algoritmo de Viterbi.<br/><br/>La recuperación de imágenes basada en el contenido es la tercera aplicación en la que nos hemos centrado en este trabajo. Las representaciones jerárquicas basadas en regiones son particularmente adecuadas para este propósito ya que permiten representar la imagen a diferentes escalas de resolución, y por lo tanto las regiones asociadas a una imagen pueden ser descritas a diferentes escalas de resolución. En este trabajo nos centramos en un sistema de recuperación de imágenes que soporta preguntas de bajo nivel basadas en descriptores visuales y relaciones espaciales. Para ello, se adjuntan descriptores de región a los nodos del árbol. Se discuten dos tipos de preguntas: pregunta basada en una región, en el que la pregunta esta formada por una región, y pregunta basada en múltiples regiones, en el que la pregunta esta formada por un conjunto de regiones. En el primero la recuperación se realiza utilizando descriptores visuales, mientras que en el segundo se utilizan descriptores visuales y relaciones espaciales. Además, se presenta una estrategia de realimentación por relevancia para eludir la necesidad de establecer manualmente el peso asociado a cada uno de los descriptores.<br/><br/>Un aspecto importante que se ha tenido en cuenta a lo largo de este trabajo es la implementación eficiente de los algoritmos desarrollados tanto para la creación como el procesado del árbol. En el caso de la creación del árbol, la eficiencia se obtiene principalmente gracias al uso de colas jerárquicas, mientras que en el procesado se utilizan algoritmos basados en estrategias recursivas para obtener algoritmos eficientes.
This work discusses the usefulness of hierarchical region based representations for image and video processing. Region based representations offer a way to perform a first level of abstraction and reduce the number of elements to process with respect to the classical pixel based representation. In this work the two representations that have demonstrated to be useful for region based processing are reviewed, namely region adjacency graphs and trees, and it is discussed why tree based representations are better suited for our purpose. In fact, trees allow representing the image in a hierarchical way and efficient and complex processing techniques can be applied on it. Two major issues are discussed in this work: how the hierarchical representation may be created from a given image and how the tree may be manipulated or processed.<br/><br/>Two tree based representations have been developed: the Max-Tree, and the Binary Partition Tree. The Max-Tree structures in a compact way the connected components that arise from all possible level sets from a gray-level image. It is suitable for the implementation of anti-extensive connected operators, ranging from classical ones (for instance, area filter) to new ones (such as the motion filter developed in this work). The Binary Partition Tree structures the set of regions that are obtained during the execution of a region merging algorithm. Developed to overcome some of the drawbacks imposed by the Max-Tree -- in particular the lack of flexibility of the tree creation and the self-duality of the tree representation --, it has demonstrated to be a representation useful for a rather large range of applications, as it is shown in this work.<br/><br/>Processing strategies are focused on pruning techniques. Pruning techniques remove some of the branches of the tree based on an analysis algorithm applied on the nodes of the tree. Pruning techniques applied on the Max-Tree lead to anti-extensive operators, whereas self-dual operators are obtained on the Binary Partition Tree, if the tree is created in a self-dual manner. The pruning techniques that have been developed in this work are directed to the following applications: filtering, segmentation and content based image retrieval.<br/><br/>The filtering (in the context of connected operators) and segmentation applications are based on the same principle: the nodes of the tree are analyzed according to a fixed criterion, and the decision to remove or preserve a node usually relies on a threshold applied on the former measured criterion. Pruning is then performed according to the previous decision. As a result, the image associated to the pruned tree represents a filtered or segmented version of the original image according to the selected criterion. Some of the criteria that are discussed in this work are based, for instance, on area, motion, marker & propagation or a rate-distortion strategy. The problem of the lack of robustness of classical decision approaches of non-increasing criteria is discussed and solved by means of an optimization strategy based on the Viterbi algorithm.<br/><br/>Content based image retrieval is the third application we have focused on in this work. Hierarchical region based representations are particularly well suited for this purpose since they allow to represent the image at different scales of resolution, and thus the regions of the image can be described at different scales of resolution. In this work we focus on an image retrieval system which supports low level queries based on visual descriptors and spatial relationships. For that purpose, region descriptors are attached to the nodes of the tree. Two types of queries are discussed: single region query, in which the query is made up of one region and, multiple region query, in which the query is made up of a set of regions. In the former visual descriptors are used to perform the retrieval whereas visual descriptors and spatial relationships are used in the latter case. Moreover, a relevance feedback approach is presented to avoid the need of manually setting the weights associated to each descriptor.<br/><br/>An important aspect that has been taken into account throughout this work is the efficient implementation of the algorithms that have been developed for both creation and processing of the tree. In the case of the tree creation, efficiency has been obtained mainly due to the use of hierarchical queues, whereas in the processing step analysis algorithms based on recursive strategies are used to get efficient algorithms.
68 - Industries, crafts and trades for finished or assembled articles
3325. Tecnologia de les comunicacions
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.