Information theory techniques for multimedia data classification and retrieval

Author

Vila Duran, Marius

Director

Feixas Feixas, Miquel

Sbert, Mateu

Date of defense

2015-07-09

Legal Deposit

Gi. 1379-2015

Pages

108 p.



Department/Institute

Universitat de Girona. Departament d'Informàtica, Matemàtica Aplicada i Estadística (2013-)

Abstract

We are in the information age where most data is stored in digital format. Thus, the management of digital documents and videos requires the development of efficient techniques for automatic analysis. Among them, capturing the similarity or dissimilarity between different document images or video frames are extremely important. In this thesis, we first analyze for several image resolutions the behavior of three different families of image-based similarity measures applied to invoice classification. In these three set of measures, the computation of the similarity between two images is based, respectively, on intensity differences, mutual information, and normalized compression distance. As the best results are obtained with mutual information-based measures, we proceed to investigate the application of three different Tsallis-based generalizations of mutual information for different entropic indexes. These three generalizations derive respectively from the Kullback-Leibler distance, the difference between entropy and conditional entropy, and the Jensen-Shannon divergence. In relation to digital video processing, we propose two different information-theoretic approaches based, respectively, on Tsallis mutual information and Jensen-Tsallis divergence to detect the abrupt shot boundaries of a video sequence and to select the most representative keyframe of each shot. Finally, Shannon entropy has been commonly used to quantify the image informativeness. The main drawback of this measure is that it does not take into account the spatial distribution of pixels. In this thesis, we analyze four information-theoretic measures that overcome this limitation. Three of them (entropy rate, excess entropy, and erasure entropy) consider the image as a stationary stochastic process, while the fourth (partitional information) is based on an information channel between image regions and histogram bins


Ens trobem a l’era de la informació on la majoria de les dades s’emmagatzemen en format digital. Per tant, la gestió de documents i vídeos digitals requereix el desenvolupament de tècniques eficients per a l’anàlisi automàtic. Entre elles, la captura de la similitud o dissimilitud entre diferents imatges de documents o fotogrames de vídeo és extremadament important. En aquesta tesi, analitzem, a diverses resolucions d’imatge, el comportament de tres famílies diferents de mesures basades en similitud d’imatges i aplicades a la classificació de factures. En aquests tres conjunt de mesures, el càlcul de la similitud entre dues imatges es basa, respectivament, en les diferències d’intensitat, en la informació mútua, i en la distància de compressió normalitzada. Degut a que els millors resultats s’obtenen amb les mesures basades en la informació mútua, es procedeix a investigar l’aplicació de tres generalitzacions de la informació mútua basades en Tsallis en diferents índexs entròpics. Aquestes tres generalitzacions es deriven respectivament de la distància de Kullback-Leibler, la diferència entre l’entropia i entropia condicional, i la divergència de Jensen-Shannon. En relació al processament de vídeo digital, proposem dos enfocaments diferents de teoria de la informació basats respectivament en la informació mútua de Tsallis i en la divergència de Jensen-Tsallis, per detectar els límits d’un pla cinematogràfic en una seqüència de vídeo i per seleccionar el fotograma clau més representatiu de cada pla. Finalment, l’entropia de Shannon s’ha utilitzat habitualment per quantificar la informativitat d’una imatge. El principal inconvenient d’aquesta mesura és que no té en compte la distribució espacial dels píxels. En aquesta tesi, s’analitzen quatre mesures de teoria de la informació que superen aquesta limitació. Tres d’elles (entropy rate, excess entropy i erasure entropy) consideren la imatge com un procés estocàstic estacionari, mentre que la quarta (partitional information) es basa en un canal d’informació entre les regions d’una imatge i els intervals de l’histograma

Keywords

Classification; Classificació; Clasificación; Image informativeness; Informativitat de la imatge; Informatividad de la imagen; Image similarity; Similitud d'imatges; Similitud de imágenes; Image processing; Processament d'imatges; Procesamiento de imágenes; Digital video; Vídeo digital; Video digital; Information retrieval; Recuperació de la informació; Recuperación de la información; Tsallis entropy; Information theory; Teoria de la informació; Teoría de la información

Subjects

004 - Computer science; 02 - Librarianship; 68 - Industries, crafts and trades for finished or assembled articles

Documents

tmvd.pdf

2.260Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/3.0/es/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/3.0/es/

This item appears in the following Collection(s)