Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica
Les imatges i els vídeos són pervasius en les nostres vides i comunicacions. Amb el avenços en dispositius portables i intel·ligents, xarxes de comunicació d’alta capacitat i cine d’alta definició, la compressió d’imatges i vídeos es més rellevant que mai. Els còdecs de transformació lineals tradicionals basats en block com JPEG, H.264/AVC o el recent H.266/VVC són acuradament designats per satisfer no tan sols criteris de distorsió, sinó a mes a mes el requisits pràctics de les aplicacions. Recentment, un nou paradigma basat en xarxes neuronals (p.e. compressió neuro nal de vídeo i imatge) ha anat incrementant la seva popularitat degut a la habilitat per aprendre potents transformacions no lineals i altres eines de codi directament de les dades en comptes de ser dissenyades per humans, com era habitual en format de còdecs anteriors. Mentre que obtenen un rendiment excel·lent de distorsió, aquest sistemes estan limitats al àmbit de la recerca degut a l’alta densitat del models, cost computa cionals i de memòria. En aquesta tesis estudiarem aquestes limitacions pràctiques i proposarem dissenys de xarxes per compressió de imatges més eficients. Després d’analitzar les diferencies entre models de compressió d’imatge tradicio nals i neuronals, la nostre primera contribució es un “autoencoder” modulat (MAE), un framework que inclou un mecanisme que proporciona múltiples mesures de distorsió dintre un sól model amb un rendiment comparable a models independents. En la segona contribució, proposem el que anomenen “slimmable compressive autoencoder (SlimCAE)”, que afegint un mesurament variable podem optimitzar la complexitat del model i per tant reduir de manera significativa la memòria utilitzada i la carrega computacional. Un model generatiu modern pot aprendre transformacions d’imatge personalitza des directament de datasets adients seguint arquitectures encoder-decoder, aquestes tasques son conegudes com translació imatge-a-imatge. Desenvolupant el nostre tre ball anterior, estudiem el problema de distribució de translació d’imatge-a-imatge, on la representació latent es transmesa a través d’un canal binari i descodificada en una banda receptora remota. També proposem una variant que pot dur a terme la translació i l’usual funcionalitat d’autoencoding. Finalment, també considerem compressió de vídeo neuronal, on l’autoencoder vii es típicament augmentat amb prediccions temporals per mitjà de compensació de moviment. Un del principals cul de sac del framework es el mòdul de flux òptic que estima el desplaçament per predir la següent imatge en el vídeo. Prestant atenció en aquest mòdul, proposem un mètode que millora la precisió del flux òptic i una variant que redueix el cost computacional. Paraules clau: compressió neuronal de imatge, compressió neuronal de vídeo, flux òptic, pràctica compressió neuronal de imatge, autoencoders compressius, traducció d’imatge a imatge, aprenentatge profund.
Images and videos are pervasive in our life and communication. With advances in smart and portable devices, high capacity communication networks and high definition cinema, image and video compression are more relevant than ever. Traditional block based linear transform codecs such as JPEG, H.264/AVC or the recent H.266/VVC are carefully designed to meet not only the rate-distortion criteria, but also the practical requirements of applications. Recently, a new paradigm based on deep neural networks (i.e. neural image/video compression) has become increasingly popular due to its ability to learn powerful nonlinear transforms and other coding tools directly from data instead of being crafted by humans, as was usual in previous coding formats. While achieving excellent rate-distortion performance, these approaches are still limited mostly to research environments due to heavy models and other practical limitations, such as being limited to function on a particular rate and due to high memory and computational cost. In this thesis we study these practical limitations, and designing more practical neural image compression approaches. After analyzing the differences between traditional and neural image compression, our first contribution is the modulated autoencoder (MAE), a framework that includes a mechanism to provide multiple rate-distortion options within a single model with comparable performance to independent models. In a second contribution, we propose the slimmable compressive autoencoder (SlimCAE), which in addition to variable rate, can optimize the complexity of the model and thus reduce significanlty the memory and computational burden. Modern generative models can learn custom image transformation directly from suitable datasets following encoder-decoder architectures, task known as image-to image (I2I) translation. Building on our previous work, we study the problem of distributed I2I translation, where the latent representation is transmitted through a binary channel and decoded in a remote receiving side. We also propose a variant that can perform both translation and the usual autoencoding functionality. Finally, we also consider neural video compression, where the autoencoder is typically augmented with temporal prediction via motion compensation. One of the iii main bottlenecks of that framework is the optical flow module that estimates the displacement to predict the next frame. Focusing on this module, we propose a method that improves the accuracy of the optical flow estimation and a simplified variant that reduces the computational cost. Key words: neural image compression, neural video compression, optical flow, practical neural image compression, compressive autoencoders, image-to-image trans lation, deep learning.
Compressió d'imatges neuronals; Compresión de imágenes neuronales; Neuronal image compression; Compressió de videos neuronals; Compresión de videos neuronales; Neural video compression; Aprenentatge profund; Aprendizaje profundo; Deep learning
004 - Computer science
Ciències Experimentals