Remote sensing data compression with neural networks

Mijares Verdú, Sebastià; Mijares Verdú, Sebastià

Remote sensing data compression with neural networks

Author

Mijares Verdú, Sebastià

Director

Serra Sagristà, Joan

Bartrina Rapesta, Joan

Tutor

Serra Sagristà, Joan

Date of defense

2024-07-25

Pages

111 p.

Doctorate programs

Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica

Abstract

Avui hi ha més satèl·lits en òrbita que mai, un nombre que ha crescut exponencialment en la darrera dècada. La compressió de dades és una tecnologia crucial per a la viabilitat d'aquestes missions, permetent la transmissió i arxiu a llarg termini. En els darrers anys s'ha produït una revolució en l'estat de l'art de la compressió d'imatges: la introducció de l'aprenentatge automàtic (ML, de les sigles en anglès). Avenços en el disseny d'arquitectura amb la introducció de xarxes autocodificadores (autoencoders, en anglès), així com la creixent disponibilitat de recursos computacionals per entrenar-los, han propiciat la irrupció d'aquestes tècniques en l'estat de l'art, competint amb algorismes sofisticats que són el resultat de dècades de refinament i innovació. Si bé aquests resultats són de gran interès, i malgrat missions pioneres en l'ús de xarxes neurals a l'espai com Phi-Sat 1 i Phi-Sat 2, romanen divereses barreres clau en la adopció generalitzada d'aquesta tecnologia en l'àmbit de la teledetecció. En aquesta tesi es tracten dues d'aquestes barreres: la complexitat, i l'ajustament de ràtio/qualitat en la compressió. El cost computacional és, potser, la principal barrera en l'adopció de xarxes neurals en l'àmbit de la teledetecció, en particular per a la compressió. La majoria d'avenços en l'estat de l'art de resultats de compressió han vingut de la mà d'arquitectures més computacionalment complexes, inviables en els entorns de baixa potència típics en teledetecció, en especial en aplicacions espacials. S'investiga l'ús d'arquitectures de ML per a la compressió de dades hiperespectrals en clústers de bandes. En primer lloc, es proposa i avalua l'ús d'una transformada espectral lineal seguida d'un compressor de ML 2-dimensional. En una segona contribució s'avalua l'ús d'una arquitectura de compressió en clústers de bandes de mida variable, i s'estudia la reciprocitat entre resultats de compressió i complexitat derivada d'utilitzar clústers de mida variable. Totes dues tècniques obtenen resultats competitius de compressió amb pèrdua en comparació amb una transformada de Karhunen-Loève (KLT) seguida de JPEG 2000 també aplicats en clústers de bandes. Aquestes propostes, així com la majoria de contribucions en el camp de compressió d'imatges amb ML més en general, utilitzen models de ràtio fix: models de compressió que s'optimitzen per a una ràtio-distorsió particular i que només poden comprimir una imatge donada a un ràtio i qualitat determinades. A més de la limitació evident que suposa haver d'entrenar múltiples models independents per a comprimir a diferents qualitats, això suposa una barrera significativa en aplicacions de teledetecció, on els operadors necessiten tenir control sobre el ràtio de compressió o qualitat d'imatge recuperada per a tal d'assegurar que les dades capturades es recuperen adequadament a la Terra. Per a tal efecte, es realitza una modificació d'una arquitectura per a compressió de dades pancromàtiques de complexitat reduïda que permet variar el ràtio de compressió de manera contínua. En una primera contribució es mostra que aquesta variant assoleix resultats similars als models independents de referència, competitius amb estàndards actuals com JPEG 2000 o el CCSDS 122.0-B-2, i es proposa un mètode pràctic per a comprimir les dades a un ràtio de compressió definit per l'usuari, una funcionalitat nova en l'àmbit de compressió d'imatges amb ML. Una segona contribució descriu un mètode basat en la mateixa variant d'arquitectura per a compressió a qualitat fixa, és a dir, comprimir una imatge de tal manera que es recuperi a una qualitat definida per l'usuari. Es mostra que aquest mètode permet recuperar les imatges amb qualitat fixa local (és a dir, que una regió determinada de la imatge es recuperi a aquesta qualitat definida per l'usuari), i que els resultats de compressió ràtio-distorsió amb aquest mètode són equivalents al ràtio fix.

Hoy hay más satélites en órbita que nunca, un número que ha crecido exponencialmente en la última década. La compresión de datos es una tecnología crucial para la viabilidad de estas misiones, permitiendo la transmisión y archivo a largo plazo. En los últimos años se ha producido una revolución en compresión de imágenes: la introducción del aprendizaje automático (ML, de sus siglas en inglés). Avances en el diseño de arquitectura con la introducción de redes autocodificadoras (autoencoders, en inglés), así como la creciente disponibilidad de recursos computacionales para entrenarlos, han propiciado la irrupción de estas técnicas en el estado del arte, compitiendo con algoritmos sofisticados que son el resultado de décadas de refinamiento e innovación. Si bien estos resultados son de gran interés, ya pesar de misiones pioneras en el uso de redes neurales en el espacio como Phi-Sat 1 y Phi-Sat 2, permanecen varias barreras clave en la adopción generalizada de esta tecnología ámbito de la teledetección. En esta tesis se tratan dos de estas barreras: la complejidad y el ajuste de ratio/calidad en la compresión. El coste computacional es quizás la principal barrera en la adopción de redes neurales en el ámbito de la teledetección, en particular para la compresión. La mayoría de avances en el estado del arte de resultados de compresión han venido de la mano de arquitecturas más computacionalmente complejas, inviables en los entornos de baja potencia típicos en teledetección, especialmente en aplicaciones espaciales. Se investiga el uso de arquitecturas de ML para la compresión de datos hiperespectrales en clusters de bandas. En primer lugar, se propone y evalúa el uso de una transformada espectral lineal seguida de un compresor de ML 2-dimensional. En una segunda contribución se evalúa el uso de una arquitectura de compresión en clusters de bandas de tamaño variable, y se estudia la reciprocidad entre resultados de compresión y complejidad derivada de utilizar clusters de tamaño variable. Ambas técnicas obtienen resultados competitivos de compresión con pérdida en comparación con una transformada de Karhunen-Loève (KLT) seguida de JPEG 2000 también aplicados en clusters de bandas. Estas propuestas, así como la mayoría de contribuciones en el campo de compresión de imágenes con ML más en general, utilizan modelos de ratio fijo: modelos de compresión que se optimizan para un ratio-distorsión particular y que sólo pueden comprimir una imagen dada a un ratio y calidad determinadas. Además de la limitación evidente que supone tener que entrenar múltiples modelos independientes para comprimir a diferentes calidades, esto supone una barrera significativa en aplicaciones de teledetección, donde los operadores necesitan tener control sobre el ratio de compresión o calidad de imagen recuperada por a fin de asegurar que los datos capturados se recuperan adecuadamente en la Tierra. Para ello, se realiza una modificación de una arquitectura para compresión de datos pancromáticos de complejidad reducida que permite variar el ratio de compresión de forma continua. En una primera contribución se muestra que esta variante alcanza resultados similares a los modelos independientes de referencia, competitivos con estándares actuales como JPEG 2000 o CCSDS 122.0-B-2, y se propone un método práctico para comprimir los datos a un ratio de compresión definido por el usuario, una funcionalidad novedosa en el ámbito de compresión de imágenes con ML. Una segunda contribución describe un método basado en la misma variante para compresión a calidad fija, es decir, comprimir una imagen de tal forma que se recupere a una calidad definida por el usuario. Se muestra que este método permite recuperar las imágenes con calidad fija local y que los resultados de compresión ratio-distorsión con este método son equivalentes al ratio fijo.

Today there are more satellites in orbit than ever, and their number has been increasing exponentially in the last decade. Data compression is, therefore, a key technology for the viability of these missions that enables the transmission and long-term archiving of the valuable information they gather. A revolution has taken over the state of the art of image compression in recent years: Machine Learning (ML). Advances in architecture design with the introduction of variational autoencoders, as well as the availability of computing power to train these models, have led to a breakthrough in which these novel approaches can today compete with sophisticated algorithms that are the result of decades of fine-tuning and innovation. Impressive as these results are, and despite missions such as Phi-Sat 1 and Phi-Sat 2 pioneering the usage of ML in space, several key hurdles remain in the way to the widespread adoption of these technologies. Two of the most important barriers to adoption are addressed in this thesis: complexity, and rate/quality allocation. Computational cost is perhaps the biggest barrier to adoption of neural networks in remote sensing, in particular for compression. Indeed, most improvements in state-of-the-art image compression performance have been achieved by introducing ever more computationally costly architectures, which could not be used in the low-power environments that remote sensing missions typically operate with, especially spaceborne applications. The usage of ML compression architectures in clusters of bands to compress hyperspectral data is investigated. First, the usage of a learned clustered linear spectral transform followed by a learned 2D transform is proposed and evaluated. In a second contribution, the usage of a multi-band ML compression architecture in clusters of bands is evaluated, studying the trade-off between performance and complexity resulting from using different numbers of input bands. Both approaches show competitive performance in lossy compression with an also clustered spectral Karhunen-Loève Transform (KLT) followed by JPEG 2000. These proposals, as most contributions to the broader field of ML image compression, are with fixed-rate models: models that are optimised for a particular rate-distortion trade-off and can only compress a given image at a fixed rate and quality. Besides the obvious limitation of having to train multiple models to compress at different rates, this is a significant barrier for remote sensing missions, where having control over the compression rate or recovery quality is necessary to ensure the data being captured is adequately reconstructed down on Earth. To that end, a modification of a successful reduced-complexity architecture for panchromatic data compression is made to allow for continuous variable-rate compression. In a first contribution, it is shown that this variant performs on par with its equivalent multi-model baseline, competitively with current standards such as JPEG~2000 and CCSDS 122.0-B-2, and a practical method is proposed to compress at a user-defined rate, a novel feature for ML image compression. A second contribution describes a method with that same architecture for fixed-quality image compression, that is compressing an image at a user-defined reconstruction quality. This method is shown to be accurate in local fixed-quality compression (recovering a given region at a user-defined quality), and it is found that using local fixed quality achieves the same rate-distortion performance than global fixed-quality compression.

Keywords

Compressió; Compression; Compresión; Teledetecció; Remote sensing; Teledetección

Subjects

004 - Computer science

Knowledge Area

Tecnologies

Recommended citation

This citation was generated automatically.

Documents

smiv1de1.pdf

32.09Mb

Export

DIDL MARC MARC_CCUC METS OAI_DC ORE QDC RDF

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/4.0/

This item appears in the following Collection(s)

Programa de Doctorat en Informàtica [89]

Àrea de contingut