Astronomical Data Compression

Author

Maireles Gonzalez, Oscar

Director

Hernández Cabronero, Miguel

Serra Sagristà, Joan

Tutor

Serra Sagristà, Joan

Date of defense

2025-02-20

Pages

132 p.



Doctorate programs

Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica

Abstract

El progrés exponencial del camp de l'astronomia va unit a un progrés exponencial de la tecnologia. L'augment dels telescopis terrestres, de les missions espacials i de la qualitat i la mida de les seves òptiques i detectors està generant i generarà dades a un ritme igualment exponencial. Malauradament, l'augment del volum de dades no es correspon amb els avenços en la capacitat demmagatzematge i transmissió. El volum astronòmic de dades pronostica sobrecostos computacionals. Afortunadament, hi ha una manera plausible de gestionar tot l'ingrés de dades sense gastar recursos econòmics i materials en hardware. Les dades poden ser codificades, reduint el nombre de símbols necessaris per expressar un missatge i, per tant, comprimint-ne el volum. L'objectiu d'aquesta investigació és proporcionar tècniques alternatives de compressió amb pèrdues i sense, que superin fpack (el compressor per defecte en els observatoris més importants), per ajudar la comunitat astronòmica a afrontar el futur repte de l'allau de dades. Per assolir l'objectiu, s'ha dut a terme una investigació exhaustiva de l'estat de l'art de les tècniques de compressió amb pèrdues i sense. Les estratègies de compressió s'han provat en un conjunt de dades representatives i amb una mida sense precedents. S'ha comprovat que els mètodes de compressió sense pèrdues superen tant el rendiment de la compressió fpack com els temps de compressió i descompressió. S'ha comprovat que JPEG 2000 o LPAQ9M tenen un Ràtio de Compressió (RC) més gran i, en el cas del primer, fins i tot menors temps de compressió. Les tècniques proposades podrien implementar-se a la llibreria CFITSIO per ser suportades per fpack i treballar directament amb dades FITS. Aquestes tècniques podrien ser les tècniques de compressió sense pèrdues per defecte per reduir de manera més eficient els arxius dels observatoris. La investigació sobre la compressió amb pèrdues combina no només els resultats de la compressió, sinó una anàlisi addicional sobre els efectes de la pèrdua d'informació a l'anàlisi científic. Els resultats van revelar que el millor compressor sense pèrdues trobat, LPAQ9M, combinat amb un procés previ de quantització a dues regions, per introduir pèrdues i millorar l'eficiència de compressió de LPAQ9M, supera fpack. La nova tècnica de compressió amb pèrdues presentada manté una major fidelitat amb l'anàlisi fotomètrica astronòmica alhora que iguala o fins i tot supera els resultats de RC de fpack. Igualment, el mètode amb pèrdues proposat també podria implementar-se a CFITSIO per ser suportat per fpack, com a alternativa de compressió amb pèrdues en cas que els requisits de compressió siguin més restrictius. Com suggereixen els resultats, la pèrdua dinformació encara pot garantir la fidelitat fotomètrica per a la majoria de les anàlisis científiques. L'ús d'aquestes noves tècniques proposades permet a la comunitat científica reduir els costos d'emmagatzematge i de transmissió de dades.


El progreso exponencial del campo de la astronomía va unido a un progreso exponencial de su tecnología. El aumento de los telescopios terrestres, de las misiones espaciales y de la calidad y tamaño de sus ópticas y detectores está generando y generará datos a un ritmo igualmente exponencial. Desgraciadamente, el aumento del volumen de datos no se corresponde con los avances en la capacidad de almacenamiento y transmisión. El volumen astronómico de datos pronostica sobrecostes computacionales. Afortunadamente, existe una forma plausible de gestionar todo el ingreso de datos sin gastar recursos económicos y materiales en hardware. Los datos pueden ser codificados, reduciendo el número de símbolos necesarios para expresar un mensaje y, por tanto, comprimiendo su volumen. El objetivo de esta investigación es proporcionar técnicas alternativas de compresión con y sin pérdidas, que superen a fpack (el compresor por defecto en los observatorios más importantes), para ayudar a la comunidad astronómica a afrontar el futuro reto de la avalancha de datos. Para lograr el objetivo, se ha llevado a cabo una investigación exhaustiva del estado del arte de las técnicas de compresión con y sin pérdidas. Las estrategias de compresión se han probado en un conjunto de datos representativo y con un tamaño sin precedentes. Se ha comprobado que los métodos de compresión sin pérdidas superan tanto el rendimiento de la compresión fpack como los tiempos de compresión y descompresión. Se ha comprobado que JPEG 2000 o LPAQ9M tienen un mayor Ratio de Compresión (RC) y, en el caso del primero, incluso menores tiempos de compresión. Las técnicas propuestas podrían implementarse en la librería CFITSIO para ser soportadas por fpack y trabajar directamente con datos FITS. Estas técnicas podrían ser las técnicas de compresión sin pérdidas por defecto para reducir de forma más eficiente los archivos de los observatorios. La investigación sobre la compresión con pérdidas combinan no sólo los resultados de la compresión, sino un análisis adicional sobre los efectos de la pérdida de información en el análisis científico. Los resultados revelaron que el mejor compresor sin pérdidas encontrado, LPAQ9M, combinado con un proceso previo de cuantización en dos regiones, para introducir pérdidas y mejorar la eficiencia de compresión de LPAQ9M, supera a fpack. La nueva técnica de compresión con pérdidas presentada mantiene una mayor fidelidad con el análisis fotométrico astronómico al tiempo que iguala o incluso supera los resultados de RC de fpack . Igualmente, el método con pérdidas propuesto también podría implementarse en CFITSIO para ser soportado por fpack, como alternativa de compresión con pérdidas en caso de que los requisitos de compresión sean más restrictivos. Como sugieren los resultados, la pérdida de información aún puede garantizar la fidelidad fotométrica para la mayoría de los análisis científicos. El uso de estas nuevas técnicas propuestas permite a la comunidad científica reducir los costes de almacenamiento y transmisión de datos. Traducción realizada con la versión gratuita del traductor DeepL.com


The exponential progress of the field of astronomy is coupled with an exponential progress of its technology. The increase in ground-based telescopes, space missions, and the quality and size of their optics and detectors, is generating and will generate data at an equally exponential rate. Data volume income, unfortunately, is not equated with advances in storage and transmission capacity. Astronomical data volume forecasts computational overcosts. Fortunately, there exists a plausible way to manage all the data income without expending economical and material resources on hardware. Data can be encoded, reducing the number of symbols required to express a message and therefore compressing its volume. The goal of this research is to provide alternative lossless and lossy compression techniques, which outperform fpack (the default compressor in the most important observatories), to help the astronomical community address the future challenge of the data avalanche. To accomplish the objective, a thorough research of the state of the art of lossless and lossy compression techniques has been carried out. The compression strategies have been tested on a representative and unprecedentedly large dataset. Lossless compression methods have been found to surpass both fpack compression performance and compression and decompression times. JPEG 2000 or LPAQ9M have been found to have higher Compression Ratio (CR) and, in the case of the former, even lower compression times. The techniques proposed could be implemented in the CFITSIO library to be supported by fpack and to work directly with FITS data. These techniques could be the default lossless compression techniques to more efficiently reduce observatories archives. The research on lossy compression combined not only compression results, but an additional analysis on the effects of information loss on scientific analysis. The results revealed that the best lossless compressor found, namely LPAQ9M, combined with a previous bi-region quantization process to introduce loss and enhance LPAQ9M compression efficiency, outperforms fpack. The presented novel lossy compression technique maintains higher fidelity with the astronomical photometric analysis while equaling or even outperforming fpack CR results. Equally, the lossy method proposed could also be implemented in CFITSIO to be supported by fpack, as a lossy compression alternative in case the compression requirements are more restrictive. As results suggest, the information loss can still guarantee photometric fidelity for most scientific analyses. The use of these proposed new techniques allows scientific community to reduce data storage and transmission costs.

Keywords

Compressió de Dades; Data compression; Compresión de Datos; Dades Astronòmiques; Astronomical data; Datos Astronómicos

Subjects

04

Knowledge Area

Tecnologies

Documents

omg1de1.pdf

12.83Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/

This item appears in the following Collection(s)