Supervised and reinforcement learning for extreme adaptive optics with application to exoplanet imaging
llistat de metadades
Author
Director
Martín Muñoz, Mario
Quiñones Moreno, Eduardo
Gratadour, Damien
Date of defense
2025-10-06
Pages
177 p.
Department/Institute
Universitat Politècnica de Catalunya. Departament de Ciències de la Computació
Doctorate programs
DOCTORAT EN INTEL·LIGÈNCIA ARTIFICIAL (Pla 2012)
Abstract
(English) This thesis demonstrates that applying a combination of deep learning (DL) models in adaptive optics (AO), each addressing an AO error source, can significantly increase performance, providing telescopes with better angular resolution. The first part focuses on developing DL models to mitigate specific errors within the AO loop. These include a reinforcement learning (RL) model trained online to reduce temporal error (caused by atmospheric evolution and control system delay), and supervised learning (SL) models trained offline to address non-linear error (arising from sensor non-linearities) and noise. Each chapter provides an in-depth analysis to interpret the behaviour of these DL models and demonstrates improvements over selected baselines. As a conclusion to the first part, the application of exoplanet imaging from some of the models is shown. In the second part, the focus shifts to deploying these methods in real systems. To this end, the real-time framework COSMIC is adapted to support neural networks, and both the inference and training of the models are optimised using specialised libraries (e.g., TensorRT) or reduced floating-point precision. Overall, integrating deep learning models, each focused on different error sources in the adaptive optics loop, together with real-time implementation, enables progress towards extreme adaptive optics, with promising implications for high-contrast imaging and direct exoplanet detection.
(Català) Aquesta tesi demostra que aplicar una combinació de models d’aprenentatge profund (AP) en el camp de l’òptica adaptativa (OA), cadascun dirigit a un tipus d’error present en l’OA, pot incrementar significativament el rendiment, proporcionant als telescopis una millor resolució angular. La primera part d’aquesta tesi es centra en desenvolupar models d’AP per mitigar errors específics dins del circuit d’OA. Aquests inclouen un model d’aprenentatge per reforç entrenat en línia per reduir l’error temporal (causat per l'evolució atmosfèrica i pel retard del sistema de control) i models d’aprenentatge supervisat entrenats fora de línia per corregir errors no lineals (que apareixen a causa de les no linealitats d’un sensor específic) i soroll. Cada capítol proporciona una anàlisi exhaustiva per interpretar el comportament d’aquests models d’AP i demostra millores sobre els mètodes de referència seleccionats. Com a conclusió de la primera part, mostram l’aplicació d’aquests mètodes a l’observació directa d’exoplanetes. A la segona part, canviam el focus a desplegar aquests mètodes en sistemes reals. Per això, adaptam l’entorn de treball COSMIC per donar suport a xarxes neuronals i optimitzam el temps d’entrenament i inferència amb la introducció de llibreries especialitzades (com TensorRT) o reduint la precisió de punt flotant. En conjunt, la integració de models d’aprenentatge profund, cadascun enfocat en diferents fonts d’error dins del bucle d’òptica adaptativa, juntament amb la implementació en temps real, permet avançar cap a una òptica adaptativa extrema, amb implicacions prometedores per a l’obtenció d’imatges d’alt contrast i la detecció directa d’exoplanetes.
(Español) Esta tesis demuestra que aplicar una combinación de modelos de aprendizaje profundo (AP) en el campo de óptica adaptativa (OA), cada uno dirigido a un tipo de error presente en la OA, puede incrementar significativamente el rendimiento, proporcionando a los telescopios una mejor resolución angular. La primera parte de esta tesis se centra en desarrollar modelos de AP para mitigar errores específicos dentro del circuito de OA. Estos incluyen un modelo de aprendizaje por refuerzo entrenado en línea para reducir el error temporal (causado por la evolución atmosférica y el retraso del sistema de control) y modelos de aprendizaje supervisado entrenados fuera de línea para corregir errores no lineales (que aparecen debido a las no linealidades de un sensor específico) y ruido. Cada capítulo proporciona un análisis exhaustivo para interpretar el comportamiento de estos modelos de AP y demuestra mejoras sobre los métodos de referencia seleccionados. Como conclusión de la primera parte, mostramos la aplicación de estos métodos a la observación directa de exoplanetas. En la segunda parte, cambiamos el foco a desplegar estos métodos en sistemas reales. Por ello, adaptamos el entorno de trabajo COSMIC para dar soporte a redes neuronales y optimizamos los tiempos de entrenamiento e inferencia con la introducción de librerías especializadas (como TensorRT) o reduciendo la precisión de punto flotante. En conjunto, la integración de modelos de aprendizaje profundo, cada uno enfocado en distintas fuentes de error dentro del bucle de óptica adaptativa, junto con la implementación en tiempo real, permite avanzar hacia una óptica adaptativa extrema, con prometedoras implicaciones para la obtención de imágenes de alto contraste y la detección directa de exoplanetas.
Keywords
Artificial Intelligence; Reinforcement Learning; Computer vision; Astronomy; Control systems
Subjects
004 - Informàtica; 52 - Astronomia. Astrofísica. Investigació espacial. Geodèsia
Knowledge Area
Àrees temàtiques de la UPC::Informàtica; Àrees temàtiques de la UPC::Aeronàutica i espai
Note
Tesi en modalitat de cotutela: Universitat Politècnica de Catalunya i Observatoire de Paris - PSL
Tesi amb menció de Doctorat Internacional



