Reinforcement Learning applications for industrial environments

Author

Nievas, Nuria

Director

Pagès Bernaus, Adela

Bonada, Francesc

Date of defense

2025-05-14

Pages

288 p.



Department/Institute

Universitat de Lleida. Departament d'Administració d'Empreses i Gestió Econòmica dels Recursos Naturals

Abstract

Aquesta tesi doctoral investiga l’ús de l’aprenentatge per reforç (RL) per al control dinàmic en entorns industrials, amb un enfocament en el Problema de Control del Premsat en Calent dins la indústria del conformament de metalls. Els enfocaments de control tradicionals són majoritàriament estàtics i reactius, cosa que limita el rendiment en contextos industrials cada vegada més dinàmics. El RL es presenta com una alternativa proactiva i adaptable, capaç d’optimitzar processos en temps real. La recerca avalua diversos mètodes de RL—programació dinàmica, RL tabular, RL profund i RL offline—en entorns deterministes i estocàstics, utilitzant simulacions, models substitutius i conjunts de dades offline. Els resultats demostren que el control basat en RL supera de manera consistent els mètodes tradicionals, especialment sota condicions estocàstiques. Per reduir la bretxa entre la simulació i la implementació en entorns reals, es proposa un enfocament híbrid d’entrenament que combina simulació i recollida de dades en entorns controlats. Així mateix, l’entrenament de RL offline amb dades obtingudes a partir de polítiques expertes dinàmiques i taxes d’exploració del 20–40 % resulta especialment eficaç. Tanmateix, persisteixen desafiaments relacionats amb la seguretat, la qualitat de les dades i la resistència organitzativa, els quals cal abordar per facilitar una adopció més àmplia del RL en entorns industrials.


Esta tesis doctoral investiga el uso del aprendizaje por refuerzo (RL) para el control dinámico en entornos industriales, con un enfoque en el Problema de Control del Prensado en Caliente en la industria del conformado de metales. Los enfoques de control tradicionales son en gran medida estáticos y reactivos, lo que limita el rendimiento en contextos industriales cada vez más dinámicos. El RL se presenta como una alternativa proactiva y adaptable, capaz de optimizar procesos en tiempo real. La investigación evalúa diversos métodos de RL—programación dinámica, RL tabular, RL profundo y RL offline—en entornos deterministas y estocásticos, utilizando simulaciones, modelos sustitutos y conjuntos de datos offline. Los resultados demuestran que el control basado en RL supera de forma consistente a los métodos tradicionales, especialmente bajo condiciones estocásticas. Para reducir la brecha entre la simulación y la implementación en entornos reales, se propone un enfoque híbrido de entrenamiento que combina simulación y recopilación de datos en entornos controlados. Asimismo, el entrenamiento de RL offline con datos obtenidos a partir de políticas expertas dinámicas y tasas de exploración del 20–40 % resulta particularmente eficaz. No obstante, persisten desafíos relacionados con la seguridad, la calidad de los datos y la resistencia organizacional, los cuales deben abordarse para facilitar una adopción más amplia del RL en entornos industriales.


This doctoral thesis investigates the use of reinforcement learning (RL) for dynamic control in industrial environments, focusing on the Press Hardening Control Problem in the metal forming industry. Traditional control approaches are largely static and reactive, limiting performance in increasingly dynamic industrial contexts. RL offers a proactive and adaptive alternative, capable of optimizing processes in real time. The research evaluates various RL methods—dynamic programming, tabular RL, deep RL, and offline RL—across deterministic and stochastic environments, using simulations, surrogate models, and offline datasets. The results demonstrate that RL-based control consistently outperforms traditional methods, particularly under stochastic conditions. To bridge the gap between simulation and real-world implementation, a hybrid training approach is proposed, combining simulation with data collection in controlled environments. Additionally, offline RL training using data collected from expert dynamic policies with exploration rates between 20–40% proves especially effective. Nonetheless, challenges related to safety, data quality, and organizational resistance remain and must be addressed to enable broader adoption of RL in industrial settings.

Keywords

Aprenentatge per reforç; Control industrial; Optimització dinàmica; Aprendizaje por refuerzo; Control industrial; Optimización dinámica; Reinforcement Learning; Industrial Control; Dynamic Optimization

Subjects

004 - Computer science

Knowledge Area

Ciències de la Computació i Intel·ligència Artificial

Documents

Tnnv1de1.pdf

33.18Mb

Rights

ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)