Representation learning for hierarchical reinforcement learning

Author

Steccanella, Lorenzo ORCID

Director

Jonsson, Anders

Date of defense

2023-05-19

Pages

127 p.



Department/Institute

Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions

Doctorate programs

Programa de Doctorat en Tecnologies de la Informació i les Comunicacions

Abstract

Hierarchical Reinforcement Learning (HRL) has the potential to simplify the solution of environments with long horizons and sparse rewards. The idea behind HRL is to decompose a complex decision-making problem into smaller, manageable sub-problems, allowing an agent to learn more efficiently and effectively. In this thesis, we aim to contribute to the field of HRL through the study of state space partition representations. We aim to discover representations that allow decomposing a complex state space in a set of small interconnected partitions. We start our work by presenting which are the properties of ideal state space partitions for HRL and then proceed to explore different methods for creating such partitions. We present algorithms able to leverage such representations to learn more effectively in sparse reward settings. Finally, we show how to combine the learned representation with Goal-Conditioned Reinforcement Learning (GCRL) and additionally we present state representations useful for GCRL.


El método Hiearchical Reinforcement Learning (HRL) tiene el potencial de simplificar la solución de entornos con escasas recompensas y horizontes a largo plazo. La idea detrás de HRL es descomponer un problema complejo de toma de decisiones en subproblemas más pequeños y manejables, lo que permite que un agente aprenda de manera más eficiente y efectiva. En esta tesis, pretendemos contribuir al campo del HRL a través del estudio de las representaciones de partición del espacio de estado. Nuestro objetivo es descubrir representaciones que permitan descomponer un espacio de estado complejo en un conjunto de particiones interconectadas. Comenzamos nuestro trabajo presentando cuáles son las propiedades de las particiones de espacio de estado ideales para HRL y luego procedemos a explorar diferentes métodos para crear dichas particiones. Presentamos algoritmos capaces de aprovechar tales representaciones para aprender de manera más efectiva en entornos de escasa recompensa. Finalmente, mostramos cómo combinar la representación aprendida con el método Goal-Conditioned Reinforcement Learning (GCRL) y, adicionalmente, presentamos representaciones de estado útiles para GCRL.

Keywords

Reinforcement learning; Hierarchical reinforcement learning; Goal-conditioned reinforcement learning; Representation learning; Options learning; Reward shaping; Sparse-reward environments

Subjects

33 - Economics. Economic science

Documents

tls.pdf

7.341Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/

This item appears in the following Collection(s)