dc.contributor
Universitat Rovira i Virgili. Departament d'Enginyeria Informàtica i Matemàtiques
dc.contributor.author
Singh, Aditya
dc.date.accessioned
2024-04-12T06:53:40Z
dc.date.available
2025-04-08T22:05:20Z
dc.date.issued
2024-04-08
dc.identifier.uri
http://hdl.handle.net/10803/690574
dc.description.abstract
El modelatge de l'espai de treball basat en la percepció és un requisit crucial perquè els robots mòbils naveguin per
entorns interiors. Per tal que els robots puguin interactuar eficaçment amb els humans, també és necessari tenir una
descripció semàntica de l'entorn. Aquesta tesi presenta tècniques de mapatge semàntic assequibles per a robots, que
els permeten interpretar l'entorn i interactuar de manera significativa amb ell.
Explorem diversos enfocaments per a l'aprenentatge de la semàntica, inclosos l'aprenentatge profund basat en xarxes
neuronals i sistemes basats en regles. Com a alternativa als models d'aprenentatge profund intensius en recursos,
proposem l'ús de models lleugers d'aprenentatge profund com ara TF-Lite i YOLOv3. Aquests models s'integren en el
disseny i l'estètica robòtica per generar mapes semàntics d'objectes, centrats en representacions bidimensionals.
Mitjançant la predicció de quadres delimitadors i el càlcul dels canvis en l'odometria mitjançant seqüències d'imatges
capturades des de la càmera del robot, proporcionem una representació detallada de l'escena.
Per millorar els detalls de l'escena i facilitar l'extracció de l'odometria, proposem un model de
codificador-descodificador que prediu la profunditat i les etiquetes semàntiques per píxel.
ca
dc.description.abstract
Utilitzem el lleuger ORB-SLAM per extreure l'odometria de la sortida de profunditat generada pel nostre model.
Comparem els resultats de l'odometria mitjançant el conjunt de dades Kitti, mentre que els conjunts de dades NYU-D i
Camvid s'utilitzen per entrenar el model. Per al mapeig semàntic d'escena, proposem una arquitectura basada en
Multi-model Fusion que utilitza tres troncs convolucionals per classificar les escenes amb les seves etiquetes
corresponents.
El LoCobot, un robot de codi obert i assequible disponible al CIR (Centre de robòtica intel·ligent), IIIT-A.
El modelado del espacio de trabajo basado en la percepción es un requisito crucial para que los robots móviles
naveguen por entornos interiores. Para permitir que los robots interactúen eficazmente con los humanos, también es
necesario tener una descripción semántica del entorno. Esta tesis presenta técnicas de mapeo semántico asequibles
para robots, permitiéndoles interpretar el entorno e interactuar de manera significativa con él.
Exploramos varios enfoques para el aprendizaje de la semántica, incluido el aprendizaje profundo basado en redes
neuronales y los sistemas basados ??en reglas. Como alternativa a los modelos de aprendizaje profundo que
consumen muchos recursos, proponemos el uso de modelos ligeros de aprendizaje profundo como TF-Lite y
YOLOv3. Estos modelos se integran en el diseño y la estética robótica para generar mapas semánticos de objetos,
centrándose en representaciones bidimensionales. Al predecir cuadros delimitadores y calcular cambios en la
odometría utilizando secuencias de imágenes capturadas por la cámara del robot, proporcionamos una
representación detallada de la escena.
ca
dc.description.abstract
Comparamos los resultados de odometría utilizando el conjunto de datos de Kitti, mientras que los conjuntos de datos
de NYU-D y Camvid se utilizan para entrenar el modelo. Para el mapeo semántico de escenas, proponemos una
arquitectura basada en Fusion multimodelo que emplea tres columnas vertebrales convolucionales para clasificar
escenas con sus etiquetas correspondientes.
El LoCobot, un robot asequible y de código abierto disponible en el CIR (Centro de Robótica Inteligente), IIIT-A.
Perception-based modeling of the workspace is a crucial requirement for mobile robots to navigate indoor
environments. In order to enable robots to effectively interact with humans, it is also necessary to have a semantic
description of the environment. This thesis presents affordable semantic mapping techniques for robots, enabling them
to interpret the environment and interact meaningfully with it.
We explore various approaches for learning semantics, including neural networks based deep learning, and
rule-based systems. As an alternative to resource-intensive deep learning models, we propose the use of lightweight
deep learning models such as TF-Lite and YOLOv3. These models are integrated into the robotic design and
aesthetics to generate object-wise semantic maps, focusing on two-dimensional representations. By predicting
bounding boxes and calculating changes in odometry using image sequences captured from the robot's camera, we
provide a detailed representation of the scene.
To enhance the scene's details and facilitate odometry extraction, we propose an encoder-decoder model that predicts
depth and semantic labels per pixel.
ca
dc.format.extent
255 p.
ca
dc.publisher
Universitat Rovira i Virgili
dc.rights.license
ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
ca
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Aprenentatge profund
ca
dc.subject
Cartografia
ca
dc.subject
Aprendizaje Profundo
ca
dc.subject
Deep Learning
ca
dc.subject.other
Enginyeria i arquitectura
ca
dc.title
Human Robot Interactions using Efficient Semantic Mapping
ca
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.contributor.authoremail
adityasinghshubham@gmail.com
ca
dc.contributor.director
Puig Valls, Domènec Savi
dc.contributor.director
Nandi, Gora Chand
dc.rights.accessLevel
info:eu-repo/semantics/openAccess