Shedding light on sewer pipes : deep learning perception approaches for autonomous sewer robots

Autor/a

Plana Rius, Ferran

Director/a

Mirats Tur, Josep Maria

Codirector/a

Casas, Marc

Tutor/a

Angulo Bahón, Cecilio

Data de defensa

2023-03-02

Pàgines

121 p.



Departament/Institut

Universitat Politècnica de Catalunya. Departament d'Enginyeria de Sistemes, Automàtica i Informàtica Industrial

Programa de doctorat

DOCTORAT EN AUTOMÀTICA, ROBÒTICA I VISIÓ (Pla 2013)

Resum

(English) Sewerage is a vital infrastructure for society’s day-to-day life. Its maintenance is a priority and current European legislation increases the demand of a proper inspection. Being a complex access and dangerous environment, it complicates its inspection. Using teleoperated robots, a video of its interior is obtained. However, the operator report is highly subjective. The company INLOC Robotics SL offers a solution to make an automatic report using CCTV videos called SEWDEF. This thesis focuses on improving this system by focusing efforts on the integrated Convolutional Neural Networks (CNN). In this sense, we explore how CNNs work, putting efforts to understand how information is encoded within them. How they learn, what they learn and how to improve it. In the analysis carried out we realize that CNNs are not used to their full potential. There are several causes for that, from the lack of data to the CNN architecture used. However, in this thesis we aim to optimize the available data and CNN. In order to achieve this goal, the field of Curriculum Learning (CL) is explored. This field proves that by alternating the order in which images are fed to the training loop, results can be improved compared to a standard training regim. Exploring this idea, the Tracking Networks Self-Curriculum (TNSC) method is designed. It consists on training networks called Tracking Networks that help us find out in which order images are learned. This order can be used as a samples’ difficulty measure and thus design a curriculum to train CNNs. Tested networks results improve, confirming that in the sewer field CL techniques are applicable. However, the method is complex and does not solve the situation for all the tested defects. For this reason the latent space is explored. The latent space is a high dimensional space that belongs to the CNN top layers, before the prediction layer. In this space we find encoded and compressed information about the input image characteristics. The thesis explores this space using Autoencoders (AE), self-supervised neural networks trained to reconstruct an input image after passing through an information bottleneck. Studying the latent space we can see that it contains relevant information, including about specific defects, that can be used in other tasks. Using the knowledge acquired, we develop a method called Supervised Latent Curriculum with SOM tree (SLCS). The method is based on performing a clustering of the latent space using the Self-Organizing Map (SOM) method. Instead of implementing a single SOM model, smaller models are used where at each iteration the clustering becomes more specialized through new models. This division allows us to create a difficulty measure for the samples that belong to the latent space. This measure can then be used to create curriculums that can be used to train CNNs. Results prove that the SLCS method is feasible. In most cases it outperforms the TNSC method and still has a lot of room for improvement. As a main conclusion we can draw that the two designed methods based on CL improve the INLOC Robotics SL SEWDEF system. It is also shown that altering the training order is able to improve the results of CNNs. In addition, a way has been found to use the latent space to design a difficulty measure.


(Català) El clavegueram és una infraestructura vital per al dia a dia de la societat. El seu manteniment és prioritari i legislacions actuals en l'àmbit Europeu incrementen les exigències d'una bona inspecció. Sent un entorn d'accés complex i perillós, complica la seva inspecció. Mitjançant robots teleoperats s'aconsegueix un vídeo del seu interior. Ara bé, el report elaborat per l'operador és altament subjectiu. L'empresa INLOC Robotics SL ofereix una solució per realitzar un report automàtic mitjançant els vídeos CCTV anomenat SEWDEF. Aquesta tesi se centra en la millora d'aquest sistema focalitzant els esforços en les Convolutional Neural Networks (CNN) integrades. En aquest sentit, s'explora el funcionament de les CNN, posant els esforços a entendre com la informació és codificada dins d'aquestes. Com aprenen, què aprenen i com millorar-ho. En l'anàlisis realitzat ens adonem compte que les CNN no s'usen amb tot el seu potencial. Les causes són diverses, des de falta de dades a l'arquitectura de la CNN utilitzada. Tanmateix, en aquesta tesi ens marquem com a objectiu l'optimització de les dades i la CNN disponibles. Per tal d'aconseguir aquesta fita s'explora el camp del Curriculum Learning (CL). Dins aquest camp es prova que alternant l'ordre en que les imatges són alimentades al llaç d'entrenament, es poden millorar els resultats comparant amb un entrenament clàssic. Explorant aquesta idea es dissenya el mètode Tracking Networks Self-Curriculum (TNSC). Aquest consisteix a entrenar unes xarxes anomenades Tracking Networks que ens ajuden a esbrinar en quin ordre les imatges són apreses. Aquest ordre es pot usar com a mesura de dificultat de les mostres i així dissenyar un currículum per entrenar CNNs. Els resultats de les xarxes triades milloren, confirmant que en el camp del clavegueram tècniques CL són aplicables. No obstant el mètode és complex d'aplicar i no soluciona la situació per a tots els defectes testejats. En aquest sentint decidim explorar l'espai latent. L'espai latent és un espai de grans dimensions que pertany a les capes superiors d'una CNN, abans de la capa de predicció. En aquest espai hi ha codificada i comprimida informació sobre les característiques de la imatge d’entrada. En la tesi s'explora aquest espai utilitzant Autoencoders (AE), xarxes neuronals autosupervisades entrenades per reconstruir la imatge d'entrada després de passar per un coll d'ampolla d'informació. Estudiant l'espai latent podem observar que conté informació rellevant, inclús sobre defectes en concret, que pot ser usada en altres tasques. Usant els coneixements adquirits, desenvolupem el mètode anomenat Supervised Latent Curriculum with SOM tree (SLCS). El mètode es basa en realitzar una clusterització de l'espai latent emprant el mètode Self-Organizing Map (SOM). Enlloc d'implementar un únic model SOM, s'usen models més petits on a cada iteració s'especialitza més la clusterització a través de models nous. Aquesta divisió ens permet crear una mesura de dificultat per a les mostres que pertanyen a l'espai latent. Seguidament, aquesta mesura pot ser emprada per crear currículums que s'usaran per entrenar CNN. Els resultats demostren que el mètode SLCS és factible. En bona part dels casos supera el mètode TNSC i encara té un bon espai de millora. Com a conclusió principal podem extreure que els dos mètodes dissenyats basats en CL milloren el sistema SEWDEF d'INLOC Robotics SL. També es demostra que l'alteració de l'ordre d'entrenament és capaç de millorar els resultats de les CNN. A més, s'ha trobat una via per usar l'espai latent per dissenyar una mesura de dificultat.

Matèries

004 - Informàtica; 628 - Enginyeria sanitària. Aigua. Sanejament. Enginyeria de la il·luminació

Àrea de coneixement

Àrees temàtiques de la UPC::Informàtica

Nota

Tesi amb menció de Doctorat Industrial

Documents

Aquest document conté fitxers embargats fins el dia 31-12-2024

Drets

ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

Aquest element apareix en la col·lecció o col·leccions següent(s)