Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
DOCTORAT EN TEORIA DEL SENYAL I COMUNICACIONS (Pla 2013)
(English) Deep Learning allows the extraction of complex features directly from raw input data, eliminating the need for hand-crafted features from the classical Machine Learning pipeline. This new paradigm brought a boost in the performance across several domains, including computer vision, natural language processing and audio processing. However, there are still challenges when dealing with unorganized structures. This thesis addresses this challenge using Graph Convolutional Neural Networks, a new set of techniques capable of managing graph structures that can be used for processing 3D data. The first part of the thesis focuses on the Graph Analysis task, in which we will study the capabilities of Graph Convolutional Neural Networks to capture the intrinsic geometric information of 3D data. We propose the Attention Graph Convolution layer that learns to infer the kernel used during the convolution, taking into account the particularities of each neighbourhood of the graph. We explore two variants of the Attention Graph Convolution layer, one that explores a residual approach and another one that allows the convolution to combine different neighbourhood domains. Furthermore, we propose a set of 3D pooling layers that mimics the behaviour of the pooling layers found in common 2D Convolutional Neural Networks architectures. Finally, we present a 2D-3D Fusion block capable of merging the 3D geometric information that we get from a Graph Convolutional Neural Network with the texture information obtained by a 2D Convolutional Neural Network. We evaluate the presented contributions on the RGB-D Scene Classification task. The second part of this thesis focuses on the Node Analysis task, which consists of extracting features on a node level, taking into account the neighbourhood structure. We present the Multi-Aggregator Graph Convolution layer that uses a multiple aggregator approach to better generalize for unseen topologies and learn better local representations. In addition, it reduces the memory footprint with respect to the Attention Graph Convolution layer. Finally, we analyze the capabilities of our proposed Graph Convolution layers to deal with heterogeneous graphs where the nodes of the graph may belong to different modalities. We evaluate the presented contributions with the Computer Graphics process of skinning a character mesh. Specifically, we propose a Two-Stream Graph Neural Network capable of predicting the skinning weights of a 3D character.
(Català) Deep Learning permet l'extracció de característiques complexes directament de les dades d'entrada, fet que elimina la necessitat d'escollir les característiques manualment que tenen les arquitectures clàssiques de Machine Learning. Aquest nou paradigma va portar una millora en el rendiment a diverses àrees com la visió artificial, el processament del llenguatge natural i el processament d'àudio. Tot i això, encara hi ha desafiaments quan es tracta de dades no estructurades. Aquesta tesi aborda aquests desafiaments utilitzant Graph Convolutional Neural Networks, un nou conjunt de tècniques capaces de tractar amb grafs que es poden fer servir per processar dades 3D. La primera part de la tesi se centra en la tasca d'anàlisi de grafs, on estudiarem les capacitats de les Graph Convolutional Neural Networks per capturar la informació geomètrica intrínseca de les dades 3D. Proposem l'Attention Graph Convolution que aprèn a inferir el filtre utilitzat durant la convolució, tenint en compte les particularitats de cada veïnatge del graf. Explorem dues variants de l'Attention Graph Convolution, una que explora un enfocament residual i una altra que permet que la convolució combini diferents dominis de veïnatge. A més, proposem un conjunt de capes d'agrupació 3D que imiten el comportament de les capes d'agrupació que es troben a les arquitectures clàssiques de 2D Convolutional Neural Networks. Finalment, presentem el 2D-3D Fusion block capaç de fusionar la informació geomètrica 3D que obtenim d'una Graph Convolutional Neural Network amb la informació de textura obtinguda per una 2D Convolutional Neural Network. Avaluem les contribucions presentades en la tasca de classificació d'escenes RGB-D. La segona part d'aquesta tesi se centra en la tasca d'anàlisi de nodes, que consisteix a extreure característiques a nivell de node, tenint en compte l'estructura del veïnatge. Presentem la Multi-Aggregator Graph Convolution que utilitza múltiples agregadors per generalitzar millor les topologies no vistes i aprendre millors representacions locals. A més, redueix la memòria necessària en comparació a l'Attention Graph Convolution. Finalment, analitzem les capacitats de les nostres Graph Convolution proposades per tractar amb grafs heterogenis on els nodes del graf poden contenir diferents modalitats. Avaluem les contribucions presentades amb el procés, que pertany a la disciplina de Computer Graphics, per calcular les contribucions d'un esquelet 3D a la deformació d'un mesh. Específicament, proposem una Two-Stream Graph Neural Network capaç de predir els valors de les contribucions d'un esquelet 3D a la deformació d'un mesh.
004 - Informàtica
Àrees temàtiques de la UPC::Enginyeria de la telecomunicació
ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.