Scaling deep learning workloads. Applications in computer vision and seismology

Autor/a

Cruz de la Cruz, Stalin Leonel

Director/a

Tous Liesa, Rubén

Codirector/a

Otero Calviño, Beatriz

Data de defensa

2023-07-06

Pàgines

79 p.



Departament/Institut

Universitat Politècnica de Catalunya. Departament d'Arquitectura de Computadors

Programa de doctorat

DOCTORAT EN ARQUITECTURA DE COMPUTADORS (Pla 2012)

Resum

(English) Deep learning techniques have an enormous impact on the state-of-the-art in many fields, such as computer vision, natural language processing, audio analysis and synthesis, and many others. The increasing computing power, the increasing amount of available data, and the algorithms' evolution foster this impact. On the one hand, this thesis applies Deep Learning techniques to large parallel systems to train and validate Neural Networks models for different applications. First, a technology stack to enable the distribution of deep learning workloads on a traditional High Performance Computing (HPC) setup such as the MareNostrum supercomputer is designed and evaluated. The key element of the deployed layered architecture is Apache Spark, which enables to isolate machine-learning applications from the particularities of the infrastructure, in this case, the MareNostrum supercomputer. The deployment of Spark-enabled clusters over MareNostrum is not trivial and it has done with the help of Spark4MN, a custom interoperability layer. On top of this stack (Marenostrum, Spark4MN and Spark) a deep learning specific layer is placed, DL4J. The goal is to provide insights into how the job configuration on a traditional HPC setup can be optimized to efficiently run this kind of workloads. The derived conclusions should be useful to guide similarly complex deployments in the future. Second, in a derived work, a use case is explored. We design and train deep CNNs for annotating and filtering images from social media (Instagram and Twitter). We capture the images in real-time and processes them by multiple CNNs that automatically enrich their metadata with tags that describe their visual content and also how they fit the visual identity of a brand (VBI) . With this method, we have trained VBI classifiers for more than 10 real brands and more than 100 classifiers for generic description of social media images. On the other hand, this thesis applies Deep Learning techniques on a computer cluster to train multiple NN configurations employed for earthquake detection and location. First, we develop a new method called UPC-UCV, consisting of applying a convolutional neural network to single-station 3-channel waveforms for P-wave earthquake detection and source region estimation in north-central Venezuela. This part includes the build of a new dataset, CARABOBO, that has been made public for reproducibility and benchmarking purposes. Both the UPC-UCV network and the CARABOBO dataset are the first developed for this geographic region. The method obtains better results than the State of the Art (SOA), yielding higher detection accuracy (13.3 percentage point increase) for the new target seismicity. UPC-UCV achieves a 95.27% detection accuracy. Second, in a derived work, we focus on the source region estimation problem. Source region estimation is a relaxed version of the earthquake location problem that consists on, first, partitioning a study area into K geographic subdivisions and, second, attempting to determine to which one the earthquake epicenter belongs. In the previous work, we performed the partitioning with k-means. In this part, we experiment with a geographical subdivision provided by a seismologist, consisting on irregular polygons covering the main seismic faults of Venezuela. While the obtained results for a small number of geographic subdivisions are not better than the ones obtained with k-means clustering, the good results obtained with a large number of subdivisions (91.78% with K::;:; 10) outperform the k-means approach (66.10%). It should be noted that to obtain these results, the use of spatial-based techniques significantly improved the final model. This confirms the target hypothesis that the source region estimation accuracy is significantly increased if the geographical partitioning is performed considering the regional geophysical characteristics such as the tectonic plate boundaries.


(Català) Les tècniques de Deep Learning tenen un impacte enorme en l'estat de l'art en molts camps, com ara la visió artificial, el processament del llenguatge natural, l’anàlisi i la síntesi d’àudio, i molts altres. El poder de còmput cada vegada mes gran, la quantitat cada vegada mes gran de dades disponibles i l'evolució dels algorismes fomenten aquest impacte. D'una banda, aquesta tesi aplica tècniques de Deep Leaming a grans sistemes paral·lels per entrenar i validar models de Xarxes Neuronals per a diferents aplicacions. Primer, es dissenya i s'avalua un stack de tecnologies per permetre la distribució de carregues de treball de Deep Learning en una configuració tradicional de computació d'alt rendiment (High Performance Computing o HPC) com el superordinador MareNostrum. L’element clau de l’arquitectura per capes desplegada es Apache Spark, que permet aïllar les aplicacions d’aprenentatge automàtic de les particularitats de la infraestructura, en aquest cas, MareNostrum. El desplegament de clústers habilitats per a Spark sobre MareNostrum no es trivial i s'ha fet amb l'ajuda de Spark4MN, una capa d'interoperabilitat personalitzada. A la part superior de l'stack (compost per Marenostrum, Spark4MN i Spark) es col·loca una capa especifica d'aprenentatge profund, DL4J. L'objectiu es proporcionar informació sobre com es pot optimitzar la configuració del treball en una configuració d'HPC tradicional per executar de manera eficient aquest tipus de workloads. Les conclusions derivades haurien de ser útils per guiar implementacions igualment complexes en el futur. En segon lloc, en un treball derivat s'explora un cas d'us. Dissenyem i entrenem xarxes neuronals convolucionals (convolutional neural networks o CNNs) per anotar i filtrar imatges de les xarxes socials (lnstagram i Twitter). Capturem les imatges en temps real i les processem amb múltiples CNN que automàticament enriqueixen les seves metadades amb etiquetes queen descriuen el contingut visual i també com s'ajusten a la identitat visual d'una marca (Visual Brand Identity o VBI). Amb aquest mètode hem entrenat classificadors VBI per a mes de 10 marques reals i mes de 100 classificadors per a descripció genèrica d'imatges de xarxes socials. D'altra banda, aquesta tesi aplica tècniques de Deep Learning a un clúster d'ordinadors per entrenar múltiples configuracions d'una CNN emprada per a la detecció i localització de terratrèmols. Primer, desenvolupem un nou mètode anomenat UPC-UCV, que consisteix a aplicar una CNN a formes d'ona de 3 canals d'una sola estació per a la detecció de terratrèmols d'ona P i l'estimació de la regió font al centre nord de Venezuela . Aquesta part inclou la creació d'un dataset nou, CARABOBO, que s'ha fet públic amb finalitats de reproductibilitat i avaluació comparativa. Tant la xarxa UPC-UCV com el dataset CARABOBO són els primers desenvolupats per a aquesta regió geogràfica. El mètode obté millors resultats que l'estat de l'art (SOA), cosa que produeix mes precisió de detecció (augment de 13,3 punts percentuals) per a la nova sismicitat objectiu. UPC-UCV aconsegueix una precisió de detecció del 95,27%. En segon lloc, en un treball derivat ens centrem en el problema d'estimació de la regió font. L'estimació de la regió font es una versió relaxada del problema de localització de terratrèmols que consisteix, primer, a dividir una àrea d'estudi a K subdivisions geogràfiques i, segon, intentar determinar a quin pertany !'epicentre del terratrèmol. A la feina anterior, realitzem la partició amb k-means. En aquesta part experimentem amb una subdivisió geogràfica proporcionada per un sismòleg, consistent en polígons irregulars que cobreixen les principals falles sísmiques de Venezuela. Tot i que els resultats obtinguts per a un petit nombre de subdivisions geogràfiques no són millors que els obtinguts amb l'agrupament de k-means, els bons resultats obtinguts amb una gran quantitat de subdivisions (91.78% amb K=10) superen l'enfocament de k- means (66.10%).

Matèries

004 - Informàtica

Àrea de coneixement

Àrees temàtiques de la UPC::Informàtica

Documents

TSLCC1de1.pdf

13.72Mb

 

Drets

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/4.0/

Aquest element apareix en la col·lecció o col·leccions següent(s)