Effective Approaches for Improving the Efficiency of Deep Convolutional Neural Networks for Image Classification

Autor/a

Schwarz Schuler, Joao Paulo

Director/a

Romaní Also, Santiago

Abdelnasser Mohamed Mahmoud, Mohamed

Codirector/a

Puig Valls, Domènec Savi

Data de defensa

2022-11-21

Pàgines

116 p.



Departament/Institut

Universitat Rovira i Virgili. Departament d'Enginyeria Informàtica i Matemàtiques

Resum

Aquesta tesi presenta dos mètodes per reduir el nombre de paràmetres i càlculs de punt flotant a arquitectures DCNN utilitzades amb classificació d'imatges. El primer mètode és una modificació de les primeres capes d‟una DCNN que divideix els canals d‟una imatge codificada amb l‟espai de color CIE Lab en dos camins separats, un per al canal acromàtic i un altre per a la resta de canals cromàtics. Modifiquem una arquitectura Inception V3 per incloure una branca específica per a dades acromàtiques (canal L) i una altra branca específica per a dades cromàtiques (canals AB). Aquesta modificació aprofita el desacoblament de la informació cromàtica i acromàtica. A més, la divisió de branques redueix el nombre de paràmetres entrenables i la càrrega de càlcul fins a un 50% de les xifres originals a les capes modificades. Vam aconseguir una state-of-the-art precisió classificació de 99,48% a Plant Village. També trobem una millor fiabilitat en la classificació d'imatges quan les imatges d'entrada contenen soroll. A les DCNNs, el recompte de paràmetres en convolucions puntuals creix ràpidament a causa de la multiplicació dels filtres i canals dentrada de la capa anterior. Per gestionar aquest creixement, el segon mètode d'optimització fa que les convolucions puntuals tinguin pocs paràmetres mitjançant l'ús de branques paral·leles, on cada branca conté un grup de filtres i processa una fracció dels canals d'entrada. Per evitar degradar la capacitat daprenentatge de les DCNN, proposem intercalar la sortida dels filtres de branques paral·leles en capes intermèdies de convolucions puntuals successives. Provem la nostra optimització en un EfficientNet-B0 com a arquitectura de referència i realitzem proves de classificació als conjunts de dades CIFAR-10, Histologia del càncer colorectal i Malària. Per a cada conjunt de dades, la nostra optimització aconsegueix un estalvi del 76%, 89% i 91% de la quantitat de paràmetres entrenables de EfficientNet-B0, mantenint la precisió de classificació.


Esta tesis presenta dos métodos para reducir el número de parámetros y cálculos de punto flotante en arquitecturas DCNN utilizadas con clasificación de imágenes. El primer método es una modificación de las primeras capas de una DCNN que divide los canales de una imagen codificada con el espacio de color CIE Lab en dos caminos separados, uno para el canal acromático y otro para el resto de canales cromáticos. Modificamos una arquitectura Inception V3 para incluir una rama específica para datos acromáticos (canal L) y otra rama específica para datos cromáticos (canales AB). Esta modificación aprovecha el desacoplamiento de la información cromática y acromática. Además, la división de ramas reduce el número de parámetros entrenables y la carga de cálculo hasta en un 50% de las cifras originales en las capas modificadas. Logramos una state-of-the-art precisión clasificación de 99,48% en Plant Village. También encontramos una mejor confiabilidad en la clasificación de imágenes cuando las imágenes de entrada contienen ruido. En las DCNNs, el conteo de parámetros en convoluciones puntuales crece rápidamente debido a la multiplicación de los filtros y canales de entrada de la capa anterior. Para manejar este crecimiento, el segundo método de optimización hace que las convoluciones puntuales tengan pocos parametros mediante el empleo de ramas paralelas, donde cada rama contiene un grupo de filtros y procesa una fracción de los canales de entrada. Para evitar degradar la capacidad de aprendizaje de las DCNN, proponemos intercalar la salida de los filtros de ramas paralelas en capas intermedias de convoluciones puntuales sucesivas. Probamos nuestra optimización en un EfficientNet-B0 como arquitectura de referencia y realizamos pruebas de clasificación en los conjuntos de datos CIFAR-10, Histología del cáncer colorrectal y Malaria. Para cada conjunto de datos, nuestra optimización logra un ahorro del 76 %, 89 % y 91 % de la cantidad de parámetros entrenables de EfficientNet-B0, manteniendo la precisión de clasificación.


This thesis presents two methods for reducing the number of parameters and floating-point computations in existing DCNN architectures used with image classification. The first method is a modification of the first layers of a DCNN that splits the channels of an image encoded with CIE Lab color space in two separate paths, one for the achromatic channel and another for the remaining chromatic channels. We modified an Inception V3 architecture to include one branch specific for achromatic data (L channel) and another branch specific for chromatic data (AB channels). This modification takes advantage of the decoupling of chromatic and achromatic information. Besides, splitting branches reduces the number of trainable parameters and computation load by up to 50% of the original figures in the modified layers. We achieved a state-of-the-art classification accuracy of 99.48% on the Plant Village dataset. This two-branch method improves image classification reliability when the input images contain noise. In DCNNs, the parameter count in pointwise convolutions quickly grows due to the multiplication of the filters and input channels from the preceding layer. To handle this growth, the second optimization method makes pointwise convolutions parameter-efficient via parallel branching. Each branch contains a group of filters and processes a fraction of the input channels. To avoid degrading the learning capability of DCNNs, we propose interleaving the filters' output from separate branches at intermediate layers of successive pointwise convolutions. We tested our optimization on an EfficientNet-B0 as a baseline architecture and made classification tests on the CIFAR-10, Colorectal Cancer Histology, and Malaria datasets. For each dataset, our optimization saves 76%, 89%, and 91% of the number of trainable parameters of EfficientNet-B0, while keeping its test classification accuracy.

Paraules clau

aprenentatge profund; visió computacional; xarxes neuronals; aprendizaje profundo; visión computacional; redes neuronales; deep learning; computer vision; neural networks

Matèries

004 - Informàtica; 62 - Enginyeria. Tecnologia

Àrea de coneixement

Enginyeria i arquitectura

Documents

TESI Joao Paulo Schwarz Schuler.pdf

5.288Mb

 

Drets

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

Aquest element apareix en la col·lecció o col·leccions següent(s)