Towards Smart Fashion: Visual Recognition of Products and Attributes

Author

Yazıcı, Vacit Oğuz

Director

Weijer, Joost van de

Ramisa, Arnau

Date of defense

2022-01-18

Pages

128 p.



Doctorate programs

Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica

Abstract

La intel·ligència artificial innova la indústria de la moda proposant noves aplicacions i solucions als problemes als quals s’enfronten els investigadors i enginyers que treballen en la indústria. En aquesta tesi abordem tres d’aquests problemes. A la primera part de la tesi investiguem el problema de la classificació multi-etiqueta d’imatges, que està molt relacionat amb el reconeixement d’atributs de moda. A la segona part de la tesi abordem dos problemes específics de la moda. En primer lloc, abordem el problema de la detecció del producte principal, que és la tasca d’associar les parts correctes de la imatge (per exemple, delimitades mitjançant regions d’interès rectangulars) amb el producte de moda que es ven. En segon lloc, abordem el problema de el reconeixement categòric de colors per a robes multicolors. Si tractem el problema de classificació multi-etiqueta d’imatges com un problema de predicció de conjunts de conceptes sense un ordre específic, podem aprofitar les xarxes neuronals recurrents (RNN) per capturar aquestes correlacions d’etiquetes. No obstant això, les RNN són entrenades per predir seqüències ordenades de símbols, de manera que si l’ordre de la seqüència predita és diferent a l’ordre de la seqüència de l’anotació de referència associada amb la imatge, la xarxa neuronal patirà una penalització tot i que les prediccions siguin correctes. Per tant, en la primera part de la tesi, proposem una funció objectiu per ordenar dinàmicament la seqüència d’etiquetes en l’anotació de referència de manera que s’aconsegueixi la mínima discrepància en la predicció. Això dóna com a resultat una millora significativa dels models RNN en la classificació multi-etiqueta d’imatges comparat amb els mètodes anteriors. No obstant això, les RNN pateixen dependències a llarg termini quan la cardinalitat del conjunt augmenta. Els models transformer es poden utilitzar per evitar el problema de dependència a llarg termini explotant els seus mòduls d’auto-atenció que processen seqüències completes de dades simultàniament. En conseqüència, proposem un nou model de transformer per a la classificació multi-etiqueta d’imatges que supera els resultats de l’estat de l’art per un ampli marge. A la segona part de la tesi, ens enfoquem en dos problemes específics de la moda. La detecció de producte principal és la tasca d’associar parts de la imatge amb el producte de moda que es ven, generalment utilitzant metadades textuals associats (títol o descripció del producte). En aquesta tesi, representem les regions d’interès rectangulars de totes les imatges com vèrtexs en un graf completament connectat. Això permet que l’algorisme aprengui les relacions entre els vèrtexs durant l’entrenament i tingui en compte tot el context per a la decisió final. El nostre algoritme dóna com a resultat una millora significativa respecte a l’estat de l’art. A més, abordem el problema del reconeixement categòric de colors per a robes multicolors, que és una tasca difícil a causa de factors externs com canvis d’il·luminació o oclusions causades per altres objectes. En el context de la classificació multi-etiqueta d’imatges, les fronteres difuses entre les classes en l’espai de color causen ambigüitat. Per exemple, un to de color blau que és molt proper al verd pot fer que el model predigui incorrectament els colors blau i verd al mateix temps. No obstant això, s’espera que un model intel·ligent de reconeixement categòric de colors sigui capaç a més d’encertar el nombre correcte de colors a predir en roba d’un o diversos colors. Per això, en aquesta tesi proposem una arquitectura nova amb una sortida addicional que prediu explícitament el nombre de colors en robes de moda. Això elimina el problema de l’ambigüitat i millora significativament els resultats.


La inteligencia artificial innova la industria de la moda proponiendo nuevas aplicaciones y soluciones a los problemas que afrontan los investigadores e ingenieros que trabajan en la industria. En esta tesis abordamos tres de estos problemas. En la primera parte de la tesis investigamos el problema de la clasificación multi-etiqueta de imágenes, que está muy relacionado con el reconocimiento de atributos de moda. En la segunda parte de la tesis abordamos dos problemas específicos de la moda. En primer lugar, abordamos el problema de la detección del producto principal, que es la tarea de asociar las partes correctas de la imagen (por ejemplo, delimitadas mediante regiones de interés rectangulares) con el producto de moda que se vende. En segundo lugar, abordamos el problema del reconocimiento categorico de colores para ropas multicolores. Si tratamos el problema de clasificación multi-etiqueta de imágenes como un problema de predicción de conjuntos de conceptos sin un orden especifico, podemos aprovechar las redes neuronales recurrentes (RNN) para capturar dichas correlaciones de etiquetas. Sin embargo, las RNN son entrenados para predecir secuencias ordenadas de símbolos, por lo que si el orden de la secuencia predicha es diferente al orden de la secuencia de la anotación de referencia asociada con la imagen, la red neuronal sufrirá una penalización aunque las predicciones sean correctas. Por lo tanto, en la primera parte de la tesis, proponemos una función objetivo que ordenará dinámicamente la secuencia de etiquetas en la anotación de referencia de manera que se logre la mínima discrepancia con la predicción. Esto da como resultado una mejora significativa de los modelos RNN en la clasificación multi-etiqueta de imágenes con respecto a los métodos anteriores. Sin embargo, las RNN sufren dependencias a largo plazo cuando la cardinalidad del conjunto aumenta. Los modelos transformer se pueden utilizar para evitar el problema de dependencia a largo plazo explotando sus módulos de auto-atención que procesan secuencias completas de datos simultáneamente. En consecuencia, proponemos un modelo de transformer novedoso para la clasificación multi-etiqueta de imágenes que supera los resultados del estado del arte por un amplio margen. En la segunda parte de la tesis, nos enfocamos en dos problemas específicos de la moda. La detección de producto principal es la tarea de asociar partes de la imagen con el producto de moda que se vende, generalmente utilizando metadatos textuales asociados (título o descripción del producto). En esta tesis, representamos las regiones de interés rectangulares de todas las imágenes como vértices en un grafos completamente conectado. Esto permite que el algoritmo aprenda las relaciones entre los vértices durante el entrenamiento y tenga en cuenta todo el contexto para la decisión final. Nuestro algoritmo da como resultado una mejora significativa respecto al estado del arte. Además, abordamos el problema del reconocimiento categórico de colores para ropas multicolores, que es una tarea difícil debido a factores externos como cambios de iluminación u oclusiones causadas por otros objetos. En el contexto de la clasificación multi-etiqueta de imágenes, las fronteras difusas entre las clases en el espacio de color causan ambigüedad. Por ejemplo, un tono de color azul que es muy similar al color verde puede hacer que el modelo prediga incorrectamente los colores azul y verde al mismo tiempo. Sin embargo, se espera que un modelo inteligente de reconocimiento categórico de colores sea capaz ademas de acertar el numero correcto de colores a predecir en ropa de uno o varios colores. Por ello, en esta tesis proponemos una arquitectura novedosa con una salida adicional que predice explícitamente el número de colores en ropas de moda. Esto elimina el problema de la ambigüedad y mejora significativamente los resultados.


Artificial intelligence is innovating the fashion industry by proposing new applications and solutions to the problems encountered by researchers and engineers working in the industry. In this thesis, we address three of these problems. In the first part of the thesis, we tackle the problem of multi-label image classification which is very related to fashion attribute recognition. In the second part of the thesis, we address two problems that are specific to fashion. Firstly, we address the problem of main product detection which is the task of associating correct image parts (e.g. bounding boxes) with the fashion product being sold. Secondly, we address the problem of color naming for multicolored fashion items. If we treat the multi-label image classification problem as an orderless set prediction problem, we can exploit recurrent neural networks (RNN) to capture label correlations. However, RNNs are trained to predict ordered sequences of tokens, so if the order of the predicted sequence is different than the order of the ground truth sequence, there will be penalization although the predictions are correct. Therefore, in the first part of the thesis, we propose an orderless loss function which will order the labels in the ground truth sequence dynamically in a way that the minimum loss is achieved. This results in a significant improvement of RNN models on multi-label image classification over the previous methods. However, RNNs suffer from long term dependencies when the cardinality of set grows bigger. Transformers can be used to avoid the long term dependency problem exploiting their self-attention modules that process sequential data simultaneously. Consequently, we propose a novel transformer model for multi-label image classification which surpasses the state-of-the-art results by a large margin. In the second part of thesis, we focus on two fashion-specific problems. Main product detection is the task of associating image parts with the fashion product that is being sold, generally using associated textual metadata (product title or description). In this thesis, we represent the bounding boxes from all the images as nodes in a fully connected graph. This allows the algorithm to learn relations between the nodes during training and take the entire context into account for the final decision. Our algorithm results in a significant improvement of the state-of-the-art. Moreover, we address the problem of color naming for multicolored fashion items, which is a challenging task due to the external factors such as illumination changes or objects that act as clutter. In the context of multi-label classification, the vaguely defined lines between the classes in the color space cause ambiguity. For example, a shade of blue which is very close to green might cause the model to incorrectly predict the color blue and green at the same time. Based on this, models trained for color naming are expected to recognize the colors and their quantities in both single colored and multicolored fashion items. Therefore, in this thesis, we propose a novel architecture with an additional head that explicitly estimates the number of colors in fashion items. This removes the ambiguity problem and results in better color naming performance.

Keywords

Visió per computador; Visión por computador; Computer vision; Aprenentatge automàtic; Aprendizaje automático; Machine learning; Aprenentatge profund; Aprendizaje profundo; Deep learning

Subjects

004 - Computer science and technology. Computing. Data processing

Knowledge Area

Ciències Experimentals

Documents

yvo1de1.pdf

34.10Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/

This item appears in the following Collection(s)