Universitat Politècnica de Catalunya. Departament d'Arquitectura de Computadors
Arquitectura de computadors
Computer vision plays a key role in Artificial Intelligence because of the rich semantic information contained in pixels and the ubiquity of cameras nowadays. Multimedia content is on a rise since social networks have such a strong impact in our society and access to the internet becomes more widespread. This context allows the gathering of large datasets which have fostered great advancements in the computer vision field thanks to deep neural networks. These models can effectively exploit large amounts of data to reach a high expressive power. Since the breakout of Imagenet, a large dataset for image classification, most computer vision tasks have benefited from deep neural networks. Among the different tasks in the computer vision field, locating objects in images and videos is a central one, as it has many applications in autonomous driving, surveillance, image and video edition, medical diagnosis and biometrics along with others. Localization of objects can be obtained with bounding boxes around the target objects, or with accurate pixel-level masks that delineate the instances. The latter is a more challenging task, but fundamental for certain applications where edges of objects need to be determined. The main task addressed in this thesis is instance segmentation, that consists in, given an image or video, providing pixel-level masks for each instance of certain semantic object classes. In order to train a segmentation model, current solutions rely on large amounts of pixel-wise annotations, which demand significant human effort to collect. Furthermore, expert knowledge is needed to gather certain annotations, such as labels for medical images. In consequence, there is a huge interest for systems that work with less-demanding forms of supervision, such as weakly or semi-supervised pipelines. Besides, in some segmentation tasks, human effort is not only needed for training the models, but also at inference. In semi-automatic systems, user input may be required as guidance to start the system. One example is the task of one-shot Video Object Segmentation (osVOS), which expects that the end-user provides a pixel-level mask for each object to be tracked in the first frame of the video. Following, the model must predict the segmentation mask of the tracked objects for the remaining frames. These initialization cues are crucial for high accuracy, but they are arduous to obtain. An alternative are models that depend on weaker input signals that are user-friendlier. This thesis explores different supervision scenarios for the instance segmentation task, distinguishing between supervision during training and at inference, and focusing on low-supervision setups. In the first part of the thesis we present a novel recurrent architecture for video object segmentation that is end-to-end trainable in a fully-supervised setup, and that does not require any post-processing step, i.e., the output of the model directly solves the addressed task. The second part of the thesis aims at lowering the annotation cost, in terms of labeling time, needed to train image segmentation models. We explore semi-supervised pipelines and show results when a very limited budget is available. The third part of the dissertation attempts to alleviate the supervision required by semi-automatic systems at inference time. Particularly, we focus on semi-supervised video object segmentation, which typically requires generating a binary mask for each instance to be tracked. In contrast, we present a model for language-guided video object segmentation, which identifies the object to segment with a natural language expression. We study current benchmarks, propose a novel categorization of referring expressions for video, and identify the main challenges posed by the video task.
La visió per computador té un paper clau en la intel·ligència artificial pel ric contingut semàntic dels píxels i la ubiqüitat de càmeres avui en dia. El contingut multimèdia creix exponencialment degut a què les xarxes socials tenen una gran influència en la nostra societat, i a que l’accés a l’internat és cada cop més generalitzat. Aquesta contextura permet la recol·lecció de grans bases de dades que impulsen avenços gràcies a les xarxes d’aprenentatge profund. Des de generació d’Imagenet, una base de dades de gran escala pel problema de classificació d’imatges, moltes tasques de visió s’han beneficiat de les xarxes d’aprenentatge profund. D’entre les diferents tasques de visió, localitzar objectes en imatges i vídeos és de les més rellevants, ja que té moltes aplicacions en àmbits com la conducció autònoma, la videovigilància, l’edició d’imatges i vídeos, el diagnòstic mèdic per imatge, i aplicacions biomètriques d’entre altres. La localització d’objectes es pot resoldre amb el que popularment s'anomenen bounding boxes, o amb segmentacions a nivell de píxel, sent aquesta segona una tasca més complexa. En aquesta tesis investiguem la segmentació d’instàncies, que consisteix en, a partir d’una imatge o un vídeo, predir segmentacions de cada instància que hi apareix de certes categories semàntiques. Per tal d’entrenar un model de segmentació, les solucions actuals entrenen amb grans bases de dades que tenen anotacions a nivell de píxel. Aquests anotacions són molt costoses d’obtenir ja que es requereix molt temps de feina manual. A més, per certes anotacions és necessària la intervenció d’experts, com per exemple per imatges mèdiques. Per aquests motius hi ha molt interès tant en sistemes que es puguin entrenar amb formes més senzilles d’anotacions com en sistemes semi-supervisats. En algunes tasques l’esforç d’anotar no només es requereix per les dades d’entrenament, sinó que també és necessari en fase de testeig. En certs models semi-automàtics l’usuari ha d’introduir alguna mena d’anotació per tal de què funcioni el sistema. Un exemple d’aquest tipus de tasca és la segmentació semi-supervisada d'objectes en vídeos, on es necessita com a entrada al sistema una màscara a nivell de píxel per cada objecte que es vulgui segmentar en la primera imatge del vídeo. A continuació, el model prediu segmentacions per la resta del vídeo. Aquesta inicialització és imprescindible per obtenir màscares precises, però és molt costosa. Una alternativa és treballar amb senyals més fàcils d’obtenir. Aquesta tesis explora diferents nivells de supervisió per la tasca de segmentació d’instàncies, diferenciant entre supervisió en entrenament i en inferència. En concret, el nostre objectiu és treballar amb poca supervisió. En la primera part de la tesis presentem una arquitectura recurrent per la tasca de segmentació d’objectes en vídeos, que es pot entrenar end-to-end de forma totalment supervisada, i que no requereix cap post-processament, és a dir, la sortida del model directament solventa la tasca final. La segona part es centra en reduir el cost d’anotacions de bases de dades per entrenar models de segmentació d’imatges. Explorem arquitectures semi-supervisades i presentem resultats quan només es disposa d’un pressupost d’anotació molt limitat. La tercera part de la tesis es centra en reduir el nivell de supervisió en sistemes semi-automàtics en inferència. En concret, investiguem la tasca de segmentació semi-supervisada d’objectes en vídeos, tasca que tradicionalment requereix que l’usuari indiqui quins objectes cal segmentar amb màscares a nivell de píxel. En canvi, nosaltres presentem un model que utilitza el llenguatge natural. Estudiem les bases de dades actuals i proposem una categorització d’expressions de llenguatge per tal d’identificar els majors reptes.
004 - Computer science
Àrees temàtiques de la UPC::Informàtica