Pedestrian Detection based on Local Experts

Author

Marín Tur, Javier

Director

López Peña, Antonio M. (Antonio Manuel)

Amores Llopis, Jaume

Date of defense

2013-06-28

ISBN

9788449038785

Legal Deposit

B-22910-2013

Pages

110 p.



Department/Institute

Universitat Autònoma de Barcelona. Departament d'Arquitectura de Computadors i Sistemes Operatius

Abstract

Al llarg dels darrers anys, els sistemes de detecció humana basats en visió per computador han començat a exercir un paper clau en diverses aplicacions lligades a l’assisténcia a la conducció, la videovigilància, la robòtica i la domòtica. Detectar persones és, sens cap dubte, una de les tasques més difícils en el camp de la Visió per Computador. Aixó es deu principalment al grau de variabilitat en l’aparenc¸a humana associada a la roba, postura, forma i grandària. A més, altres factors com escenaris amb molts elements, oclusions parcials o condicions ambientals poden fer que la tasca de detecció sigui encara més difícil. Els mètodes més prometedors a l’estat de la q¨uestió es basen en models d’aprenentatge discriminatius que són entrenats amb exemples positius (vianants) i negatius (no vianants). El conjunt d’entrenament és un dels elements més rellevants a l’hora de construir un detector que faci front a la citada gran variabilitat. Per tal de crear el conjunt d’entrenament es requereix supervisió humana. L’inconvenient en aquest punt és el gran esforc¸ que suposa haver d’anotar, així com la tasca de cercar l’esmentada variabilitat. En aquesta tesi abordem dos problemes recurrents a l’estat de la q¨uestió. En la primera etapa, es pretén reduir l’esforc¸ d’anotar mitjanc¸ant l’ús de gràfics per computador. Més concretament, desenvolupemun escenari urbà permés endavant generar un conjunt d’entrenament. Tot seguit, entrenem un detector usant aquest conjunt, i finalment, avaluem si aquest detector pot ser aplicat amb èxit en un escenari real. En la segona etapa, ens centrem en millorar la robustesa dels nostres detectors en el cas en que els vianants es trobin parcialment ocluids. Més concretament, presentem un nou mètode de tractament d’oclusions que consisteix en millorar la detecció de sistemes holístics en cas de trobar un vianant parcialment ocluid. Per dur a terme aquesta millora, fem ús de classificadors (experts) locals a través d’un mètode anomenat random subspace method (RSM). Si el sistema holístic infereix que hi ha un vianant parcialment ocluid, aleshores s’aplica el RSM, el qual ha estat entrenat prèviament amb un conjunt que contenia vianants parcialment ocluids. L’últim objectiu d’aquesta tesi és proposar un detector de vianants fiable basat en un conjunt d’experts locals. Per aconseguir aquest objectiu, utilitzem el mètode anomenat random forest, a on els arbres es combinen per classificar i cada node és un expert local. En particular, cada expert local es centra en realitzar una classificació robusta de zones del cos. Cal remarcar, a més, que el nostre mètode presenta molta menys complexitat a nivell de disseny que altres mètodes de l’estat de la q¨uestió, alhora que ofereix una eficiència computacional raonable i una major precisió.


During the last decade vision-based human detection systems have started to play a key role in multiple applications linked to driver assistance, surveillance, robot sensing and home automation. Detecting humans is by far one of the most challenging tasks in Computer Vision. This is mainly due to the high degree of variability in the human appearance associated to the clothing, pose, shape and size. Besides, other factors such as cluttered scenarios, partial occlusions, or environmental conditions can make the detection task even harder. Most promising methods of the state-of-the-art rely on discriminative learning paradigms which are fed with positive and negative examples. The training data is one of the most relevant elements in order to build a robust detector as it has to cope the large variability of the target. In order to create this dataset human supervision is required. The drawback at this point is the arduous effort of annotating as well as looking for such claimed variability. In this PhD thesis we address two recurrent problems in the literature. In the first stage, we aim to reduce the consuming task of annotating, namely, by using computer graphics. More concretely, we develop a virtual urban scenario for later generating a pedestrian dataset. Then, we train a detector using this dataset, and finally we assess if this detector can be successfully applied in a real scenario. In the second stage, we focus on increasing the robustness of our pedestrian detectors under partial occlusions. In particular, we present a novel occlusion handling approach to increase the performance of block-based holistic methods under partial occlusions. For this purpose, we make use of local experts via a RandomSubspaceMethod (RSM) to handle these cases. If the method infers a possible partial occlusion, then the RSM, based on performance statistics obtained from partially occluded data, is applied. The last objective of this thesis is to propose a robust pedestrian detector based on an ensemble of local experts. To achieve this goal, we use the random forest paradigm, where the trees act as ensembles an their nodes are the local experts. In particular, each expert focus on performing a robust classification of a pedestrian body patch. This approach offers computational efficiency and far less design complexity when compared to other state-of-the-artmethods, while reaching better accuracy.

Keywords

Virtual; Occlusion handling; Random forest

Subjects

68 - Industries, crafts and trades for finished or assembled articles

Knowledge Area

Tecnologies

Documents

fjmt1de1.pdf

1.599Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)