Universitat Autònoma de Barcelona. Departament de Ciències de la Computació
Dia a dia, la capacitat de detectar i reconèixer objectes en imatges automàticament es fa cada vegada més important. Des dels sistemes de seguretat i robots, als telèfons d'última generació i la realitat augmentada, tot dispositiu intel·ligent necessita conèixer el significat semàntic de la imatge. Aquesta tesi aborda el problema de la detecció ràpida d'objectes a partir de models basats en patrons. La cerca d'un objecte en imatges s'implementa evaluant la similitud entre el model i cada ubicació i escala possibles en una imatge. Aquí s'argumenta que utilitzar una representació d'objectes basada en una jerarquia de múltiples resolucions és una opció adequada que pot conduir a una excel·lent precisió i un càlcul molt ràpid. Com, per detectar a múltiples escales, la cerca de l'objecte s'efectua de forma implícita a múltiples resolucions, el fet d'utilitzar un model en múltiples resolucions permet una millor representació de l'objecte, gairebé sense cost computacional addicional. A més, un model multiresolució s'adapta de forma natural a una cerca també en múltiples resolucions en la imatge, des de baixes a altes. Això ens porta a un conjunt d'acceleracions importants, degut a que es poden limitar el conjunt d'ubicacions on fer la cerca de l'objecte a nivells baixos de resolució, el que comporta un cost més reduït en l'avaluació del model. Una cerca jeràrquica de baixes a altes resolucions es pot fer utilizant una cascada de classificadors multiresolució, que elimina facils hipòtesis neagatives utilizant la baixa resolució. %basades en la probabilitat trobada en cada lloc on es fa la detecció, Un mètode alternatiu es basa en seleccionar localment, però de manera uniforme, les ubicacions de detecció a resolució baixa y propagarles fins a la resolució més alta. Aquest enfocament alternatiu, que llamem cerca coarse-to-fine, té una acceleració i rendiments semblants a la cascada de múltiples resolucions, però en un temps de computació independent del contingut de la imatge. La cerca coarse-to-fine s'ha estès a models deformables amb partes. En aquest enfocament, la jerarquia dels models se separa de forma recursiva en les subparts deformables de l'objecte a mesura que augmentem la resolució del model. D'aquesta manera, cada part s'ajusta a l'objecte en la imatge, produint una millor representació i, per tant una millor precisió en la detecció, juntament amb un temps computacional molt reduït. S'han validat els diferents models de multiresolució en diverses bases de dades conegudes i d'ús comú, mostrant que els resultats arriben a l'estat de l'art, però amb un cost computacional molt reduït. Finalment, es presenta una especialització d'aquest model multiresolució deformable per la tasca de detecció de vianants des de vehicles en moviment, que requereix tant una alta precisió com que el rendiment sigui en temps real. S'ha demostrat que la qualitat global del model proposat és superior als treballs anteriors i que té un grau de detecció de vianants fiable i ràpid utilitzant únicament informació de la imatge.
Día a día, la capacidad de detectar y reconocer objetos en imágenes automáticamente se hace cada vez más importante. Desde los sistemas de seguridad y los robots, a los teléfonos de última generación y la realidad aumentada, cada dispositivo inteligente necesita conocer el significado semántico de la imagen. Esta tesis aborda el problema de la detección rápida de objetos a partir de modelos basados en patrones. La búsqueda de un objeto en una imagen es el procedimiento de evaluar la similitud entre el modelo y cada ubicación y escala posible de la imagen. En esta tesis se argumenta que utilizar una representación del modelo de objetos basada en una jerarquía de resoluciones múltiples es una opción adecuada que puede conducir a una excelente precisión y un cálculo rápido. Como, para detectar a múltiples escalas, la búsqueda del objeto se efectúa de forma implícita en múltiples resoluciones, utilizar también un modelo de objetos con resoluciones múltiples permite una representación mejor del modelo, casi sin coste computacional adicional. Además, el modelo multiresolución se adapta de forma natural a una búsqueda sobre multiples resoluciones en la imagen, desde bajas a altas. Esto conduce a una doble aceleración debida a: un inicialmente reducido conjunto de ubicaciones en baja resolución donde realizar la búsqueda del objeto; un coste reducido de la evaluación del modelo. La búsqueda sobre multiples resoluciones puede efectuarse utilizando una cascada de clasificadores multirresolución, que elimina los ejemplos negativos en la resolución baja. Un método alternativo se basa en seleccionar localmente, pero de manera uniforme, las mejores detecciones a resolución baja y, luego, propagar estas hipothesis a los siguientes niveles de resolución. Este método, que llamamos búsqueda coarse-to-fine, tiene una aceleración parecida a la cascada de multiples resoluciones, pero el coste computacional es independiente del contenido de la imagen. La búsqueda coarse-to-fine se extiende a modelos deformables con partes. En este enfoque, la jerarquía de los modelos se separa de forma recursiva en las subpartes deformables a medida que aumenta la resolución del modelo. De esta manera, cada parte puede ajustarse al objecto en la imagen, produciendo una mejor representación y, por tanto, una mejor precisión en la detección con un tiempo computacional muy reducido. Se han validado los diferentes modelos de multirresolución en varias bases de datos de uso común, mostrando que los resultados alcanzan el estado del arte, pero con un coste computacional reducido. Por último, se presenta una especialización del modelo de multirresolución deformable para la tarea de detección de peatones desde vehículos en movimiento, que requiere tanto una alta precisión como un rendimiento en tiempo real. Se ha demostrado que la calidad global de nuestro modelo es superior a los trabajos anteriores y que puede producir una detección fiable de peatones basada solamente en imágenes.
Day by day, the ability to automatically detect and recognize objects in unconstrained images is becoming more and more important. From security systems and robots, to smart phones and augmented reality, every intelligent device needs to know the semantic meaning of an image. This thesis tackles the problem of fast object detection based on template models. Searching for an object in an image is the procedure of evaluating the similarity between the template model and every possible image location and scale. %the likelihood of the presence of that object. Here we argue that using a template model representation based on a multiple resolution hierarchy is an optimal choice that can lead to excellent detection accuracy and fast computation. As the search of the object is implicitly effectuated at multiple image resolutions to detect objects at multiple scales, using also a template model with multiple resolutions permits an improved model representation almost without any additional computational cost. Also, the hierarchy of multiple resolutions naturally adapts to a search over image resolutions, from coarse to fine. This leads to a double speed-up due to: an initially reduced set of coarse locations where to search for the object; a lower cost of evaluating the template model. The search over resolutions can be effectuated by using a cascade of multiresolution classifiers, which saves computation by early stopping the search at coarse level when finding easy negative examples. %pruning hypotheses based on the likelihood of each detection location, which leads to a cascade of multiresolution classifiers. An alternative approach is to locally but uniformly selecting the most promising detection locations at coarse level and, then, iteratively propagate only these ones to the finer resolutions, saving computation. This procedure, that we call coarse-to-fine search, has a speed-up similar to the multiresolution cascade, but a computational time independent of the image content. The coarse-to-fine search is then extended to deformable parts models. In this approach, as increasing the model resolution, the hierarchy of models is recursively separated into deformable subparts. In this way, each part can be aligned to the object in the image, producing a better representation and, therefore, an improved detection accuracy with still a reduced computational cost. We validate the different multiresolution models on several commonly used datasets, showing state-of-the-art results with a reduced computational cost. Finally, we specialize the multiresolution deformable model to the challenging task of pedestrian detection on moving vehicles, that requires both high accuracy and real-time performance. We show that the overall quality of our model is superior to previous works and it can lead to the first reliable pedestrian detection based only on images.
Object detection; Multiresolution
004 - Computer science
Tecnologies
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.