Universitat Autònoma de Barcelona. Departament de Ciències de la Computació
La detección de peatones continua siendo un problema muy difícil en escenarios reales, donde diferentes situaciones como cambios en iluminación, imágenes ruidosas, objetos inesperados, escenarios sin control y la variabilidad en la apariencia de los objetos ocurren constantemente. Todos estos problemas fuerzan el desarrollo de detectores más robustos para aplicaciones relevantes como lo son los vehículos autónomos basados en visión, vigilancia inteligente y el seguimiento de peatones para el análisis del comportamiento. Los detectores de peatones basados en visión más confiables deciden basándose en descriptores extraídos usando un único sensor y capturando características complementarias, e.g., apariencia y textura. Estas características son extraídas de una única imagen, ignorando la información temporal, o incluyendo esta información en un paso de post procesamiento e.g., seguimiento o coherencia temporal. Teniendo en cuenta estos hechos, nos formulamos la siguiente pregunta: ¿Podemos generar detectores de peatones más robustos mediante la introducción de nuevas fuentes de información en el paso de extracción de características? Para responder a esta pregunta desarrollamos diferentes propuestas para introducir nuevas fuentes de información a detectores de peatones bien conocidos. Empezamos por la inclusión de información temporal siguiendo el paradigma del aprendizaje secuencial apilado (SSL siglas en inglés), el cual sugiere que la información extraída de las muestras vecinas en una secuencia pueden mejorar la exactitud de un clasificador base. Después nos enfocamos en la inclusión de información complementaria proveniente de sensores diferentes como nubes de puntos 3D (LIDAR - profundidad), imágenes infrarrojas (FIR) o mapas de disparidad (par estéreo de cámaras). Para tal fin desarrollamos un marco multimodal en el cual información proveniente de diferentes sensores es usada para incrementar la exactitud en la detección (aumentando la redundancia de la información). Finalmente proponemos un detector multi-vista, esta propuesta multi-vista divide el problema de detección en n sub-problemas. Cada uno de estos sub-problemas detectara objetos en una vista específica dada, reduciendo así el problema de la variabilidad que se tiene cuando un único detector es usado para todo el problema. Demostramos que estas propuestas obtienen resultados competitivos con otros métodos en el estado del arte, pero envés de diseñar nuevas características, reutilizamos las existentes para mejorar el desempeño.
Pedestrian detection continues to be an extremely challenging problem in real scenarios, in which situations like illumination changes, noisy images, unexpected objects, uncontrolled scenarios and variant appearance of objects occur constantly. All these problems force the development of more robust detectors for relevant applications like vision-based autonomous vehicles, intelligent surveillance, and pedestrian tracking for behavior analysis. Most reliable vision-based pedestrian detectors base their decision on features extracted using a single sensor capturing complementary features, e.g., appearance, and texture. These features usually are extracted from the current frame, ignoring temporal information, or including it in a post process step e.g., tracking or temporal coherence. Taking into account these issues we formulate the following question: can we generate more robust pedestrian detectors by introducing new information sources in the feature extraction step? In order to answer this question we develop different approaches for introducing new information sources to well-known pedestrian detectors. We start by the inclusion of temporal information following the Stacked Sequential Learning (SSL) paradigm which suggests that information extracted from the neighboring samples in a sequence can improve the accuracy of a base classifier. We then focus on the inclusion of complementary information from different sensors like 3D point clouds (LIDAR - depth), far infrared images (FIR), or disparity maps (stereo pair cameras). For this end we develop a multi-modal framework in which information from different sensors is used for increasing detection accuracy (by increasing information redundancy). Finally we propose a multi-view pedestrian detector, this multi-view approach splits the detection problem in n sub-problems. Each sub-problem will detect objects in a given specific view reducing in that way the variability problem faced when a single detectors is used for the whole problem. We show that these approaches obtain competitive results with other state-of-the-art methods but instead of design new features, we reuse existing ones boosting their performance.
Detecció de vianants; Detección de peatones; Pedestrian detection; Informació multimodal; Información multimodal; Multi-modal information
6 - Ciencias aplicadas
Tecnologies