Development of a multimodal imaging system based on LIDAR

Author

García Gómez, Pablo

Director

Royo Royo, Santiago

Codirector

Casas Pla, Josep Ramon

Date of defense

2021-12-02

Pages

214 p.



Department/Institute

Universitat Politècnica de Catalunya. Departament d'Òptica i Optometria

Doctorate programs

DOCTORAT EN ENGINYERIA ÒPTICA (Pla 2013)

Abstract

(English) Perception of the environment is an essential requirement for the fields of autonomous vehicles and robotics, that claim for high amounts of data to make reliable decisions. With this aim, many different sensors are often combined in a process known as data fusion for obtaining the largest possible amount of information from the environment, even if redundant. In this context, Light Detection And Ranging (LiDAR) imaging sensors have become crucial sensors for such applications due to their 3D geometry sensing capability that overtake Radio Detection And Ranging (RADAR) devices in terms of spatial resolution. This thesis aims to develop a unique data fusion device consisting of different and complementary imaging modes with a 3D solid-state LiDAR sensor as its core sensor. We aim to reduce the usual parallax error committed during the fusion of sensors situated along large enclosures and to provide a feasible multimodal imaging device easy to integrate with the approach of mechanically reducing the multi-sensor framework inside a single device. Consequently, this thesis reviews and discusses the current state of the sensors' technology and data fusion. In particular, it focuses on reviewing the different LiDAR techniques and the most used camera model in Computer Vision (CV). Based on that, it provides a discussion about the imaging modes of interest in the perception unit, which includes a pulsed Micro-Electrical-Mechanical System (MEMS) mirror solid-state LiDAR as its principal sensor. Then, this thesis analytically describes the particular MEMS LiDAR system using Snell's law. Furthermore, it provides a general model for the imaging system that may be used on any other LiDAR for predicting and correcting the variable angular resolution across the Field-Of-View (FOV) that distorts the Point Cloud. Analogously, it mathematically derives the necessary transformations for data fusion between sensor pairs. Accordingly, this thesis proposes a novel calibration method for LiDAR and fusion systems. It presents the methodology and the materials, that include a multimodal calibration pattern and an automatic guide system, necessary for accurately and automatically calibrating all the sensors included in the unit. The novelty of using the LiDAR depth information for better estimating the location of the target have yielded the calibration to improve the up-to-date calibration methods in the literature. Finally, this thesis presents the development of a multimodal perception unit based on the above which is aimed to become a TRL8 product, together with some of its potential applications in the field of CV.


(Català) La percepció de l'entorn és un requisit imprescindible pels camps dels vehicles autònoms i la robòtica, que reclamen grans quantitats de dades per prendre decisions fiables. Amb aquest objectiu, sovint es combinen molts sensors diferents en un procés conegut com a fusió de dades per obtenir la quantitat més gran possible d'informació de l'entorn, inclòs redundant. En aquest context, els sensors d'imatge LiDAR (acrònim anglès de Light Detection And Ranging) s'han convertit en sensors crucials per tals aplicacions gràcies a la seva capacitat de mesura de la geometria 3D que supera la dels dispositius RADAR (acrònim anglès de Radio Detection And Ranging) en termes de resolució espacial. Aquesta tesi té com a objectiu desenvolupar un dispositiu de fusió de dades únic que consta de modes d'imatge diferents i complementaris juntament amb un sensor LiDAR d'estat sòlid 3D com a sensor principal. El nostre objectiu és reduir l'habitual error de paral·laxi comès durant la fusió de sensors situats al llarg de grans muntatges i proporcionar un dispositiu d'imatge multimodal factible i fàcil d'integrar amb l'enfocament de reduir mecànicament el marc multisensor a un únic dispositiu. En conseqüència, aquesta tesi revisa i discuteix l'estat actual de la tecnologia dels sensors i la fusió de dades. Particularment, se centra a revisar les diferents tècniques LiDAR i el model de càmera més comú en Computer Vision (CV). D'acord amb això, proporciona una discussió sobre els modes d'imatge d'interès en la unitat de percepció, que inclou un LiDAR polsat d'estat sòlid basat en un mirall Sistema Micro-Elèctric-Mecànic (MEMS) com a sensor principal. Després, aquesta tesi descriu analíticament el sistema MEMS LiDAR particular a través de la llei de Snell. A més, proporciona un model general per al sistema d'imatge que es pot utilitzar en qualsevol altre LiDAR per predir i corregir la resolució angular variable en el camp de visió (FOV) que distorsiona el núvol de punts. De manera anàloga, deriva matemàticament les transformacions necessàries per a la fusió de dades entre parells de sensors. En conseqüència, aquesta tesi proposa un mètode de calibratge nou per sistemes LiDAR i de fusió. Presenta la metodologia i els materials, que inclouen un patró de calibratge multimodal i un sistema de guia automàtic, necessaris per calibrar de forma precisa i automàtica tots els sensors inclosos en la unitat. La novetat d'utilitzar la informació de profunditat LiDAR per estimar millor la ubicació de l'objectiu ha resultat en un mètode de calibratge que millora els actuals en la literatura. Finalment, aquesta tesi presenta el desenvolupament d'una unitat de percepció multimodal basada en l'anterior que té com a objectiu esdevenir un producte TRL8, juntament amb algunes de les seves potencials aplicacions en el camp de la CV.


(Español) La percepción del entorno es un requisito imprescindible para los campos de los vehículos autónomos y la robótica, que reclaman grandes cantidades de datos para tomar decisiones fiables. Con este objetivo, a menudo se combinan muchos sensores diferentes en un proceso conocido como fusión de datos para obtener la mayor cantidad posible de información del entorno, incluso redundante. En este contexto, los sensores de imagen LiDAR (acrónimo inglés de Light Detection And Ranging) se han convertido en sensores cruciales para tales aplicaciones gracias a su capacidad de medida de la geometría 3D que supera la de los dispositivos RADAR (acrónimo inglés de Radio Detection And Ranging) en términos de resolución espacial. Esta tesis tiene como objetivo desarrollar un dispositivo de fusión de datos único que consta de modos de imagen diferentes y complementarios junto con un sensor LiDAR de estado sólido 3D como sensor principal. Nuestro objetivo es reducir el habitual error de paralaje cometido durante la fusión de sensores situados a lo largo de grandes montajes y proporcionar un dispositivo de imagen multimodal factible y fácil de integrar con el enfoque de reducir mecánicamente el marco multisensor a un único dispositivo. En consecuencia, esta tesis revisa y discute el estado actual de la tecnología de los sensores y la fusión de datos. Particularmente, se centra en revisar las diferentes técnicas LiDAR y el modelo de cámara más común en Computer Vision (CV). Por ello, proporciona una discusión sobre los modos de imagen de interés en la unidad de percepción, que incluye un LiDAR pulsado de estado sólido basado en un espejo Sistema Micro-Eléctrico-Mecánico (MEMS) como sensor principal. Luego, esta tesis describe analíticamente el sistema MEMS LiDAR particular usando la ley de Snell. Además, proporciona un modelo general para el sistema de imagen que se puede utilizar en cualquier otro LiDAR para predecir y corregir la resolución angular variable en el campo de visión (FOV) que distorsiona la nube de puntos. De manera análoga, deriva matemáticamente las transformaciones necesarias para la fusión de datos entre pares de sensores. En consecuencia, esta tesis propone un método de calibración novedoso para sistemas LiDAR y de fusión. Presenta la metodología y los materiales, que incluyen un patrón de calibración multimodal y un sistema de guía automático, necesarios para calibrar de forma precisa y automática todos los sensores incluidos en la unidad. La novedad de utilizar la información de profundidad LiDAR para estimar mejor la ubicación del objetivo ha resultado en un método de calibración que mejora los actuales en la literatura. Finalmente, esta tesis presenta el desarrollo de una unidad de percepción multimodal basada en lo anterior que tiene como objetivo convertirse en un producto TRL8, junto con algunas de sus potenciales aplicaciones en el campo de la CV.

Subjects

535 - Optics

Knowledge Area

Àrees temàtiques de la UPC::Ciències de la visió

Note

Tesi amb menció de Doctorat Industrial (Generalitat de Catalunya)

Tesi amb continguts retallats per motius de confidencialitat

Documents

TPGG1de1.pdf

3.806Mb

 

Rights

ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)