Searching and tracking of humans in urban environments with humanoid robots

Author

Goldhoorn, Alex

Director

Alquézar Mancho, René

Sanfeliu, Alberto

Date of defense

2017-09-21

Pages

217 p.



Department/Institute

Universitat Politècnica de Catalunya. Institut d'Organització i Control de Sistemes Industrials

Abstract

Searching and tracking are important behaviours for a mobile service robot to assist people, to search-and-rescue and, in general, to locate mobile objects, animals or humans. Even though searching might be evident for humans, for robots it is not, since it requires exploring, handling noisy sensors, coping with dynamic obstacles, and coordination in the case of multiple agents. In this thesis, we present several methods to search and track a person in an urban environment. All methods were fist tested extensively in simulation and then in real-life, using one or two mobile service robots, called Tibi and Dabo. The robots have laser range finders, which are used to navigate, to detect obstacles and to detect people's legs. Since we focus on search-and-track methods, we use existing methods for robot navigation, for people detection and person recognition. First tests are done with the hide-and-seek problem, in which the robot learns to catch the hider. Concretely, a Mixed Observable Markov Decision Process (MOMDP) model is used, in which the seeker's location is fully observable and the hider's location partially observable. Since the computational complexity depends on the number of states, we propose a hierarchical on-line method that reduces the state space by grouping them together. Although the method worked properly in simulation, in the real-life experiments the results were not satisfying and the on-line policy calculation was not fast enough to work in real-time. To handle larger environments, work in continuous state space and run in real-time, we propose to use an approach, the Continuous Real-time POMCP (CR-POMCP), that does Monte-Carlo simulations to learn a policy. The method performed correctly in simulation, but on the real robot it resulted in slow zigzag movements. Therefore, a new method is proposed, which uses the highest probable locations, according to its probability map (belief). Since the belief propagation of the POMCP resembles how a Particle Filter (PF) works, we also propose a method that uses a PF to maintain the belief. The PF method has to handle lack of observations, therefore, we introduce a special weight function. Both belief update methods take into account sensor and actuator noise, false negative detections, false positive detections (for a short time) and dynamic obstacles. Finally, a cooperative distributed multi-agent method is presented, it makes use of the previous belief update functions, but it uses all the agents' observations. Next, the search locations are assigned by exploring the working environment, taking into account: the belief, the distance to the search location and if another agent already will search close to it. Summarizing, the main contributions of this thesis are several methods to search and track a person in an urban environment with one or more mobile service robots. All these methods have been shown to work through a set of simulations and real-life experiments.


La cerca i el seguiment de persones són comportaments importants per un robot mòbil de servei per poder assistir, trobar i ajudar als humans, i en general, per localitzar objectes, animals o vianants. Tot i que la cerca és fàcil per als humans, no ho és per a un robot, ja que requereix exploració, maneig de soroll de sensors, fer front als obstacles dinàmics, i la coordinació en el cas de múltiples agents. En aquesta tesi presentem diferents mètodes per a buscar i seguir a una persona en un entorn urbà. Tots els mètodes han estat provats extensivament en simulació i després en el món real, utilitzant dos robots mòbils de servei, la Tibi i en Dabo. Els robots utilitzen sensors làser per a navegar, detectar obstacles i detectar les cames de les persones. Atès que aquest treball es centra en mètodes de cerca i seguiment, s’han usat els mètodes existents per a la navegació del robot, la detecció i el reconeixement de persones. Primerament, s’han fet proves amb el conegut joc del fet i amagar, on el robot aprèn a trobar l’amagador. S’ha fet servir el model Mixed Observable Markov Decision Process (MOMDP), on la posició del trobador és completament visible i la posició de l’amagador és parcialment visible. Degut a que la complexitat computacional depèn del nombre d’estats, es proposa un mètode jeràrquic en línia que redueix l’espai d’estats, tot agrupant-los. Tot i que el mètode va funcionar correctament en simulació, en els experiments reals els resultats no van ser satisfactoris, i el càlcul de la política no va ser prou ràpid com per treballar en temps real. Per tal de fer front a entorns de més superfície, treballar en l’espai continu i executar en temps real, proposem un nou enfocament, el Continuous Real-time POMCP (CRPOMCP), que fa simulacions de Monte-Carlo per aprendre una política. El mètode va funcionar correctament en l’entorn simulat, però a l’entorn real el robot realitzava lents moviments en zig-zag. Per tant, es proposa un mètode nou, que utilitza els llocs amb més alta probabilitat, d’acord amb el seu mapa de probabilitats (belief). Atès que la propagació de les probabilitats en el POMCP és similar al funcionament d’un filtre de partícules (PF), proposem, a més, un mètode que utilitza un PF per mantenir el belief. El mètode de PF ha de manejar la manca d’observacions. Per tant, introduïm una funció del pes especial. Tots dos mètodes de creences tenen en compte el soroll dels sensors i actuadors, la detecció de falsos negatius i positius (per a un curt període de temps) i els obstacles dinàmics. Finalment, es presenta un mètode multi-agent distribuït cooperatiu, que fa ús de les anteriors funcions d’actualització de la creença (belief), i a més utilitza totes les observacions dels agents. En el proper pas, les ubicacions de cerca s’assignen mitjançant l’exploració de l’entorn de treball, tenint en compte la creença, la distància a la ubicació de cerca i si un altre agent ja buscarà a prop d’ella. En resum, les principals contribucions d’aquesta tesi són diversos mètodes per a la cerca i seguiment d’una persona en un entorn urbà amb un o més robots de serveis mòbils. Tots aquests mètodes han demostrat que funcionen a través d’un conjunt de simulacions i experiments en la entorn real dinàmics.


La búsqueda y el seguimiento de personas son comportamientos importantes para un robot móvil de servicio para poder asistir, buscar y ayudar a la gente, y en general, para localizar un objeto, animal o humano. Aunque la búsqueda puede parecer muy fácil para los humanos, para los robots no lo es, ya que requiere explorar, manejar ruido de sensores, enfrentarse con obstáculos dinámicos y la coordinación en el caso de haber más agentes. En esta tesis, presentamos diferentes métodos para buscar y seguir a una persona en un entorno urbano. Todos los métodos han sido probados excesivamente en simulación y en experimentos reales, usando uno o dos robots móviles de servicio, Tibi y Dabo. Los robots tienen localizadores láser, los cuales se usan para navegar, detectar obstáculos y detectar piernas. Ya que el principal enfoque en este trabajo son los métodes de buscar-y-seguir, utilizamos métodos existentes para la navigación del robot, la detección de personas y el reconecimiento del humano. Las primeras pruebas se hicieron con el juego de escondite, en el cual el robot aprende a buscar el ocultador. Concretamente, usamos un modelo MOMDP, donde la posición del buscador es completamente observable y la posición del ocultador lo es parcialmente. Como la complejidad computacional depende del número de estados, proponemos un método en línea jerárquica, que reduce el espacio de los estados agrupándolos. Aunque el método funcionó correctamente en simulación, en los experimentos reales los resultados no fueron satisfechos y el cálculo de la política en línea no fue suficientemente rápido. Para poder trabajar en áreas largas, espacio continuo y en línea, proponemos un enfoque, el Continuous Real-time POMCP (CR-POMCP), que hace simulaciones de Monte-Carlo para aprender la política. El método funcionó correctamente en simulación, pero con el robot real resultaba en movimientos lentos en forma zigzag. Por eso, otro método fue propuesto, el cual usa las posiciones con la probabilidad más alta según el mapa de probabilidades (belief). Como la propagación del belief se parece mucho a como funciona un PF, proponemos un método que usa un PF para mantener el belief. El método PF tiene que manejar la falta de observaciones y por eso introducimos una función del peso especial. Los dos métodos para actualizar el belief tienen en cuenta el ruido de los sensores y actuadores, falsos negativos y positivos (durante un periodo corto de tiempo) y obstáculos dinámicos. Finalmente, se presenta un método cooperativo y distribuido para multi agentes, que usa el mapa de probabilidades (belief), y éste usa todas las observaciones. Después, se asigna las posiciones de búsqueda a los agentes, explorando el entorno, y teniendo en cuenta: la probabilidad de la posición, la distancia a la posición y si otro agente ya buscará cerca del lugar. En resumen, la contribución más importante de esta tesis son diferentes métodos de búsqueda y seguimiento de una persona en un entorno urbano con uno o más robots de servicio móviles. Todos estos métodos fueron comprobados en simulación y en experimentación real.


Zoeken en traceren zijn belangrijke manieren om een mobiele servicerobot te helpen mensen, om te zoeken en te redden en, in het algemeen, om mobiele objecten, dieren of mensen te lokaliseren. En hoewel zoeken evident is voor de mens, is dit niet het geval voor robots. Het vereist namelijk verschillende vaardigeheden zoals verkennen, omgaan met ruis in de sensoren en dynamische obstakels en coördinatie in het geval van meerdere agenten. In deze thesis presenteren we verschillende methoden om een persoon te zoeken en te volgen (search-and-track) in een stedelijke omgeving. De methoden zijn eerst getest met simulaties en daarna met twee echte mobiele servicerobots, genaamd Tibi en Dabo. De robots hebben laser rangefinders om te navigeren en om obstakels en benen van mensen te detecteren. Omdat we ons richten op het zoeken en volgen van mensen gebruiken we bestaande methoden voor de robotnavigatie, detectie van personen en het herkennen van de gezochte persoon. De eerste testen gedaan met het spel hide-and-seek, waar de robot leert om de persoon te vinden. Een Mixed Observable Markov Decision Process (MOMDP) is gebruikt, waar de positie van de robot (zoeker) volledig waarneembaar is en die van de persoon (verstopper) gedeeltelijk. Omdat de berekeningscomplexiteit van het aantal staten afhangt, stellen we een hiërarchische online methode voor die de staatruimte verkleind door het groeperen van staten. Hoewel de methode goed werkt in simulatie, waren de resultaten van de experimenten met de robots minder goed. Verder was het online genereren van de politiek niet snel genoeg. Om in grote omgevingen te kunnen werken en continue staatruimte te gebruiken in real-time, hebben we de Continuous Real-time POMCP (CR-POMCP) voorgesteld. Dit algoritme gebruikt Monte-Carlo simulaties om de politiek (beste actie voor een bepaalde staat) te leren. De methode werkte goed in de simulaties, maar de robot maakte in de experimenten zigzaggende bewegingen. Om deze reden hebben we een nieuwe methode voorgesteld die gebruik maakt van een waarschijnlijkheidskaart (belief) over de lokatie van de persoon. Omdat de propagatie van de POMCP lijkt op hoe een Particle Filter (PF) werkt, stellen we ook een methode voor die een PF gebruikt om de belief bij te houden. De PF methode moet om kunnen gaan met missende observaties en we introduceren daarom een speciale gewichtsfunctie. Beide belief update methoden houden rekening met sensor en actuator ruis, incorrecte negatieve detecties, incorrecte positieve detecties (gedurende een korte tijd) en dynamische obstakels. Als laatst presenteren we een coöperatieve multi-agent methode die gebruik maakt van de genoemde belief update methoden, maar tevens gebruik maakt van de observaties van alle agenten. Vervolgens worden de zoeklocaties toegekend om de hele omgeving te verkennen waarbij rekening gehouden wordt met: de belief, de afstand tot de zoeklocatie en of een andere agent al dichtbij de lokatie gaat zoeken. Samenvattend zijn de belangrijkste bijdragen van deze thesis de verschillende methoden om personen te zoeken en te volgen in een stedelijke omgeving met één of meer mobiele servicerobots. Alle methoden zijn getest met simulaties en met experimenten met echte robots.

Subjects

68 - Industries, crafts and trades for finished or assembled articles

Knowledge Area

Àrees temàtiques de la UPC::Informàtica

Documents

TAG1de1.pdf

13.84Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)