Vision based sensor substitution in robotic assisted surgery

Author

Marbán González, Arturo

Director

Casals, Alícia

Fernández Ruzafa, Josep

Date of defense

2018-02-12

Pages

201 p.



Department/Institute

Universitat Politècnica de Catalunya. Institut d'Organització i Control de Sistemes Industrials

Abstract

Perceiving and understanding the world represents a long-term goal in the field of Artificial Intelligence (AI). In recent years, advances in the field of Machine Learning (ML), and specifically in Deep Learning (DL), have led to the development of powerful models based on Deep Neural Networks (DNN) capable of interpreting high dimensional data, leading to higher performance in perception related tasks. DNNs designed in a Supervised Learning (SL) setting, such as Convolutional Neural Networks (CNN) and Long-Short Term Memory (LSTM) networks, greatly contribute to the state of the art in image recognition and in the processing of long sequences of data, respectively. This is because CNNs excel in modeling data with spatial structure, and LSTM networks highlight in modeling data with temporal structure. They both represent the building blocks for modeling the spatio-temporal structure of data such as video sequences. Nonetheless, these models have not been exploited in the medical domain, where images and video sequences are frequently available, that is, in Minimally Invasive Surgery (MIS). Furthermore, most of the research going on rely on the design of DNNs used as classifiers (i.e. the output is a discrete category) rather than regressors (i.e. the output is a set of continuous real values). Recently, in the context of Unsupervised Learning (UL), Generative Adversarial Networks (GAN) have gained popularity as a powerful framework to design generative models. GANs consist of two models, a Generator Neural Network (G) and a Discriminator Neural Network (D), each one with a different objective. Samples produced by G have a distribution PG, while those that come from ground-truth data have a distribution PDATA. The task of D is to classify samples from ground-truth data and those rendered by G as real and fake, respectively. On the other hand, the objective of G is to “fool” D, by learning to generate samples that resemble the ground-truth data. As the training process evolves, G learns the distribution of PDATA. This framework is flexible and can be applied to different neural network architectures, such as in Convolutional Auto-Encoders (CAE), resulting in better image reconstruction quality In this dissertation, a regression model based on DNNs is described, with applications in the context of Robot-Assisted Minimally Invasive Surgery (RAMIS). First, this model is developed in a SL setting. Subsequently, it is extended to a Semi-Supervised Learning (SSL) approach by using a CAE and leveraging the advantages of the GAN framework. The regression model is designed to learn a complex relationship between video sequences (as input data) and the evolution of continuous variables over time (as output data). The objective of this research is to perform Vision Based Sensor Substitution (VBSS). Therefore, the DNN constitutes a “virtual sensor” that estimates the evolution of physical variables over time. The target applications are those where the only allowed sensor consists of a camera system (monocular/stereo) and other electronic sensor devices are constrained. In the context of RAMIS, endowing robotic systems with force feedback capability represents a great help to provide the surgeon with an essential information for a better performance. Specifically, the estimation of interaction forces between surgical instruments and biological materials, such as soft-tissues, is addressed in this dissertation. In RAMIS scenarios, the only available sensor is the camera (i.e. monocular/stereo endoscope), which provides data easy to record (i.e. video sequences), but its interpretation is challenging. Therefore, a DNN is presented in this work as a regression model that implements the concept of Sensorless Force Estimation (SFE) under a Vision Based (VB) approach. In this approach, interaction forces are estimated from video sequences (as continuous time-varying signals), instead of relying on the direct measurement by a sensor in contact with biological materials (i.e. soft tissue). The DNN described for this application is designed in a SL setting, and subsequently, it is extended to SSL. The regression model designed for SFE is generic enough to be used in other domains with equivalent mathematical formulation. Therefore, it has also been studied and evaluated in the application of surgical instruments tracking. Specifically, in the estimation of the tooltip position and velocity (in 3D space) from monocular video sequences. Such information is useful in tasks related to Surgical Gesture Classification (SGC). The regression model used in this application is described in a SL setting. The aim of this dissertation is to present DNNs as regression models in the context of RAMIS, being the target application VBSS. This approach has been studied in two mathematically equivalent problems (described above): (i) Vision-based SFE and (ii) surgical instruments tracking. Moreover, the results of this research suggest that the regression model is generic and robust enough to be used in both applications. Therefore, this model can be used to address problems in which the estimation of continuous time-varying signals from video sequences is required


La percepción y comprensión del mundo que nos rodea, representan objetivos a largo término de la Inteligencia Artificial (IA). En años recientes, los avances en el campo del Aprendizaje Automático (AA), específicamente en Aprendizaje Profundo (AP), han llevado al desarrollo de poderosos modelos basados en Redes Neuronales Profundas, capaces de interpretar datos multi-dimensionales, dando lugar hacia un mayor rendimiento en tareas relacionadas con la percepción. Las Redes Neuronales Profundas diseñadas bajo un esquema de aprendizaje supervisado, como las Redes Neuronales Convolucionales, y las Redes Neuronales Recurrentes de Memoria de Corto y Largo Plazo (RNR-MCLP), contribuyen grandemente al estado del arte en reconocimiento de imágenes y en el procesamiento de largas secuencias de datos, respetivamente. Esto es debido a que las Redes Neuronales Convolucionales sobresalen en el modelado de datos con estructura espacial, mientras que las RNR-MCLP destacan en el modelado de datos con estructura temporal. Ambos tipos de redes neuronales representan los bloques de construcción para modelar la estructura espacio-temporal de datos, como las secuencias de video. No obstante, estos modelos no han sido explotados en el ámbito médico, donde normalmente se dispone de imágenes y secuencias de video, como es el caso de cirugía mínima invasiva. Además de esto, la mayor parte de la investigación que se realiza se orienta hacia el diseño de Redes Neuronales Profundas como clasificadores (es decir, el resultado es una categoría discreta) en lugar de regresores (es decir, el resultado es un conjunto de valores reales continuos). Recientemente, en el contexto del aprendizaje no-supervisado, las Redes de Adversarias Generativas, han ganado popularidad como una poderosa técnica para diseñar modelos generativos. Estas redes neuronales constan de dos modelos, una red neuronal generadora (G) y una red neuronal discriminante (D), cada una con un objetivo diferente. Las muestras producidas por G tienen una distribución PG, mientras que las que provienen de datos de reales tienen una distribución PDATA. La tarea de D es clasificar como verdaderas y falsas las muestras de datos reales y las que producidas por G, respectivamente. Por otro lado, el objetivo de G es “engañar” a D, al aprender a generar muestras que se asemejan a los datos reales. A medida que el proceso de optimización evoluciona, G aprende la distribución de los datos reales, PDATA. Esta técnica es flexible y se puede aplicar a diferentes arquitecturas de redes neuronales, por ejemplo en el diseño de Auto-Codificadores de Convolución, resultando en una mejor calidad en reconstrucción de imágenes. En esta disertación, se describe un modelo de regresión basado en Redes Neuronales Profundas, con aplicaciones en el contexto de la Cirugía Robótica Mínima Invasiva. En primer lugar, este modelo se desarrolla bajo un esquema de aprendizaje supervisado. Posteriormente, se extiende a un enfoque de aprendizaje semi-supervisado utilizando un Auto-Codificador de Convolución y aprovechando las ventajas del modelo definido por las Redes de Adversarias Generativas. El modelo de regresión está diseñado para aprender la compleja relación entre secuencias de video (como datos de entrada) y la evolución de variables continuas a lo largo del tiempo (como datos de salida). El objetivo de esta investigación es realizar la Sustitución Sensorial por Visión. Por tanto, la Red Neuronal Profunda representa un “sensor virtual” que estima la evolución de las variables físicas a lo largo del tiempo. Las aplicaciones de interés son aquellas en las que el único sensor disponible consiste en un sistema de visión (por ejemplo una cámara monocular o estéreo), mientras que otros sensores y dispositivos electrónicos están restringidos. En el contexto de la cirugía robotizada, sistemas robóticos diseñados con capacidad de realimentación de fuerzas representan una gran ayuda, proporcionando al cirujano información esencial para un mejor rendimiento. Específicamente, la estimación de las fuerzas de interacción entre los instrumentos quirúrgicos y los materiales biológicos, como los tejidos blandos, es un tema central que se investiga en esta disertación. En los escenarios de cirugía robotizada, el único sensor disponible es la cámara (es decir, el endoscopio monocular o estéreo), que proporciona datos fáciles de adquirir (es decir, secuencias de video), pero su interpretación es un compleja. Por lo tanto, en el presente trabajo doctoral se describe una Red Neuronal Profunda como un modelo de regresión que implementa el concepto de Estimación de Fuerza Sin-Sensor, bajo un enfoque basado en visión. En dicho enfoque, las fuerzas de interacción se estiman a partir de secuencias de video (como señales continuas variables en el tiempo), en lugar de depender de la medición de un sensor en contacto directo con materiales biológicos (es decir, tejido blando). La Red Neuronal Profunda descrita para esta aplicación está diseñada en una esquema de aprendizaje supervisado y, posteriormente, se extiende a uno semi-supervisado. El modelo de regresión diseñado para la estimación de fuerza es lo suficientemente genérico como para usarse en otros dominios con una formulación matemática equivalente. Por lo tanto, también se ha estudiado y evaluado en la aplicación del seguimiento de instrumentos quirúrgicos. Específicamente, en la estimación de la posición y la velocidad de la punta de la herramienta (en el espacio 3D) a partir de secuencias de video monoculares. Tal información es útil en tareas relacionadas con la clasificación de gestos quirúrgicos. El modelo de regresión utilizado en esta aplicación se describe en un entorno de aprendizaje supervisado. El objetivo de esta disertación es presentar Redes Neuronales Profundas como modelos de regresión en el contexto de cirugía robotizada, siendo la aplicación principal Susbtitución Sensorial por Visión. Este enfoque ha sido estudiado en dos problemas matemáticamente equivalentes (descritos anteriormente): (i) Estimación de fuerzas basado en la visión y (ii) seguimiento de instrumentos quirúrgicos. Además, los resultados de esta investigación sugieren que el modelo de regresión es genérico y lo suficientemente robusto para ser utilizado en ambas aplicaciones. Por lo tanto, este modelo se puede usar para abordar problemas en los que se requiere la estimación de señales continuas variables en el tiempo a partir de secuencias de video


La percepció i comprensió del món que ens envolta, representen objectius a llarg termini de la Intel·ligència Artificial (IA). En els darrers anys, els avenços en el camp de l’Aprenentatge Automàtic (AA), específicament en Aprenentatge Profund (AP), han portat al desenvolupament de models molt potents basats en Xarxes Neuronals Profundes, capaces d’interpretar dades multi-dimensionals, donant lloc fins i tot a un major rendiment en tasques relacionades amb la percepció. Les Xarxes Neuronals Porfundes dissenyades sota un esquema d’aprenentatge supervisat, com les Xarxes Neuronals Convolucionals, i les Xarxes Neuronals Recurrents de Memòria de Curt i Llarg Termini (XNR-MCLT), contribueixen en gran part a l’estat de l’art en reconeixement d’imatges i en el processament de seqüències llargues de dades, respectivament. Això es deu al fet que les Xarxes Neuronals Convolucionals sobresurten en la modelització de dades amb estructura espacial, mentre que les XNR-MCLT destaquen en la modelització de dades amb estructura temporal. Tots dos tipus de xarxes neuronals representen els blocs de construcció per modelitzar l’estructura espai-temporal de dades, com les seqüències de vídeo. No obstant això, aquests models no han sigut explotats en l’àmbit mèdic, on normalment es disposa d’imatges i seqüències de vídeo, com és normal en cirurgia mínima invasiva. Així mateix, gran part de la investigació que es realitza s’orienta al disseny d’Xarxes Neuronals Profundes com classificadors (és a dir, el resultat és una categoria discreta) en lloc de regressors (és a dir, el resultat és un conjunt de valors reals continus). Recentment, en el context de l’aprenentatge no-supervisat, les Xarxes Adversàries Generatives, han guanyat popularitat com una poderosa tècnica per dissenyar models generatius. Aquestes xarxes consten de dos models, una xarxa neuronal generadora (G) i una xarxa neuronal discriminant (D), cadascuna amb un objectiu diferent. Les mostres produïdes per G tenen una distribució PG, mentre que les que provenen de dades de reals tenen una distribució PDATA. La tasca de D és classificar com a veritables i falses les mostres de dades reals i les que produïdes per G, respectivament. D’altra banda, l’objectiu de G és “enganyar” a D, en aprendre a generar mostres que s’assemblen a les dades reals. A mesura que el procés d’optimització evoluciona, G aprèn la distribució de les dades reals, PDATA. Aquesta tècnica és flexible i es pot aplicar a diferents arquitectures de xarxes neuronals, per exemple en el disseny d’Auto-Codificadors de Convolució, resultant en una millor qualitat de reconstrucció d’imatges. En aquesta dissertació, es descriu un model de regressió basat en Xarxes Neuronals Profundes, amb aplicacions en el context de la Cirurgia Robòtica Mínima Invasiva. En primer lloc, aquest model es desenvolupa sota un esquema d’aprenentatge supervisat. Posteriorment, s’estén a un enfocament d’aprenentatge semi-supervisat fent servir un Auto Codificador de Convolució i aprofitant els avantatges del model definit per les Xarxes Adversàries Generatives. El model de regressió està dissenyat per aprendre la complexa relació entre seqüències de vídeo (com a dades d’entrada) i l’evolució de variables contínues al llarg del temps (com dades de sortida). L’objectiu d’aquesta investigació és realitzar la Substitució Sensorial per Visió. Per tant, la Xarxa Neuronal Profunda representa un “sensor virtual” que estima l’evolució de les variables físiques al llarg del temps. Les aplicacions d’interès són aquelles en les que l’únic sensor disponible consisteix en un sistema de visió (per exemple una càmera monocular o estèreo), mentre que altres sensors i dispositius electrònics estan restringits. En el context de la cirurgia robotitzada, els sistemes robòtics dissenyats amb capacitat de realimentació de forces representen una gran ajuda, proporcionant al cirurgià informació essencial per a un millor rendiment. Específicament, l’estimació de les forces d’interacció entre els instruments quirúrgics i els materials biològics, com els teixits tous, és un tema central que s’investiga en aquesta dissertació. En els escenaris de cirurgia robotitzada, l’únic sensor disponible és la càmera (és a dir, l’endoscopi monocular o estèreo), que proporciona dades fàcils d’adquirir (és a dir, seqüències de vídeo), però la seva interpretació és un complexa. Així doncs, en aquest treball doctoral es descriu una Xarxa Neuronal Profunda com un model de regressió que implementa el concepte d’Estimació de Força Sense-Sensor, sota un enfocament basat en visió. En aquest enfocament, les forces d’interacció s’estimen a partir de seqüències de vídeo (com senyals continus variables en el temps), en lloc de dependre de la mesura d’un sensor en contacte directe amb materials biològics (és a dir, teixit tou). La Xarxa Neuronal Profunda descrita per a aquesta aplicació està dissenyada en un esquema d’aprenentatge supervisat i, posteriorment, s’estén a un semi-supervisat monocular. El model de regressió dissenyat per aquesta estimació de força és prou genèric com per usar-se en altres dominis amb una formulació matemàtica equivalent. Per tant, també s’ha estudiat i avaluat en l’aplicació del seguiment d’instruments quirúrgics. Específicament, en l’estimació de la posició i la velocitat de la punta de l’eina (en l’espai 3D) a partir de seqüències de vídeo. Aquesta informació és útil en tasques relacionades amb la classificació de gestos quirúrgics. El model de regressió utilitzat en aquesta aplicació es descriu en un entorn d’aprenentatge supervisat. L’objectiu d’aquesta dissertació és presentar les Xarxes Neuronals Profundes com a models de regressió en el context de la cirurgia robotitzada, sent l’aplicació principal la Substitució Sensorial per Visió. Aquest enfocament ha estat estudiat en dos problemes matemàticament equivalents (descrits anteriorment): (i) Estimació de forces basat en la visió i (ii) seguiment d’instruments quirúrgics. A més, els resultats d’aquesta investigació suggereixen que el model de regressió és genèric i prou robust per ser utilitzat en les dues aplicacions. Axí doncs, aquest model es pot fer servir per abordar problemes en què es requereix l’estimació de senyals continus variables en el temps a partir de seqüències de vídeo.

Subjects

004 - Computer science; 68 - Industries, crafts and trades for finished or assembled articles

Knowledge Area

Àrees temàtiques de la UPC::Informàtica

Documents

TAMG1de1.pdf

110.6Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)