Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica
La vacuna contra la COVID-19 causa alteracions en el cicle menstrual? Protegeix contra el risc augmentat de diabetis després de la infecció? Aquests són exemples de preguntes causals sobre els efectes de les intervencions clíniques. Són causals perquè tracten de causes —en aquest cas, la vacuna contra la COVID-19— i efectes o conseqüències —en aquests casos, alteracions en el cicle menstrual i protecció contra la diabetis—. Aquestes preguntes són tant importants com difícils. Importants per la raó òbvia que fan referència a aspectes de la salut humana. Difícils per la complexitat dels sistemes que s'estudien: el cos humà, la salut humana i la seva interacció amb les intervencions clíniques. Hi ha diversos enfocaments per respondre aquest tipus de preguntes. Aquesta tesi tracta de l'enfocament basat en dades i mètodes estadístics, particularment en l'ús de dades observacionals, és a dir, dades recopilades en escenaris on la intervenció clínica d'interès no està sota el control de les persones investigadores. Tradicionalment, els mètodes estadístics correlacionals s'han utilitzat per respondre aquestes preguntes amb aquest tipus de dades. En general, aquests mètodes només proporcionen correlacions sense garantir-ne la naturalesa causal d'aquestes. No obstant això, en els darrers anys, els desenvolupaments en el camp de la inferència causal ens han proporcionat mètodes que poden oferir certa certesa sobre la causalitat de les relacions mesurades, sota suposicions adequades. Fins fa poc, l'adopció d'aquests mètodes per part dels investigadors havia estat dificultada per tres factors principals: el desconeixement de la seva existència, la inèrcia dels mètodes tradicionals i, en grau més baix, la manca de confiança en el seu rendiment. Aquesta tendència, però, ha canviat de manera constant en els darrers anys en la literatura d'estudis clínics. Aquesta tesi té com a objectiu provar la hipòtesi que els mètodes d'inferència causal haurien de ser l'opció preferida per generar evidència sobre els efectes de les intervencions clíniques, amb un èmfasi especial en els mètodes causals basats en l'aprenentatge automàtic. Amb aquest propòsit, abordem tres casos d'ús del món real amb dades reals, utilitzant tant enfocaments correlacionals com causals, i avaluem i comparem qualitativament el seu rendiment (en un sentit ampli). A més, explorem el camp dels algoritmes d'inferència causal basats en l'aprenentatge automàtic (i principalment en xarxes neuronals). Les preguntes abordades són sobre l'efecte de la vacuna contra la COVID-19 i el moment de la vacunació en les alteracions del cicle menstrual, l'efecte de la vacuna contra la COVID-19 en el risc augmentat d'aparició de diabetis després de la infecció, i l'efecte del ciment ossi amb antibiòtics (una opció terapèutica per a pacients sotmesos a cirurgia de pròtesi total de genoll) en la supervivència de la pròtesi. Juntament amb els mètodes causals i correlacionals esmentats, utilitzem dades observacionals del món real extretes de registres poblacionals. Com a resultat, proporcionem respostes a les preguntes plantejades. En alguns casos, les respostes ofertes i/o els mètodes emprats van ser innovadors en la literatura en el moment de la seva publicació. A més, oferim evidència qualitativa dels beneficis dels mètodes causals en comparació amb els mètodes correlacionals. Concloem que, en general, i quan sigui possible, els mètodes d'inferència causal haurien de ser l'opció preferida per respondre aquest tipus de preguntes amb dades observacionals (és a dir, quan no es poden dur a terme experiments aleatoritzats).
¿La vacuna contra la COVID-19 causa alteraciones en el ciclo menstrual? ¿Protege contra el riesgo aumentado de diabetes tras la infección? Estos son ejemplos de preguntas causales sobre los efectos de intervenciones clínicas. Son causales porque tratan de causas —en este caso, la vacuna contra la COVID-19— y efectos o consecuencias —en estos casos, alteraciones en el ciclo menstrual y protección contra la diabetes—. Estas preguntas son tanto importantes como difíciles. Importantes por la razón obvia de que conciernen a aspectos de la salud humana. Difíciles por la complejidad de los sistemas bajo estudio: el cuerpo humano, la salud humana y su interacción con las intervenciones clínicas. Existen varios enfoques para responder a este tipo de preguntas. Esta tesis se ocupa del enfoque basado en datos y en métodos estadísticos, particularmente en el uso de datos observacionales, es decir, datos recopilados en escenarios donde la intervención clínica de interés no está bajo el control de los investigadores. Tradicionalmente, los métodos estadísticos correlacionales se han utilizado para responder a estas preguntas con este tipo de datos. En general, estos métodos solo proporcionan correlaciones sin garantizar su naturaleza causal. No obstante, en los últimos años, los desarrollos en el campo de la inferencia causal nos han proporcionado métodos que pueden ofrecer cierta certeza de la causalidad de las relaciones medidas, bajo suposiciones adecuadas. Hasta hace poco, la adopción de estos métodos por parte de los investigadores ha estado obstaculizada por tres factores principales: el desconocimiento de su existencia, la inercia de los métodos tradicionales y, en menor medida, la falta de confianza en su desempeño. Esta tendencia, sin embargo, ha cambiado de manera constante en los últimos años en la literatura de estudios clínicos. Esta tesis tiene como objetivo probar la hipótesis de que los métodos de inferencia causal deberían ser la opción preferida para generar evidencia sobre los efectos de las intervenciones clínicas, con un enfoque particular en los métodos causales basados en aprendizaje automático. Con tal propósito, abordamos tres casos de uso del mundo real con datos del mundo real, utilizando tanto enfoques correlacionales como causales, y evaluamos y comparamos cualitativamente su desempeño (en un sentido amplio). Además, exploramos el campo de los algoritmos de inferencia causal basados en aprendizaje automático (principalmente redes neuronales). Las preguntas abordadas son sobre el efecto de la vacuna contra la COVID-19 y el momento de la vacunación en las alteraciones del ciclo menstrual, el efecto de la vacuna contra la COVID-19 en el riesgo aumentado de aparición de diabetes tras la infección, y el efecto del cemento óseo con antibióticos (una opción terapéutica para pacientes sometidos a cirugía de reemplazo total de rodilla) en la supervivencia de la prótesis. Junto con los mencionados métodos causales y correlacionales, empleamos datos observacionales del mundo real extraídos de registros poblacionales. Como resultado, proporcionamos respuestas a las preguntas planteadas. En algunos casos, las respuestas ofrecidas y/o los métodos empleados fueron novedosos en la literatura en el momento de su publicación. Además, ofrecemos evidencia cualitativa de los beneficios de los métodos causales en comparación con los métodos correlacionales. Concluimos que, en general, y cuando es posible, los métodos de inferencia causal deberían ser la opción preferida para responder a este tipo de preguntas con datos observacionales (es decir, cuando no se pueden realizar experimentos aleatorizados).
Does the vaccine against COVID-19 cause alterations in the menstrual cycle? Does it protect against the infection-increased risk of diabetes? These are examples of causal questions about the effects of clinical interventions. They are causal because they verse about causes - in this case the COVID-19 vaccine - and effects or consequences - in these cases, alterations in the menstrual cycle and protection against diabetes-. These questions are both important and difficult. Important for the obvious reason that they concern aspects of human health. Difficult for the complexity of the systems under study: the human body, human health, and their interaction with clinical interventions. There are several approaches to answering this type of question. This thesis is concerned with the data-driven, statistical} approach, particularly with using observational data, i.e., the data collected in scenarios where the clinical intervention of interest is not under the researchers' control. Traditionally, statistical correlational methods have been used to answer these questions with this type of data. In general, these methods only provide correlations without guaranteeing their causal nature. Nevertheless, in recent years, developments in the field of causal inference have provided us with methods that can offer some certainty of the causality of the measured relationships under the appropriate assumptions. Until recently, researchers' adoption of these methods has been hindered by three main factors: unawareness about their existence, inertia of the traditional methods, and, to a lesser extent, lack of trust in their performance. This tendency, though, has consistently changed in recent years in the literature of clinical studies. This thesis aims to test the hypothesis that causal inference methods should be the preferred choice for generating evidence on the effects of clinical interventions, with a particular focus on machine learning-based causal methods. For such purpose, we tackle three real-world use cases with real-world data, both using correlational and causal approaches, and we qualitatively assess and compare their performance (in a broad sense). In addition, we explore the field of machine learning (and mainly neural network)-based causal inference algorithms. The tackled questions are about the effect of the COVID-19 vaccine and vaccination timing on alterations of the menstrual cycle, the effect of the COVID-19 vaccine on the infection-heightened risk of diabetes onset, and the effect of antibiotic-loaded bone cement (a therapeutic option for patients undergoing total knee replacement surgery) on the survival of the prosthesis. Together with the aforementioned causal and correlational methods, we employ real-world observational data from large registries. As a result, we provide answers to the posed questions. In some cases, the provided answers and/or the employed methods were novel in the literature at their time of publication. In addition, we offer qualitative evidence of the benefits of causal methods compared to correlational methods. We conclude that, in general, and when possible, causal inference methods should be the preferred choice for answering these types of questions with observational data (i.e., when randomized experiments cannot be conducted).
Inferència causal en salut; Causal inference in health; Inferencia causal en salud; Avaluació tecnologia sanitaria; Health technology assessment; Evaluación tecnología sanitari
311 - Statistics
Ciències Experimentals