Application of machine learning methods on SARS-Cov-2: Mortality prediction by using health and nutritional factors and prediction of recurrent mutations

Author

Saldivar Espinoza, Bryan Percy

Director

Pujadas Anguiano, Gerard

Garcia Vallve, Santiago

Cereto Massagué, Adrián José

Date of defense

2024-05-20

Pages

176 p.



Department/Institute

Universitat Rovira i Virgili. Departament de Bioquímica i Biotecnologia

Abstract

El 2019 vam assistir a l'aparició d'una nova pandèmia que ha fet tremolar la societat, els sistemes sanitaris i l'economia a tot el món, revelant com de poc preparats estàvem en termes de coneixements i protocols per minimitzar el seu impacte negatiu. La pandèmia va ser causada pel coronavirus 2 de la síndrome respiratòria aguda severa (SARS-CoV-2), un betacoronavirus d'ARN monocatenari positiu. Durant la pandèmia, es va veure que la malaltia COVID-19 afectava a les persones de manera diferent, segons factors de salut, socioeconòmics, nutricionals i altres. A més, el virus va mostrar una elevada propensió a mutar, generant incertesa sobre l'eficàcia dels tractaments per combatre'l. En aquest sentit, aquesta tesi utilitza models d'aprenentatge automàtic per analitzar els principals factors que afecten la mortalitat per COVID-19 i predir mutacions recurrents del SARS-CoV-2. El model predictiu desenvolupat per a la mortalitat per COVID-19 a nivell de comtats dels EUA integra dades de salut, socioeconòmiques i nutricionals, aconseguint una correlació notable de 0,715. L'anàlisi de variables influents va revelar que la proporció de metges d'atenció primària i altres proveïdors de salut en relació a la població, juntament amb indicadors socioeconòmics com la renda mitjana de les llars i les taxes d'inactivitat física i pobresa, afecten significativament les taxes de mortalitat per COVID-19. Sorprenentment, les variables relacionades amb el metabolisme o la nutrició mostren poca importància en el poder predictiu, mentre que les morts relacionades amb la hipertensió en grups d'edat i gènere específics emergeixen com a predictors significatius. A més de predir la mortalitat per COVID-19, aquesta tesi explora les mutacions del SARS-CoV-2. Es van desenvolupar models de xarxa neuronal artificial (ANN) per predir mutacions recurrents del SARS-CoV-2.


En 2019 fuimos testigos del surgimiento de una nueva pandemia que ha hecho temblar a la sociedad, a los sistemas de salud y a la economía en todo el mundo, revelando cuán poco competentes estábamos en términos de preparación, conocimiento y protocolos para minimizar su impacto negativo. La pandemia fue causada por el coronavirus 2 del síndrome respiratorio agudo severo (SARS-CoV-2), un betacoronavirus de ARN monocatenario positivo. Durante la pandemia, se vio que la enfermedad COVID-19 afectaba a las personas de manera diferente, dependiendo de factores de salud, socioeconómicos, nutricionales y otros. Además, el virus mostró una elevada propensión a mutar, generando incertidumbre sobre la eficacia de los tratamientos para combatirlo. En este sentido, esta tesis utiliza modelos de Machine Learning para analizar los principales factores que afectan la mortalidad por COVID-19 y predecir mutaciones recurrentes del SARS-CoV-2. El modelo predictivo desarrollado para la mortalidad por COVID-19 a nivel de condados de EE. UU. integra datos de salud, socioeconómicos y nutricionales, logrando una notable correlación de 0,715. El análisis de variables más influyentes reveló que la proporción de médicos de atención primaria y otros proveedores de salud en relación con la población, junto con indicadores socioeconómicos como el ingreso familiar medio y las tasas de inactividad física y pobreza, impactan significativamente en las tasas de mortalidad por COVID-19. Sorprendentemente, las variables relacionadas con el metabolismo o la nutrición muestran poca importancia en el poder predictivo, mientras que las muertes relacionadas con la hipertensión en grupos específicos de edad y género emergen como predictores significativos.


In 2019 we witnessed the emergence of a new pandemic that has made society, healthcare systems and economy to tremble worldwide, unveiling how unprepared we were in terms of readiness, knowledge and protocols to minimize its negative impact. The pandemic was caused by the Severe Acute Respiratory Syndrome Coronavirus 2 (SARS-CoV-2), a positive single stranded RNA betacoronavirus. During the pandemic, it was seen that the disease COVID-19 affected people differently, depending on health, socioeconomic, nutritional and other factors. In addition, the virus showed an elevated propensity to mutate, generating uncertainty about the efficacy of treatments to fight it. In this regard, this thesis uses Machine Learning models to analyze the main factors affecting COVID-19 mortality and predict SARS-CoV-2 recurrent mutations. The predictive model developed for COVID-19 mortality at the US county level integrates health, socioeconomic, and nutritional data, achieving a notable correlation of 0.715. The analysis of influential variables revealed that the proportion of primary care physicians and other health providers relative to the population, along with socioeconomic indicators such as median household income and rates of physical inactivity and poverty, significantly impact COVID-19 mortality rates

Keywords

SARS-CoV-2; Aprenentatge automàtic; mutacions; Aprendizaje automático; mutaciones; Machine learning; mutations

Subjects

004 - Computer science; 577 - Biochemistry. Molecular biology. Biophysics; 578 - Virology

Knowledge Area

Ciències de la Salut

Documents

TESI Bryan Percy Saldivar Espinoza.pdf

11.14Mb

 

Rights

ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)