Evaluation of the Reproducibility of Radiomic Intelligent Systems for Early Detection of Lung Cancer

Autor/a

Torres, Guillermo Eduardo

Director/a

Sánchez Ramos, Carles

Gil Resina, Debora

Tutor/a

Gil Resina, Debora

Data de defensa

2024-03-19

Pàgines

105 p.



Programa de doctorat

Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica

Resum

Actualment, hi ha una creixent tendència en casos de càncer, sent el càncer de pulmó el líder en morts relacionades per càncer i ocupant el segon lloc en nous casos, just darrere del càncer de mama. Després de la detecció del càncer de pulmó, els pacients ingressen a un circuit de seguiment dins del sistema de salut, amb una freqüència que depèn de cada cas, per exemple, amb revisions cada 3, 6 mesos o anuals. La detecció precoç del càncer de pulmó és crucial, augmentant les probabilitats de supervivència, reduint l'ansietat del pacient i alleujant la demanda dels recursos del sistema de salut. Per a abordar les bretxes en la recerca, creem una base de dades de confiança amb casos diagnosticats *histológicamente mitjançant biòpsia, promovent la transparència i respectant la confidencialitat de les dades. Nombrosos estudis que utilitzen aprenentatge automàtic i aprenentatge profund informen de rendiments prometedors en la recerca del càncer de pulmó. No obstant això, les base de dades públics comunament utilitzats manquen de diagnòstics per biòpsia i depenen de la classificació visual feta per experts en salut. Aquesta limitació ens va motivar a crear una base de dades amb casos diagnosticats mitjançant biòpsia, seguint un protocol d'adquisició acceptats globalment. També desenvolupem una infraestructura que facilita la recopilació de dades de múltiples centres. La nostra base de dades està públicament disponible, fomentant el progrés en la recerca mentre garanteix la confidencialitat de les dades. Explorem estratègies per a generar espais de representació que caracteritzen els nòduls pulmonars de les tomografies computades, abordant desafiaments com la petita grandària de mostra i el desequilibri de dades mitjançant la reducció de dimensionalitat i la selecció de característiques. L'aprenentatge profund enfronta desafiaments en aplicacions biomèdiques, especialment en la detecció de nòduls benignes, a causa de la falta de dades anotades i al desequilibri de classes, la qual cosa porta al *sobreajuste. Per a abordar aquests desafiaments, desenvolupem un marc per a explorar l'impacte dels espais de representació a través de tres nivells de divisió de dades en el disseny experimental. Proporciona informació sobre el rendiment del model, les capacitats de generalització i garanteix una avaluació i *reproducibilidad robustes. A més, realitzem una anàlisi estadística de l'impacte dels paràmetres d'adquisició de l'escàner. Els resultats experimentals ens permeten analitzar els resultats a diferents nivells de generalització mitjançant validació creuada, variant la unitat experimental per cort o nòdul i relacionant diversos espais de representació visual i paràmetres trobats.


Actualmente, hay una creciente tendencia en casos de cáncer, siendo el cáncer de pulmón el líder en muertes relacionadas por cáncer y ocupando el segundo lugar en nuevos casos, justo detrás del cáncer de mama. Tras la detección del cáncer de pulmón, los pacientes ingresan a un circuito de seguimiento dentro del sistema de salud, con una frecuencia que depende de cada caso, por ejemplo, con revisiones cada 3, 6 meses o anuales. La detección temprana del cáncer de pulmón es crucial, aumentando las probabilidades de supervivencia, reduciendo la ansiedad del paciente y aliviando la demanda de los recursos del sistema de salud. Para abordar las brechas en la investigación, creamos una base de datos confiable con casos diagnosticados histológicamente mediante biopsia, promoviendo la transparencia y respetando la confidencialidad de los datos. Numerosos estudios que utilizan aprendizaje automático y aprendizaje profundo informan de rendimientos prometedores en la investigación del cáncer de pulmón. Sin embargo, las base de datos públicos comúnmente utilizados carecen de diagnósticos por biopsia y dependen de la clasificación visual hecha por expertos en salud. Esta limitación nos motivó a crear una base de datos con casos diagnosticados mediante biopsia, siguiendo un protocolo de adquisición aceptados globalmente. También desarrollamos una infraestructura que facilita la recopilación de datos de múltiples centros. Nuestra base de datos está públicamente disponible, fomentando el progreso en la investigación mientras garantiza la confidencialidad de los datos. Exploramos estrategias para generar espacios de representación que caracterizan los nódulos pulmonares de las tomografías computarizadas, abordando desafíos como el pequeño tamaño de muestra y el desequilibrio de datos mediante la reducción de dimensionalidad y la selección de características. El aprendizaje profundo enfrenta desafíos en aplicaciones biomédicas, especialmente en la detección de nódulos benignos, debido a la falta de datos anotados y al desequilibrio de clases, lo que lleva al sobreajuste. Para abordar estos desafíos, desarrollamos un marco para explorar el impacto de los espacios de representación a través de tres niveles de división de datos en el diseño experimental. Proporciona información sobre el rendimiento del modelo, las capacidades de generalización y garantiza una evaluación y reproducibilidad robustas. Además, realizamos un análisis estadístico del impacto de los parámetros de adquisición del escáner. Los resultados experimentales nos permiten analizar los resultados a diferentes niveles de generalización mediante validación cruzada, variando la unidad experimental por corte o nódulo y relacionando diversos espacios de representación visual y parámetros encontrados.


Currently, there is a growing trend in cancer cases, with lung cancer leading in cancer-related deaths and ranking second in new cases, just behind breast cancer. Upon lung cancer detection, patients enter a follow-up circuit within the healthcare system, with the frequency depending on the case, for instance, ranging from check-ups every 3, 6 months, or annually. Early detection of lung cancer is crucial, increasing survival chances, reducing patient anxiety, and alleviating the demand for healthcare resources. To address research gaps, we created a reliable dataset with cases diagnosed histologically through biopsy, promoting transparency while respecting data confidentiality. Numerous studies using machine learning and deep learning report promising performances in lung cancer research. However, commonly used public datasets lack biopsy diagnoses and rely on visual classification by health experts. This constraint motivated us to create a dataset diagnosed through biopsy, adhering to globally accepted acquisition protocols. We also developed an infrastructure that facilitates multi-center data collection. Our dataset is publicly available, fostering research progress while while ensuring data confidentiality. We explored strategies to generate representation spaces characterizing lung nodules from computed tomography scans, addressing challenges such as small sample size and data imbalance through dimensionality reduction and feature selection. Deep learning faces challenges in biomedical applications, particularly in screening benign nodules, due to limited annotated data and class imbalance, leading to overfitting. To address these challenges, we developed a framework to explore the impact of representation spaces through three levels of data splitting in experimental design. It provides insights into model performance, generalization capabilities, and ensures robust evaluation and reproducibility. Additionally, we conducted a statistical analysis of the impact of scanner acquisition parameters. The experimental results allow us to analyze outcomes at different levels of generalization using cross-validation, varying the experimental unit by slice or nodule and relating various visual representation spaces and found hyperparameters.

Paraules clau

Detecció precóz de cancer de pulmó; Early lung cancer diagnosis; Detección precóz de cancer de pulmón; Optimització de hiperparámetro; Hyperparameter optimization; Optimización de hiperparámetro; Aprenentatge automàtic; Machine learning; Aprendizaje automático

Matèries

04

Àrea de coneixement

Tecnologies

Documents

get1de1.pdf

3.036Mb

 

Drets

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

Aquest element apareix en la col·lecció o col·leccions següent(s)