dc.contributor.author
Torres, Guillermo Eduardo
dc.date.accessioned
2024-07-08T15:59:51Z
dc.date.available
2024-07-08T15:59:51Z
dc.date.issued
2024-03-19
dc.identifier.uri
http://hdl.handle.net/10803/691667
dc.description.abstract
Actualment, hi ha una creixent tendència en casos de càncer, sent el càncer de pulmó el líder en morts relacionades per càncer i ocupant el segon lloc en nous casos, just darrere del càncer de mama. Després de la detecció del càncer de pulmó, els pacients ingressen a un circuit de seguiment dins del sistema de salut, amb una freqüència que depèn de cada cas, per exemple, amb revisions cada 3, 6 mesos o anuals. La detecció precoç del càncer de pulmó és crucial, augmentant les probabilitats de supervivència, reduint l'ansietat del pacient i alleujant la demanda dels recursos del sistema de salut.
Per a abordar les bretxes en la recerca, creem una base de dades de confiança amb casos diagnosticats *histológicamente mitjançant biòpsia, promovent la transparència i respectant la confidencialitat de les dades. Nombrosos estudis que utilitzen aprenentatge automàtic i aprenentatge profund informen de rendiments prometedors en la recerca del càncer de pulmó. No obstant això, les base de dades públics comunament utilitzats manquen de diagnòstics per biòpsia i depenen de la classificació visual feta per experts en salut. Aquesta limitació ens va motivar a crear una base de dades amb casos diagnosticats mitjançant biòpsia, seguint un protocol d'adquisició acceptats globalment. També desenvolupem una infraestructura que facilita la recopilació de dades de múltiples centres. La nostra base de dades està públicament disponible, fomentant el progrés en la recerca mentre garanteix la confidencialitat de les dades.
Explorem estratègies per a generar espais de representació que caracteritzen els nòduls pulmonars de les tomografies computades, abordant desafiaments com la petita grandària de mostra i el desequilibri de dades mitjançant la reducció de dimensionalitat i la selecció de característiques. L'aprenentatge profund enfronta desafiaments en aplicacions biomèdiques, especialment en la detecció de nòduls benignes, a causa de la falta de dades anotades i al desequilibri de classes, la qual cosa porta al *sobreajuste.
Per a abordar aquests desafiaments, desenvolupem un marc per a explorar l'impacte dels espais de representació a través de tres nivells de divisió de dades en el disseny experimental. Proporciona informació sobre el rendiment del model, les capacitats de generalització i garanteix una avaluació i *reproducibilidad robustes. A més, realitzem una anàlisi estadística de l'impacte dels paràmetres d'adquisició de l'escàner.
Els resultats experimentals ens permeten analitzar els resultats a diferents nivells de generalització mitjançant validació creuada, variant la unitat experimental per cort o nòdul i relacionant diversos espais de representació visual i paràmetres trobats.
dc.description.abstract
Actualmente, hay una creciente tendencia en casos de cáncer, siendo el cáncer de pulmón el líder en muertes relacionadas por cáncer y ocupando el segundo lugar en nuevos casos, justo detrás del cáncer de mama. Tras la detección del cáncer de pulmón, los pacientes ingresan a un circuito de seguimiento dentro del sistema de salud, con una frecuencia que depende de cada caso, por ejemplo, con revisiones cada 3, 6 meses o anuales. La detección temprana del cáncer de pulmón es crucial, aumentando las probabilidades de supervivencia, reduciendo la ansiedad del paciente y aliviando la demanda de los recursos del sistema de salud.
Para abordar las brechas en la investigación, creamos una base de datos confiable con casos diagnosticados histológicamente mediante biopsia, promoviendo la transparencia y respetando la confidencialidad de los datos. Numerosos estudios que utilizan aprendizaje automático y aprendizaje profundo informan de rendimientos prometedores en la investigación del cáncer de pulmón. Sin embargo, las base de datos públicos comúnmente utilizados carecen de diagnósticos por biopsia y dependen de la clasificación visual hecha por expertos en salud. Esta limitación nos motivó a crear una base de datos con casos diagnosticados mediante biopsia, siguiendo un protocolo de adquisición aceptados globalmente. También desarrollamos una infraestructura que facilita la recopilación de datos de múltiples centros. Nuestra base de datos está públicamente disponible, fomentando el progreso en la investigación mientras garantiza la confidencialidad de los datos.
Exploramos estrategias para generar espacios de representación que caracterizan los nódulos pulmonares de las tomografías computarizadas, abordando desafíos como el pequeño tamaño de muestra y el desequilibrio de datos mediante la reducción de dimensionalidad y la selección de características. El aprendizaje profundo enfrenta desafíos en aplicaciones biomédicas, especialmente en la detección de nódulos benignos, debido a la falta de datos anotados y al desequilibrio de clases, lo que lleva al sobreajuste.
Para abordar estos desafíos, desarrollamos un marco para explorar el impacto de los espacios de representación a través de tres niveles de división de datos en el diseño experimental. Proporciona información sobre el rendimiento del modelo, las capacidades de generalización y garantiza una evaluación y reproducibilidad robustas. Además, realizamos un análisis estadístico del impacto de los parámetros de adquisición del escáner.
Los resultados experimentales nos permiten analizar los resultados a diferentes niveles de generalización mediante validación cruzada, variando la unidad experimental por corte o nódulo y relacionando diversos espacios de representación visual y parámetros encontrados.
dc.description.abstract
Currently, there is a growing trend in cancer cases, with lung cancer leading in cancer-related deaths and ranking second in new cases, just behind breast cancer. Upon lung cancer detection, patients enter a follow-up circuit within the healthcare system, with the frequency depending on the case, for instance, ranging from check-ups every 3, 6 months, or annually. Early detection of lung cancer is crucial, increasing survival chances, reducing patient anxiety, and alleviating the demand for healthcare resources.
To address research gaps, we created a reliable dataset with cases diagnosed histologically through biopsy, promoting transparency while respecting data confidentiality. Numerous studies using machine learning and deep learning report promising performances in lung cancer research. However, commonly used public datasets lack biopsy diagnoses and rely on visual classification by health experts. This constraint motivated us to create a dataset diagnosed through biopsy, adhering to globally accepted acquisition protocols. We also developed an infrastructure that facilitates multi-center data collection. Our dataset is publicly available, fostering research progress while while ensuring data confidentiality.
We explored strategies to generate representation spaces characterizing lung nodules from computed tomography scans, addressing challenges such as small sample size and data imbalance through dimensionality reduction and feature selection. Deep learning faces challenges in biomedical applications, particularly in screening benign nodules, due to limited annotated data and class imbalance, leading to overfitting.
To address these challenges, we developed a framework to explore the impact of representation spaces through three levels of data splitting in experimental design. It provides insights into model performance, generalization capabilities, and ensures robust evaluation and reproducibility. Additionally, we conducted a statistical analysis of the impact of scanner acquisition parameters.
The experimental results allow us to analyze outcomes at different levels of generalization using cross-validation, varying the experimental unit by slice or nodule and relating various visual representation spaces and found hyperparameters.
dc.publisher
Universitat Autònoma de Barcelona
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rights.uri
http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Detecció precóz de cancer de pulmó
dc.subject
Early lung cancer diagnosis
dc.subject
Detección precóz de cancer de pulmón
dc.subject
Optimització de hiperparámetro
dc.subject
Hyperparameter optimization
dc.subject
Optimización de hiperparámetro
dc.subject
Aprenentatge automàtic
dc.subject
Machine learning
dc.subject
Aprendizaje automático
dc.subject.other
Tecnologies
dc.title
Evaluation of the Reproducibility of Radiomic Intelligent Systems for Early Detection of Lung Cancer
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.date.updated
2024-07-08T15:59:51Z
dc.contributor.director
Sánchez Ramos, Carles
dc.contributor.director
Gil Resina, Debora
dc.contributor.tutor
Gil Resina, Debora
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica