DataSHIELD advances: Transformative Extensions for Privacy-Preserving Big Data Analysis in Health and Biosciences

dc.contributor.author
Escribà Montagut, Xavier
dc.date.accessioned
2024-07-09T10:03:49Z
dc.date.available
2024-07-09T10:03:49Z
dc.date.issued
2024-04-23
dc.identifier.uri
http://hdl.handle.net/10803/691737
dc.description.abstract
En una era on la privacitat de les dades és crucial, dur a terme anàlisis de dades reproduïbles i segures en un context col·laboratiu entre diversos centres de recerca és una tasca complexa. Amb la creixent rellevància de diversos tipus de dades altament sensibles com clíniques, epidemiològiques o òmiques (genòmiques, transcriptòmiques, exposòmiques, ...), la necessitat de recerca a través de l'anàlisi federada s'ha convertit en una necessitat crítica, especialment degut a la naturalesa sensible de les dades implicades, el que planteja preocupacions significatives sobre la privacitat i l'ètica. Per abordar aquest problema, aquesta tesi doctoral té com a objectiu ampliar les capacitats de DataSHIELD, una plataforma d'anàlisi federada. Aquesta tesi doctoral proporciona mètodes avançats i eines com ShinyDataSHIELD, resources, OmicSHIELD i dsExposome, amb l'objectiu de fer que DataSHIELD sigui més rellevant, afegint característiques per gestionar una gamma més amplia de tipus de dades i garantir l'adaptabilitat i escalabilitat de la plataforma per al futur. La metodologia adoptada implica una sèrie de desenvolupaments de programari, estudis de cas i aplicacions amb dades reals. S'han utilitzat anàlisis comparatius per establir l'eficàcia de les noves eines i mètodes creats. A més, tècniques com l'anàlisi agrupada i la privacitat diferencial s'han integrat en les capacitats de DataSHIELD. Aquesta tesi doctoral ha aconseguit els objectius ampliant les capacitats de DataSHIELD per abordar les necessitats existents en estudis de múltiples cohorts. La interfície ShinyDataSHIELD fomenta una experiència d'usuari més agradable i accessible tant per a investigadors novells com experimentats. El concepte de resources és l'eina seminal per treballar amb conjunts de dades en diferents formats, expandint així l'aplicabilitat de DataSHIELD a la recerca multimodal. OmicSHIELD ofereix un conjunt robust d'eines per analitzar dades òmiques, mentre que dsExposome proporciona característiques especialitzades per a l'anàlisi de dades de l'exposoma. Totes dues addicions operen de manera federada mentre preserven la privacitat dels individus. Tots els objectius assolits en aquesta tesi doctoral estan adjunts a un projecte europeu (ATHLETE), que va requerir tots els desenvolupaments per al WP3, que està dedicat a les eines per a l'anàlisi de dades federades. A més, l'estudi aborda reptes relacionats amb la privacitat de les dades i les col·laboracions entre centres. La plataforma pot gestionar efectivament conjunts de dades més grans i dur a terme anàlisis complexes sense comprometre la privacitat de les dades. Aquesta adaptabilitat obre el camí per a futures aplicacions de DataSHIELD en altres camps de recerca, com ara la neuroimatge i la intel·ligència artificial. En conclusió, les noves eines i característiques milloren significativament la capacitat, escalabilitat i adaptabilitat de DataSHIELD. Aquestes millores acceleraran l'adopció de mètodes d'anàlisi de dades federada en estudis multicèntrics, avançant així la recerca mentre es manté rigorosament la privacitat de les dades. Notablement, DataSHIELD també contribueix a objectius més amplis de reproductibilitat i transparència en la recerca científica permetent que els resultats siguin fàcilment verificables sense la necessitat de compartir dades, superant així les barreres tradicionals en la recerca col·laborativa. El treball presentat en aquesta tesi doctoral serveix com un avanç crític en l'anàlisi de dades federada, cobrint els buits entre la privacitat de les dades, la reproductibilitat i la recerca col·laborativa en biomedicina.
dc.description.abstract
En una era donde la privacidad de los datos es crucial, llevar a cabo análisis de datos reproducibles y seguros en un contexto colaborativo entre diversos centros de investigación es una tarea compleja. Con la creciente relevancia de varios tipos de datos altamente sensibles como clínicos, epidemiológicos u ómicos (genómicos, transcriptómicos, exposómicos, ...), la necesidad de investigación a través del análisis federado se ha convertido en una necesidad crítica, especialmente debido a la naturaleza sensible de los datos implicados, lo que plantea preocupaciones significativas sobre la privacidad y la ética. Para abordar este problema, esta tesis doctoral tiene como objetivo ampliar las capacidades de DataSHIELD, una plataforma de análisis federado. Esta tesis doctoral proporciona métodos avanzados y herramientas como ShinyDataSHIELD, resources, OmicSHIELD y dsExposome, con el objetivo de hacer que DataSHIELD sea más relevante, añadiendo características para gestionar una gama más amplia de tipos de datos y garantizar la adaptabilidad y escalabilidad de la plataforma para el futuro. La metodología adoptada implica una serie de desarrollos de software, estudios de caso y aplicaciones con datos reales. Se han utilizado análisis comparativos para establecer la eficacia de las nuevas herramientas y métodos creados. Además, técnicas como el análisis agrupado y la privacidad diferencial se han integrado en las capacidades de DataSHIELD. Esta tesis doctoral ha conseguido los objetivos ampliando las capacidades de DataSHIELD para abordar las necesidades existentes en estudios de múltiples cohortes. La interfaz ShinyDataSHIELD fomenta una experiencia de usuario más agradable y accesible tanto para investigadores novatos como experimentados. El concepto de resources es la herramienta seminal para trabajar con conjuntos de datos en diferentes formatos, expandiendo así la aplicabilidad de DataSHIELD a la investigación multimodal. OmicSHIELD ofrece un conjunto robusto de herramientas para analizar datos ómicos, mientras que dsExposome proporciona características especializadas para el análisis de datos del exposoma. Ambas adiciones operan de manera federada mientras preservan la privacidad de los individuos. Todos los objetivos alcanzados en esta tesis doctoral están adjuntos a un proyecto europeo (ATHLETE), que requirió todos los desarrollos para el WP3, que está dedicado a las herramientas para el análisis de datos federados. Además, el estudio aborda desafíos relacionados con la privacidad de los datos y las colaboraciones entre centros. La plataforma puede gestionar efectivamente conjuntos de datos más grandes y llevar a cabo análisis complejos sin comprometer la privacidad de los datos. Esta adaptabilidad abre el camino para futuras aplicaciones de DataSHIELD en otros campos de investigación, como la neuroimagen y la inteligencia artificial. En conclusión, las nuevas herramientas y características mejoran significativamente la capacidad, escalabilidad y adaptabilidad de DataSHIELD. Estas mejoras acelerarán la adopción de métodos de análisis de datos federado en estudios multicéntricos, avanzando así la investigación mientras se mantiene rigurosamente la privacidad de los datos. Notablemente, DataSHIELD también contribuye a objetivos más amplios de reproducibilidad y transparencia en la investigación científica permitiendo que los resultados sean fácilmente verificables sin la necesidad de compartir datos, superando así las barreras tradicionales en la investigación colaborativa. El trabajo presentado en esta tesis doctoral sirve como un avance crítico en el análisis de datos federado, cubriendo los huecos entre la privacidad de los datos, la reproducibilidad y la investigación colaborativa en biomedicina.
dc.description.abstract
In an era where data privacy is crucial, conducting reproducible and secure data analysis in a collaborative context among multiple research centers is a challenging task. With the growing relevance of various types of highly sensitive data such as clinical, epidemiological or omics (genomics, transcriptomics, exposomics, ...), the need for research through federated analysis has become a critical necessity, especially due to the sensitive nature of the data involved, which raises significant privacy and ethical concerns. To address this problem, this PhD thesis aims to extend the capabilities of DataSHIELD, a federated analysis platform. This PhD thesis provides advanced methods and tools like ShinyDataSHIELD, resources, OmicSHIELD, and dsExposome, with the goal of making DataSHIELD more relevant, adding features to handle a broader range of data types, and ensuring the platform's adaptability and scalability for the future. The adopted methodology involves a series of software developments, case studies, and real-world applications. Comparative analyses have been used to establish the effectiveness of the new tools and methods created. Additionally, techniques like clustered analysis and differential privacy have been integrated into DataSHIELD's capabilities. This PhD thesis achieved the objectives by extending DataSHIELD's capabilities to address existing needs in multi-cohort studies. The ShinyDataSHIELD interface encourages a more pleasant and accessible user experience for both novice and experienced researchers. The concept of resources is the seminal tool for working with datasets in different formats, thus expanding DataSHIELD's applicability to multidomain research. OmicSHIELD offers a robust set of tools for analyzing omics data, while dsExposome provides specialized features for exposome data analysis. Both of these additions operate in a federated manner while preserving individuals' privacy. All the objectives achieved in this PhD thesis are attached to an European project (ATHLETE), which required all the developments for the WP3, which is devoted to tools for federated data analysis. Additionally, the study addresses challenges related to data privacy and collaborations among centers. The platform can effectively manage larger data sets and perform complex analyses without compromising data privacy. This adaptability paves the way for future applications of DataSHIELD in other fields of research, such as neuroimaging and artificial intelligence. In conclusion, the new tools and features significantly improve DataSHIELD's capacity, scalability, and adaptability. These improvements promise to accelerate the adoption of federated data analysis methods in multi-center studies, thereby advancing research while rigorously maintaining data privacy. Notably, DataSHIELD also contributes to broader goals of reproducibility and transparency in scientific research by allowing results to be easily verified without the need for data sharing, thus overcoming traditional barriers to collaborative research. The work presented in this PhD thesis serves as a critical advancement in federated data analysis, bridging gaps between data privacy, reproducibility, and collaborative research in biomedicine.
dc.format.extent
177 p.
dc.language.iso
eng
dc.publisher
Universitat Autònoma de Barcelona
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/4.0/
dc.rights.uri
http://creativecommons.org/licenses/by/4.0/
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Dades federades
dc.subject
Federated data
dc.subject
Datos federados
dc.subject.other
Tecnologies
dc.title
DataSHIELD advances: Transformative Extensions for Privacy-Preserving Big Data Analysis in Health and Biosciences
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.date.updated
2024-07-09T10:03:49Z
dc.subject.udc
004
dc.contributor.director
González Ruiz, Juan Ramón
dc.contributor.tutor
González Ruiz, Juan Ramón
dc.embargo.terms
cap
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Universitat Autònoma de Barcelona. Programa de Doctorat en Bioinformàtica


Documentos

xem1de1.pdf

6.518Mb PDF

Este ítem aparece en la(s) siguiente(s) colección(ones)