Development of comprehensive non-target bioinformatics and chemometric tools for data filtering and management of mass spectrometry datasets and the chemical compound identification in environmental omics (proteomics, metabolomics, and exposomics)

dc.contributor
Universitat de Girona. Departament de Biologia
dc.contributor.author
Pérez López, Carlos
dc.date.accessioned
2025-01-10T18:13:53Z
dc.date.available
2025-01-10T18:13:53Z
dc.date.issued
2024-11-18
dc.identifier.uri
http://hdl.handle.net/10803/693306
dc.description.abstract
ENG- Environmental omics is a valuable source of knowledge concerning the chemical compounds and biomolecules occurring in the environment and their molecular effects on the exposed biota. Mass spectrometry (MS), usually coupled to a chromatographic instrument to separate the analytes of a sample, is the most widely used analytical technique in environmental omics studies. However, MS instruments generate a large amount of data, some unrelated to analytes and associated with instrumental interferences or noise background. Filtering MS signals, selecting those belonging to analytes, and identifying these chemical compounds remain challenging tasks in analytical chemistry. These procedures are even more demanding when there is a total lack of knowledge of the sample's composition, a typical scenario in the untargeted analytical approach. In the last decades, chemometrics and bioinformatics methods have been proposed, some based on feature detection and a few others on the direct resolution of chemical compounds. This PhD Thesis has been focused on studying the so-called Regions of InterestMultivariate Curve Resolution (ROIMCR) chemometrics method to resolve the chemical compounds present in environmental omics samples, following a direct non-target analytical approach. Data from different sources and MS acquisition modes have been analyzed using the ROIMCR method to validate its performance, (including strengths and limitations). Datasets related to mixtures of small (exposomics and metabolomics) and large (proteomics) molecules have been successfully analyzed using full-scan, Data Dependent acquisition (DDA), and Data independent acquisition (DIA) modes. The possibilities of ROIMCR using DIA mode have confirmed its application to the analysis of MS data structures including MS2 information (even considering simultaneously positive and negative ionization modes). Some tools were developed to overcome certain limitations (generally related to the lack of automatization of the process) of the ROIMCR methodology. Such developments were implemented in two related MATLAB software packages, the SigSel package used for the visualization, filtering, and extraction of ROIMCR-results information, and the MSident program for annotating the resolved chemical compounds. Additionally, a rapid and costeffective methodology, so-called Aquasearch, has been proposed to perform proteomic biomarkers profiling in wastewater samples using Matrix Assisted Laser Desorption /Ionization-Time of Flight (MALDI-TOF). The Aquasearch program developed in this Thesis is proposed as a convenient tool for routine biomarker monitoring, instead of other possible methods that are more resource-demanding and time-consuming
ca
dc.description.abstract
CAT- Les ciències òmiques ambientals proporcionen una valuosa font de coneixement sobre els compostos químics i les biomolècules que són presents en el medi ambient i dels seus efectes moleculars sobre la biota exposada. L'espectrometria de masses (EM), generalment es troba acoblada a un instrument cromatogràfic que permet separar els anàlits d'una mostra, i en la actualitat és la tècnica analítica més utilitzada en estudis d'òmiques ambientals. No obstant això, els instruments EM generen una gran quantitat de dades, algunes d’elles no relacionades amb els analits d’interés i associades amb interferències instrumentals i amb altres fonts de soroll. Filtrar els senyals d'EM, seleccionar aquells que pertanyen als analits i identificar-los químicament, segueixen sent tasques complexes de la química analítica. Aquests procediments són encara més exigents quan hi ha una manca total de coneixement de la composició de la mostra, un escenari típic en els enfocament analítics no dirigits. En les últimes dècades s'han proposat mètodes quimiomètrics i bioinformàtics d’anàlisi de dades òmiques ambientals, alguns basats en la detecció de les característiques dels senyals mesurats i uns altres en la resolució directa de compostos químics. Aquesta tesi doctoral s'ha centrat en l'estudi de l'anomenat mètode basat en la acoblament de la detecció de les Regions d’Interés i de la Resolució Multivariant de Corbes (Regions of Interest-Multivariate Curve Resolution, ROIMCR) per tal de resoldre quins són els compostos químics presents en mostres d'òmica ambiental, seguint el que s’anomena un enfocament analític directe no dirigit (non-target). S'han analitzat diferents exemples de dades MS obtingudes amb diferents modes d'adquisició i de fonts d’ionització diverses amb el mètode ROIMCR que hab permès validar el seu rendiment, (incloent-hi fortaleses i limitacions). Els conjunts de dades obtinguts a partir de l’anàlisi de mescles de compostos de pes molecular baix (exposòmica i metabolòmica) i elevat (proteòmica) s'han investigatamb èxit utilitzant modes d'exploració completa (full-scan), d’adquisició de dades depenent (Data Dependent Acquisition, DDA) i d’adquisició de dades independent (Data Independent Acquisition, DIA). Les possibilitats que ofereix el mètode ROIMCR utilitzant el mode DIA han confirmat la seva possible aplicació a l'anàlisi d'estructures de dades MS que inclouen informació de MS2 (fins i tot quan s’adquireixen considerant simultàniament amb la ionització positiva i negativa). S’han desenvolupat algunes eines per superar algunes limitacions de la metodologia ROIMCR, generalment relacionades amb la falta d'automatització del procés. Aquests desenvolupaments s’han implementat en dos paquets de programari (software) de MATLAB, el programa SigSel que s’utilitza per a la visualització, filtratge i extracció d'informació dels resultats de ROIMCR, i el programa MSident que s’utilitza per anotar els compostos químics resolts. A més, s'ha proposat una nova metodologia ràpida i rendible, anomenada Aquasearch, per a l’obtenció dels perfils proteòmics de mostres d'aigües residuals analitzades per MS mitjançant desorció assistida per làser (Matrix /Ionization-Time of Flight., MALDI-TOF). En aquesta Tesi s’ha desenvolupat i proposat la utilització del programa Aquasearch com a una eina convenient per al monitoratge rutinari de biomarcadors, en substiutució o complement d'altres mètodes alternatius que són més exigents en recursos computacionals i requereixen de més temps
ca
dc.format.extent
313 p.
ca
dc.language.iso
eng
ca
dc.publisher
Universitat de Girona
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/4.0/
ca
dc.rights.uri
http://creativecommons.org/licenses/by/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Regions d’interés i de la resolució multivariant de corbes
ca
dc.subject
Regiones de interés y resolución multivariante de curvas
ca
dc.subject
Regions of interest-multivariate curve resolution
ca
dc.subject
Espectrometria de masses
ca
dc.subject
Espectrometría de masas
ca
dc.subject
Mass spectrometry
ca
dc.subject
Ciències òmiques ambientals
ca
dc.subject
Ciencias ómicas ambientales
ca
dc.subject
Environmental omics
ca
dc.subject
Bioinformàtica
ca
dc.subject
Bioinformática
ca
dc.subject
Bioinformatics
ca
dc.subject
Quimiometria
ca
dc.subject
Chemometrics
ca
dc.subject
MSident
ca
dc.title
Development of comprehensive non-target bioinformatics and chemometric tools for data filtering and management of mass spectrometry datasets and the chemical compound identification in environmental omics (proteomics, metabolomics, and exposomics)
ca
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
004
ca
dc.subject.udc
504
ca
dc.subject.udc
57
ca
dc.contributor.director
Tauler Ferré, Romà
dc.contributor.director
Ginebreda, Antoni
dc.contributor.director
Barceló i Cullerés, Damià
dc.contributor.tutor
García Marín, José Luis
dc.embargo.terms
cap
ca
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Programa de Doctorat Interuniversitari en Bioinformàtica


Documentos

tcpl_20241118.pdf

19.78Mb PDF

Este ítem aparece en la(s) siguiente(s) colección(ones)