Universitat de Girona. Departament de Biologia
Programa de Doctorat Interuniversitari en Bioinformàtica
ENG- Environmental omics is a valuable source of knowledge concerning the chemical compounds and biomolecules occurring in the environment and their molecular effects on the exposed biota. Mass spectrometry (MS), usually coupled to a chromatographic instrument to separate the analytes of a sample, is the most widely used analytical technique in environmental omics studies. However, MS instruments generate a large amount of data, some unrelated to analytes and associated with instrumental interferences or noise background. Filtering MS signals, selecting those belonging to analytes, and identifying these chemical compounds remain challenging tasks in analytical chemistry. These procedures are even more demanding when there is a total lack of knowledge of the sample's composition, a typical scenario in the untargeted analytical approach. In the last decades, chemometrics and bioinformatics methods have been proposed, some based on feature detection and a few others on the direct resolution of chemical compounds. This PhD Thesis has been focused on studying the so-called Regions of InterestMultivariate Curve Resolution (ROIMCR) chemometrics method to resolve the chemical compounds present in environmental omics samples, following a direct non-target analytical approach. Data from different sources and MS acquisition modes have been analyzed using the ROIMCR method to validate its performance, (including strengths and limitations). Datasets related to mixtures of small (exposomics and metabolomics) and large (proteomics) molecules have been successfully analyzed using full-scan, Data Dependent acquisition (DDA), and Data independent acquisition (DIA) modes. The possibilities of ROIMCR using DIA mode have confirmed its application to the analysis of MS data structures including MS2 information (even considering simultaneously positive and negative ionization modes). Some tools were developed to overcome certain limitations (generally related to the lack of automatization of the process) of the ROIMCR methodology. Such developments were implemented in two related MATLAB software packages, the SigSel package used for the visualization, filtering, and extraction of ROIMCR-results information, and the MSident program for annotating the resolved chemical compounds. Additionally, a rapid and costeffective methodology, so-called Aquasearch, has been proposed to perform proteomic biomarkers profiling in wastewater samples using Matrix Assisted Laser Desorption /Ionization-Time of Flight (MALDI-TOF). The Aquasearch program developed in this Thesis is proposed as a convenient tool for routine biomarker monitoring, instead of other possible methods that are more resource-demanding and time-consuming
CAT- Les ciències òmiques ambientals proporcionen una valuosa font de coneixement sobre els compostos químics i les biomolècules que són presents en el medi ambient i dels seus efectes moleculars sobre la biota exposada. L'espectrometria de masses (EM), generalment es troba acoblada a un instrument cromatogràfic que permet separar els anàlits d'una mostra, i en la actualitat és la tècnica analítica més utilitzada en estudis d'òmiques ambientals. No obstant això, els instruments EM generen una gran quantitat de dades, algunes d’elles no relacionades amb els analits d’interés i associades amb interferències instrumentals i amb altres fonts de soroll. Filtrar els senyals d'EM, seleccionar aquells que pertanyen als analits i identificar-los químicament, segueixen sent tasques complexes de la química analítica. Aquests procediments són encara més exigents quan hi ha una manca total de coneixement de la composició de la mostra, un escenari típic en els enfocament analítics no dirigits. En les últimes dècades s'han proposat mètodes quimiomètrics i bioinformàtics d’anàlisi de dades òmiques ambientals, alguns basats en la detecció de les característiques dels senyals mesurats i uns altres en la resolució directa de compostos químics. Aquesta tesi doctoral s'ha centrat en l'estudi de l'anomenat mètode basat en la acoblament de la detecció de les Regions d’Interés i de la Resolució Multivariant de Corbes (Regions of Interest-Multivariate Curve Resolution, ROIMCR) per tal de resoldre quins són els compostos químics presents en mostres d'òmica ambiental, seguint el que s’anomena un enfocament analític directe no dirigit (non-target). S'han analitzat diferents exemples de dades MS obtingudes amb diferents modes d'adquisició i de fonts d’ionització diverses amb el mètode ROIMCR que hab permès validar el seu rendiment, (incloent-hi fortaleses i limitacions). Els conjunts de dades obtinguts a partir de l’anàlisi de mescles de compostos de pes molecular baix (exposòmica i metabolòmica) i elevat (proteòmica) s'han investigatamb èxit utilitzant modes d'exploració completa (full-scan), d’adquisició de dades depenent (Data Dependent Acquisition, DDA) i d’adquisició de dades independent (Data Independent Acquisition, DIA). Les possibilitats que ofereix el mètode ROIMCR utilitzant el mode DIA han confirmat la seva possible aplicació a l'anàlisi d'estructures de dades MS que inclouen informació de MS2 (fins i tot quan s’adquireixen considerant simultàniament amb la ionització positiva i negativa). S’han desenvolupat algunes eines per superar algunes limitacions de la metodologia ROIMCR, generalment relacionades amb la falta d'automatització del procés. Aquests desenvolupaments s’han implementat en dos paquets de programari (software) de MATLAB, el programa SigSel que s’utilitza per a la visualització, filtratge i extracció d'informació dels resultats de ROIMCR, i el programa MSident que s’utilitza per anotar els compostos químics resolts. A més, s'ha proposat una nova metodologia ràpida i rendible, anomenada Aquasearch, per a l’obtenció dels perfils proteòmics de mostres d'aigües residuals analitzades per MS mitjançant desorció assistida per làser (Matrix /Ionization-Time of Flight., MALDI-TOF). En aquesta Tesi s’ha desenvolupat i proposat la utilització del programa Aquasearch com a una eina convenient per al monitoratge rutinari de biomarcadors, en substiutució o complement d'altres mètodes alternatius que són més exigents en recursos computacionals i requereixen de més temps
Regions d’interés i de la resolució multivariant de corbes; Regiones de interés y resolución multivariante de curvas; Regions of interest-multivariate curve resolution; Espectrometria de masses; Espectrometría de masas; Mass spectrometry; Ciències òmiques ambientals; Ciencias ómicas ambientales; Environmental omics; Bioinformàtica; Bioinformática; Bioinformatics; Quimiometria; Chemometrics; MSident
004 - Computer science; 504 – Environmental sciences; 57 - Biological sciences
Departament de Biologia [122]