Artificial Intelligence (AI) Strategies For Metabolite Identification Based On Tandem Mass Spectrometry Data
llistat de metadades
Author
Director
Guimerà Manrique, Roger
Yanes Torrado, Óscar
Date of defense
2025-07-10
Pages
191 p.
Doctorate programs
"Universitat Rovira i Virgili. Programa de doctorat en Bioinformàtica"
Abstract
Aquesta tesi aborda reptes fonamentals en la identificació de petites molècules en metabolòmica mitjançant dades d’espectrometria de masses en tàndem (MS/MS). Tot i els avenços en tècniques analítiques, la identificació de metabòlits desconeguts continua limitada per la diversitat química i les biblioteques espectrals incompletes. Per superar aquests obstacles, aquesta recerca presenta un conjunt de mètodes basats en aprenentatge automàtic per millorar l'anotació i la predicció estructural de metabòlits. Les contribucions principals inclouen: (1) ChemEmbed, un model basat en CNN que combina espectres MS/MS amb embeddings moleculars per millorar la precisió; (2) un metamodel que integra diverses tècniques predictives per reforçar el rànquing de candidats; i (3) un sistema híbrid CNN-JTVAE capaç de reconstruir estructures moleculars a partir de dades espectrals. Aquests mètodes mostren un rendiment elevat en benchmarks com CASMI 2022 i en conjunts de dades com ARUS. En conjunt, la tesi ofereix solucions escalables i precises per a la identificació metabolòmica, contribuint al progrés de la biologia de sistemes i la quimioinformàtica.
Esta tesis aborda desafíos clave en la identificación de pequeñas moléculas en metabolómica utilizando datos de espectrometría de masas en tándem (MS/MS). A pesar de los avances en técnicas analíticas, la identificación de metabolitos desconocidos sigue siendo difícil debido a la gran diversidad química y la falta de bibliotecas espectrales completas. Para superar estos desafíos, esta investigación presenta un conjunto de métodos basados en aprendizaje automático para mejorar la anotación y predicción estructural de metabolitos. Las contribuciones principales incluyen: (1) ChemEmbed, un modelo basado en CNN que fusiona espectros MS/MS con representaciones moleculares para mejorar la precisión; (2) un metamodelo que combina múltiples técnicas predictivas para optimizar la clasificación de candidatos; y (3) un sistema híbrido CNN-JTVAE capaz de reconstruir estructuras moleculares directamente desde datos espectrales. Estas herramientas demuestran un alto rendimiento en evaluaciones como CASMI 2022 y en conjuntos de datos como ARUS. En resumen, la tesis ofrece soluciones precisas y escalables que impulsan los avances en biología de sistemas, quimioinformática y medicina de precisión.
This thesis addresses critical challenges in the identification of small molecules in metabolomics using tandem mass spectrometry (MS/MS) data. Despite advances in analytical techniques, the identification of unknown metabolites remains limited due to the vast chemical diversity and incomplete spectral libraries. To overcome these issues, this research presents a suite of machine learning-based methods for improved metabolite annotation and molecular structure prediction. The core contributions include: (1) ChemEmbed, a CNN-based model that merges MS/MS spectra with molecular embeddings to enhance annotation accuracy; (2) a metamodel approach that integrates multiple prediction techniques to boost candidate ranking performance; and (3) a CNN-JTVAE hybrid system capable of reconstructing molecular structures directly from spectral data. These tools show strong performance across benchmarks such as CASMI 2022 and large-scale datasets like ARUS. Overall, the thesis delivers scalable, accurate, and generalizable solutions for metabolomics, advancing the fields of systems biology, cheminformatics, and data-driven molecular discovery.
Keywords
d'intel·ligència artificial; metabòlits; tàndem espectrometría; inteligencia artificial; metabolitos; espectrometría de masas; Artificial Intelligence; Metabolite; Mass Spectrometry
Subjects
004 - Computer science
Knowledge Area
Recommended citation
Rights
ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.


