Artificial Intelligence (AI) Strategies For Metabolite Identification Based On Tandem Mass Spectrometry Data
dc.contributor.author
Khan, Muhammad Faizan
dc.date.accessioned
2025-10-31T08:26:08Z
dc.date.issued
2025-07-10
dc.identifier.uri
http://hdl.handle.net/10803/695639
dc.description.abstract
Aquesta tesi aborda reptes fonamentals en la identificació de petites molècules en metabolòmica mitjançant dades d’espectrometria de masses en tàndem (MS/MS). Tot i els avenços en tècniques analítiques, la identificació de metabòlits desconeguts continua limitada per la diversitat química i les biblioteques espectrals incompletes. Per superar aquests obstacles, aquesta recerca presenta un conjunt de mètodes basats en aprenentatge automàtic per millorar l'anotació i la predicció estructural de metabòlits. Les contribucions principals inclouen: (1) ChemEmbed, un model basat en CNN que combina espectres MS/MS amb embeddings moleculars per millorar la precisió; (2) un metamodel que integra diverses tècniques predictives per reforçar el rànquing de candidats; i (3) un sistema híbrid CNN-JTVAE capaç de reconstruir estructures moleculars a partir de dades espectrals. Aquests mètodes mostren un rendiment elevat en benchmarks com CASMI 2022 i en conjunts de dades com ARUS. En conjunt, la tesi ofereix solucions escalables i precises per a la identificació metabolòmica, contribuint al progrés de la biologia de sistemes i la quimioinformàtica.
ca
dc.description.abstract
Esta tesis aborda desafíos clave en la identificación de pequeñas moléculas en metabolómica utilizando datos de espectrometría de masas en tándem (MS/MS). A pesar de los avances en técnicas analíticas, la identificación de metabolitos desconocidos sigue siendo difícil debido a la gran diversidad química y la falta de bibliotecas espectrales completas. Para superar estos desafíos, esta investigación presenta un conjunto de métodos basados en aprendizaje automático para mejorar la anotación y predicción estructural de metabolitos. Las contribuciones principales incluyen: (1) ChemEmbed, un modelo basado en CNN que fusiona espectros MS/MS con representaciones moleculares para mejorar la precisión; (2) un metamodelo que combina múltiples técnicas predictivas para optimizar la clasificación de candidatos; y (3) un sistema híbrido CNN-JTVAE capaz de reconstruir estructuras moleculares directamente desde datos espectrales. Estas herramientas demuestran un alto rendimiento en evaluaciones como CASMI 2022 y en conjuntos de datos como ARUS. En resumen, la tesis ofrece soluciones precisas y escalables que impulsan los avances en biología de sistemas, quimioinformática y medicina de precisión.
ca
dc.description.abstract
This thesis addresses critical challenges in the identification of small molecules in metabolomics using tandem mass spectrometry (MS/MS) data. Despite advances in analytical techniques, the identification of unknown metabolites remains limited due to the vast chemical diversity and incomplete spectral libraries. To overcome these issues, this research presents a suite of machine learning-based methods for improved metabolite annotation and molecular structure prediction. The core contributions include: (1) ChemEmbed, a CNN-based model that merges MS/MS spectra with molecular embeddings to enhance annotation accuracy; (2) a metamodel approach that integrates multiple prediction techniques to boost candidate ranking performance; and (3) a CNN-JTVAE hybrid system capable of reconstructing molecular structures directly from spectral data. These tools show strong performance across benchmarks such as CASMI 2022 and large-scale datasets like ARUS. Overall, the thesis delivers scalable, accurate, and generalizable solutions for metabolomics, advancing the fields of systems biology, cheminformatics, and data-driven molecular discovery.
ca
dc.format.extent
191 p.
ca
dc.language.iso
eng
ca
dc.publisher
"Universitat Rovira i Virgili"
dc.rights.license
ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
ca
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
d'intel·ligència artificial
ca
dc.subject
metabòlits
ca
dc.subject
tàndem espectrometría
ca
dc.subject
inteligencia artificial
ca
dc.subject
metabolitos
ca
dc.subject
espectrometría de masas
ca
dc.subject
Artificial Intelligence
ca
dc.subject
Metabolite
ca
dc.subject
Mass Spectrometry
ca
dc.subject.other
Enginyeria i arquitectura
ca
dc.title
Artificial Intelligence (AI) Strategies For Metabolite Identification Based On Tandem Mass Spectrometry Data
ca
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
004
ca
dc.contributor.authoremail
faizankhan.giki@gmail.com
ca
dc.contributor.director
Guimerà Manrique, Roger
dc.contributor.director
Yanes Torrado, Óscar
dc.embargo.terms
6 mesos
ca
dc.date.embargoEnd
2026-01-06T02:00:00Z
dc.rights.accessLevel
info:eu-repo/semantics/embargoedAccess
dc.description.degree
"Universitat Rovira i Virgili. Programa de doctorat en Bioinformàtica"
ca


