Equivariant graph neural networks in drug discover: from property prediction to molecule generation

Author

Cremer, Julian

Director

De Fabritiis, Gianni ORCID

Date of defense

2024-11-28

Pages

227 p.



Department/Institute

Universitat Pompeu Fabra. Departament de Medicina i Ciències de la Vida

Doctorate programs

Programa de Doctorat en Biomedicina

Abstract

Advancements in machine learning have revolutionized various aspects of drug discovery, from molecular property prediction to de novo design. This thesis presents a comprehensive exploration of equivariant graph neural networks (EGNNs) and their applications in critical areas of computational drug discovery, specifically focusing on property prediction, molecular representation learning, and structure-based de novo ligand design. Toxicity prediction is a critical early-stage filter in drug development. Traditional methods often rely on text-based or 2D representations or simplified 3D models, potentially missing crucial structural information. We hypothesized that full 3D molecular structures in form of ensembles of high-quality conformers could significantly improve toxicity predictions. Next, we explored the de novo molecule generation resulting in the development of an diffusion-based equivariant graph neural network, EQGAT-diff. This framework represents a significant advancement in molecular generation, incorporating both Gaussian and discrete state space diffusion techniques. A key innovation in EQGAT-diff is its timestep-dependent loss weighting scheme, which dramatically improves both training and inference efficiency. Building on the insights and capabilities of EQGAT-diff, we tackled the challenge of structure-based drug design. The result is PILOT, an equivariant diffusion model for de novo 3D ligand generation conditioned on protein pockets. Its multi-objective trajectory-based importance sampling allows for the simultaneous optimization of multiple properties, including binding affinity, synthetic accessibility or toxicity. Finally, we propose PoliGenX, a model based on EQGAT-diff that is conditioned not only on a protein's pocket, but also on parallely learned latent embeddings of seed molecules. We envision the usage of PoliGenX in hit expansion campaigns. We show that it successfully preserves shape similarity with seed molecules, while still being able to chemically diversify them in a de novo fashion.


Els avenços en aprenentatge automàtic han revolucionat diversos aspectes del descobriment de fàrmacs, des de la predicció de propietats moleculars fins al disseny de novo. Aquesta tesi presenta una exploració exhaustiva de les xarxes neuronals de grafs equivariants (EGNN) i les seves aplicacions en àrees crítiques del descobriment computacional de fàrmacs, centrant-se específicament en la predicció de propietats, l'aprenentatge de representació molecular i el disseny de novo de lligands basat en l'estructura. La predicció de toxicitat és un filtre crític en les primeres etapes del desenvolupament de fàrmacs. Els mètodes tradicionals sovint es basen en representacions de text o 2D o models 3D simplificats, potencialment perdent informació estructural crucial. Vam plantejar la hipòtesi que les estructures moleculars 3D completes en forma de conjunts de confòrmers d'alta qualitat podrien millorar significativament les prediccions de toxicitat. A continuació, vam explorar la generació de molècules de novo, resultant en el desenvolupament d'una xarxa neuronal de grafs equivariant basada en difusió, EQGAT-diff. Aquest marc representa un avanç significatiu en la generació molecular, incorporant tècniques de difusió d'espai d'estat gaussià i discret. Una innovació clau en EQGAT-diff és el seu esquema de ponderació de pèrdues dependent del pas temporal, que millora dramàticament l'eficiència tant en l'entrenament com en la inferència. Basant-nos en les idees i capacitats d'EQGAT-diff, vam abordar el repte del disseny de fàrmacs basat en l'estructura. El resultat és PILOT, un model de difusió equivariant per a la generació de lligands 3D de novo condicionada a les butxaques de proteïnes. El seu mostreig d'importància basat en trajectòries multi-objectiu permet l'optimització simultània de múltiples propietats, incloent l'afinitat d'unió, l'accessibilitat sintètica o la toxicitat. Finalment, proposem PoliGenX, un model basat en EQGAT-diff que està condicionat no només a la butxaca d'una proteïna, sinó també a incrustacions latents apreses en paral·lel de molècules llavor. Preveiem l'ús de PoliGenX en campanyes d'expansió de hits. Demostrem que preserva amb èxit la similitud de forma amb les molècules llavor, alhora que és capaç de diversificar-les químicament de manera de novo.

Keywords

Equivariant graph neural networks; Drug discovery; Generative chemistry; Diffusion; Structure-based drug design; Xarxes neuronals de gràfics equivariants; Descobriment de drogues; Química generativa; Difusió; Disseny de fàrmacs basat en l'estructura

Subjects

615 - Pharmacology. Therapeutics. Toxicology. Radiology

Documents

tjc.pdf

14.93Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/4.0/

This item appears in the following Collection(s)