Parmbsc2: Development of an accurate force field for nucleic acids simulations

Author

Gallego Pérez, Diego

Director

Orozco López, Modesto

Dans Puiggròs, Pablo D.

Tutor

Orozco López, Modesto

Date of defense

2022-09-29

Pages

360 p.



Department/Institute

Universitat de Barcelona. Departament de Bioquímica i Biomedicina Molecular

Abstract

Molecular dynamics (MD) simulations are the equivalent to a computational microscope allowing us to interrogate molecules and their behaviour in complex systems. They are recognised as a valuable and accurate tool in reproducing experimental evidence and predicting biomolecules flexibility at a resolution level which experimental techniques can’t usually reach. Running a MD simulation implies the propagation of Newton’s equations of motion of a system composed by beads connected by bonds. The core of MD is the energy functional: the force field, a classical Hamiltonian, defined by a set of empirical parameters defining how the energy of the system change as a consequence of geometrical alterations. Highly accurate force fields are nowadays available for proteins, nucleic acids, membranes, organic and inorganic ligands, materials, and many other systems. Focusing on nucleic acids, state-of-the-art force fields for DNA (parmbsc1 and OL15) are now able to predict B-DNA structure and flexibility with the same accuracy as NMR and X-ray experiments, and correctly reproduce unusual secondary motifs, alternative DNA forms, DNA binding with numerous partners, folding and melting processes, etc. On the contrary, RNA structure and flexibility is more difficult to capture, and the maturity of RNA force fields is far from being as “good” as the one reached for DNA, and consensus exists that a new force- field able to capture the rich conformational freedom of RNA should be developed. A substantial part of this thesis focuses on this precise problematic. This thesis is transversal to many fields, going from applied structural bioinformatics to pure physics-based modelling using classical and quantum approximations. We created the R package veriNA3d to systematize the process of handling PDB contents in diverse formats, including facilities to analyse large structures like ribosomes. VeriNA3d showed to be particularly useful for extracting detailed information on DNA-protein interactions, analysing any desired conformational space sampled experimentally, or generating, as for the purpose of this thesis, a specific dataset of all stacked nucleobase arrangements (over 3x105 structures). To reach a deep understanding of stacking interaction at both structural and energetic level, high-level QM approximations were used, and a Machine Learning algorithm was developed that showed to accurately predict expected stacking energies. We also proposed a new set of non-bonded parameters in Lifson’s force field framework, meant to be part of the future parmbsc2. Parmbsc2 is currently under beta- testing for both DNA and RNA systems. The thesis is written in monographic form. It covers a range of topics in nucleic acid structure and modelling introduced in chapter 1 with a general overview. The introduction leads to the objectives of this work in chapter 2. Chapter 3 focuses on methodological details covering quantum mechanics, molecular mechanics, and a detailed explanation of the force field parameterization scheme for non-bonded terms and dihedral angles. Chapter 4 is reserved for the results, and chapter 5 for the general discussion. The chapter 6 closes this thesis with the conclusions.


Las simulaciones de dinámica molecular (MD) son el equivalente a un microscopio computacional que nos permite interrogar a las moléculas y su comportamiento en sistemas complejos. Se reconocen como una herramienta valiosa y precisa para reproducir evidencia experimental y predecir la flexibilidad de las biomoléculas a un nivel de resolución que las técnicas experimentales normalmente no pueden alcanzar. Ejecutar una simulación MD implica la propagación de las ecuaciones de movimiento de Newton de un sistema compuesto por partículas esféricas conectadas por muelles. El núcleo de la MD es el funcional de la energía: el campo de fuerza (force field), un Hamiltoniano clásico, definido por un conjunto de parámetros empíricos que modulan cómo cambia la energía del sistema como consecuencia de alteraciones geométricas. Los campos de fuerza de alta precisión están disponibles hoy en día para proteínas, ácidos nucleicos, membranas, ligandos orgánicos e inorgánicos, materiales y muchos otros sistemas. Centrándose en los ácidos nucleicos, los campos de fuerza de última generación para el DNA (parmbsc1 y OL15) ahora pueden predecir la estructura y la flexibilidad del B-DNA con la misma precisión que los experimentos de NMR y rayos X, y reproducir correctamente motivos secundarios inusuales, formas alternativas de DNA, unión de DNA con proteínas, procesos de plegamiento, etc. Por el contrario, la estructura y flexibilidad del RNA son más difíciles de capturar, y la madurez de los campos de fuerza del RNA está lejos de ser tan "buena" como para el DNA. Existe consenso en que se debe desarrollar un nuevo campo de fuerza capaz de capturar la libertad conformacional del RNA. Una parte sustancial de esta tesis se centra en este problema. Esta tesis es transversal a varios campos, desde la bioinformática estructural aplicada hasta el modelado basado en la física fundamental, utilizando aproximaciones clásicas y cuánticas. Creamos el paquete de R veriNA3d para sistematizar el minado de datos contenidos en el Protein Data Bank (PDB), incluidas funciones para analizar estructuras grandes como los ribosomas. VeriNA3d demostró ser particularmente útil para extraer información detallada sobre las interacciones DNA-proteína, analizar cualquier espacio conformacional deseado muestreado experimentalmente o generar, como para el propósito de esta tesis, un conjunto de datos específico de todas las conformaciones de stacking entre nucleobases (más de 3x105 estructuras). Para llegar a una comprensión profunda de la interacción de stacking tanto a nivel estructural como energético, se utilizaron aproximaciones QM de alto nivel y se desarrolló un algoritmo de aprendizaje automático (ML) que demostró predecir con precisión las energías de stacking esperadas. También propusimos un nuevo conjunto de para metros en el marco del campo de fuerza de Lifson, destinado a ser parte del futuro parmbsc2. Parmbsc2 se encuentra actualmente en pruebas beta para simulaciones de DNA y RNA.

Keywords

Bioinformàtica; Bioinformática; Bioinformatics; Àcids nucleics; Ácidos nucleicos; Nucleic acids; Dinàmica molecular; Dinámica molecular; Molecular dynamics; Aprenentatge automàtic; Aprendizaje automático; Machine learning; Mètodes de simulació; Métodos de simulación; Simulation methods

Subjects

577 - Bioquímica. Biologia molecular. Biofísica

Knowledge Area

Ciències Experimentals i Matemàtiques

Note

Programa de Doctorat en Biomedicina / Tesi realitzada a l'Institut de Recerca Biomèdica de Barcelona (IRBB)

Documents

This document contains embargoed files until 2023-09-29

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/4.0/

This item appears in the following Collection(s)