Desarrollo y aceleración hardware de metodologías de descripción y comparación de compuestos orgánicos

Author

Oliver Gelabert, Antoni

Director

Rosselló Sanz, José Luís

Prohens López, Rafel

Date of defense

2018-02-16

Pages

299 p.



Department/Institute

Universitat de les Illes Balears. Departament de Física

Abstract

Introducción El acelerado ritmo al que se genera y crece la información en la sociedad actual y la posible llegada de la tecnología de transistor a sus límites de tamaño exige la puesta en marcha de soluciones para el procesado eficiente de datos en campos específicos de aplicación. Contenido Esta tesis doctoral de carácter transdisciplinar a medio camino entre la ingeniería electrónica y la química computacional presenta soluciones optimizadas en hardware y en software para la construcción y el procesado eficiente de bases de datos moleculares. En primer lugar se propone y se estudia el funcionamiento de bloques digitales que implementan funciones en lógica pulsante estocástica orientadas a tareas de reconocimiento de objetos. Especialmente se proponen y analizan diseños digitales para la construcción de generadores de números aleatorios (RNG) como base de estos sistemas que han sido implementados en dispositivos Field Programable Gate Array (FPGA). En segundo lugar se propone y se evalúa un conjunto reducido de descriptores moleculares para la caracterización de compuestos orgánicos y la generación de bases de datos moleculares. Estos descriptores recogen información sobre la distribución de la carga molecular en el espacio y la energía electrostática. Las bases de datos generadas con estos descriptores se han procesado utilizando sistemas de computación convencionales en software y mediante sistemas de computación estocástica implementados en hardware mediante el uso de circuitería digital programable. Finalmente se proponen optimizaciones para la estimación del potencial electrostático molecular (MEP) y para el cálculo de los puntos de interacción molecular derivados (SSIP). Conclusiones Por una parte, los resultados obtenidos ponen de manifiesto la importancia de la uniformidad de los RNG en el período de evaluación para poder implementar sistemas de computación estocástica de alta fiabilidad. Además, los RNG propuestos tienen una naturaleza aperiódica que minimiza las posibles correlaciones entre señales, haciendo que sean adecuados para la implementación de sistemas de computación estocástica. Por otra parte, el conjunto de descriptores moleculares propuestos PED han demostrado obtener muy buenos resultados en comparación con otros métodos presentes en la literatura. Este hecho se ha discutido mediante los parámetros Area Under The Curve (AUC) y Enrichment Factor (EF) obtenidos de las curvas promedio Receiving Operating Characteristic (ROC). Además, se ha mostrado como la eficacia de los descriptores aumenta cuando se implementan en sistemas de clasificación con aprendizaje supervisado, haciéndolos adecuados para la construcción de un sistema de predicción de dianas terapéuticas eficiente. En esta tesis, además, se ha determinado que los MEP calculados utilizando la teoría DFT y el conjunto de bases B3LYP/6-31*G en la superficie con densidad electrónica 0,01 au correlacionan bien con datos experimentales debido presumiblemente a la mayor contribución de las propiedades electrostáticas locales reflejadas en el MEP. Las parametrizaciones propuestas en función del tipo de hibridación atómica pueden haber contribuido también a esta mejora. Los cálculos realizados en dichas superficies suponen mejoras en un factor cinco en la velocidad de procesamiento del MEP. Dado el aceptable ajuste a datos experimentales del método propuesto para el cálculo del MEP aproximado y de los SSIP, éste se puede utilizar con el fin de obtener los SSIP para bases de datos moleculares extensas o en macromoléculas como proteínas de manera muy rápida (ya que la velocidad de procesamiento obtenida puede alcanzar del orden de cinco mil átomos procesados por segundo utilizando un solo procesador). Estas técnicas resultan de especial interés dadas las numerosas aplicaciones de los SSIP como por ejemplo el cribado virtual de cocristales o la predicción de energías libres en disolución.


Introducció El creixement accelerat de les dades en la societat actual i l'arribada de la tecnologia del transistor als límits físics exigeix la proposta de metodologies per al processament eficient de dades. Contingut Aquesta tesi doctoral, de caràcter transdisciplinària i a mig camí entre els camps de l'enginyeria electrònica i la química computacional presenta solucions optimitzades en maquinari i en programari per tal d’accelerar el processament de bases de dades moleculars. En primer lloc es proposa i s'estudia el funcionament de blocs digitals que implementen funcions de lògica polsant estocàstica aplicades a tasques de reconeixement d'objectes. En concret es proposen i analitzen dissenys específics per a la construcció de generadors de nombres aleatoris (RNG) com a sistemes bàsics per al funcionament dels sistemes de computació estocàstics implementats en dispositius programables com les Field Programable Gate Array (FPGA). En segon lloc es proposen i avaluen un conjunt reduït de descriptors moleculars especialment orientats a la caracterització de compostos orgànics. Aquests descriptors reuneixen la informació sobre la distribució de càrrega molecular i les energies electroestàtiques. Les bases de dades generades amb aquests descriptors s’han processat emprant sistemes de computació convencionals en programari i mitjançant sistemes basats en computació estocàstica implementats en maquinari programable. Finalment es proposen optimitzacions per al càlcul del potencial electroestàtic molecular (MEP) calculat mitjançant la teoria del funcional de la densitat (DFT) i dels punts d’interacció que se’n deriven (SSIP). Conclusions Per una banda, els resultats obtinguts posen de manifest la importància de la uniformitat del RNG en el període d’avaluació per a poder implementar sistemes de computació estocàstics d’alta fiabilitat. A més, els RNG proposats presenten una font d’aleatorietat aperiòdica que minimitza les correlacions entre senyals, fent-los adequats per a la implementació de sistemes de computació estocàstica. Per una altra banda, el conjunt de descriptors moleculars proposats PED, han demostrat obtenir molts bons resultats en comparació amb els mètodes presents a la literatura. Aquest fet ha estat discutit mitjançant l’anàlisi dels paràmetres Area Under The Curve (AUC) i Enrichment Factor (EF) de les curves Receiving Operating Characteristic (ROC) analitzades. A més, s’ha mostrat com l’eficàcia dels descriptors augmenta de manera significativa quan s’implementen en sistemes de classificació amb aprenentatge supervisat com les finestres de Parzen, fent-los adequats per a la construcció d’un sistema de predicció de dianes terapèutiques eficient. En aquesta tesi doctoral, a més, s’ha trobat que els MEP calculats mitjançant la teoria DFT i el conjunt de bases B3LYP/6-31*G en la superfície amb densitat electrònica 0,01 au correlacionen bé amb dades experimentals possiblement a causa de la contribució més gran de les propietats electroestàtiques locals reflectides en el MEP. Les parametritzacions proposades en funció del tipus d’hibridació atòmica han contribuït també a la millora dels resultats. Els càlculs realitzats en aquestes superfícies suposen un guany en un factor cinc en la velocitat de processament del MEP. Donat l’acceptable ajust a les dades experimentals del mètode proposat per al càlcul del MEP aproximat i dels SSIP que se’n deriven, aquest procediment es pot emprar per obtenir els SSIP en bases de dades moleculars extenses i en macromolècules (com ara proteïnes) d’una manera molt ràpida (ja que la velocitat de processament obtinguda arriba fins als cinc mil àtoms per segon amb un sol processador). Les tècniques proposades en aquesta tesi doctoral resulten d’interès donades les nombroses aplicacions que tenen els SSIP com per exemple, en el cribratge virtual de cocristalls o en la predicció d’energies lliures en dissolució.


Introduction Because of the generalized data growth in the nowadays digital era and due to the fact that we are possibly living on the last days of the Moore’s law, there exists a good reason for being focused on the development of technical solutions for efficient data processing. Contents In this transdisciplinary thesis between electronic engineering and computational chemistry, it's shown optimal solutions in hardware and software for molecular database processing. On the first hand, there's proposed and studied a set of stochastic computing systems in order to implement ultrafast pattern recognition applications. Specially, it’s proposed and analyzed specific digital designs in order to create digital Random Number Generators (RNG) as a base for stochastic functions. The digital platform used to generate the results is a Field Programmable Gate Array (FPGA). On the second hand, there's proposed and evaluated a set of molecular descriptors in order to create a compact molecular database. The proposed descriptors gather charge and molecular geometry information and they have been used as a database both in software conventional computing and in hardware stochastic computing. Finally, there's a proposed a set of optimizations for Molecular Electrostatic Potential (MEP) and Surface Site Interaction Points (SSIP). Conclusions Firstly, the results show the relevance of the uniformity of the RNG within the evaluation period in order to implement high precision stochastic computing systems. In addition, the proposed RNG have an aperiodic behavior which avoid some potential correlations between stochastic signals. This property makes the proposed RNG suitable for implementation of stochastic computing systems. Secondly, the proposed molecular descriptors PED have demonstrated to provide good results in comparison with other methods that are present in the literature. This has been discussed by the use of Area Under the Curve (AUC) and Enrichment Factor (EF) of averaged Receiving Operating Characteristic (ROC) curves. Furthermore, the performance of the proposed descriptors gets increased when they are implemented in supervised machine learning algorithms making them appropriate for therapeutic target predictions. Thirdly, the efficient molecular database characterization and the usage of stochastic computing circuitry can be used together in order to implement ultrafast information processing systems. On the other hand, in this thesis, it has been found that the MEP calculated by using DFT and B3LYP/6-31*G basis at 0.01 au density surface level has good correlation with experimental data. This fact may be due to the important contribution of local electrostatics and the refinement performed by the parameterization of the MEP as a function of the orbital atom type. Additionally, the proposed calculation over 0.01 au is five times faster than the calculation over 0.002 au. Finally, due to acceptable agreement between experimental data and theoretical results obtained by using the proposed calculation for MEP and SSIP, the proposed method is suitable for being applied in order to quickly process big molecular databases and macromolecules (the processing speed can achieve five thousand molecules per second using a single processor). The proposed techniques have special interest with the purpose of finding the SSIP because the big number of applications they have as for instance in virtual cocrystal screening and calculation of free energies in solution.

Keywords

Field Programable Gate Array (FPGA); Stochastic Computing; Random Number Generator (RNG); Linear Feedback Shift Register (LFSR); Boolean Chaos; Drug Discovery; Partial Atomic Charges; Merk Molecular Force Field (MMFF); Virtual Screening (VS); Supervised Machine Learning; Parzen Windows; Bayes Theorem; Receiving Operating Characteristic (ROC); Molecular Electrostatic Potential (MEP); Surface Site Interaction Points (SSIP); Density Functional Theory (DFT)

Subjects

53 - Physics; 537 - Electricity. Magnetism. Electromagnetism

Knowledge Area

Enginyeria Electrònica

Documents

taog1de1_definitiva.pdf

12.35Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)