Universitat Autònoma de Barcelona. Programa de Doctorat en Bioinformàtica
Els darrers desenvolupaments en Machine Learning tenen com a objectiu automatitzar els mètodes disponibles, convertint-los en universals alhora que requerint el mínim coneixement expert possible. En aquesta tesi, farem un pas enrere. Ens centrarem en les dades, en les seves necessitats específiques i en com extreure’n informació significativa. Això es farà mitjançant la presentació de diferents treballs que destaquen diversos aspectes a tenir en compte a l’hora de desenvolupar tècniques d’aprenentatge automàtic en bioinformàtica. No hi pot haver cap model sense les consideracions adequades sobre les dades. Per tant, a la primera part, deixarem els models de banda i ens centrarem en la integració de dades. Específicament, presentarem un algorisme per a la normalització de dades de microarrays d’expressió gènica provinents de plataformes distintes. Les dades de microarrays estan àmpliament disponibles als repositoris públics i aquests mètodes permeten la seva posterior anàlisi. A la següent part, considerarem dades de seqüència de pèptids i presentarem una eina per a l'extracció de patrons existents en aquests conjunts. El model, basat en xarxes neuronals convolucionals, és de codi obert i es pot utilitzar per a la predicció d’unió de pèptids a MHC de classe II, entre altres aplicacions. La darrera part es dedicarà a l’anàlisi de dades clíniques. Presentarem un estudi de cohort retrospectiu sobre el càncer de pàncrees. Per a aquest estudi, s’ha desenvolupat una eina per a la predicció de resultats clínicament rellevants. Des de la integració de dades fins al desenvolupament d’eines orientades a aplicacions, les tres parts que formen aquesta tesi seran autònomes i abordaran diferents reptes en l’àmbit de les aproximacions basades en dades en bioinformàtica.
Los desarrollos recientes en Machine Learning tienen como objetivo automatizar los métodos disponibles, haciéndolos universales y requiriendo el menor conocimiento experto posible. En esta tesis, daremos un paso atrás. Nos centraremos en los datos, sus necesidades específicas y cómo extraer información significativa de ellos. Esto se hará a través de la presentación de diferentes trabajos destacando diversos aspectos a considerar a la hora de desarrollar técnicas de Machine Learning en bioinformática. No puede haber ningún modelo sin las consideraciones adecuadas sobre los datos. Por tanto, en la primera parte, dejaremos los modelos a un lado y nos centraremos en la integración de los datos. Específicamente, presentaremos un algoritmo para la normalización de datos de microarrays de expresión génica provenientes de distintas plataformas. Los datos de microarrays están ampliamente disponibles en repositorios públicos y tales métodos permiten su posterior análisis. En la siguiente parte, consideraremos datos de secuencia de péptidos y presentaremos una herramienta para la extracción de patrones existentes en dichos conjuntos. El modelo, basado en redes neuronales convolucionales, es de código abierto y puede ser usado para la predicción de la unión de péptidos a MHC de clase II, entre otras aplicaciones. La última parte estará dedicada al análisis de datos clínicos. Presentaremos un estudio de cohorte retrospectivo sobre cáncer de páncreas. Para este estudio, se ha desarrollado una herramienta para la predicción de resultados clínicamente relevantes. Desde la integración de datos hasta el desarrollo de herramientas orientadas a aplicaciones, las tres partes que forman esta tesis serán autónomas y cada una abordará diferentes desafíos en el ámbito de las aproximaciones basadas en datos en bioinformática.
Recent developments in Machine Learning aim at automatizing available methods, rendering them universal while requiring as little expert-knowledge as possible. In this thesis, we will take a step back. We will focus on the data, their specific needs and how to extract meaningful information out of them. This will be done through the presentation of different works highlighting various aspects to consider when developing Machine Learning techniques in bioinformatics. There cannot be any models without the appropriate considerations on the data. Therefore, in the first part, we will put the models aside and focus on data integration. In more detail, we will present an algorithm for the normalization of gene-expression microarray data across different platforms. Microarray data are widely available in public repositories and such methods enable their subsequent downstream analysis. In the next part, we will consider peptide sequence data and present a tool for the extraction of patterns in such sets. The model, based on convolutional neural networks, is open-source and can be used for peptide MHC-class II binding prediction among other applications. The last part will be dedicated to the analysis of clinical data. We will present a retrospective cohort study on pancreatic cancer. For this study, a tool for the prediction of clinically relevant outcomes has been developed. From data integration to the development of application-oriented tools, the three parts forming this thesis will be self-contained and will each address different challenges in the realm of data-driven approaches in bioinformatics.
Bioinformàtica; Aprenentatge automàtic; Ciència de les dades; Bioinformática; Aprendizaje automático; Ciencia de los datos; Bioinformatics; Machine Learning; Data Science
004 - Informática
Ciències Experimentals