llistat de metadades
Author
Director
Lewenstein, Maciej
Manzo, Carlo
Date of defense
2025-10-14
Pages
151 p.
Department/Institute
Universitat Politècnica de Catalunya. Institut de Ciències Fotòniques
Doctorate programs
DOCTORAT EN FOTÒNICA (Pla 2013)
Abstract
(English) Understanding how a complex system works from its components, such as a virus invading a cell or particles aggregating in a liquid, is a fundamental question in the study of nature that provides great biological benefits. To solve this question, it is interesting to observe the path taken by the components of a system, as this contains valuable information that helps us to characterize them and understand how they interact with each other. Advances in the last decade in the field of machine learning offer a promising numerical tool, as they allow the automatic extraction of relevant features and relationships, while also predicting the system's behavior. In this thesis, we focus on the analysis of particle trajectories observed in complex systems, addressing two fundamental aspects: the random and therefore difficult-to-characterize individual behavior, as occurs in the lungs, where we inhale air and oxygen diffuses into the capillaries of the alveoli; and behavior due to multiple ways of interacting, in some cases unknown, such as that of a large flock of birds migrating together. In particular, we consider three problems: 1) the accurate estimation of parameters that characterize the anomalous diffusion observed in biological processes, 2) the identification of significant parameters to describe stochastic processes, and 3) the extraction of the functional form of the multiple forces present in particle systems. To tackle each of the problems, we developed a specific machine learning model designed to extract meaningful information from trajectories and rigorously evaluated it on a series of simulated systems with known dynamics. The first method, KISTEP, predicts anomalous diffusion properties at each time step, for trajectory segments, and for a set of trajectories, allowing for detailed analysis at each level, based on individual trajectories. With this method, we participated in the AnDi Challenge 2, a scientific competition comparing computational methods dedicated to characterizing fractional Brownian motion trajectories that resemble biological phenomena observed in experiments such as cell endocytosis or protein immobilization. The second method, SPIVAE, helps to identify the minimal representation of stochastic processes thanks to its unsupervised, interpretable, and generative features. Furthermore, it is capable of generating new trajectories that reproduce the learned characteristics of the process. The analysis performed with SPIVAE revealed the expected parameters of BM, fractional BM, and confined BM, while it learned a nonlinear combination in the case of the scaled BM. The third method, FISGAE, employs a graph neural network to infer in an unsupervised manner the functional form of the forces acting between particles. FISGAE successfully learned the forces between 21 interacting particles with non-reciprocal linear forces, while in the more complex scenario of a Lennard-Jones gas, it learned well the force at short distances. In conclusion, this research provides methods to facilitate the analysis of particle systems directly from their trajectories, unlocking insights otherwise unavailable. The proposed methods have the potential to benefit experimental and theoretical researchers, and even artificial intelligence developers, by enabling a more comprehensive understanding of complex systems. Furthermore, the developed frameworks are ready for future improvements, which could be achieved through the integration of more sophisticated architectures, thereby paving the way for even more advanced applications and discoveries.
(Català) Entendre com funciona un sistema complex a partir dels seus components, com ara un virus envaint una cèl·lula o l'agregació de partícules en un líquid, és una qüestió primordial a l'estudi de la natura que proporciona grans beneficis a nivell biològic. Per resoldre-la és interessant observar el camí que recorren els components d'un sistema, perquè aquest conté informació valuosa que ens serveix per caracteritzar-los i comprendre com interaccionen entre ells. Els avenços de la darrera dècada en el camp de l'aprenentatge automàtic (machine learning) ofereixen una eina numèrica prometedora, ja que permeten l'extracció automàtica de característiques i relacions rellevants, alhora que prediuen el comportament del sistema. En aquesta tesi, ens enfoquem en l'anàlisi de trajectòries de partícules observades en sistemes complexos, abordant dos aspectes fonamentals: el comportament individual aleatori i, per tant, difícil de caracteritzar, com passa als pulmons, on en respirar inhalem aire i l'oxigen es difon cap als capil·lars dels alvèols; i el comportament que s’esdevé de les interaccions, desconegudes en alguns casos, com el d'una gran bandada d'ocells migrant en conjunt. En particular, considerem tres problemes: 1) l'estimació precisa de paràmetres que caracteritzen la difusió anòmala observada en processos biològics, 2) la identificació de paràmetres considerables per descriure processos estocàstics, i 3) l'extracció de la forma funcional de les múltiples forces presents a sistemes de partícules. Per tractar cadascun dels problemes, desenvolupem un model d'aprenentatge automàtic específic dissenyat per extreure informació significativa a partir de trajectòries, i ho avaluem rigorosament en una sèrie de sistemes simulats amb dinàmiques conegudes. El primer mètode, KISTEP, prediu propietats de difusió anòmala a cada pas de temps, per segments de la trajectòria i en el conjunt de trajectòries, cosa que permet una anàlisi detallada a cada nivell a partir de trajectòries individuals. Amb aquest mètode, hem participat en l'AnDi Challenge 2, una competició científica per comparar mètodes computacionals dedicats a caracteritzar trajectòries de Moviment Brownià (MB) fraccional que s'assemblen a fenòmens biològics observats en experiments com l'endocitosi cel·lular o la immobilització de proteïnes. El segon mètode, SPIVAE, ajuda a identificar la mínima representació de processos estocàstics gràcies al fet que és un model no supervisat, interpretable i generatiu. A més, és capaç de generar noves trajectòries que reprodueixen les característiques apreses del procés. L'anàlisi realitzada amb SPIVAE ha revelat els paràmetres esperats de l'MB, el MB fraccionari i el MB confinat, mentre que aquest ha après una combinació no lineal en el cas de l'MB escalat. El tercer mètode, FISGAE, utilitza una xarxa neuronal de grafs per inferir de manera no supervisada la forma funcional de les forces que actuen entre partícules. FISGAE ha après amb èxit les forces entre 21 partícules interactuant amb forces lineals no recíproques, mentre que a l'escenari més complex d'un gas de Lennard-Jones ha après bé la força a distàncies curtes. En conclusió, aquesta investigació proporciona mètodes per facilitar l'anàlisi de sistemes de partícules directament des de les seves trajectòries, fet que permet obtenir informació que altrament no estaria disponible. Els mètodes proposats tenen el potencial de beneficiar tant els investigadors experimentals com els teòrics, i fins i tot, els desenvolupadors d'intel·ligència artificial, en fer possible una comprensió més completa dels sistemes complexos. A més, els mètodes desenvolupats estan preparats per a futures millores, que es podrien aconseguir mitjançant la integració d'arquitectures més sofisticades, aplanant així el camí per a aplicacions encara més avançades i descobriments.
(Español) Entender cómo funciona un sistema complejo a partir de sus componentes, como la invasión de un virus en una célula o la agregación de partículas en un líquido, es una cuestión primordial en el estudio de la naturaleza que proporciona grandes beneficios a nivel biológico. Para resolverla es interesante observar el camino que recorren los componentes de un sistema, pues este posee información valiosa que nos sirve para caracterizarlos y comprender cómo interaccionan entre ellos. Los avances de la última década en el campo del aprendizaje automático (machine learning) ofrecen una herramienta numérica prometedora, ya que permiten la extracción automática de características y relaciones relevantes, al tiempo que predicen el comportamiento del sistema. En esta tesis, nos enfocamos en el análisis de trayectorias de partículas observadas en sistemas complejos, abordando dos aspectos fundamentales: el comportamiento individual aleatorio y, por tanto, difícil de caracterizar, como ocurre en los pulmones, dónde al respirar metemos aire y el oxígeno se difunde hacia los capilares de los alveolos; y el comportamiento debido a múltiples formas de interactuar, desconocidas en algunos casos, como el de una gran bandada de pájaros migrando en conjunto. En particular, consideramos tres problemas: 1) la estimación precisa de parámetros que caracterizan la difusión anómala observada en procesos biológicos, 2) la identificación de parámetros considerables para describir procesos estocásticos, y 3) la extracción de la forma funcional de las múltiples fuerzas presentes en sistemas de partículas. Para abordar cada uno de los problemas, desarrollamos un modelo de aprendizaje automático específico diseñado para extraer información significativa a partir de trayectorias, y lo evaluamos rigurosamente en una serie de sistemas simulados con dinámicas conocidas. El primer método, KISTEP, predice propiedades de difusión anómala a cada instante de tiempo, por segmentos de la trayectoria y en el conjunto de trayectorias, facultando un análisis detallado en cada nivel a partir de trayectorias individuales. Con este método hemos participado en el AnDi Challenge 2, una competición científica para comparar métodos computacionales dedicados a caracterizar trayectorias de Movimiento Browniano (MB) fraccional que se asemejan a fenómenos biológicos observados en experimentos como la endocitosis celular o la inmovilización de proteínas. El segundo método, SPIVAE, ayuda a identificar la mínima representación de procesos estocásticos gracias a que es un modelo no supervisado, interpretable y generativo. Además, es capaz de generar nuevas trayectorias que reproducen las características aprendidas del proceso. El análisis realizado con SPIVAE ha revelado los parámetros esperados del MB, el MB fraccionario y el MB confinado, mientras que este ha aprendido una combinación no lineal en el caso del MB escalado. El tercer método, FISGAE, emplea una red neuronal de grafos para inferir de forma no supervisada la forma funcional de las fuerzas que actúan entre partículas. FISGAE ha aprendido con éxito las fuerzas entre 21 partículas interactuando con fuerzas lineales no recíprocas, mientras que en el escenario más complejo de un gas de Lennard-Jones ha aprendido bien la fuerza a distancias cortas. En conclusión, esta investigación proporciona métodos para facilitar el análisis de sistemas de partículas directamente desde sus trayectorias, lo que posibilita obtener información que de otro modo no estaría disponible. Los métodos propuestos tienen el potencial de beneficiar tanto a los investigadores experimentales como a los teóricos, e incluso a los desarrolladores de inteligencia artificial, al procurar una comprensión más completa de los sistemas complejos. Además, los métodos desarrollados están preparados para futuras mejoras, que podrían lograrse mediante la integración de arquitecturas más sofisticadas, allanando así el camino para aplicaciones aún más avanzadas.
Keywords
Unsupervised; Machine Learning; Variational Autoencoder; Feature Learning; Representation Learning; Autoregressive Model; Data Analysis; Knowledge Discovery; Interpretability; Biophysics; Anomalous Diffusion; Single Trajectory Characterization; Time Series; Stochastic Model; Brownian Motion; Fractional Brownian Motion; Scaled Brownian Motion; Confined Brownian Motion; Graph Neural Network; Lennard-Jones; Non-reciprocal Force
Subjects
621.3 - Enginyeria elèctrica. Electrotècnia. Telecomunicacions; 004 - Informàtica; 577 - Bioquímica. Biologia molecular. Biofísica
Knowledge Area
Àrees temàtiques de la UPC::Enginyeria de la telecomunicació; Àrees temàtiques de la UPC::Informàtica



