A framework for the analytical and visual interpretation of complex spatiotemporal dynamics in soccer

Author

Fernández de la Rosa, Javier

Director

Bornn, Luke

Codirector

Gavaldà Mestre, Ricard

Date of defense

2022-01-18

Pages

210 p.



Department/Institute

Universitat Politècnica de Catalunya. Departament de Ciències de la Computació

Doctorate programs

Intel·ligència artificial

Abstract

Sports analytics is an emerging field focused on the application of advanced data analysis for assessing the performance of professional athletes and teams. In soccer, the integration of data analysis is in its initial steps, primarily due to the difficulty of making sense of soccer's complex spatiotemporal relationships and effectively translating findings to practitioners. Recently, the availability of spatiotemporal data has given rise to applying statistical approaches to address problems such as estimating passing and scoring probability, or the evaluation of players' mental pressure. However, most of these approaches focus on isolated aspects of the sport, while coaches tend to focus on the broader interplay of all 22 players on the pitch. To address the non-stop flow of questions that coaching staff deal with daily, we identify the need for a flexible analysis framework that allows us to answer these questions quickly, accurately, and in a visually-interpretable way while capturing the complex spatial and contextual factors that rule the game. We propose developing such a comprehensive framework through the concept of the expected possession value (EPV). First introduced in basketball, EPV constitutes an instantaneous estimate of the expected points to be scored at the end of a possession. However, aside from a shared high-level goal, our focus on soccer necessitates a drastically different approach to account for the sport's nuances, such as looser notions of possession, the ability of passes to happen at any location, and space-time dependent turnover evaluation. Following this, we propose modeling EPV in soccer by addressing the question, "can we estimate the expectation of a team scoring or conceding the next goal at any time in the game?" From here, we address a series of derived interrogations, such as how should the EPV expression be structured so coaches can more easily interpret it? Can we produce calibrated and interpretable estimates for each of its components? Can we develop representative and soccer-specific features with the aid of coaches? Is it possible to learn complex features from raw level spatiotemporal data? Finally, and most importantly, can we produce compelling practical applications? These questions are successfully addressed in this thesis, where we present a series of contributions for both the machine learning and soccer analytics fields related to the modeling and practical interpretation of complex spatiotemporal dynamics. We propose a decomposed modeling approach where a series of foundational soccer components can be estimated separately and then merged to provide a single EPV estimation, providing flexibility to this integrated model. From a practical standpoint, we leverage several function approximation approaches to exploit complex relationships in spatiotemporal tracking data. An essential contribution of this work is the proposal of SoccerMap, a flexible deep learning architecture capable of producing accurate and visually-interpretable probability surfaces in a broad range of problems. Based on a large set of spatial and contextual features developed, we model and provide accurate estimates for each of the components of the EPV components. The flexibility and interpretation capabilities of the proposed model allow us to produce a broad set of practical applications related to on-ball performance, off-ball performance, and match analysis in soccer, and open the door for its future adaption to other sports. This thesis was developed under an Industrial Ph.D. program and carried out entirely at Fútbol Club Barcelona, which promoted a close collaboration with professional coaches. As a result, a vast part of the ideas developed in this thesis is now part of the club's daily player and team performance analysis pipeline.


Sports analytics es una área de investigación de gran crecimiento y que se encuentra enfocada en la aplicación de análisis avanzado de datos para la evaluación del rendimiento de equipos y deportistas profesionales. En el fútbol, la integración del análisis de datos se encuentra en una etapa incipiente, principalmente dado la dificultad de evaluar los complejos factores espacio-temporales del juego, y de traducir los hallazgos al lenguaje de los entrenadores. La reciente disponibilidad de datos espacio-temporales ha dado pie a la aplicación de métodos estadísticos para explorar problemas tales como la estimación de la probabilidad de pasar o rematar exitosamente, o la evaluación de la presión mental durante el juego, entre muchos otros. Sin embargo, la mayoría de los estudios hasta la fecha se han enfocado en aspectos aislados del juego, mientras que el análisis de los entrenadores suele tomar una óptica más integral en la que considera la interacción de los 22 jugadores en el campo. En base a todo esto, identificamos la necesidad de contar con un completo sistema (framework) de análisis que permite responder al contínuo flujo de preguntas de los cuerpos técnicos de forma ágil y visualmente interpretable, y que al mismo tiempo permita capturar los complejos fenómenos espaciales y contextuales que rigen al fútbol. Proponemos el desarrollo de este sistema a través del concepto del valor esperado de la posesión (EPV, por sus siglas en inglés). El EPV, que fue introducido inicialmente en el baloncesto, constituye la estimación segundo a segundo de los puntos que se esperan obtener al final de una posesión de balón. Sin embargo, su adaptación al fútbol requiere de un enfoque completamente diferente para poder captar conceptos esenciales tales como que los pases pueden ir a cualquier ubicación en el campo, una definición menos rígida de la posesión de balón, y los efectos de perder el balón de acuerdo al espacio y tiempo en que este ocurre. En base esto, proponemos modelar el EPV enfocándonos en responder la siguiente pregunta ¿podemos estimar la esperanza de que un equipo marque o reciba el próximo gol, en cualquier instante del partido? A partir de aquí, desarrollamos una serie de preguntas derivadas relacionadas con la capacidad de proveer flexibilidad e interpretabilidad a nuestro modelo, así como desarrollar aplicaciones prácticas de forma ágil. Estas interrogantes son desarrolladas con éxito en esta tesis, donde presentamos una serie de contribuciones tanto al área de machine learning como a la de sports analytics. Proponemos un novedoso enfoque en el que se descompone el EPV en una serie de componentes esenciales, que pueden ser estimados de forma separada y luego integrados para producir una estimación única del EPV, dotando de mayor flexibilidad a este modelo integrado. Desde un punto de vista práctico, nos apoyamos en una serie de métodos de aproximación de funciones para sacar provecho de relaciones complejas en datos espacio-temporales de tracking. Derivado de esto, proponemos SoccerMap, una flexible arquitectura de deep learning capaz de producir superficies de probabilidad precisas y visualmente interpretables. Adicionalmente, nos apoyamos en una larga serie de variables espaciales y contextuales, desarrolladas en este trabajo, para modelar y proveer estimaciones acuradas de cada uno de los componentes del EPV. La flexibilidad de este modelo nos permite producir una vasta cantidad de aplicaciones prácticas relacionadas al rendimiento con y sin balón, y al análisis de partidos en fútbol, y marca un camino para su integración en otros deportes. Esta tesis fue desarrollada con el apoyo del Plan de Doctorados Industriales del Departamento de Investigación y Universidades de la Generalitat de Catalunya, y llevado a cabo en el Fútbol Club Barcelona, contando con la colaboración de entrenadores y profesionales del club.

Subjects

004 - Computer science

Knowledge Area

Àrees temàtiques de la UPC::Informàtica

Note

Tesi desenvolupada dins de Pla de Doctorat Industrial de la Generalitat de Catalunya

Documents

TJFdlR1de1.pdf

12.45Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons:  http://creativecommons.org/licenses/by-nc-sa/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/

This item appears in the following Collection(s)