Machine learning and deep neural networks approach to modelling musical gestures

dc.contributor
Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
dc.contributor.author
Cabrera Dalmazzo, David
dc.date.accessioned
2021-01-18T11:45:29Z
dc.date.available
2021-05-31T01:00:15Z
dc.date.issued
2020-12-02
dc.identifier.uri
http://hdl.handle.net/10803/670399
dc.description.abstract
Gestures can be defined as a form of non-verbal communication associated with an intention or an emotional state articulation. They are not only intrinsically part of the human language, but also explain specific details of a body-knowledge execution. Gestures are being studied not only in the language research field but also in dance, sports, rehabilitation, and music; where the term is understood as a “learned technique of the body”. Therefore, in music education, gestures are assumed as automatic-motor abilities learned by repetitional practice, to self-teach and fine-tune the motor actions optimally. Hence, those gestures are intended to be part of the performer’s technical repertoire to take fast actions/decisions on-the flight, assuming that they are not only relevant in music expressive capabilities but also, a method for a correct ‘energy-consumption’ habit development to avoid injuries. In this thesis, we applied state-of-the-art machine learning (ML) techniques to model violin bowing gestures in professional players. Concretely, we recorded a database of expert performers and different student levels and developed three strategies to classify and recognise those gestures in real-time: a) First, we developed a multimodal synchronisation system to record audio, video and IMU sensor data with a unified time reference. We programmed a custom C++ application to visualise the output from the ML models. We implemented a Hidden Markov Model to detect fingering disposition and bow-stroke gesture performance. b) A second approach is a system that extracts general time features from the gestures samples, creating a dataset of audio and motion data from expert performers implementing a Deep Neural Networks algorithm. To do so, we have implemented the hybrid model CNN LSTM architecture. c) Furthermore, a Melspectrogram based analysis that can read and extract patterns from only audio data, opening the option of recognising relevant information from the audio recordings without the need for external sensors to achieve similar results. All of these techniques are complementary and also incorporated into an education application as a computer assistant to enhance music-learners practice by providing useful real-time feedback. The application will be tested in a professional education institution.
en_US
dc.description.abstract
Els gestos es poden definir com una forma de comunicació no verbal associada a una intenció o a l’articulació d’un estat emocional. No només formen part intrínsecament del llenguatge humà, sinó que també expliquen detalls específics de l’execució del coneixement del cos. Els gestos són objecte d’estudi no només en el camp de la recerca lingüística, sinó també en la dansa, l’esport, la rehabilitació i la música; on el terme s’entén com a “tècnica apresa del cos”. Per tant, en l’educació musical, els gestos s’assumeixen com a habilitats automomotrius apreses mitjançant la pràctica repetitiva, per aprendre i ajustar les accions motrius de manera ptima. En conseqüència, aquests gestos estan destinats a formar part del repertori tècnic de l’intèrpret per prendre accions/decisions ràpides en temps real durant la interpretació, suposant que no només són rellevants en les capacitats expressives de la música, sinó que també ho són com a mètode per a un correcte desenvolupament d’hàbits (“çonsum d’energia”) per evitar lesions. En aquesta tesi, hem aplicat tècniques de Machine Learning (ML) d’última generació per modelar els gestos de proa de violí en músics professionals. Concretament, hem enregistrat una base de dades d’intèrprets experts i d’estudiants de diferents nivells i hem desenvolupat tres estratègies per classificar i reconèixer aquests gestos en temps real: a) Primer, hem desenvolupar un sistema de sincronització multimodal per enregistrar dades de sensors d’àudio, vídeo i IMU amb una referència de tamps unificada. Hem programat una aplicació C++ per visualitzar els resultats dels models ML. Hem implementat un Hidden Markov Model per detectar la disposició dels dits i la realització de gestos de l’arc. b) Un segon enfocament aplicatés un sistema que extreu les característiques generals de les seqüències de dades de les mostres de gestos, creant un conjunt de dades d’àudio i de dades de moviment d’intèrprets experts implementant un algoritme de Deep Neural Networks. Per fer-ho, hem aplicat el model híbrid d’arquitectura CNN-LSTM. c) A més, s’ha fet una anàlisi basada en l’espectrograma Mel que pot llegir i extreure patrons només de dades d’àudio, obrint l’opció de reconèixer informació rellevant dels enregistraments d’àudio sense necessitat de sensors externs per obtenir resultats similars. Totes aquestes tècniques són complementàries i s’han incorporat a una aplicació d’educació com a assistent d’ordinador per millorar la pràctica dels aprenents de música proporcionant comentaris útils en temps real. Aquesta aplicació serà provada en una institució d’educació professional.
en_US
dc.description.abstract
Los gestos pueden definirse como una forma de comunicación no verbal asociada con una intención o una articulación del estado emocional. No solo forman parte intrínsec del lenguaje humano, sino que también explican detalles específicos de la ejecución del conocimiento corporal. Los gestos se están estudiando no solo en el campo de la investigación del lenguaje, sino también en danza, deportes, rehabilitación y música; donde el término se entiende como una “técnica aprendida del cuerpo”. Por tanto, en la educación musical, los gestos se asumen como habilidades motoras automáticas aprendidas mediante la práctica repetitiva, para aprender y afinar las acciones motoras de forma óptima. Por lo tanto, esos gestos están destinados a ser parte del repertorio técnico del intérprete para tomar acciones/decisiones rápidas en tiempo real, asumiendo que no solo son relevantes en las capacidades expresivas de la música sino también, como un método para desarrollar hábitos correctos de 'consumo de energía’ para evitar lesiones. En esta tesis, aplicamos técnicas de Machine Learning (ML) de última generación para modelar los gestos de arco de violín en interpretes profesionales. Concretamente, creamos una base de datos con músicos expertos y también con diferentes niveles de estudiantes, desarrollando tres estrategias para clasificar y reconocer esos gestos en tiempo real: a) Primero, desarrollamos un sistema de sincronización multimodal para grabar audio, video y datos de sensores IMU con una referencia de tiempo unificada. Programamos una aplicación C++ personalizada para visualizar el resultado de los modelos ML. Implementamos un Hidden Markov Model para detectar la disposición de los dedos y la ejecución del gestos del arco. b) Desarrollamos un sistema que extrae características de tiempo generales en todas las muestras de gestos, creando un conjunto de datos de audio y datos de movimiento de músicos expertos implementando un algoritmo Deep neural Networks; particularmente, el modelo híbrido CNN-LSTM. c) Además, un análisis basado en espectrograma Mel que puede leer y extraer patrones únicamente usando datos de audio, abriendo la opción de reconocer información relevante usando las grabaciones de audio sin la necesidad de sensores externos para lograr resultados similares. Todas estas técnicas son complementarias y también se incorporan en una aplicación educativa como asistente computacional para mejorar la práctica de los estudiantes de música, al proporcionar información útil en tiempo real. La aplicación se probará en una institución de educación profesional.
en_US
dc.format.extent
220 p.
en_US
dc.format.mimetype
application/pdf
dc.language.iso
eng
en_US
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/
dc.rights.uri
http://creativecommons.org/licenses/by-nc-sa/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Music education
en_US
dc.subject
Machine learning
en_US
dc.subject
Deep neural networks
en_US
dc.subject
Gesture detection
en_US
dc.subject
Bow-strokes
en_US
dc.subject
Data visualisation
en_US
dc.subject
Educació musical
en_US
dc.subject
Detecció de gestos
en_US
dc.subject
Cops d’arc
en_US
dc.subject
Visualització de dades
en_US
dc.subject
Educación musical
en_US
dc.subject
Detección de gestos
en_US
dc.subject
Movimientos de arco
en_US
dc.subject
Visualización de datos
en_US
dc.title
Machine learning and deep neural networks approach to modelling musical gestures
en_US
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
62
en_US
dc.contributor.authoremail
david.cabrera@upf.edu
en_US
dc.contributor.director
Ramírez, Rafael
dc.embargo.terms
6 mesos
en_US
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Programa de doctorat en Tecnologies de la Informació i les Comunicacions


Documents

tdcd.pdf

33.71Mb PDF

This item appears in the following Collection(s)