Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
Programa de doctorat en Tecnologies de la Informació i les Comunicacions
Sampling, as a musical or synthesis technique, is a way to reuse recorded musical expressions. In this dissertation, several ways to expand sampling synthesis are explored, especially mosaicing synthesis, which imitates target signals by transforming and compositing source sounds, in the manner of a mosaic made of broken tile. One branch of extension consists of the automatic control of sound transformations towards targets defined in a perceptual space. The approach chosen uses models that predict how the input sound will be transformed as a function of the selected parameters. In one setting, the models are known, and numerical search can be used to find sufficient parameters; in the other, they are unknown and must be learned from data. Another branch focuses on the sampling itself. By mixing multiple sounds at once, perhaps it is possible to make better imitations, e.g. in terms of the harmony of the target. However, using mixtures leads to new computational problems, especially if properties like continuity, important to high quality sampling synthesis, are to be preserved. A new mosaicing synthesizer is presented which incorporates all of these elements: supporting automatic control of sound transformations using models, mixtures supported by perceptually relevant harmony and timbre descriptors, and preservation of continuity of the sampling context and transformation parameters. Using listening tests, the proposed hybrid algorithm was compared against classic and contemporary algorithms, and the hybrid algorithm performed well on a variety of quality measures.
El mostreig, com a tècnica musical o de síntesi, és una manera de reutilitzar expressions musicals enregistrades. En aquesta dissertació s’exploren estratègies d’ampliar la síntesi de mostreig, sobretot la síntesi de “mosaicing”. Aquesta última tracta d’imitar un senyal objectiu a partir d’un conjunt de senyals font, transformant i ordenant aquests senyals en el temps, de la mateixa manera que es faria un mosaic amb rajoles trencades. Una d’aquestes ampliacions de síntesi consisteix en el control automàtic de transformacions de so cap a objectius definits a l’espai perceptiu. L’estratègia elegida utilitza models que prediuen com es transformarà el so d’entrada en funció d’uns paràmetres seleccionats. En un cas, els models són coneguts, i cerques númeriques es poden fer servir per trobar paràmetres suficients; en l’altre, els models són desconeguts i s’han d’aprendre a partir de les dades. Una altra ampliació es centra en el mostreig en si. Mesclant múltiples sons a la vegada, potser és possible fer millors imitacions, més específicament millorar l’harmonia del resultat, entre d’altres. Tot i així, utilitzar múltiples mescles crea nous problemes computacionals, especialment si propietats com la continuïtat, important per a la síntesis de mostreig d’alta qualitat, han de ser preservades. En aquesta tesi es presenta un nou sintetitzador mosaicing que incorpora tots aquests elements: control automàtic de transformacions de so fent servir models, mescles a partir de descriptors d’harmonia i timbre perceptuals, i preservació de la continuïtat del context de mostreig i dels paràmetres de transformació. Fent servir proves d’escolta, l’algorisme híbrid proposat va ser comparat amb algorismes clàssics i contemporanis: l’algorisme híbrid va donar resultats positius a una varietat de mesures de qualitat.
Sampling synthesis; Mosaicing; Concatenative sound synthesis; Sparse approximation; Sound transformations; Sound effects; Curse of dimensionality; Sound texture transfer; Machine learning; Nonlinear regression; Subjective evaluation of audio; Listening tests; Structured sparsity; Síntesi de mostreig; Síntesi concatenativa de so; Aproximació escassa; Transformacions de so; Efectes de so; Maledicció de la dimensionalitat; Transferencia de textura de so; Aprenentatge automàtic; Regressió no lineal; Evaluació subjectiva de l’audio; Proves d’escolta; Escassetat estructurada
62 - Ingeniería. Tecnología