Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
DOCTORAT EN TEORIA DEL SENYAL I COMUNICACIONS (Pla 2013)
(English) The first part of this thesis is based on the use of attention models for speaker verification. SOTA systems for this task are based on speaker embedding extractors. These architectures are comprised by combinations of DL topologies which are trained as speaker classifiers but used to extract low-dimensional and discriminative speaker representations. These speaker embedding extractors are commonly composed by a Deep Neural Network (DNN) based feature extractor, a pooling stage and a final Fully Connected (FC) block. In this thesis we will focus on the pooling block, which aims to map sequences of temporal features onto non temporal low-dimensional vectors. This mapping was initially proposed as a straight-forward statistical method, which extracted the mean or both then mean and the standard deviation. On the other hand, attention models have been one of the most used topologies in fields like Natural Language Processing (NLP) or Computer Vision (CV). Given an input, these topologies allow selecting the most discriminative sections of that input according to the task to be solved. For the pooling stage this implies using attention models to select which are the most relevant regions in the signal to extract speaker traits for the embedding creation. In this part of the thesis we will explore different attention methods or the pooling stage. Multi-Head Attention (MHA) will be explored firstly, which will allow to efficiently extract different sets of features from different regions of the data. Our experiments will demonstrate how this method outperforms both temporal and vanilla attention poolings. Secondly, we will present Double MHA pooling model, which is a MHA extension less sensible to some hyper-parameters than the previous one. The results shown will indicate that Double MHA is a more discriminative and less sensitive pooling method than MHA and vanilla attention. The second part of this thesis aims to combine different domain inputs for speaker diarization. In some scenarios it is known that some linguistic patterns could be used to distinguish the identities of the speakers. In fact, some scenarios, such as dialogues between operator and customer in Call-Centers have clear speaker linguistic patterns. SOTA methods for these scenarios commonly only use acoustic features, without using the speaker information that linguistic content could add. The research in NLP with DL has increased a lot during the last years. Currently words can be numerically represented as embeddings through DL methods like word2vec. These word representations are straight-forward to combine with acoustic features, which has motivated the fusion of these domains for multimodal tasks. Therefore, in this part of the thesis we will explore the combination of acoustic and linguistic features for speaker diarization. We will use a Long Short-Term Memory (LSTM) based architecture with character-based word embeddings, which will be used in two different cases. In the first case, this architecture will be used by combining i-vectors or speaker factors with word embeddings to detect speaker change turns. Both i-vectors and speaker factors will be compared to a baseline algorithm that uses cosine distance to detect speaker turn changes. The proposed architecture with both linguistic and acoustic features will demonstrate that it is capable of producing a robust speaker segmentation, outperforming the proposed baseline. In the the second case, the presented architecture will be used as part of a speaker diarization pipeline for telephone interviews. The proposed system will be based on an iterative algorithm where the LSTM network is used as a speaker classifier. The network will be fed with character-level word embeddings and acoustics score created with the output labels from previous iterations. The results of this study will confirm that linguistic content can be efficiently combined with acoustic features for this task.
(Español) La primera parte de esta tesis se centra en el uso de modelos de atención para verificación de locutor. En el estado del arte actual esta tarea se resuelve mediante métodos basados en extractores de vectores de locutor. Estas arquitecturas están formadas por combinaciones de redes neuronales que se entrenan como clasificadores de locutor pero se usan para extraer vectores de locutor. Estos extractores de representaciones de locutor suelen estar compuestos por un extractor de características basado en DNNs, una etapa de agrupación y un bloque final de clasificación. En esta tesis nos centraremos en el bloque de agrupación, que tiene como objetivo mapear secuencias de características temporales en vectores no temporales de baja dimensión. Este mapeo se propuso inicialmente como un método estadístico sencillo, el cual usaba la media o la combinación de la media y la desviación típica. Por otro lado, los modelos de atención han sido una de las topologías más utilizadas en campos como CV o NLP. Dado un vector o una matriz de entrada, estas topologías permiten seleccionar las secciones más discriminativas de esa entrada según la tarea a resolver. Para la etapa de agrupación, esto implica usar modelos de atención para seleccionar cuáles son las regiones más relevantes en la señal. En esta parte de la tesis exploraremos diferentes métodos de atención para la etapa de agrupación. El método MHA se explorará en primer lugar, lo que permitirá extraer de manera eficiente diferentes conjuntos de características de diferentes regiones de los datos de entrada. Nuestros experimentos demostrarán cómo este método supera los métodos estadísticos y de atención estándar. En segundo lugar, presentaremos el modelo Double MHA, el cual es una extensión de MHA pero menos sensible a algunos hiperparámetros que el método MHA. Los resultados mostrados indicarán que Double MHA es un método de agrupación más discriminativo y menos sensible que el método MHA. La segunda parte de esta tesis tiene como objetivo combinar entradas de diferentes dominios para la diarización de locutor. En algunos escenarios se conoce que algunos patrones lingüísticos podrían usarse para distinguir las identidades de los hablantes. Los métodos actuales para estos escenarios comúnmente solo usan características acústicas. Por otra parte, la investigación en NLP con métodos de aprendizaje profundo ha aumentado mucho durante los últimos años. Actualmente, las palabras se pueden representar numéricamente como vectores a través de métodos como el word2vec. Estas representaciones de palabras son sencillas de combinar con características acústicas, lo que ha motivado la fusión de estos dominios para tareas multimodales. Por lo tanto, en esta parte de la tesis exploraremos la combinación de características acústicas y lingüísticas para la diarización de locutor. Usaremos una arquitectura basada en LSTMs con vectores de palabras basadas en caracteres, que se usará en dos casos diferentes. En el primer caso, esta arquitectura se utilizará combinando i-vectors con vectores de palabras para detectar cambios de turno de locutor. Los i-vectors se compararán con un algoritmo de referencia que utiliza la distancia coseno para detectar los cambios de turno. La arquitectura propuesta con características tanto lingüísticas como acústicas demostrará que es capaz de producir una segmentación robusta de robusta de locutor, superando el algoritmo de referencia propuesto. En el segundo caso, la arquitectura presentada se utilizará como parte de un sistema de diarización. El sistema propuesto se basará en un algoritmo iterativo donde se utilizará la red LSTM como clasificador de locutores. La red se alimentará con un vector de palabras a nivel de caracteres y una probabilidad acústica creada con las las etiquetas de salida de las iteraciones anteriores. Los resultados confirmarán que el contenido lingüístico se puede combinar de manera eficiente con las características acústicas para esta tarea.
621.3 - Enginyeria elèctrica. Electrotècnia. Telecomunicacions; 004 - Informàtica
Àrees temàtiques de la UPC::Enginyeria de la telecomunicació; Àrees temàtiques de la UPC::Informàtica
ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.