Unsupervised and attention approaches for deep learning speaker recognition

Author

Safari, Pooyan

Director

Hernando Pericás, Francisco Javier

Date of defense

2023-05-19

Pages

95 p.



Department/Institute

Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions

Doctorate programs

DOCTORAT EN TEORIA DEL SENYAL I COMUNICACIONS (Pla 2013)

Abstract

(English) The thesis presents various contributions to the field of speaker recognition. In the first part of the thesis, the focus is on unsupervised methods for speaker recognition. This includes a method that uses Deep Belief Networks (DBN) that is capable of handling a large number of impostor samples. Since the number of samples for each destination speaker is different, the training process is challenging, but we successfully overcome this hurdle using unsupervised learning to train a universal DBN (UDBN) and then adapting it to data for each target speaker. In the same direction, we present a new framework for speaker recognition based on Restricted Boltzmann Machines (RBM). The proposed solution, named RBM-vector, maps the spectral characteristics of the speaker to a single fixed-dimensional vector carrying the speaker-specific information. The framework uses the unsupervised learning capability of RBM to train a global model called Universal RBM (URBM), which is then fitted to the data for each speaker in the development, enrollment, and evaluation datasets. The adapted RBMs are concatenated, subject to dimension reduction, and whitened to generate speaker vectors. Evaluation on the NIST SRE 2006 database shows that RBM vectors outperform i-vectors in terms of EER by 15% using cosine scoring. Score fusion with i-vectors produces a relative improvement of more than 24%. The unsupervised nature of the RBM-vector and i-vector approaches make them a useful alternative to the i-vector/PLDA approach in scenarios where no labeled data is available. The focus of the second part of the thesis is on supervised methods for speaker recognition. Our first attempt tried to address the limitations of mobile devices, such as storage, processing power, memory, and power consumption, which have motivated researchers to design more efficient deep learning models. We proposed a new approach called the tandem Self-Attention Encoding and Pooling (SAEP) mechanism, inspired by the self-attention networks of the Transformer architecture. SAEP is a stack of blocks based on self-attention and positional feed-forward networks that create a vector tor representation of speakers from speech utterances of non-fixed length. This approach encodes short-term spectral features into speaker embeddings that can be used in text-independent speaker verification. We tested this approach on VoxCeleb1 and 2 datasets and found that it exceeds the benchmark x-vector and is competitive with some other benchmarks based on convolutions while shrinking the model size significantly. Compared to ResNet-34, ResNet-50 and x-vector, it uses 94%, 95% and 73% fewer parameters, respectively. Recently, it is common to use large self-supervised language models for speech recognition tasks. These models can be fine-tuned for specific tasks like speaker verification. Typically, these models are based on Self-Attention Networks (SANs). To explore the potentials and challenges of using these models for speaker verification, we propose a SAN-based speaker embedding extractor that can create a vector representation of a speaker from speech utterances of non-fixed length. We made some architectural modifications to the SAEP architecture to improve its performance and could achieve a relative improvement of 41% in terms of EER. The role of data augmentation was also studied. We addressed the training instability in these architectures in terms of rank collapse and proposed potential solutions to these shortcomings. The approach was tested on both VoxCeleb1 & 2 datasets.


(Español)) La tesis presenta diversas contribuciones al campo del reconocimiento de locutores. En la primera parte de la tesis, la atención se centra en métodos no supervisados para el reconocimiento de hablantes. Se presenta un método que usa Deep Belief Networks (DBN) que es capaz de manejar una gran cantidad de muestras de impostores. Dado que la cantidad de muestras por hablante es diferente, el proceso de entrenamiento presenta dificultades, pero superamos con éxito este obstáculo mediante el aprendizaje no supervisado para entrenar un DBN universal (UDBN) y luego lo adaptamos a los datos de cada hablante. En la misma dirección, presentamos un nuevo marco para el reconocimiento de locutores basado en Restricted Boltzmann Machines (RBM). La solución propuesta, denominada vector RBM, asigna las características espectrales del hablante a un solo vector de dimensión fija que modela la información específica del hablante. Este método utiliza la capacidad de aprendizaje no supervisado de RBM para entrenar un modelo global llamado Universal RBM (URBM), que luego se ajusta a los datos de cada hablante en los conjuntos de datos de desarrollo, inscripción y evaluación. Los RBM adaptados se concatenan, se reducen de dimensión y se blanquean para generar vectores de locutores. La evaluación en la base de datos NIST SRE 2006 muestra que los vectores RBM superan a los i-vectors en términos de EER en un 15 % utilizando la distancia coseno. La fusión de puntuaciones con i-vectors produce una mejora relativa de más del 24%. La naturaleza no supervisada de los enfoques vectores RBM y i-vectors los convierte en una alternativa útil al enfoque i-vector/PLDA en escenarios donde no hay datos etiquetados disponibles. La segunda parte de la tesis se centra en los métodos supervisados para el reconocimiento de hablantes. En primer lugar, se trató de abordar las limitaciones de los dispositivos móviles, como el almacenamiento, la potencia de procesamiento, la memoria y el consumo de energía, que han motivado a los investigadores a diseñar modelos de aprendizaje profundo más eficientes. Propusimos un nuevo enfoque que denominamos mecanismo de agrupación y codificación de autoatención en tándem (SAEP), inspirado en las redes de autoatención de la arquitectura Transformer. SAEP es una pila de bloques basada en redes de autoatención y feed-forward posicional que crean un vector para la representación de hablantes a partir de las grabaciones de longitud no fija. Este enfoque codifica características espectrales a corto plazo en los embeddings de los locutores, que se pueden usar en la verificación del hablante independiente del texto. Probamos este enfoque en conjuntos de datos VoxCeleb1 y 2 y descubrimos que supera el x-vector y es competitivo con algunos otros métodos de referencia basados en convoluciones, mientras reduce significativamente el tamaño del modelo. En comparación con ResNet-34, ResNet-50 y x-vector, utiliza un 94 %, un 95 % y un 73 % menos parámetros, respectivamente. Recientemente, es común utilizar grandes modelos de lenguaje autosupervisados para tareas de reconocimiento de voz. Estos modelos se pueden ajustar para tareas específicas como la verificación de locutores. Por lo general, estos modelos se basan en redes de autoatención (SAN). Para explorar el potencial y los desafíos de usar estos modelos para la verificación de hablantes, proponemos un extractor de embeddings de hablantes basado en SAN que puede crear una representación vectorial de un hablante a partir de expresiones de voz de longitud no fija. Hicimos algunas modificaciones a la arquitectura SAEP para mejorar su desempeño y pudimos lograr una mejora relativa del 41% en términos de EER. También se estudió el papel del aumento de datos. Abordamos la inestabilidad del entrenamiento en estas arquitecturas en términos del colapso de rango y propusimos posibles soluciones a estas deficiencias. El enfoque se probó en los conjuntos de datos VoxCeleb1 y 2.

Subjects

621.3 Electrical engineering

Knowledge Area

Àrees temàtiques de la UPC::Enginyeria de la telecomunicació

Documents

TPS1de1.pdf

112.0Mb

 

Rights

ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)