Reconnaissance Robuste du Locuteur sur des Signaux GSM.pdf

Reconnaissance Robuste du Locuteur sur des Signaux GSM.pdf

L'objectif d'un système de reconnaissance biométrique est l'authentification des individus sur la base de caractéristiques physiques ou comportementales propres. La Reconnaissance Automatique du Locuteur (RAL) est un processus d'authentification biométrique, elle consiste à reconnaître l’identité d’un individu à partir de sa voix (Campbell. J.P, et al, 2009). La voix humaine présente des caractéristiques individuelles qui peuvent être utilisées pour identifier le locuteur. Les individus ont généralement des voix distinctes en raison de la forme unique de leur appareil vocal, de la taille de leur larynx et d’autres propriétés physiologiques du système de production de la parole. Chaque locuteur a sa propre manière de parler, son rythme, son style d'intonation, ses habitudes de prononciation, la langue et le vocabulaire.
Les applications des systèmes de RAL se distinguent par leur contexte applicatif et leur niveau de sécurité. L’application téléphonique (téléphonie mobile), pour des services à distance est intéressante car la reconnaissance automatique du locuteur est l’unique accès biométrique offrant cette alternative. De plus, elle propose des services dans divers domaines entre autres la validation des transactions bancaires (pour venir en complément d’un code d’accès confidentiel et améliorer ainsi le service bancaire) (Kinnunen.T, et al, 2010). Ces systèmes impliquent une architecture client- serveur dans le réseau mobile, pour laquelle le serveur contient les informations, et le client sélectionne la parole qui est transmise au serveur sous une forme appropriée.
Le système RAL procède généralement en trois étapes : l'étape d'extraction des paramètres, celle de la modélisation du locuteur et la dernière celle de la décision (Hansen. J.H.L et T. Hasan, 2015). Les paramètres sont regroupées dans différentes catégories : paramètres acoustiques spectraux, sources vocales, indices acoustiques et prosodiques (fréquence fondamentale, intensité). Dans la partie modélisation du locuteur, la majorité des systèmes RAL utilisent l'approche de mélange de Gaussiennes (GMM : Gaussian Mixture Model) et celle des machines à vecteurs de support (SVM : Support Vector Machine). Actuellement, l'approche de i-vecteur et l’analyse discriminante linéaire probabiliste (PLDA : Probabilistic Linear Discriminant Analysis) sont aussi utilisées.

Objet de la thèse

La différence entre les conditions de test et les conditions d'apprentissage est un grand défi auquel est actuellement confrontée la recherche dans le domaine de la reconnaissance du locuteur. La mise en œuvre de méthodes de reconnaissance du locuteur robustes vise à atténuer ces facteurs en modélisant efficacement la parole dans différentes conditions d'enregistrement, de manière à ce qu'il puisse intégrer la variabilité inter-locuteurs et intra-locuteur.
Dans ce cadre, l’objet de cette thèse est de rendre les systèmes de reconnaissance du locuteur plus robustes aux facteurs dégradants liés à l'environnement mobile. Les défis importants à surmonter sont le bruit d'environnement ainsi que le bruit dû au canal de transmission. Un grand effort a été accompli jusqu'à présent par la communauté des chercheurs en RAL dans la conception de techniques à même de fonctionner dans les conditions réelles. Ces techniques sont opérées sur différents niveaux du système de RAL : paramètres acoustiques, modèles du locuteur et décisions. Dans notre travail, nous nous intéressons en particulier à la phase d'extraction des paramètres.
On retrouve dans la littérature plusieurs techniques d'extraction des paramètres permettant d'améliorer la robustesse des systèmes de RAL dans les conditions réelles, tels que les coefficients GFCC (Gammatone Frequency Cepstral Coefficients), les coefficients PNCC (Power Normalized Cepstral Coefficient) et les coefficients MHEC (Mean Hilbert Envelope Coefficient) (Shao.Y, et al, 2008;Kim.C, et al, 2012;Sadjadi, S. O, et al, 2015).

Reconnaissance Robuste du Locuteur sur des Signaux GSM


L'estimation de l’enveloppe spectrale du signal de parole pour la reconnaissance du locuteur est généralement basée sur la modification des principes de calcul des paramètres MFCC (Mel FrquencyCepstral Coefficients). Cette estimation du spectre peut être classée en deux méthodes, la méthode de prédiction linéaire (LP : Linear Prediction) et la méthode des fenêtres multiples.
La prédiction linéaire et ses variantes est la méthode la plus largement utilisée pour modéliser la parole, nous pouvons citer la prédiction linéaire pondérée (WLP: Weighted Linear Prediction), la prédiction linéaire pondérée stabilisée (SWLP: Stabilized Weighted Linear Prediction), la régularisation de la prédiction linéaire (RLP : Regularization of LinearPrediction) et la prédiction linéaire de mélange de gaussiennes (MLP: Mixture Linear Prediction) (Hanilçi, C, et al, 2012; Pohjalainen, J, et al, 2014). La méthode des fenêtres multiples est connue sous le nom de l’estimation multi-taper du spectre (Kinnunen.T, et al, 2012). Dans le processus d'estimation spectrale multi-taper, des fenêtres orthogonales sont appliquées au signal de parole de courte durée afin de réduire la variance spectrale. Divers techniques des fenêtres multiples sont proposées dans la littérature pour l'estimation du spectre, nous pouvons citer l’estimateur sinusoïdal pondéré de cepstre (SWCE : Sinusoidal Weighted Cepstrum Estimator) (Hansson.S.M, et Sandberg.J, 2009), l'estimateur multi tapers de Thomson (ThomsonD. J, 1982), et l'estimateur multi-peak (Hansson.S.M et G. Salomonsson, 1997).
Les coefficients MFCC sont généralement considérés comme un standard en reconnaissance du locuteur. Bien que ces paramètres sont calculés à partir d'une estimation de spectre par périodo- gramme à fenêtre de Hamming, qui possède une grande variance. La méthode multi-taper a été largement utilisée dans des applications de géo-physiques. Elle a également été utilisée dans des applications d'amélioration de la parole (Hu.Y et al, 2004)et récemment en reconnaissance du locuteur avec des résultats préliminaires prometteurs (Kinnunen. T et al, 2012 ; Sandberg. J et al, 2010; Alam. M. J et al, 2013). D'autres techniques ont été utilisées pour extraire des paramètres basés sur la transformée de Fourier à court temps (STFT : Short-Time Fourier Transform) en analysant le signal par trame. La STFT d'un signal de parole a deux composantes : le spectre d'amplitude et le spectre de phase. La plupart des méthodes de traitement de la parole utilisent l'amplitude temporelle et ignore le spectre de phase bien que la phase contient des informations importantes et joue un rôle important dans la perception humaine. D'autre part, le spectre de phase représente mieux les résonances du conduit vocal que celui de l'amplitude.
Diverses méthodes disponibles dans la littérature pour le spectre de phase ont été proposées telles que: le spectre de retard de groupe (GDS : Group Delay Spectrum), retard de groupe modifié (MOGD : Modified Group Delay), spectre de produit (PS : Product Spectrum) et retard de groupe du chirp (CGD: Chirp Group Delay) (Hegde RM, et al, 2007; Zhu.D et Paliwal. K, 2004 ; Bozkurt. B, L, et al, 2007). L'idée de délai de groupe de phase zéro (ZPGD : Zero Phase Group Delay) a été proposée pour réduire les effets des pics indésirables dans le spectre de la fonction de retard de groupe (GDS) (Murthy, H.A et Yegnanarayana, B, 1991). Cependant, ces techniques d’estimation du spectre de retard de groupe ont une variance plus grande que celle du spectre de l'amplitude. Il a été montré dans (Narendra.K, et al, 2018) que la fonction de retard de groupe modifiée multi-taper (MT- MOGDF: Multitaper Modified Group Delay Function) donne une meilleure représentation et une faible variance du spectre de la parole par rapport aux spectres de amplitude multi-taper des signaux de parole.
Dans cette thèse plusieurs techniques de paramétrisation ont été mise en œuvre. La première technique de paramétrisation mise en œuvre est appelée le MGHECs (Multi-taper Gammatone Hilbert Envelope Coefficients), cette technique est fondée sur l’enveloppe d’Hilbert et l'estimation du spectre d'amplitude avec des fenêtres multiples (Thomson, multi-peak et SWCE). La deuxième technique miseen œuvre est appelée le MCGDZPHECs (Multi-taper Chirp Group Delay Zeros-Phase Hilbert Envelope Coeficients), elle est basée sur le retard du groupe du chirp et l'estimation du spectre de phase avec des fenêtres multiples. Une autre technique, le MLPGCCs (Mixture Linear Prediction Gammatone Cepstral Coefficients) a été mise en œuvre, elle est fondée sur l'analyse prédictive linéaire du signal en utilisant la ré-estimation itérative des paramètres d'un modèle autorégressif à mélange de gaussiennes. Nous avons également utilisé le paradigme de la variabilité totale (i-vecteur) et l’analyse discriminante linéaire probabiliste gaussien (GPLDA : Gaussian Probabilistic Linear Discriminant Analysis). Ce type de représentation s’appuie sur la modélisation du locuteur de type discriminatif à caractère probabiliste visant à minimiser la variabilité intra-locuteur et maximiser la variabilité inter-locuteurs.

Structure de la thèse

Cette thèse est structurée en quatre chapitres. Après une introduction générale, nous décrirons dans le premier chapitre, les différentes tâches applicatives de la RAL ainsi que le schéma principal du système de RAL. Les étapes de paramétrisation du signal, les différentes approches de modélisation du locuteur et les méthodes d’évaluation des performances des systèmes de RAL terminent ce chapitre.
Dans le deuxième chapitre sont abordés les problèmes liés à la reconnaissance du locuteur via le réseau de communication mobile. Nous présenterons le système général de reconnaissance vocale via les réseaux mobiles et internet ainsi que de différentes techniques de codage de la parole qui sont le codage temporel, le codage paramétrique et le codage hybride (Jordan, R, et al, 2002). Nous donnerons aussi les facteurs de dégradation de la performance du système de reconnaissance du locuteur via le réseau mobile. Nous terminerons le chapitre par une description des différentes architectures du système de reconnaissance du locuteur dans le réseau mobile.
Le troisième chapitre est consacré à l'espace d’i-vecteur et à l'approche de modélisation du locuteur GPLDA mise en œuvre. Dans ce chapitre seront décrits : les outils théoriques mathématiques utilisés dans l'espace des i-vecteurs, le modèle génératif GMM-UBM et les différentes techniques de compensation de la variabilité du canal. Nous terminerons ce chapitre par une description mathématique de l’approche de modélisation G-PLDA basée sur la distribution gaussienne.
Dans le quatrième chapitre, nous présentons les nouvelles techniques de parametrisation proposées à savoir la MGHECs, MCGDZHECs et MPLGCCs ainsi que les expériences réalisées dans le cas de la prise en compte du canal de transmission et de l’environnement mobile bruité.
Enfin, nous terminons par une conclusion générale dans laquelle nous donnerons quelques perspectives de recherche dans ce domaine


Téléchargez la thèse complète au format pdf Cliquez sur le lien de téléchargement ci-dessous

lien de téléchargement: Reconnaissance Robuste du Locuteur sur des Signaux GSM.pdf


إرسال تعليق

0 تعليقات