Automatic Cued Speech / LfPC automatisée

La réalité augmentée au service des personnes sourdes

Livrable WP3 - L2 : Analyse des moments de transition de positions

Objectif

Dans le cadre de la création d'un système de génération automatique du codage, la deuxième étape requise consiste à déterminer les moments de transitions à partir de la séquence des clés qui ont été définies à partie des phonèmes prononcés. Ce livrable porte sur l'étude des moments de transition de positions observés dans les annotations du corpus CLeLfPC. Cette étude porte sur le phasage main-sons des clés, c'est-à-dire la désynchronisation entre la position de la main et la réalisation acoustique correspondante.

Pour plus d'information sur les annotations réalisées, voir le livrable WP1 -l3 de ce projet. Pour rappel, les transitions de position des quatre sessions de cinq locutrices ont été annotées manuellement.

Introduction

Ce document fait suite au livrable "WP3 - L1 : Système prédictif des moments de transition de positions", dans lequel les résultats de l'état de l'art sont rapportés, et les modèles de génération automatiques sont décrits.

Ce document ne traite que des positions de la main des clés pour représenter les voyelles ; il ne porte pas sur leurs formes. Il présente les résultats de l'analyse des annotations manuellement réalisées sur le corpus CLeLfPC, décrites dans le livrable WP1 - L3 : Transitions des clés de ce projet.

Dans la suite de ce document, nous utiliserons la terminologie introduite dans les travaux de la thèse (Attina, 2005) :

Dans ce document, nous présentons les distributions statistiques des intervalles A1A3, M1M2, M1A1 et A1M2. Les moyennes de durée (μ), et les écarts-types (σ) indiqués entre parenthèses, que nous avons estimés sur les annotations de CleLfPC, sont indiquées en millisecondes.

Dans la suite de ce document, la lettre 'C' fait mention de la consonne d'une clé, et la lettre 'V' de sa voyelle acoustique. Les clés LfPC ont ainsi des structures acoustiques notées 'C', 'V' ou 'CV'. Enfin, les transitions de la position 's', à côté du visage, vers elle-même ont été exclues lors de l'annotation, donc de cette étude.

Aller directement à la conclusion...

Résultats par rapport à l'état de l'art

Contrairement à Aboutabit (2008), nos données ont été annotées manuellement, à l'instar de la méthodologie employée par Attina (2005), et réalisées par une seule personne suivant une procédure rigoureuse et systématique, garantissant ainsi une grande cohérence dans l'annotation.

En effectuant un filtrage des transitions annotées dans CLeLfPC selon les mêmes critères que ceux employés dans la thèse de N. Aboutabit (2008), nous avons obtenu un sous-ensemble de 248 transitions. Pour rappel, les résultats de N. Aboutabit portaient sur 57 transitions. Les moyennes de durée (μ), et les écarts-types (σ) indiqués entre parenthèses, que nous avons estimés sur ce sous-ensemble sont les suivants :

Nos résultats montrent une forte concordance avec ceux de Aboutabit (2008) en ce qui concerne les moyennes de durée des transitions. Toutefois, il convient de noter que les écarts-types observés dans notre corpus sont significativement plus élevés. Cette augmentation de la variabilité peut s'expliquer par la diversité accrue des données de notre étude : cinq locuteurs différents lisant cinq thèmes distincts et quatre sessions d'enregistrement, ce qui contraste avec le corpus plus homogène des résultats antérieurs.

Un écart particulier est observable pour l'intervalle A1M2, avec un pourcentage de 22,6% relativement proche des 22,98% obtenus par N. Aboutabit, mais supérieur aux valeurs rapportées dans Attina (2005), qui variaient entre 6 et 18% selon les locuteurs.

Par ailleurs, nous observons une variabilité importante de l'intervalle M1A1, ce qui rejoint les tendances déjà relevées dans l'étude de Aboutabit (2008). Cet intervalle semble particulièrement sensible aux variations inter-locuteurs et au contexte linguistique environnant (succession de syllabes simples et complexes). La cohérence entre nos résultats et ceux de Aboutabit (2008) conforte l'idée que M2 constitue un instant clé dans la synchronisation main-son en LfPC, marquant l'instant où la configuration de la main est stabilisée, ce qui est essentiel pour la perception correcte des consonnes.

En conclusion, notre analyse valide en grande partie les observations antérieures tout en mettant en évidence une variabilité accrue due à la richesse de notre corpus.

Distributions des transitions de clés, hors neutre

Résultat global

En élargissant l'analyse à toutes les structures sans sélection de phonèmes spécifiques, nous obtenons 2795 transitions. Les résultats sont les suivants, après exclusion des transitions vers et depuis la position neutre :

Dans l'absolu, ces résultats montrent que les durées des transitions de la main sont homogènes avec la durée articulatoire. L'intervalle M1A1 présente une durée très proche de celle de A1A3, ce qui indique que la majorité du mouvement de la main se produit avant l'instant A1. Avec la durée très courte de l'intervalle A1M2 (6,08 ms en moyenne), on constate ainsi une transition vers la position cible quasiment achevée au moment A1, début de la réalisation acoustique.

Comparés aux résultats précédents, qui se limitaient aux syllabes 'CV' d'un ensemble restreint de phonèmes, ces nouveaux résultats révèlent des différences notables. Les durées moyennes des intervalles A1A3 et M1M2 sont plus courtes que celles observées dans l'analyse des seules syllabes 'CV'. On observe également que la durée du mouvement (M1M2) est désormais équivalente à la durée acoustique (A1A3), alors que dans les analyses précédentes, elle était nettement inférieure. De plus, ces résultats indiquent que la main atteint la position cible quasiment au début de la réalisation acoustique, tandis que les résultats antérieurs suggéraient une arrivée en cours d'émission (entre 9 % et 22 % de la durée de A1A3). Comparé au système proposé dans (Duchnowski et al., 2000), dans lequel M1M2 dure 150ms et M1A1 250ms, nos résultats sont relativement cohérents avec la position du point M1.

Résultat par structure de clé

Les transitions des positions de la main ont été analysées en distinguant trois sous-ensembles :

Transitions vers une clé 'C'

Dans cette catégorie, il est à noter qu'une seule position est concernée : la position 's', sur le côté du visage. Dans notre corpus, 520 transitions sont annotées et permettent d'obtenir les résultats suivants :

L'intervalle M1M2 est significativement plus long que A1A3, ce qui signifie une latence plus importante entre le mouvement initial de la main et l'instant où elle atteint sa position cible. L'intervalle M1M2 dépasse largement A1A3, indiquant que le mouvement de transition de la main prend plus de temps que le mouvement articulatoire. Le résultat négatif de A1M2 signifie que la main est arrivée à sa position bien avant que le mouvement articulatoire ne commence.

Ces résultats suggèrent que les codeurs montrent une très forte anticipation du mouvement de main lorsque des structures syllabiques complexes (type CCV, CCCV) sont prononcées.

Transitions vers une clé 'V'

Dans cette catégorie, 216 transitions ont été analysées pour obtenir les résultats suivants :

On observe une forte augmentation de la durée de M1M2 comparativement à A1A3, ainsi qu'une très grande anticipation du mouvement. M1A1 représente en effet 238.09% de A1A3, ce qui montre que les transitions prennent beaucoup de temps. Comme pour les structures 'C', l'intervalle A1M2, est également négatif, donc la main est arrivée à sa position longtemps avant que le mouvement articulatoire de la voyelle ne commence.

Transitions vers une clé 'CV'

Dans cette catégorie, 2055 transitions ont été analysées pour obtenir les résultats suivants :

Dans les analyses précédentes, l'intervalle M1A1 variait entre 53 % et 65 % de A1A3 dans les travaux de V. Attina (2005) et de N. Aboutabit (2008) ; et il atteignait 53 % dans nos résultats portant sur la même sélection de phonèmes. Ici, cette proportion est significativement plus élevée, atteignant 80 %, ce qui indique une anticipation plus marquée de la main dans le cas général.

La durée de M1M2 représente 91 % de celle de A1A3, une valeur également supérieure aux 75 % observés dans nos résultats sur la sélection de phonèmes. Comme dans la thèse de V. Attina, nous voyons que la main atteint la position cible après le début de la réalisation acoustique de la consonne, représentant 11 % de la durée des clés de structure 'CV'.

Discussion

L'analyse de ces transitions montre des variations significatives selon la structure de la clé, indiquant un fort impact sur la synchronisation main-son. Les clés de structure 'C' et 'V', qui ne contiennent qu'un seul phonème, entraînent une anticipation de la transition de la position de la main nettement plus marquée. Les clés de structure 'CV', constituées de deux phonèmes, montrent des transitions plus proportionnelles à la durée acoustique, mais ils suggèrent une anticipation et une durée plus marquées que dans les résultats antérieurs. En outre, nos résultats indiquent également des écart-types assez importants, montrant ainsi une forte variabilité de ce phénomène d'anticipation de la main sur les sons.

Résultat par session

Session 'mots et expressions'

Pour rappel, cette session correspond à des enregistrements de lecture de mots et d'expressions isolés. C'est-à-dire avec un retour à la position neutre entre chacun d'entre-eux. La consigne donnée au codeur était de coder comme s'il s'agissait de "montrer le code", de le "faire apprendre à quelqu'un".

Pour cette condition, notre corpus contient 548 transitions :

On remarque ici l'écart-type très important pour chacune des moyennes estimées. On note également que la durée de la transition M1M2 est légèrement supérieure à celle de la durée de la réalisation acoustique, contrairement au cas général. Cette différence se rapporte essentiellement sur un léger décalage de la position M2 avec une arrivée légèrement retardée, la position M1 n'étant que peu différente du cas général.

Session 'phrases'

Pour rappel, la session "phrases" concernait l'enregistrement de phrases séparées. C'est-à-dire avec un retour à la position neutre entre chacune d'entre-elles. La consigne était de coder de manière aussi naturelle que possible, malgré la situation de lecture.

Dans CLeLfPC, 1031 transitions ont été annotées :

On constate ici une durée identique entre la réalisation acoustique et la transition de la main, essentiellement due au fait que la réalisation acoustique est plus courte. Par rapport au cas général, le début de la transition est nettement anticipée, tandis que l'arrivée à la position n'est que très peu de temps après le début de la réalisation acoustique.

Session 'texte'

Cette session portait sur l'enregistrement d'un texte complet, affiché à l'écran par blocs de phrases. La consigne était identique à celle des phrases isolées : lire et coder le plus naturellement possible. Le corpus contient 1216 transitions pour cette session :

On observe que la réalisation acoustique est encore plus courte ici avec une moyenne à 220 millisecondes. Comme précédemment pour les phrases, on a ici une durée de transition égale à la durée de la réalisation acoustique. Encore plus que pour les phrases, le début de la transition est nettement anticipé, et ici, l'arrivée au point cible s'effectue avant la réalisation acoustique.

Discussion

Ces résultats montrent un effet intéressant de la consigne sur l'anticipation de la position de la main. En particulier, lorsque la consigne consiste à montrer le code dans un but pédagogique, l'arrivée de la transition est décalée : elle est nettement retardée par rapport à un codage effectué de façon plus naturelle.

Par locuteur

Codeur : CH VT AM ML LM
N μ (σ) N μ (σ) N μ (σ) N μ (σ) N μ (σ)
A1A3 466 227,95 (97,3) 611 233,31 (98,05) 517 238,35 (98,07) 606 292,32 (111,77) 595 211,45 (84,25)
M1M2 466 212,07 (98,03) 611 202,91 (73,38) 517 265,92 (108,85) 606 303,38 (107,98) 595 221,45 (79,3)
M1A1 466 212,52 (152,06)
93,23% de A1A3
611 200,98 (116,67)
86,14% de A1A3
517 275,16 (173,4)
115,44% de A1A3
606 241,84 (175,07)
82,73% de A1A3
595 249,12 (143,84)
117,82% de A1A3
A1M2 466 -0,47 (135,94)
-0.21% de A1A3
611 1,95 (118,11)
0,83% de A1A3
517 -9,24 (154,03)
-3,88% de A1A3
606 61,54 (146,32)
21,05% de A1A3
595 -27,7 (133,14)
-13,1% de A1A3

Le rapport M1A1/A1A3 est en général proche de 100% (à plus ou moins 18%), indiquant que la durée de la transition manuelle est alignée celle de l'unité acoustique. Cependant, on observe des variations selon les codeurs :

La valeur A1M2, qui traduit le temps restant de la transition manuelle pour atteindre la cible par rapport au début de la production acoustique, est assez différente selon les codeurs :

Les durées des transitions manuelles M1M2 sont globalement proches des durées acoustiques A1A3, avec une variabilité légèrement supérieure. Les codeurs diffèrent dans leurs stratégies : certains réduisent la durée de transition (M1M2 < A1A3), d'autres prolongent la durée de la transition manuelle (M1M2 > A1A3). Les transitions sont parfois terminées avant le début de l'articulation (A1M2 négatif), et parfois pendant, suggérant une coordination flexible entre le mouvement et la parole. Les valeurs de M1A1 élevées indiquent des différences inter-codeurs notables dans l'anticipation du mouvement. Par ailleurs, un écart-type faible chez un codeur signifie qu'il est cohérent avec lui-même, alors qu'un écart-type élevé indique une plus grande flexibilité ou incohérence selon le contexte. Dans ces résultats, VT et LM semblent être les plus stables, tandis qu'AM et ML présentent plus de variabilité.

Cette analyse montre qu'il existe des stratégies individuelles dans la synchronisation entre transitions de position et parole, montrant la grande flexibilité du codage en LfPC.

Distributions des transitions de clés, depuis et vers la position neutre

Première clé : depuis neutre vers une position du visage

Nous obtenons 439 transitions observées dans les données annotées :

Les durées des clés dans ce sous-ensemble sont significativement plus longues que la moyenne. On observe une augmentation de 21,4% pour la durée acoustique (A1A3) par rapport au cas général des clés en contexte. Le mouvement de la main est largement allongé : M1M2 est 80,7% plus long que dans les cas précédents, indiquant une transition plus longue. On constate également une anticipation extrême du mouvement : M1 commence bien avant A1, et la main atteint sa position avant le début de la parole. La main est donc dissociée de son contexte acoustique en se déplaçant pendant le silence qui précède la parole. Cette transition montre un schéma de production plus préparé et moins simultané, avec une hiérarchisation forte entre la mise en place de la main et l'articulation.

Dernière clé : depuis une position du visage vers neutre

Pour cette transition, il n'y a pas de son prononcé, seulement un déplacement de la main vers la position neutre. A1 représente donc le début du silence. Nous obtenons 442 transitions observées dans les données annotées :

La durée de la transition vers la position neutre (M1M2) est assez longue, comparée à celle des autres transitions vers les positions du visage, mais reste dans un ordre de grandeur similaire à la transition du neutre vers la première position de la main. Le mouvement de la main est légèrement anticipé, comme l'indique la valeur négative de M1A1. Cependant, l'écart-type particulièrement élevé montre une variabilité importante dans l'amorce de cette transition. Ces résultats indiquent que les mouvements vers la position neutre sont beaucoup plus variables et anticipés que les autres transitions où des phonèmes sont prononcés. Ceci s'explique probablement par une moindre contrainte temporelle dans ce contexte particulier où aucun son n'est prononcé.

Cas de la 2ᵉ clé d'un énoncé

Dans le système expert que nous avons conçu et implémenté dans SPPAS 4.22, nous avions émis l'hypothèse que les 2 premières clés après un silence étaient plus anticipées que dans le cas général. Nous avons implémenté une anticipation progressivement dégressive de la position M1. Les résultats de la section précédente permettent de confirmer qu'effectivement la première clé est largement anticipée.

Nous obtenons les moyennes suivantes pour les 236 occurrences de transitions vers la deuxième clé :

Nous obtenons les moyennes suivantes pour les 2559 autres transitions de clés (depuis et vers neutre exclues) :

Au sein d'un énoncé, la durée acoustique de la deuxième clé est plus courte que celle de la première, mais reste supérieure à celle des clés suivantes. Cela indique une accélération progressive de la prononciation des sons formant les clés après un silence initial. Concernant le mouvement de la main, on observe une évolution marquée. Pour la première clé, la durée de transition M1M2 était nettement plus longue que la durée acoustique A1A3. Pour la deuxième clé, cette différence s'atténue : la durée de M1M2 devient légèrement inférieure à celle de A1A3. Ensuite, pour les clés suivantes, M1M2 et A1A3 tendent à s'équilibrer. Ce phénomène suggère que le mouvement de la main, d'abord très préparé avant la première clé, s'adapte rapidement au rythme global de l'énoncé. En ce qui concerne le point M1, son anticipation reste constante entre la deuxième clé et les suivantes, représentant environ 97% de A1A3. Cela indique que, dès la deuxième clé, le schéma d'anticipation de la main se stabilise et devient similaire à celui du reste de l'énoncé. Enfin, pour la première clé, la main arrive en place avant même le début de l'articulation. Pour la deuxième, elle atteint sa position quasiment en même temps que la production acoustique. Ensuite, pour les clés suivantes, l'arrivée de la main se produit après le début de l'articulation.

Ces résultats confirment l'hypothèse initiale selon laquelle les premières clés d'un énoncé sont plus anticipées que les suivantes. La première clé est marquée par une forte anticipation gestuelle et une durée acoustique plus longue. Dès la deuxième clé, on observe une transition vers un rythme plus fluide. Le mouvement manuel s'intègre progressivement à l'enchaînement des clés, stabilisant son schéma d'anticipation et réduisant son avance sur l'articulation. Cela souligne un ajustement progressif, mais rapide, du timing moteur et acoustique, visant une synchronisation optimisée à mesure que l'énoncé se développe.

Rapport entre distance et temps

La question que nous nous posons ici est de savoir si l'on observe des différences de temps de transition lorsque l'on reste sur la même position par rapport à un changement. Cette étude exclut les transitions depuis et vers la position neutre, déjà présentée dans une section précédente.

Nous disposons de 237 cas dans lesquels la position de la main reste inchangée :

Il y a ainsi 2558 transitions vers une position différente :

L'analyse de ces transitions met en évidence une différence notable entre les cas où la position de la main reste identique et ceux où elle change. Toutefois, cette différence ne se manifeste pas dans la durée du mouvement de la main M1M2, qui reste globalement équivalente à la durée acoustique A1A3 dans les deux situations.

Ces résultats montrent que lorsqu'une clé est réalisée sans changer de position, le mouvement manuel est moins anticipé et se termine plus tard après l'articulation. Cela peut s'expliquer par le fait qu'aucune correction spatiale importante n'est nécessaire (simplement un va-et-vient), permettant une plus grande flexibilité temporelle. En revanche, lorsque la position change, l'anticipation du mouvement est plus marquée, probablement pour assurer une bonne coordination entre la main et la parole.

Algorithme de synchronisation : position de la main-son

Les résultats présentés dans les sections précédentes permettent d'établir un modèle de synchronisation entre la parole (instants A1 et A3) et la transition de la main vers la position cible (instants M1 et M2). Ce modèle peut être mis en œuvre à l'aide de l'algorithme suivant, implémenté dans SPPAS 4.24 :

         if from_neutral:
             m1 = a1 - (a3a1 * 1.60)
             m2 = a1 - (a3a1 * 0.10)
         elif to_neutral:
             m1 = a1 - 0.03
             m2 = m1 + 0.37
         else:
             if 'C':
                 m1 = a1 - (a3a1 * 1.60)
                 m2 = a1 - (a3a1 * 0.30)
             elif 'V':
                 m1 = a1 - (a3a1 * 2.40)
                 m2 = a1 - (a3a1 * 0.60)
             else:
                 m1 = a1 - (a3a1 * 0.80)
                 if 2nd_key:
                     m2 = a1
                 else
                     m2 = a1 + (a3a1 * 0.11)
     

Conclusion

Les résultats obtenus soutiennent l'hypothèse selon laquelle les premières clés d'un énoncé sont anticipées plus fortement que les suivantes. La première clé se distingue par une anticipation marquée de la main et une durée acoustique prolongée. À partir de la deuxième clé, une transition vers un rythme plus fluide est observée, avec une intégration progressive des mouvements de la main dans la séquence des clés. Cela entraîne une stabilisation du schéma d’anticipation et une réduction de l’avance sur l’articulation. Ces résultats mettent en évidence un ajustement rapide mais progressif du timing moteur et acoustique, optimisant la synchronisation au fil de l’énonciation.

L’analyse a également révélé que la synchronisation main-son varie considérablement en fonction de la structure des clés. Les clés ‘C’ ou ‘V’ présentent une anticipation de la position de la main plus marquée que les clés ‘CV’. Les résultats indiquent des durées plus longues et une anticipation plus importante que dans les études précédentes. L’ensemble des résultats montre de fortes déviations standard, révélant une grande variabilité dans l’anticipation de la main.

L'analyse a mis en évidence des stratégies individuelles dans la coordination des transitions de position de positions. Certains codeurs raccourcissent la transition (M1M2 < A1A3), tandis que d'autres l'allongent (M1M2 > A1A3). Les transitions peuvent débuter avant ou pendant l'articulation.

Une différence apparaît également entre les transitions où la position de la main reste inchangée et celles nécessitant un déplacement. Dans le premier cas, le mouvement de la main est moins anticipé et se termine plus tard après l'articulation. À l’inverse, lorsqu’un changement de position est requis, l’anticipation du mouvement augmente pour assurer une meilleure coordination main-parole. Toutefois, la durée du mouvement (M1M2) reste similaire à celle de l’articulation (A1A3) dans les deux situations.

L’étude a également examiné l'effet des consignes données aux codeurs. Lorsqu’ils devaient « démontrer le code à un apprenant », la durée d’articulation (A1A3) était plus longue, avec une plus grande variabilité et une transition M1M2 légèrement prolongée. En revanche, lorsqu’ils devaient « coder naturellement », l’articulation était plus courte et la transition M1M2 coïncidait avec A1A3, débutant plus tôt pour atteindre la position cible avant l’articulation. Ces résultats montrent que l'anticipation de la main est influencée par l’objectif pédagogique du codage.

L’ensemble de ces résultats illustre la flexibilité élevée du codage en LfPC.

Références bibliographiques

Paul Duchnowski, David S. Lum, Jean C. Krause, Matthew G. Sexton, Maroula S. Bratakos, and Louis D. Braida (2000). Development of Speechreading Supplements Based in Automatic Speech Recognition . IEEE Transactions on Biomedical Engineering, vol. 47, no. 4, pp. 487-496. doi: 10.1109/10.828148.

Virginie Attina Dubesset (2005). La langue française parlée complétée (LPC) : production et perception. PhD Thesis of INPG Grenoble, France.

PDF

Noureddine Aboutabit (2008). Reconnaissance de la Langue Française Parlée Complétée (LPC) : décodage phonétique des gestes main-lèvres. PhD Thesis of INPG Grenoble, France.

HAL

Brigitte Bigi (2015). SPPAS - MULTI-LINGUAL APPROACHES TO THE AUTOMATIC ANNOTATION OF SPEECH. The Phonetician. Journal of the International Society of Phonetic Sciences, Journal of ISPhS/International Society of Phonetic Sciences, 111-112 (ISSN:0741-6164), pp.54-69.

HAL

Contributeurs

Annotation du corpus : Léa Delaporte (juillet/août 2024)

Développement logiciel & analyses : Brigitte Bigi (LPL)

À propos