Recherche scientifique
Liste des Work Packages
WP2 - Des phonèmes aux clés
WP3 - Synchronisation main/son
WP4 - Trajectoire de la main
WP5 - Réalité augmentée
WP6 - Supports d’applications
Objectifs et approche méthodologique
A partir d’un fichier audio-vidéo et de sa transcription orthographique,
nous chercherons à décrire au mieux le fonctionnement du codage par des codeurs afin de créer un système qui prédit le codage Cued Speech à effectuer.
Le système ajoutera automatiquement ce codage de la main à la vidéo. Pour chacune des questions abordées, nous nous appuierons sur l’expertise en Cued Speech des
membres de Datha pour le français et d’AISAC pour l’américain afin de définir les paramètres du système et son fonctionnement.
La réponse scientifique privilégiée lors de la conception placera les compétences et les connaissances des experts au cœur du système,
en minimisant ainsi la quantité de données à observer pour apprendre un modèle/une représentation.
Nous avons l’objectif de modéliser la réalité du codage « Cued Speech » afin de capturer la variabilité des données et permettre l’apprentissage automatique à partir d’échantillons de la langue. Il s’agira de proposer des stratégies et des outils d’annotations (semi-)automatiques afin de générer le codage et le représenter sur des supports audio-visuels.
Dans ce projet, notre approche permettra d’apporter une description du fonctionnement du codage, et de le documenter. L’autre aspect majeur de cette approche réside dans le fait que les algorithmes/modèles ne dépendent pas ou peu de la langue traitée : les connaissances linguistiques sont externalisées dans des bases de connaissances. Nous pourrons valider cette approche en concevant le système pour le français et en l’adaptant à l’américain.
Le schéma ci-après montre les étapes requises de SPPAS dans le cadre de ce projet, avec le module et le plugin que nous allons ajouter (en jaune pointillé). Il faut noter ici que, bien qu’elles soient nombreuses, chacune de ces étapes n’est réalisée qu’en « un clic » dans l’interface graphique. En utilisation automatique, toutes les annotations sont sélectionnées puis le processus est lancé en une seule fois. En utilisation semi-automatique, chaque fichier intermédiaire peut être manuellement vérifié et corrigé avant de lancer l’annotation suivante. Un exemple d’utilisation partielle de ce processus est déroulé ici :
WP1 – Collecte et annotation de corpus codés
Porteur : B. Bigi
Membres : C. André (LPL), T. Shull (AISAC), M. François (AISAC), A. Vachet (stagiaire B.U.T informatique), personne.s embauchée.s en CDD (L. Delaporte, ...)
Nous avons d’ores et déjà collecté CLeLfPC - Corpus de Lecture en LfPC, un grand ensemble open source de données multi-locuteurs (https://hdl.handle.net/11403/clelfpc), que nous avons publié ( Bigi et al., 2022). Le corpus a été enregistré lors du stage annuel organisé par l'ALPC, en août 2021. Le corpus devra être enrichi d’annotations réalisées manuellement ou semi-automatiquement.
Celles-ci permettront les analyses indispensables à la création des systèmes prédictifs. Nous devrons disposer des phonèmes alignés (quel phonème a été prononcé et à quel moment), des clés réalisées (quelle clé a été réalisée et à quel moment), et des coordonnées de points sur le visage et la main.
Pour la création du corpus anglais, les membres de l’AISAC et B. Bigi créeront le matériel textuel à faire lire. Les livrables à réaliser dans ce WP sont des fichiers audios, vidéos et des fichiers d’annotations :
- WP1-L1 - segmentation phonétique (quel phonème a été prononcé, et à quel moment)
- WP1-L2 - clés réalisées, à savoir les formes de la main (C) et les positions de la main (V)
- WP1-L3 - moments de la réalisation et des transitions de clés
- WP1-L4 - trajectoire suivie par la main durant le codage
- WP1-L5 - enregistrements du corpus de lecture codée en anglais américain - CLeCSA
- WP1-L6 à L9 : enrichissement en annotations du corpus de l’anglais.
WP2 – Des phonèmes aux clés (QUOI ?)
Porteur : B. Bigi
Membres : M. Zimmermann (Datha), P. Gervais (Datha), T. Shull (AISAC), M. François (AISAC)
Nous créerons un système qui produit automatiquement la suite de clés appropriée selon le signal audio et sa transcription orthographique. Ce système requiert la prédiction d’un alignement texte-son, déjà existant dans SPPAS. Nous devrons vérifier que la qualité de cette annotation est suffisante, et, le cas échéant, apporter les modifications nécessaires (mise à jour du dictionnaire qui contient les prononciations possibles des mots, par exemple).
A partir de la séquence des phonèmes qui a été déterminée, il faudra développer un système de prédiction des clés. Ce système s’appuiera sur la définition du codage Cued Speech et sera implémenté sous la forme de règles de production selon l’expertise des membres de Datha (français) et AISAC (anglais américain). Le système ainsi créé se présentera sous la forme d’une annotation automatique dans SPPAS qui consiste à regrouper les phonèmes alignés sous la forme de séquences CV, ou -V ou C- et indique le code de la clé à produire. La validation du système consistera à évaluer l’adéquation entre les clés prédites par le système et les clés produites par les codeurs dans les corpus.
- WP2-L1 - système prédictif des séquences de clés (français)
- WP2-L2 - système prédictif des séquences de clés (français et anglais US)
WP3 – Synchronisation main/son (QUAND ?)
Porteur : B. Bigi
Membres : M. Zimmermann (Datha), P. Gervais (Datha), M. François (AISAC)
Nous créerons un système I.A. qui prédit, pour chacune des clés à réaliser, à quel moment le mouvement de la main doit commencer et se terminer, et à quel moment la forme de la main doit changer puis être atteinte. Nous réaliserons une première version sous la forme d’un système expert. Bien qu’insuffisant, le modèle de synchronisation de (Attina, 2005) constitue un excellent point de départ que nous implémenterons en l’associant à notre expertise pour attribuer des valeurs « seuil » lorsque celles-ci manquent au modèle.
La pertinence de ce système devra être évaluée. Dans un second temps, nous analyserons la désynchronisation entre la main en relation avec la réalisation acoustique correspondante dans le cas de toutes les syllabes, sur le corpus CLeLfPC. Les paramètres du modèle seront déterminés par les membres experts en codage. Le modèle sera créé par apprentissage automatique à partir des annotations du corpus français. Les données annotées serviront alternativement à l’apprentissage puis au test, selon les principes de l’algorithme « leave-one-out ». Il sera révisé avec l’analyse des annotations du corpus anglais américain.
- WP3-L1 - système prédictif des moments de transitions des clés
- WP3-L2 - système prédictif des moments de transitions des clés (hybride : règles + stats)
- WP3-L3 - document de synthèse sur le phénomène d’anticipation de la main
WP4 – Trajectoire de la main (OÙ ?)
Porteur : M. Pitermann
Membres : B. Bigi
Nous devrons déterminer la trajectoire que doit suivre la main, c’est-à-dire que nous devrons créer un système qui prédit la position de la main et la forme des doigts dans les images de la vidéo, ainsi que l’angle d’inclinaison de l’avant-bras. Nous nous appuierons sur l’analyse statistique des coordonnées obtenues par l’annotation de la main du corpus CLeLfPC.
Par exemple, la trajectoire n’est pas toujours linéaire puisque pour passer de la gorge à la bouche, il faut contourner le menton, ou, lorsqu’il faut réaliser deux fois de suite la même clé, la main doit faire un petit mouvement de va-et-vient.
Enfin, la formation des doigts ne s’effectue pas exactement au milieu du déplacement, nous devrons analyser l’évolution de ce changement afin de le reproduire dans notre système. L’anglais représente un défi plus important car la main effectue un mouvement avant-arrière pour les voyelles longues.
- WP4-L1 - système prédictif de la trajectoire de la main
- WP4-L2 - système prédictif de la trajectoire de la main (version révisée)
- WP4-L3 - document de synthèse sur la trajectoire de la main et l’angle du bras
WP5 – Réalité augmentée
Porteur : B. Bigi
Membres : M. Zimmermann (Datha), P. Gervais (Datha), D. Wasilewski, T. Shull (AISAC), M. François (AISAC), F. Lopitaux (stagiaire B.U.T informatique : 2022-2023, 2023-2024)
Nous devrons effectuer une intégration logicielle des résultats précédents. Effectivement, pour une vidéo donnée, avec le fichier audio et sa transcription orthographique, SPPAS produira des fichiers que l’on pourrait qualifier de « donneurs d’ordre ».
Ils indiqueront les opérations à effectuer sous un format descriptif éditable (XML). Le système de réalité augmentée interprétera ces fichiers et placera une main sur la vidéo pré-enregistrée et transcrite, pour obtenir la vidéo codée. Nous devrons déterminer quel type d’intégration permet le meilleur décodage : photos d’une main (femme, homme, adolescent, couleur de peau, etc), main dessinée en 2D, ...
Ainsi, nous enregistrerons (audio/vidéo) un acteur professionnel (en français uniquement). Les vidéos seront codées entièrement automatiquement et semi-automatiquement avec le système, puis évaluées par les experts du projet et des volontaires de différents réseaux associatifs, en particulier de l’ALPC.
- WP5-L1 - plugin ou module pour SPPAS afin de créer des vidéos codées en Cued Speech [en cours]
- WP5-L2 - enregistrements audio-vidéo et codage automatique en Cued Speech
WP6 – Supports d’applications
Porteur : M. Zimmermann
Membres : N. Gala (LPL), C. André (LPL), P. Gervais (Datha), M. Cazals (stagiaire B.U.T informatique), B. Bigi (LPL)
L’activité de recherche associée à la création des supports codés consiste à déterminer des critères de sélection des textes existants.
Durant le projet ANR ALECTOR, des critères de simplification de texte ont été définis pour faciliter la lecture à des enfants faibles lecteurs et/ou dyslexiques. Les choix à opérer dans le présent projet pour effectuer la sélection d’un sous-ensemble de quatre textes devront prendre en compte les difficultés spécifiquement liées à la surdité et les spécificités du codage.
- WP6-L1 - capsules vidéo (entraînement ou renforcement du code LfPC)
Références bibliographiques
- Aboutabit, N. (2007). Reconnaissance de la Langue Française Parlée Complété (LPC) : décodage phonétique des gestes main-lèvres. Ph.D. thesis, Institut National Polytechnique de Grenoble.
- Attina, V. (2005). La Langue Française Parlée Complétée : Production et Perception. Ph.D.
- thesis, Institut National Polytechnique de Grenoble - INPG
- Bigi, B. (2015). SPPAS - Multi-lingual Approaches to the Automatic Annotation of Speech.
- The Phonetician, 111–112:54–69.
- Bigi, B., Zimmermann, M., André, C. (2022). CLeLfPC: a Large Open Multi-Speaker Corpus of French Cued Speech. The 13th Language Resources and Evaluation Conference, pages 987-994, Marseille, France.
- Bratakos, M. S., Duchnowski P., and Braida L. D., 1998. Toward the automatic generation of cued speech. Cued Speech Journal, 6:1–37.
- Bratakos, M. S., 1995. The effect of imperfect cues on the reception of cued speech. Ph.D.
- thesis, Massachusetts Institute of Technology.
- Cathiard, M.-A., Attina, V., and Alloatti, D. (2003). Labial anticipation behavior during speech with and without cued speech. 15th International Congress of Phonetic Sciences, pages 1935-1938, Barcelona, Spain.
- Cornett, R.O. (1967). Cued speech. American annals of the deaf, pages 3–13.
- Duchnowski, P., Braida, L.-D., Bratakos, M.-S., Lum, D.-S.,Sexton,M.-G.,andKrause, J.-C. (1998). A Speech reading aid based on phonetic ASR. 5th International Conference on Spoken Language Processing, pages 3289–3293, Sydney, Australia.
- Leybaert, J., Colin, C., and Hage, C. (2010). Cued Speech for enhancing speech perception of individuals with cochlear implants. Cued speech and cued language for deaf and hard of hearing children, pages 107-125.
- Liu, L., Li, J., Feng, G., and Zhang, X. -P. (2019). Automatic Detection of the Temporal Segmentation of Hand Movements in British English Cued Speech. In Proceedings of Interspeech, pages 2285-2289, Graz, Austria.
- Papadimitriou, K., & Potamianos, G. (2021). A Fully Convolutional Sequence Learning Approach for Cued Speech Recognition from Videos. In 2020 28th European Signal Processing Conference (EUSIPCO), pages 326-330. IEEE.
- Sexton, M. G., 1997. A video display system for an automatic cue generator. Ph.D. thesis, Massachusetts Institute of Technology.