Automatic Cued Speech / LfPC automatisée

La réalité augmentée au service des personnes sourdes

Recherche scientifique

Liste des Work Packages

Objectifs et approche méthodologique

A partir d’un fichier audio-vidéo et de sa transcription orthographique, nous chercherons à décrire au mieux le fonctionnement du codage par des codeurs afin de créer un système qui prédit le codage Cued Speech à effectuer. Le système ajoutera automatiquement ce codage de la main à la vidéo. Pour chacune des questions abordées, nous nous appuierons sur l’expertise en Cued Speech des membres de Datha pour le français et d’AISAC pour l’américain afin de définir les paramètres du système et son fonctionnement.
La réponse scientifique privilégiée lors de la conception placera les compétences et les connaissances des experts au cœur du système, en minimisant ainsi la quantité de données à observer pour apprendre un modèle/une représentation.

Nous avons l’objectif de modéliser la réalité du codage « Cued Speech » afin de capturer la variabilité des données et permettre l’apprentissage automatique à partir d’échantillons de la langue. Il s’agira de proposer des stratégies et des outils d’annotations (semi-)automatiques afin de générer le codage et le représenter sur des supports audio-visuels.

Dans ce projet, notre approche permettra d’apporter une description du fonctionnement du codage, et de le documenter. L’autre aspect majeur de cette approche réside dans le fait que les algorithmes/modèles ne dépendent pas ou peu de la langue traitée : les connaissances linguistiques sont externalisées dans des bases de connaissances. Nous pourrons valider cette approche en concevant le système pour le français et en l’adaptant à l’américain.

Le schéma ci-après montre les étapes requises de SPPAS dans le cadre de ce projet, avec le module et le plugin que nous allons ajouter (en jaune pointillé). Il faut noter ici que, bien qu’elles soient nombreuses, chacune de ces étapes n’est réalisée qu’en « un clic » dans l’interface graphique. En utilisation automatique, toutes les annotations sont sélectionnées puis le processus est lancé en une seule fois. En utilisation semi-automatique, chaque fichier intermédiaire peut être manuellement vérifié et corrigé avant de lancer l’annotation suivante. Un exemple d’utilisation partielle de ce processus est déroulé ici :

Etapes nécessaires à la création d'une vidéo codée automatiquement
Etapes nécessaires à la création d'une vidéo codée automatiquement

WP1 – Collecte et annotation de corpus codés

Porteur : B. Bigi

Membres : C. André (LPL), T. Shull (AISAC), M. François (AISAC), A. Vachet (stagiaire B.U.T informatique), personne.s embauchée.s en CDD (L. Delaporte, ...)

Nous avons d’ores et déjà collecté CLeLfPC - Corpus de Lecture en LfPC, un grand ensemble open source de données multi-locuteurs (https://hdl.handle.net/11403/clelfpc), que nous avons publié ( Bigi et al., 2022). Le corpus a été enregistré lors du stage annuel organisé par l'ALPC, en août 2021. Le corpus devra être enrichi d’annotations réalisées manuellement ou semi-automatiquement.

Celles-ci permettront les analyses indispensables à la création des systèmes prédictifs. Nous devrons disposer des phonèmes alignés (quel phonème a été prononcé et à quel moment), des clés réalisées (quelle clé a été réalisée et à quel moment), et des coordonnées de points sur le visage et la main.

Pour la création du corpus anglais, les membres de l’AISAC et B. Bigi créeront le matériel textuel à faire lire. Les livrables à réaliser dans ce WP sont des fichiers audios, vidéos et des fichiers d’annotations :

WP2 – Des phonèmes aux clés (QUOI ?)

Porteur : B. Bigi

Membres : M. Zimmermann (Datha), P. Gervais (Datha), T. Shull (AISAC), M. François (AISAC)

Nous créerons un système qui produit automatiquement la suite de clés appropriée selon le signal audio et sa transcription orthographique. Ce système requiert la prédiction d’un alignement texte-son, déjà existant dans SPPAS. Nous devrons vérifier que la qualité de cette annotation est suffisante, et, le cas échéant, apporter les modifications nécessaires (mise à jour du dictionnaire qui contient les prononciations possibles des mots, par exemple).

A partir de la séquence des phonèmes qui a été déterminée, il faudra développer un système de prédiction des clés. Ce système s’appuiera sur la définition du codage Cued Speech et sera implémenté sous la forme de règles de production selon l’expertise des membres de Datha (français) et AISAC (anglais américain). Le système ainsi créé se présentera sous la forme d’une annotation automatique dans SPPAS qui consiste à regrouper les phonèmes alignés sous la forme de séquences CV, ou -V ou C- et indique le code de la clé à produire. La validation du système consistera à évaluer l’adéquation entre les clés prédites par le système et les clés produites par les codeurs dans les corpus.

WP3 – Synchronisation main/son (QUAND ?)

Porteur : B. Bigi

Membres : M. Zimmermann (Datha), P. Gervais (Datha), M. François (AISAC)

Nous créerons un système I.A. qui prédit, pour chacune des clés à réaliser, à quel moment le mouvement de la main doit commencer et se terminer, et à quel moment la forme de la main doit changer puis être atteinte. Nous réaliserons une première version sous la forme d’un système expert. Bien qu’insuffisant, le modèle de synchronisation de (Attina, 2005) constitue un excellent point de départ que nous implémenterons en l’associant à notre expertise pour attribuer des valeurs « seuil » lorsque celles-ci manquent au modèle.

La pertinence de ce système devra être évaluée. Dans un second temps, nous analyserons la désynchronisation entre la main en relation avec la réalisation acoustique correspondante dans le cas de toutes les syllabes, sur le corpus CLeLfPC. Les paramètres du modèle seront déterminés par les membres experts en codage. Le modèle sera créé par apprentissage automatique à partir des annotations du corpus français. Les données annotées serviront alternativement à l’apprentissage puis au test, selon les principes de l’algorithme « leave-one-out ». Il sera révisé avec l’analyse des annotations du corpus anglais américain.

WP4 – Trajectoire de la main (OÙ ?)

Porteur : M. Pitermann

Membres : B. Bigi

Nous devrons déterminer la trajectoire que doit suivre la main, c’est-à-dire que nous devrons créer un système qui prédit la position de la main et la forme des doigts dans les images de la vidéo, ainsi que l’angle d’inclinaison de l’avant-bras. Nous nous appuierons sur l’analyse statistique des coordonnées obtenues par l’annotation de la main du corpus CLeLfPC.

Par exemple, la trajectoire n’est pas toujours linéaire puisque pour passer de la gorge à la bouche, il faut contourner le menton, ou, lorsqu’il faut réaliser deux fois de suite la même clé, la main doit faire un petit mouvement de va-et-vient.

Enfin, la formation des doigts ne s’effectue pas exactement au milieu du déplacement, nous devrons analyser l’évolution de ce changement afin de le reproduire dans notre système. L’anglais représente un défi plus important car la main effectue un mouvement avant-arrière pour les voyelles longues.

WP5 – Réalité augmentée

Porteur : B. Bigi

Membres : M. Zimmermann (Datha), P. Gervais (Datha), D. Wasilewski, T. Shull (AISAC), M. François (AISAC), F. Lopitaux (stagiaire B.U.T informatique : 2022-2023, 2023-2024)

Nous devrons effectuer une intégration logicielle des résultats précédents. Effectivement, pour une vidéo donnée, avec le fichier audio et sa transcription orthographique, SPPAS produira des fichiers que l’on pourrait qualifier de « donneurs d’ordre ».

Ils indiqueront les opérations à effectuer sous un format descriptif éditable (XML). Le système de réalité augmentée interprétera ces fichiers et placera une main sur la vidéo pré-enregistrée et transcrite, pour obtenir la vidéo codée. Nous devrons déterminer quel type d’intégration permet le meilleur décodage : photos d’une main (femme, homme, adolescent, couleur de peau, etc), main dessinée en 2D, ...

Ainsi, nous enregistrerons (audio/vidéo) un acteur professionnel (en français uniquement). Les vidéos seront codées entièrement automatiquement et semi-automatiquement avec le système, puis évaluées par les experts du projet et des volontaires de différents réseaux associatifs, en particulier de l’ALPC.

WP6 – Supports d’applications

Porteur : M. Zimmermann

Membres : N. Gala (LPL), C. André (LPL), P. Gervais (Datha), M. Cazals (stagiaire B.U.T informatique), B. Bigi (LPL)

L’activité de recherche associée à la création des supports codés consiste à déterminer des critères de sélection des textes existants.

Durant le projet ANR ALECTOR, des critères de simplification de texte ont été définis pour faciliter la lecture à des enfants faibles lecteurs et/ou dyslexiques. Les choix à opérer dans le présent projet pour effectuer la sélection d’un sous-ensemble de quatre textes devront prendre en compte les difficultés spécifiquement liées à la surdité et les spécificités du codage.

Références bibliographiques