Automatic Cued Speech / LfPC automatisée

La réalité augmentée au service des personnes sourdes

Réalisations

Supports d'application

Les supports d’application destinés à un public d’acteurs de terrain (Action de valorisation d’utilité sociale) sont les suivants :

S1. Études de synthèse du Cued Speech Français et Américain

Ces documents seront élaborés durant le projet et seront mis à disposition.

S2. Logiciel de Cued Speech en réalité augmentée avec main codeuse

Accéder au logiciel :

Notice d'installation Télécharger SPPAS Accéder au code source

Suivi des versions :

Illustrations du résultat de codage automatique avec trois vidéos réalisées en 07/2024 avec le logiciel SPPAS - version 4.22.

S3. Capsules avec vidéos codées automatiquement

Les enregistrements relatifs à la création des capsules ont été réalisés en avril 2024. Ils sont en cours d'annotation.

Les capsules seront disponibles dans le courant de la 3ᵉ année du projet.

Communications scientifiques

Publications

Brigitte Bigi (2023).

An analysis of produced versus predicted French Cued Speech keys.

In 10th Language & Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics, ISBN: 978-83-232-4176-8, pp. 24-28, Poznań, Poland.

Cued Speech is a communication system developed for deaf people to complement speechreading at the phonetic level with hands. This visual communication mode uses handshapes in different placements near the face in combination with the mouth movements of speech to make the phonemes of spoken language look different from each other. This paper presents an analysis on produced cues in 5 topics of CLeLfPC, a large corpus of read speech in French with Cued Speech. A phonemes-to-cues automatic system is proposed in order to predict the cue to be produced while speaking. This system is part of SPPAS-the automatic annotation an analysis of speech, an open-source software tool. The predicted keys of the automatic system are compared to the produced keys of cuers. The number of inserted, deleted and substituted keys are analyzed. We observed that most of the differences between predicted and produced keys comes from 3 common position's substitutions by some of the cuers.

Núria Gala, Brigitte Bigi, Marie Bauer (2024).

Automatically Estimating Textual and Phonemic Complexity for Cued Speech: How to See the Sounds from French Texts

In The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING), pp. 1817-1824, Turin, Italie.

In this position paper we present a methodology to automatically annotate French text for Cued Speech (CS), a communication system developed for people with hearing loss to complement speech reading at the phonetic level. This visual communication mode uses handshapes in different placements near the face in combination with the mouth movements (called ‘cues’ or ‘keys’) to make the phonemes of spoken language look different from each other. CS is used to acquire skills in lip-reading, in oral communication and for reading. Despite many studies demonstrating its benefits, there are few resources available for learning and practicing it, especially in French. We thus propose a methodology to phonemize written corpora so that each word is aligned with the corresponding CS key(s). This methodology is proposed as part of a wider project aimed at creating an augmented reality system displaying a virtual coding hand where the user will be able to choose a text upon its complexity for cueing.

Brigitte Bigi, Núria Gala (2024).

Preuve de concept d'un système de génération automatique en Langue française Parlée Complétée

In 35ème Journées d’Études sur la Parole (JEP). Toulouse, France.

La Langue française Parlée Complétée (LfPC) est un système de communication développé pour les personnes sourdes afin de compléter la lecture labiale avec une main, au niveau phonétique. Il est utilisé par les enfants pour acquérir des compétences en lecture, en lecture labiale et en communication orale. L’objectif principal est de permettre aux enfants sourds de devenir des lecteurs et des locuteurs compétents en langue française. Nous proposons une preuve de concept (PoC) d’un système de réalité augmentée qui place automatiquement la représentation d’une main codeuse sur la vidéo pré-enregistrée d’un locuteur. Le PoC prédit la forme et la position de la main, le moment durant lequel elle doit être affichée, et ses coordonnées relativement au visage dans la vidéo. Des photos de mains sont ensuite juxtaposées à la vidéo. Des vidéos annotées automatiquement par le PoC ont été montrées à des personnes sourdes qui l’ont accueilli et évalué favorablement.

Conférences invitées

Núria Gala, Brigitte Bigi (2023).

Création de ressources en langue française parlée complétée pour faciliter l'accès à la langue orale via l'écrit

Journée scientifique de l'Institut des Sciences et Techniques de la Réadaptation, Institut des Sciences & Techniques de la Réadaptation, 3 juin 2023, Lyon, France.

La Langue française Parlée Complétée (LfPC ou Cued Speech) est un codage des sons via des informations visuelles : chaque son est représenté avec une forme de main pour une consonne et une position autour du visage pour une voyelle. La LfPC est utilisée par le public sourd et malentendant pour acquérir de bonnes compétences en lecture, en lecture labiale et en expression orale. Il permet notamment aux enfants sourds ou malentendants de devenir des bons lecteurs, compétence indispensable pour tous les apprentissages. Malgré les nombreux travaux démontrant ses avantages, il n’existe que peu de ressources en LfPC. Aussi, ce projet vise à développer des ressources pour l’apprentissage et la pratique de la LfPC. Nous nous proposons de développer un système de réalité augmentée qui place automatiquement la représentation d’une main codeuse sur une vidéo d’un locuteur pré-enregistré. Un logiciel de codage automatique LfPC et des bibliothèques de vidéos codées à but pédagogique seront ainsi produits en respectant tous les critères de l’Open Science. Le système de codage sera développé sur la base d’observations d’un corpus de 4 heures d’enregistrement audio/vidéo (Bigi et al., 2022). Les supports textuels de la ressource seront issus du projet ANR ALECTOR, ce sont des textes simplifiés pour faciliter la lecture (Gala et al. 2020).

Séminaires

Séminaires internes - LPL

Brigitte Bigi (2023).

Réunion équipe VESPA - Variation Et Singularité dans la PArole, Laboratoire Parole et Langage, 3 juin 2023, Aix-en-Provence, France.

Brigitte Bigi (2023).

Voir les sons avec du "Cued Speech" automatisé : la réalité augmentée au service des personnes sourdes

Journée annuelle scientifique du Laboratoire Parole et Langage, 23 juin 2023, Aix-en-Provence, France.

Núria Gala, Brigitte Bigi (2023).

Un outils de réalité augmentée pour coder automatiquement les sons du français

1er Afterwork de la Cognition, organisé par le LPL en partenariat avec l'Institut Carnot Cognition, autour du thème "Langage et apprentissage", 6 juin 2024, Aix-en-Provence, France.

Livrables du projet

Work package 1 – Collecte et annotation de corpus codés

WP1-L1 - Segmentation phonétique de CLeLfPC

Cette annotation permet d'indiquer quel phonème a été prononcé, et à quel moment. Elle concerne 10 locuteurs du corpus CLeLfPC, version 6, déposée sous licence CC-By-NC-4.0 sur https://www.ortolang.fr

WP1-L2 - Annotation en clés de CLeLfPC

Cette annotation permet d'indiquer quelles clés ont été réalisées durant la lecture. Elle concerne 10 locuteurs du corpus CLeLfPC, version 7, déposée sous licence CC-By-NC-4.0 sur https://www.ortolang.fr

WP1-L4 - Annotation des mains et du visage

Cette annotation permet d'indiquer quelles sont les coordonnées des mains et du visage du locuteur dans chaque image des vidéos. Elle concerne les 25 locuteurs du corpus CLeLfPC, version 8, déposée sous licence CC-By-NC-4.0 sur https://www.ortolang.fr

Work package 2 – Des phonèmes aux clés (QUOI ?)

WP2-L1 - Système prédictif des séquences de clés (français)

Le système de prédiction automatique des clés à partir d'un fichier audio et de sa transcription, pour la langue française, est disponible à partir de la version 4.10 de SPPAS

Work package 3 – Synchronisation main/son (QUAND ?)

WP3-L1 - Système prédictif des moments de transition de positions

Le système de prédiction automatique des moments de transitions de la main d'une voyelle à l'autre est disponible à partir de la version 4.17 de SPPAS