4.10 (avril 2023) : Pour la langue française uniquement, SPPAS peut
produire la suite de clés à coder à partir d'une transcription orthographique,
accompagnée ou non d'un fichier audio. Système à base de règles définies par
des experts du codage (WP2-L1).
4.11 (juin 2023) : La preuve de concept a été re-programmée et donc déboggée.
Elle fonctionne avec n'importe quelle vidéo, et pas uniquement la démo. L'angle du
bras est différent selon la clé.
4.12 (août 2023) : SPPAS permet de corriger manuellement les annotations,
y compris les annotations vidéo.
4.13 (oct. 2023) : la main codeuse peut être intégrée à la vidéo avec
différentes options d'affichage, via une interface graphique (minimale) spécifique.
Fonctionne pour la démo uniquement, et en mode de debug seulement. C'est un
prototype de la future interface.
4.17 (jan. 2024) : SPPAS peut produire les clés avec différentes règles de synchronisation
audio-main, avec l'introduction d'un modèle à base de règles définies par des experts du codage (WP3-L1).
4.22 (juil. 2024). Livrable "Système version 1" : trois modèles différents
de l'angle de l'avant-bras ont été introduits pour afficher la main sur la vidéo ;
deux modèles différents permettent d'estimer la position des voyelles par rapport au visage ;
six séries de photos de mains sont proposées ainsi que deux séries de mains dessinées ;
des filtres peuvent être appliqués à la main dessinée pour ajouter des informations.
S3. Capsules avec vidéos codées automatiquement
Les enregistrements relatifs à la création des capsules ont été réalisés en avril 2024.
Ils sont en cours d'annotation.
Les capsules seront disponibles dans le courant de la 3ᵉ année du projet.
Communications scientifiques
Publications
Brigitte Bigi (2023).
An analysis of produced versus predicted French Cued Speech keys.
In
10th Language & Technology Conference:
Human Language Technologies as a Challenge for Computer Science and Linguistics,
ISBN: 978-83-232-4176-8, pp. 24-28, Poznań, Poland.
Cued Speech is a communication system developed for deaf people to complement
speechreading at the phonetic level with hands. This visual communication mode
uses handshapes in different placements near the face in combination with the
mouth movements of speech to make the phonemes of spoken language look different
from each other. This paper presents an analysis on produced cues in 5 topics
of CLeLfPC, a large corpus of read speech in French with Cued Speech.
A phonemes-to-cues automatic system is proposed in order to predict the cue to
be produced while speaking. This system is part of SPPAS-the automatic annotation
an analysis of speech, an open-source software tool. The predicted keys of the
automatic system are compared to the produced keys of cuers. The number of
inserted, deleted and substituted keys are analyzed. We observed that most of
the differences between predicted and produced keys comes from 3 common
position's substitutions by some of the cuers.
Núria Gala, Brigitte Bigi, Marie Bauer (2024).
Automatically Estimating Textual and Phonemic Complexity for Cued Speech:
How to See the Sounds from French Texts
In this position paper we present a methodology to automatically annotate French text for Cued Speech (CS), a
communication system developed for people with hearing loss to complement speech reading at the phonetic
level. This visual communication mode uses handshapes in different placements near the face in combination with
the mouth movements (called ‘cues’ or ‘keys’) to make the phonemes of spoken language look different from each
other. CS is used to acquire skills in lip-reading, in oral communication and for reading. Despite many studies
demonstrating its benefits, there are few resources available for learning and practicing it, especially in French.
We thus propose a methodology to phonemize written corpora so that each word is aligned with the corresponding
CS key(s). This methodology is proposed as part of a wider project aimed at creating an augmented reality system
displaying a virtual coding hand where the user will be able to choose a text upon its complexity for cueing.
Brigitte Bigi, Núria Gala (2024).
Preuve de concept d'un système de génération automatique en Langue française Parlée Complétée
La Langue française Parlée Complétée (LfPC) est un système de communication développé pour les
personnes sourdes afin de compléter la lecture labiale avec une main, au niveau phonétique. Il est
utilisé par les enfants pour acquérir des compétences en lecture, en lecture labiale et en communication
orale. L’objectif principal est de permettre aux enfants sourds de devenir des lecteurs et des locuteurs
compétents en langue française. Nous proposons une preuve de concept (PoC) d’un système de
réalité augmentée qui place automatiquement la représentation d’une main codeuse sur la vidéo
pré-enregistrée d’un locuteur. Le PoC prédit la forme et la position de la main, le moment durant
lequel elle doit être affichée, et ses coordonnées relativement au visage dans la vidéo. Des photos de
mains sont ensuite juxtaposées à la vidéo. Des vidéos annotées automatiquement par le PoC ont été
montrées à des personnes sourdes qui l’ont accueilli et évalué favorablement.
Conférences invitées
Núria Gala, Brigitte Bigi (2023).
Création de ressources en langue française parlée complétée pour faciliter
l'accès à la langue orale via l'écrit
La Langue française Parlée Complétée (LfPC ou Cued Speech) est un codage des sons via
des informations visuelles : chaque son est représenté avec une forme de main pour une
consonne et une position autour du visage pour une voyelle. La LfPC est utilisée par
le public sourd et malentendant pour acquérir de bonnes compétences en lecture, en
lecture labiale et en expression orale. Il permet notamment aux enfants sourds ou
malentendants de devenir des bons lecteurs, compétence indispensable pour tous les
apprentissages. Malgré les nombreux travaux démontrant ses avantages, il n’existe
que peu de ressources en LfPC. Aussi, ce projet vise à développer des ressources
pour l’apprentissage et la pratique de la LfPC. Nous nous proposons de développer un
système de réalité augmentée qui place automatiquement la représentation d’une main
codeuse sur une vidéo d’un locuteur pré-enregistré. Un logiciel de codage automatique
LfPC et des bibliothèques de vidéos codées à but pédagogique seront ainsi produits en
respectant tous les critères de l’Open Science. Le système de codage sera développé
sur la base d’observations d’un corpus de 4 heures d’enregistrement audio/vidéo
(Bigi et al., 2022). Les supports textuels de la ressource seront issus du projet ANR
ALECTOR, ce sont des textes simplifiés pour faciliter la lecture (Gala et al. 2020).
Séminaires
Séminaires internes - LPL
Brigitte Bigi (2023).
Réunion équipe VESPA - Variation Et Singularité dans la PArole,
Laboratoire Parole et Langage, 3 juin 2023, Aix-en-Provence, France.
Brigitte Bigi (2023).
Voir les sons avec du "Cued Speech" automatisé :
la réalité augmentée au service des personnes sourdes
Journée annuelle scientifique du Laboratoire Parole et Langage,
23 juin 2023, Aix-en-Provence, France.
Núria Gala, Brigitte Bigi (2023).
Un outils de réalité augmentée pour coder automatiquement les sons du français
1er Afterwork de la Cognition, organisé par le LPL en partenariat avec l'Institut Carnot Cognition,
autour du thème "Langage et apprentissage", 6 juin 2024, Aix-en-Provence, France.
Livrables du projet
Work package 1 – Collecte et annotation de corpus codés
WP1-L1 - Segmentation phonétique de CLeLfPC
Cette annotation permet d'indiquer quel phonème a été prononcé, et à quel moment.
Elle concerne 10 locuteurs du corpus CLeLfPC, version 6, déposée sous
licence CC-By-NC-4.0 sur
https://www.ortolang.fr
WP1-L2 - Annotation en clés de CLeLfPC
Cette annotation permet d'indiquer quelles clés ont été réalisées
durant la lecture. Elle concerne 10 locuteurs du corpus CLeLfPC,
version 8, déposée sous licence CC-By-NC-4.0 sur
https://www.ortolang.fr
WP1-L3 - Transitions des clés de CLeLfPC
Cette annotation permet d'indiquer à quels moments ont lieu les
transitions des positons et des configurations de la main
durant la lecture. Elle concerne 5 locuteurs du corpus CLeLfPC,
version 10, déposée sous licence CC-By-NC-4.0 sur
https://www.ortolang.fr
WP1-L4 - Annotation des mains et du visage
Cette annotation permet d'indiquer quelles sont les coordonnées des mains
et du visage du locuteur dans chaque image des vidéos. Elle concerne
les 25 locuteurs du corpus CLeLfPC, version 8, déposée sous licence
CC-By-NC-4.0 sur https://www.ortolang.fr
Work package 2 – Des phonèmes aux clés (QUOI ?)
WP2-L1 - Système prédictif des séquences de clés (français)
Le système de prédiction automatique des clés à partir d'un fichier audio
et de sa transcription, pour la langue française, est disponible à partir
de la version 4.10 de
SPPAS
Work package 3 – Synchronisation main/son (QUAND ?)
WP3-L1 - Système prédictif des moments de transition de positions
Le système de prédiction automatique des moments de transitions de la main
d'une voyelle à l'autre est disponible à partir de la version 4.17 de
SPPAS
Work package 6 – Supports d'application
WP6-L1 - Enregistrements et annotations en lecture de textes
Les premières étapes du processus de création des capsules :
sélection du contenu textuel à enregistrer, modalités d'enregistrement,
annotations manuelles et codage automatique de
SPPAS.