SPPAS : Un outil de réalité augmentée
pour coder automatiquement les sons en LfPC

Brigitte Bigi, CRHC

projet financé par la FIRAH 2023-2026

Séminaire ATILF, Nancy, 14 mars 2024

SPPAS : segmenter la parole automatiquement

SPPAS : The automatic annotation and analysis of speech

Diffusé depuis 2012 : 5 annotations, 4 langues
Version actuelle (4.24) : 23 annotations, 15 langues
Fonction majeure : segmentation de la parole
En 2022, SPPAS a remporté une récompense Science Ouverte.

https://sppas.org

Fonction majeure : segmentation de la parole

et ouais mais de toute façon et en plus c'est euh tu euh

Représentation de l'audio — Screenshot du résultat de SPPAS dans Praat

Au départ, un besoin : multiple !

Segmentation phonétique pour de la parole :

conversationnelle en français
de patients (maladie de parkinson, SLA, ...), en français
collectées durant des expériences en psycho-linguistique, en anglais
en vue d'analyses prosodiques, de l'italien, avec des mots et non-mots
de textes lus, en mandarin

... et bien d'autres

Exemple de réponse apportée : le « euh »

si on regarde euh
euh la CSCE etc vous avez à jamais à aucun moment justement euh
euh au n- niveau des délimitations euh étatiques vous n'avez justement euh
euh cette superposition
euh donc euh
il y a euh
euh de ce point de vue là euh un flou et euh bon moi je suis assez euh

14 « euh » en 18 secondes…
Dans ce corpus, ils représentent 6% des tokens.

Exemple de réponse apportée : le rire

j'ai emprunté des livres à la b.u. j'ai déjà reçu le mail comme quoi qu'il faut que je les rende je les ai même pas ouverts @ @ @ c’est clair * je te jure

@ c’est ça @ moi aussi @ c’est pareil j'ai reçu genre mais en plus j'en ai commandé euh quoi peut être huit quoi rien de (en)fin ridicule quoi @ @ d'où j'ai le temps de lire déjà rien que un livre @ j'en ai commandé huit quoi rien à voir (en)fin n’importe quoi du coup euh du coup ouais

9 rires en 19 secondes…
Dans ce corpus, ils représentent 4% des tokens.

Exemple de réponse apportée : la TOE

Une convention de transcription simple qui permet à SPPAS de gérer les événements de la parole.

Hésitation :	Rire :
Mots inconnus, mots régionaux :	Hypo-articulation :
Reprises, répétitions, mots tronqués :	Autres : élisions, bruits, etc.

non mais @ je sais pas tu ne tu te vois nous parler + on- moi je nous par- je n- @ je nous parlais

Exemple d'annotations de SPPAS : corpus CLeLfPC

4h de parole, 10 thèmes, 25 enregistrements (23 locuteurs)
4 sessions par thème :
- syllabes CV isolées, mots/expressions isolés, phrases isolées, texte

Disponible sur Ortolang : https://hdl.handle.net/11403/clelfpc/

CuedSpeech - LfPC : montrer les sons avec la main

Cued Speech - origines et objectifs

R. Orin Cornett (1967)

Création d'un code visuel permettant de représenter chaque son d'une langue.

la main en complément de la lecture labiale
au niveau phonétique
main + lèvres = un percept unique

Donne un accès visuel à la langue orale

Facilite l'acquisition de compétences en expression orale et en lecture labiale.

La Langue française Parlée Complétée

Encodage de tous les sons et toutes les combinaisons consonne-voyelle
Une clé est produite chaque fois que le locuteur prononce une syllabe 'C', 'V' ou 'CV'
Les structures syllabiques plus complexes sont codées avec plusieurs clés :
- 'CCV' = 'C' + 'CV' => 2 clés

Exemple

Objectifs du projet :

Le projet consiste à co-créer et co-évaluer un système IA codant automatiquement en Langue française Parlée Complétée et en Cued Speech anglais américain.

Un logiciel codeur

Des capsules vidéos codées

https://auto-cuedspeech.org

Un logiciel codeur

Etat de l'art : études de l'impact de l'utilisation de clés de synthèse sur la compréhension du Cued Speech américain
- Bratakos (1995)
- ... (MIT)
- Duchnowski et al. (2000)
SPPAS

SPPAS : Automatisation du codage LfPC

Un logiciel codeur : 4 questions scientifiques

A partir de :
1. une vidéo
2. l'audio
3. la transcription orthographique
le logiciel produit une vidéo codée en réalité augmentée

quoi ? déterminer les phonèmes => la clé

quand ? synchronisation main-son

ou ? définir l'angle et la trajectoire

comment ? superposer des mains sur une vidéo

Question 1 (quoi ?) : déterminer les phonèmes puis les clés

La segmentation de SPPAS permet d'obtenir les phonèmes alignés
Des règles de production permettent de déterminer les clés qui correspondent aux phonèmes

Prédiction des clés : exemple

Phonèmes :
- 9~ d @ m i p o # d H i l d @ k o k o
Time groups :
- TG1 : 9~ d @ m i p o
- TG2 : d H i l d @ k o k o
Classes :
- TG1 : V C V C V C V
- TG2 : C C V C C V C V C V
Segmentation :
- TG1 : -V.CV.CV.CV
- TG2 : C-.CV.C-.CV.CV.CV
Phonèmes :
- TG1 : 9~.d@.mi.po
- TG2 : d.Hi.l.d@.ko.ko
Code des clés :
- TG1 : 5t.1s.5m.1s
- TG2 : 1s.4m.6s.1s.2s.2s

Exemple d'annotations de SPPAS : corpus CLeLfPC

Etude des clés prédites versus clés produites. Comparaison entre :
1. le système automatique de prédiction des clés
2. les clés produites par des codeurs

Analyse quantitative

5 codeurs, 4143 clés annotées

insertion : Les codeurs ont produits 8 clés non prédites ;
suppression : Les codeurs n'ont pas produit 47 clés prédites par le système ;
substitution : Les codeurs produisent 183 clés différemment de celles prédites.

Analyse qualitative des 183 substitutions

16 sont des clés ’C’ (8,7 %)
22 sont des clés ’V’ (12 %)
145 sont des clés ’CV’ (79,2 %) :
- 1 substitution : à la fois la forme et la position ;
- 6 substitutions : forme de la main uniquement ;
- 138 substitutions : la position uniquement.

Les substitutions concernent (87,4 %) la position (voyelles) bien plus souvent que la forme de main (la consonne).

Substitution de la voyelle : /@/

/@/ est 88 fois (48 %) à la position (b) au lieu de (s)
La position (b) est celle de la voyelle /2/
- en revanche, /2/ n'est jamais codé à la position (s).
Deux codeurs sont majoritairement concernés : VT 45 fois et LM 40 fois
Cette substitution n'est réalisée que sur un petit nombre de mots:
- “de”, “le”, “ne”, “que”

Substitution de la voyelle : /e/

/e/ est codé 32 fois à la position (c) au lieu de (t)
La position (c) est celle de la voyelle /E/
Deux codeurs sont majoritairement concernés : 18 fois VT et 9 fois CH
S'opère sur certains mots en particulier, mais pas de façon systématique

Substitution de la voyelle : /9~/

/9~/ est codé 17 fois à la position (b) au lieu de (t)
La position (b) est celle de la voyelle /e∼/
Cette différence est majoritairement observée chez CH (12 fois), sur le mot "un".

Question 1 (quoi ?) : déterminer les phonèmes puis les clés

https://auto-cuedspeech.org/annotate.html

Question 2 (quand ?) : synchronisation main-son

La main précède le son

Etat de l'art :
- Duchnowski et al. (2000)
- V. Attina (2005) & N. Aboutabit (2008)
2022 : Proposition d'un modèle
2025 : Proposition d'un modèle révisé après analyse des annotations de transitions des 5 codeurs

Question 3.1 (ou ?) : Déterminer la position des voyelles

détecter le visage
déterminer les éléments du visage (bouge, yeux, nez...)
définir une "zone" relative des voyelles

Face detection:

Face identity:

Face sight:

Vowels:

Question 3.2 (ou ?) : la trajectoire

Ligne droite
Vitesse constante

Question 4.1 (comment ?) : superposer des mains sur une vidéo

Photos ou dessins de mains

Coordonnées des points des mains

Question 4.2 (comment ?) : angle de la main

Selon la position :

Evaluation / Validation

3 modèles de "quand"
3 modèles d'angle
4 séries de mains
3 add-ons pour les mains

Evalués en juillet 2024 avec une tâche de décodage :

le modèle "quand" est satisfaisant mais doit être amélioré

les mains dessinées sont nettement préférable aux photos

un angle variant modérément (ou pas du tout) est préférable

pas d'ajout d'information sur les mains

Exemple du codage

Conclusion & perspectives

Ce que nous avons et allons produire dans ce projet

Apports théoriques :
- Une modélisation du codage : en LfPC et en Cued Speech américain
Apports pratiques :
- +++ Un outil de conversion texte vers code
- ++- Deux corpus audio-vidéos annotés : CLeLfPC et CLeCSA
- ++- Un système automatique de codage en réalité augmentée (SPPAS)
- +-- Des supports d'apprentissage et entraînement à la LfPC

Pour suivre l'évolution du projet, rendez-vous à l'adresse :
https://auto-cuedspeech.org

Ce que nous allons produire dans le prochain projet

Financement AMIDEX 2025-2028 (4 ans), 183 k€

Améliorer le système de codage automatique de SPPAS :
- modèle "quand" plus robuste
- modification des durées / ajout de pause...
Produire une banque de vidéos codées automatiquement à but pédagogique
- dans la continuité de l'ANR Alector :
  https://corpusalector.huma-num.fr/

Annexes

Références bibliographiques

Attina, V. (2005). La Langue Française Parlée Complétée : Production et Perception, Institut National Polytechnique de Grenoble - INPG.
Bigi, B. (2015). SPPAS - MULTI-LINGUAL APPROACHES TO THE AUTOMATIC ANNOTATION OF SPEECH. The Phonetician. Journal of the International Society of Phonetic Sciences, Journal of ISPhS/International Society of Phonetic Sciences, vol. 111-112 (ISSN:0741-6164), pp.54-69.
Bratakos, S. (1995). The effect of imperfect cues on the reception of cued speech. PhD Thesis Massachusetts Institute of Technology, Dept. of Electrical Engineering and Computer Science.
Duchnowski, P. and Lum, D. S. and Krause, J. C. and Sexton, M. G. and Bratakos, M. S. and Braida, L. D. (2000). Development of speechreading supplements based on automatic speech recognition, IEEE transactions on biomedical engineering, vol. 47:4, pp. 487-496.

SPPAS en quelques chiffres

14, 23, 30, 170, 535, 1400, 106k, 89k

14 : nombre de langues supportées par les annotations
23 : nombre d'annotations, dont 5 pour la segmentation phonétique
30 : nombre d'articles publiés
170 : nombre de pages de la documentation utilisateurs
> 535 : nombre de citations
> 1400 : nombre de téléchargements/an
106k lignes de code python + 89k de commentaires et docstrings

A propos

Auteure du document : Brigitte Bigi
Date de dernière modification : 2025-03-09
https://sppas.org/bigi/Doc/2025-Nancy-ATILF/

Licence

Ce document est une œuvre de création, propriété exclusive du LPL, protégé par la législation française et internationale sur le droit de la propriété intellectuelle, sous Licence CC-by-NC-ND (Attribution / Pas d’Utilisation Commerciale / Pas de Modification).

Cette licence autorise toute diffusion (partager, copier, reproduire, distribuer, communiquer), sauf à des fins commerciales, par tous moyens et sous tous formats, tant que l'oeuvre est diffusée sans modification et dans son intégralité.

Vous êtes libre de copier, distribuer et transmettre ce document, à condition que vous créditiez le projet auto-cuedspeech.org.

SPPAS : Un outil de réalité augmentée pour coder automatiquement les sons en LfPC

SPPAS : segmenter la parole automatiquement

SPPAS : The automatic annotation and analysis of speech

Fonction majeure : segmentation de la parole

Au départ, un besoin : multiple !

Exemple de réponse apportée : le « euh »

Exemple de réponse apportée : le rire

Exemple de réponse apportée : la TOE

Exemple d'annotations de SPPAS : corpus CLeLfPC

CuedSpeech - LfPC : montrer les sons avec la main

Cued Speech - origines et objectifs

La Langue française Parlée Complétée

Exemple

Objectifs du projet :

Un logiciel codeur

Des capsules vidéos codées

Un logiciel codeur

SPPAS : Automatisation du codage LfPC

Un logiciel codeur : 4 questions scientifiques

Question 1 (quoi ?) : déterminer les phonèmes puis les clés

Prédiction des clés : exemple

Exemple d'annotations de SPPAS : corpus CLeLfPC

Analyse quantitative

Analyse qualitative des 183 substitutions

Substitution de la voyelle : /@/

Substitution de la voyelle : /e/

Substitution de la voyelle : /9~/

Question 1 (quoi ?) : déterminer les phonèmes puis les clés

Question 2 (quand ?) : synchronisation main-son

Question 3.1 (ou ?) : Déterminer la position des voyelles

Question 3.2 (ou ?) : la trajectoire

Question 4.1 (comment ?) : superposer des mains sur une vidéo

Question 4.2 (comment ?) : angle de la main

Evaluation / Validation

Exemple du codage

Conclusion & perspectives

Ce que nous avons et allons produire dans ce projet

Ce que nous allons produire dans le prochain projet

Annexes

Références bibliographiques

SPPAS en quelques chiffres

A propos

Licence

SPPAS : Un outil de réalité augmentée
pour coder automatiquement les sons en LfPC