SPPAS : Un outil de réalité augmentée
pour coder automatiquement les sons en LfPC

Brigitte Bigi, CRHC

projet financé par la FIRAH 2023-2026

Séminaire ATILF, Nancy, 14 mars 2024

SPPAS : segmenter la parole automatiquement

SPPAS : The automatic annotation and analysis of speech

Fonction majeure : segmentation de la parole

et ouais mais de toute façon et en plus c'est euh tu euh
Représentation de l'audio
Screenshot du résultat de SPPAS dans Praat

Au départ, un besoin : multiple !

Segmentation phonétique pour de la parole :

  1. conversationnelle en français
  2. de patients (maladie de parkinson, SLA, ...), en français
  3. collectées durant des expériences en psycho-linguistique, en anglais
  4. en vue d'analyses prosodiques, de l'italien, avec des mots et non-mots
  5. de textes lus, en mandarin

... et bien d'autres

      

Exemple de réponse apportée : le « euh »

si on regarde euh
euh la CSCE etc vous avez à jamais à aucun moment justement euh
euh au n- niveau des délimitations euh étatiques vous n'avez justement euh
euh cette superposition
euh donc euh
il y a euh
euh de ce point de vue là euh un flou et euh bon moi je suis assez euh

14 « euh » en 18 secondes…
Dans ce corpus, ils représentent 6% des tokens.

Exemple de réponse apportée : le rire

j'ai emprunté des livres à la b.u. j'ai déjà reçu le mail comme quoi qu'il faut que je les rende je les ai même pas ouverts @ @ @ c’est clair * je te jure @ c’est ça @ moi aussi @ c’est pareil j'ai reçu genre mais en plus j'en ai commandé euh quoi peut être huit quoi rien de (en)fin ridicule quoi @ @ d'où j'ai le temps de lire déjà rien que un livre @ j'en ai commandé huit quoi rien à voir (en)fin n’importe quoi du coup euh du coup ouais
9 rires en 19 secondes…
Dans ce corpus, ils représentent 4% des tokens.

Exemple de réponse apportée : la TOE

Une convention de transcription simple qui permet à SPPAS de gérer les événements de la parole.
Hésitation :
Rire :
Mots inconnus, mots régionaux :
Hypo-articulation :
Reprises, répétitions, mots tronqués :
Autres : élisions, bruits, etc.
non mais @ je sais pas tu ne tu te vois nous parler + on- moi je nous par- je n- @ je nous parlais

Exemple d'annotations de SPPAS : corpus CLeLfPC

Annotations de l'audio
Disponible sur Ortolang : https://hdl.handle.net/11403/clelfpc/

CuedSpeech - LfPC : montrer les sons avec la main

Cued Speech - origines et objectifs

R. Orin Cornett (1967)
Création d'un code visuel permettant de représenter chaque son d'une langue.

La Langue française Parlée Complétée

  • Encodage de tous les sons et toutes les combinaisons consonne-voyelle
  • Une clé est produite chaque fois que le locuteur prononce une syllabe 'C', 'V' ou 'CV'
  • Les structures syllabiques plus complexes sont codées avec plusieurs clés :
    • 'CCV' = 'C' + 'CV' => 2 clés

Exemple

Video preview

Objectifs du projet :

Le projet consiste à co-créer et co-évaluer un système IA codant automatiquement en Langue française Parlée Complétée et en Cued Speech anglais américain.

Un logiciel codeur

Des capsules vidéos codées

https://auto-cuedspeech.org

Un logiciel codeur

SPPAS : Automatisation du codage LfPC

Un logiciel codeur : 4 questions scientifiques

  1. quoi ? déterminer les phonèmes => la clé
  2. quand ? synchronisation main-son
  3. ou ? définir l'angle et la trajectoire
  4. comment ? superposer des mains sur une vidéo

Question 1 (quoi ?) : déterminer les phonèmes puis les clés

Prédiction des clés : exemple

Exemple d'annotations de SPPAS : corpus CLeLfPC

Video preview
Annotations de l'audio

Analyse quantitative

5 codeurs, 4143 clés annotées

Analyse qualitative des 183 substitutions

Les substitutions concernent (87,4 %) la position (voyelles) bien plus souvent que la forme de main (la consonne).

Substitution de la voyelle : /@/

Substitution de la voyelle : /e/

Substitution de la voyelle : /9~/

Question 1 (quoi ?) : déterminer les phonèmes puis les clés

https://auto-cuedspeech.org/annotate.html

Question 2 (quand ?) : synchronisation main-son

La main précède le son
  • Etat de l'art :
    • Duchnowski et al. (2000)
    • V. Attina (2005) & N. Aboutabit (2008)
  • 2022 : Proposition d'un modèle
  • 2025 : Proposition d'un modèle révisé après analyse des annotations de transitions des 5 codeurs
Video preview

Question 3.1 (ou ?) : Déterminer la position des voyelles

Face detection:
Video preview
Video preview
Video preview
Face identity:
Video preview
Face sight:
Video preview
Vowels:
Video preview

Question 3.2 (ou ?) : la trajectoire

Video preview

Question 4.1 (comment ?) : superposer des mains sur une vidéo

Photos ou dessins de mains
Coordonnées des points des mains

Question 4.2 (comment ?) : angle de la main

Video preview
Video preview
Video preview

Evaluation / Validation

  • 3 modèles de "quand"
  • 3 modèles d'angle
  • 4 séries de mains
  • 3 add-ons pour les mains
Video preview
Video preview
Video preview
Evalués en juillet 2024 avec une tâche de décodage :

Exemple du codage

Video preview

Conclusion & perspectives

Ce que nous avons et allons produire dans ce projet

Pour suivre l'évolution du projet, rendez-vous à l'adresse :
https://auto-cuedspeech.org

Ce que nous allons produire dans le prochain projet

Financement AMIDEX 2025-2028 (4 ans), 183 k€

Annexes

Références bibliographiques

SPPAS en quelques chiffres

14, 23, 30, 170, 535, 1400, 106k, 89k

A propos

Licence

Logo licence CC-by-NC-ND

Ce document est une œuvre de création, propriété exclusive du LPL, protégé par la législation française et internationale sur le droit de la propriété intellectuelle, sous Licence CC-by-NC-ND (Attribution / Pas d’Utilisation Commerciale / Pas de Modification).

Cette licence autorise toute diffusion (partager, copier, reproduire, distribuer, communiquer), sauf à des fins commerciales, par tous moyens et sous tous formats, tant que l'oeuvre est diffusée sans modification et dans son intégralité.

Vous êtes libre de copier, distribuer et transmettre ce document, à condition que vous créditiez le projet auto-cuedspeech.org.