Automatic Cued Speech / LfPC automatisée

La réalité augmentée au service des personnes sourdes



Livrable WP1 - L1 : Segmentation phonétique

Contexte et objectifs

Description du corpus

CLeLfPC - Corpus de Lecture en LfPC, contient des enregistrements audio/vidéo de lecture à voix haute en codant en Langue française Parlée Complétée. Le corpus a été enregistré en août 2021 à l'occasion du stage organisé par l'ALPC (https://alpc.asso.fr).

Le corpus est constitué des enregistrements de 25 thèmes par 23 participants. Une série de 10 thèmes de lecture avait été établie, elle peut être consultée à cette adresse : https://sppas.org/LFPC/.

Chacun des 10 thèmes est constitué de 4 sessions distinctes :

  1. enregistrement audio/vidéo de 32 syllabes "CV" isolées (1 seule clé produite pour chaque syllabe),
  2. enregistrement audio/vidéo de 32 mots ou expressions,
  3. enregistrement audio/vidéo de phrases isolées,
  4. enregistrement audio/vidéo d'un texte.

Objectif

Le corpus doit être enrichi d'annotations pour pouvoir être exploité dans le cadre de ce projet. En premier lieu, nous aurons besoin de connaître quels sont les phonèmes qui ont été prononcés, et à quel moment ils l'ont été.

Initialement, nous avions pour objectif d'annoter 20 locuteurs du corpus, soit deux fois chaque thème.

Actuellement, 10 thèmes ont été annotés automatiquement et corrigés manuellement au niveau phonétique.

En savoir plus...

Enregistrements annotés

Ci-dessous, la liste des enregistrements pour lesquels nous disposons de la segmentation phonétique, et leur description :

Les fichiers (audios, vidéos, annotations) sont déposés sous les termes de la licence publique CC-By-NC-4.0. Ils peuvent être téléchargés à partir de la version 6 du dépôt https://www.ortolang.fr par tout membre d'un Etablissement Supérieur de la Recherche. Pour toute autre demande, envoyer un e-mail à brigitte.bigi[at]cnrs.fr.

Description des étapes réalisées pour obtenir les annotations

Recherche des unités inter-pausales

Les unités inter-pausales (IPUs) sont des portions audibles de fichier audio, séparés par des segments inaudibles (silences). La durée minimale des segments inaudibles a été fixée à 200ms. Ces unités sont déterminées automatiquement par le logiciel SPPAS, avec l'annotation "Search for IPUs".

Une fois obtenue, cette annotation doit être corrigée, afin de :

  1. [requis] vérifier les frontières de début et fin des portions audibles,
  2. [optionnel] supprimer les portions audibles qui ne présentent aucun intérêt (bruit, erreur de détection, etc).

Transcription orthographique

La transcription orthographique est réalisée manuellement, après écoute des IPUs, dans le logiciel Praat. Cette transcription doit respecter une convention, qui est décrite en suivant ce lien. Le principe de cette convention repose sur l'idée que chaque "son" qui est présent dans l'enregistrement doit être transcrit. Par exemple, les rires, les hésitations ou les répétitions devront y être mentionnés.

Illustration d'une transcription orthographique
Exemple d'un fichier segmenté en IPUs et transcrit orthographiquement dans Praat

Transcription phonétique

La transcription phonétique est obtenue avec SPPAS en effectuant deux annotations automatiques : "Text normalization" et "Phonetization". La première supprime la ponctuation, transforme les chiffres dans leur version écrite (par exemple "2" devient "deux"), et segmente en mots. La seconde annotation transforme le texte normalisé en séquences de phonèmes. Lorsqu'un mot se prononce de différentes façons, toutes ses variantes sont conservées.

Illustration de la normalisation de la transcription
Exemple d'une transcription normalisée
Illustration de la phonétisation du texte normalisé
Exemple d'une transcription normalisée puis phonétisée automatiquement dans SPPAS

Afin d'obtenir une annotation de qualité, nous avons corrigé manuellement le résultat de la phonétisation, en sélectionnant la prononciation appropriée de chaque mot, dans l'éditeur de SPPAS.

Illustration de la phonétisation corrigée
Exemple de la phonétisation automatique corrigée manuellement dans SPPAS

Alignement temporel des phonèmes

Dans un premier temps, cette annotation est effectuée automatiquement avec SPPAS ; elle permet d'obtenir l'alignement temporel entre les phonèmes et l'enregistrement audio. Dans un second temps, cet alignement est corrigé manuellement avec le logiciel Praat.

Illustration de l'alignement automatique
Exemple de l'alignement automatique d'une IPU dans SPPAS

A l'issue de ce processus, nous obtenons un alignement temporel des phonèmes.

Illustration de l'alignement corrigé
Exemple de l'alignement corrigé manuellement dans Praat

Contributeurs

Annotation du corpus : Brigitte Bigi, Léa Delaporte

Dernière mise à jour : septembre 2023

Licence du document : GNU documentation libre - FDL 1.3