Evaluation automatique du débit de la parole sur des données multilingues spontanées Jean-Luc Rouas, Jérôme Farinas, François Pellegrino
2 Plan Introduction Identification des langues et débit Mesure du débit (Manuel / Perceptif) Statistiques interlangues Estimation du débit (automatique) Conclusions
3 Introduction Débit = nombre “d’unités” par seconde Quelles unités sont pertinentes ? phonèmes, syllabes… Pourquoi s’intéresser au débit ? Comprendre son impact sur les caractéristiques de l’énoncé Normaliser des durées (unités rythmiques, etc.) Synthétiser de la parole à plusieurs débits Utiliser ses caractéristiques pour différencier des locuteurs, etc. Applications en Linguistique et en Traitement Automatique de la Parole
4 Résultats sur de la parole lue (débit peu variable) : Résultats sur de la parole spontanée (débit fortement variable) Identification des langues et débit (1) Corpus : MULTEXT Tâche : Choix parmi 5 langues ~70% correct en moyenne Corpus : OGI MLTS Tâche : Choix parmi 2 langues ~66% correct en moyenne (Détails dans Icassp 2003)
5 Dellwo & Wagner, 2003 Identification des langues et débit (2) Ramus, 2002
6 Mesure manuelle du débit Choix de l’unité pertinente Mots / seconde Relié à la quantité d’information sémantique Peu pertinent dans des langues ayant des mots polysyllabiques Débit syllabique : Syllabes / seconde Cohérent avec plusieurs théories d’accès lexical et d’acquisition Débit phonémique : Phonèmes / seconde Relié à la quantité d’information phonétique Étude perceptive
7 Et le débit perçu ? Pfitzinger, 1998 Allemand, PhonDat II (informations ferroviaires) Dsyl = 5.44 ; Dphon = R(Dsyl, Dper) = 0.81 ; R(Dphon, Dper) = 0.73 ; R(Dcombin, Dper) = 0.88 (combinaison linéaire des débits syllabique & phonémique)
8 Étude interlangue : Les données Corpus OGI Multilingual Telephone Speech (8kHz) 11 langues dont 6 avec étiquetage phonémique manuel Mesures :
9 Étude interlangue: Statistiques Débit syllabique (vocalique) moyen Débit phonémique moyen (Toutes les stats sont significatives à p<.001)
10 Étude interlangue : L’espace DS/DP 11, , , , ,5 44,555,56 Ma Ge En Ja Sp Hi Débit syllabique Débit phonémique -DSyl -DPhon DEBIT LENT +DSyl +DPhon DEBIT RAPIDE -DSyl +DPhon SYLLABES COMPLEXES +DSyl -DPhon SYLLABES SIMPLES
11 Étude interlangue : Corrélations entre DS/DP Longueur syllabique moyenne interlangue= 2,8 phonèmes Longueur syllabique moyenne maximale = 3,1 phonèmes (GE) Longueur syllabique moyenne minimale = 2,4 phonèmes (SP)
12 Mesure automatique du débit (1) Frequency (kHz) Time (s) Amplitude Time (s) NonVowelPause Vowel Segmentation automatique : (André-Obrecht, 1988) Segments courts (parties transitoires des phonèmes) Segments longs (parties stables des phonèmes) Détection d’activité vocale : Analyse spectrale du signal Détection automatiques des voyelles : (Pellegrino & Obrecht, 2000) Algorithme indépendant des locuteurs et des langues Segmentation infra-phonémique Erreurs de classification parole/bruit Détection de noyaux vocaliques + Erreurs de classification C/V
13 Mesure automatique du débit (2) RéférenceCorpusLangueVER Pfitzinger et al., 1996(*) PhonDatII (parole lue) Verbmobil (parole spontanée) Allemand 12.9% 21.0% Fakotakis et al., 1997TIMIT (parole lue) Anglais32.0% Pfau & Ruske, 1998 Verbmobil (parole spontanée) Allemand22.7% Howitt, 2000TIMIT (parole lue) Anglais29.5% Pellegrino & André-Obrecht, 1999 OGI MLTS (parole spontanée) Français Japonais Coréen Espagnol Vietnamien 19.5% 16.3% 28.5% 19.2% 31.1% Moyenne22.9% VER = Vowel Error Rate = (omissions + insertions)/Nb voyelles
14 Les pauses sont conservées Estimation du débit syllabique Utilisation de la détection de noyau vocalique comme prédicteur du débit syllabique R moyen = 0,86 (R² = 0,74)
15 Estimation du débit phonémique Utilisation de la segmentation comme prédicteur du débit phonémique R moyen = 0,72 (R² = 0,52) Pente moyenne = 0,55 (infra-phonémique)
16 Conclusions Comparaison interlangue Le débit est fonction du locuteur et de la langue Débit et rythme interagissent et sont intimement liés à la structure syllabique des langues Débits phonémiques et syllabiques sont fortement corrélés En terme de débit d’informations segmentales, il existe des différences interlangues (intéressant à corréler aux niveaux morphologique et syntaxique) Prédiction automatique La détection des voyelles est un estimateur efficace du débit syllabique (R=0,86) La segmentation est un estimateur relativement efficace du débit phonémique (R=0.72)
17 Quelques extensions La question de la détection des pauses Pauses silencieuses (bruitées !) Pauses remplies Modification nette de l’estimation du débit moyen… Temps (s) Nombre de voyelles Nb de voyelles réel Nb de voyelles estimé
18 Quelques extensions (2) Prise en compte des variations de débit
19 Et après ? Que faire une fois le débit estimé ? Normaliser les durées en fonction du débit syllabique ? Adapter les modèles au débit de l’énoncé étudié ? Traiter de manière différenciée les consonnes et les voyelles ? Traiter de manière différenciée les attaques/noyaux/coda ? Traiter de manière différenciée les syllabes (non) accentuées ? …