La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Evaluation automatique du débit de la parole sur des données multilingues spontanées Jean-Luc Rouas, Jérôme Farinas, François Pellegrino.

Présentations similaires


Présentation au sujet: "Evaluation automatique du débit de la parole sur des données multilingues spontanées Jean-Luc Rouas, Jérôme Farinas, François Pellegrino."— Transcription de la présentation:

1

2 Evaluation automatique du débit de la parole sur des données multilingues spontanées Jean-Luc Rouas, Jérôme Farinas, François Pellegrino

3 2 Plan  Introduction  Identification des langues et débit  Mesure du débit (Manuel / Perceptif)  Statistiques interlangues  Estimation du débit (automatique)  Conclusions

4 3 Introduction  Débit = nombre “d’unités” par seconde  Quelles unités sont pertinentes ? phonèmes, syllabes…  Pourquoi s’intéresser au débit ? Comprendre son impact sur les caractéristiques de l’énoncé Normaliser des durées (unités rythmiques, etc.) Synthétiser de la parole à plusieurs débits Utiliser ses caractéristiques pour différencier des locuteurs, etc. Applications en Linguistique et en Traitement Automatique de la Parole

5 4  Résultats sur de la parole lue (débit peu variable) :  Résultats sur de la parole spontanée (débit fortement variable) Identification des langues et débit (1) Corpus : MULTEXT Tâche : Choix parmi 5 langues ~70% correct en moyenne Corpus : OGI MLTS Tâche : Choix parmi 2 langues ~66% correct en moyenne (Détails dans Icassp 2003)

6 5  Dellwo & Wagner, 2003 Identification des langues et débit (2)  Ramus, 2002

7 6 Mesure manuelle du débit  Choix de l’unité pertinente Mots / seconde  Relié à la quantité d’information sémantique  Peu pertinent dans des langues ayant des mots polysyllabiques Débit syllabique : Syllabes / seconde  Cohérent avec plusieurs théories d’accès lexical et d’acquisition Débit phonémique : Phonèmes / seconde  Relié à la quantité d’information phonétique Étude perceptive

8 7 Et le débit perçu ?  Pfitzinger, 1998 Allemand, PhonDat II (informations ferroviaires) Dsyl = 5.44 ; Dphon = 14.05 R(Dsyl, Dper) = 0.81 ; R(Dphon, Dper) = 0.73 ; R(Dcombin, Dper) = 0.88 (combinaison linéaire des débits syllabique & phonémique)

9 8 Étude interlangue : Les données  Corpus OGI Multilingual Telephone Speech (8kHz)  11 langues dont 6 avec étiquetage phonémique manuel  Mesures :

10 9 Étude interlangue: Statistiques  Débit syllabique (vocalique) moyen  Débit phonémique moyen (Toutes les stats sont significatives à p<.001)

11 10 Étude interlangue : L’espace DS/DP 11,5 12 12,5 13 13,5 14 14,5 15 15,5 44,555,56 Ma Ge En Ja Sp Hi Débit syllabique Débit phonémique -DSyl -DPhon DEBIT LENT +DSyl +DPhon DEBIT RAPIDE -DSyl +DPhon SYLLABES COMPLEXES +DSyl -DPhon SYLLABES SIMPLES

12 11 Étude interlangue : Corrélations entre DS/DP Longueur syllabique moyenne interlangue= 2,8 phonèmes Longueur syllabique moyenne maximale = 3,1 phonèmes (GE) Longueur syllabique moyenne minimale = 2,4 phonèmes (SP)

13 12 Mesure automatique du débit (1) Frequency (kHz) 8 4 00 00.20.40.60.81.0 Time (s) Amplitude 00.20.40.60.81.0 Time (s) NonVowelPause Vowel  Segmentation automatique : (André-Obrecht, 1988) Segments courts (parties transitoires des phonèmes) Segments longs (parties stables des phonèmes) Détection d’activité vocale : Analyse spectrale du signal Détection automatiques des voyelles : (Pellegrino & Obrecht, 2000) Algorithme indépendant des locuteurs et des langues Segmentation infra-phonémique Erreurs de classification parole/bruit Détection de noyaux vocaliques + Erreurs de classification C/V

14 13 Mesure automatique du débit (2) RéférenceCorpusLangueVER Pfitzinger et al., 1996(*) PhonDatII (parole lue) Verbmobil (parole spontanée) Allemand 12.9% 21.0% Fakotakis et al., 1997TIMIT (parole lue) Anglais32.0% Pfau & Ruske, 1998 Verbmobil (parole spontanée) Allemand22.7% Howitt, 2000TIMIT (parole lue) Anglais29.5% Pellegrino & André-Obrecht, 1999 OGI MLTS (parole spontanée) Français Japonais Coréen Espagnol Vietnamien 19.5% 16.3% 28.5% 19.2% 31.1% Moyenne22.9% VER = Vowel Error Rate = (omissions + insertions)/Nb voyelles

15 14 Les pauses sont conservées Estimation du débit syllabique  Utilisation de la détection de noyau vocalique comme prédicteur du débit syllabique  R moyen = 0,86 (R² = 0,74)

16 15 Estimation du débit phonémique  Utilisation de la segmentation comme prédicteur du débit phonémique  R moyen = 0,72 (R² = 0,52)  Pente moyenne = 0,55 (infra-phonémique)

17 16 Conclusions  Comparaison interlangue Le débit est fonction du locuteur et de la langue Débit et rythme interagissent et sont intimement liés à la structure syllabique des langues Débits phonémiques et syllabiques sont fortement corrélés En terme de débit d’informations segmentales, il existe des différences interlangues (intéressant à corréler aux niveaux morphologique et syntaxique)  Prédiction automatique La détection des voyelles est un estimateur efficace du débit syllabique (R=0,86) La segmentation est un estimateur relativement efficace du débit phonémique (R=0.72)

18 17 Quelques extensions  La question de la détection des pauses Pauses silencieuses (bruitées !) Pauses remplies  Modification nette de l’estimation du débit moyen… 0 20 40 60 80 100 120 140 160 180 200 05101520253035404550 Temps (s) Nombre de voyelles Nb de voyelles réel Nb de voyelles estimé

19 18 Quelques extensions (2)  Prise en compte des variations de débit

20 19 Et après ? Que faire une fois le débit estimé ? Normaliser les durées en fonction du débit syllabique ? Adapter les modèles au débit de l’énoncé étudié ? Traiter de manière différenciée les consonnes et les voyelles ? Traiter de manière différenciée les attaques/noyaux/coda ? Traiter de manière différenciée les syllabes (non) accentuées ? …


Télécharger ppt "Evaluation automatique du débit de la parole sur des données multilingues spontanées Jean-Luc Rouas, Jérôme Farinas, François Pellegrino."

Présentations similaires


Annonces Google