Analyses formantiques automatiques de voyelles orales : évidence de la réduction vocalique en langues française et allemande Cédric Gendrot 1 et.

Name: Analyses formantiques automatiques de voyelles orales : évidence de la réduction vocalique en langues française et allemande Cédric Gendrot 1 et.
Uploaded: 2017-12-29T13:33:39+00:00
Duration: PTM54S47
Channel: Ariane Courtois
Description: Analyses formantiques automatiques de voyelles orales : évidence de la réduction vocalique en langues française et allemande Cédric Gendrot 1 et.

Analyses formantiques automatiques de voyelles orales : évidence de la réduction vocalique en langues française et allemande Cédric Gendrot 1 et Martine Adda-Decker 2 1 LPP Université Paris Sorbonne Nouvelle CNRS UMR 7018 ILPGA 2 LIMSI-CNRS Bât. 508, BP 133, Orsay cedex, France

Plan 1 Introduction 2 Méthodologie : 3 Analyses 4 Discussion
2.1. Corpus 2.2. Segmentation 2.3. Filtrages 3 Analyses 3.1. Taux de rejets 3.2. Variations du triangle vocalique 4 Discussion

Cette étude est menée dans le cadre du projet MIDL
1. INTRODUCTION Cette étude est menée dans le cadre du projet MIDL du programme interdisciplinaire Société de l’Information du CNRS, dont les partenaires sont le LIMSI-CNRS, LPP Paris3, CTA/DGA, Télécom Paris, EA1483 Paris3. Utilisation de : Grands corpus audio Outils automatiques d’alignement Analyses formantiques automatiques

1. INTRODUCTION Nous tenterons de répondre à ces questions :
dans quelles proportions peut-on, avec des traitements automatiques, extraire des valeurs de formants de manière fiable? quelle proportion des voyelles extraites de parole naturelle, a des valeurs de formants proches des cibles attendues? comment évoluent les formants en fonction de la durée des segments ; quelles voyelles sont les plus sujettes à réduction? Nous comparerons les langues françaises et allemandes à partir de ces données. quelles différences entre les réductions dans les deux langues ?

Contribution de ces travaux
... Si la fiabilité est avérée .... l’établissement de valeurs de formants et de leur variabilité en français les phénomènes de réduction variations en termes d’aperture (corrélée à F1) et d’antériorité/postériorité (corrélée à F2).

2.1. CORPUS Enregistrements radio-et télédiffusés d’émissions journalistiques Corpus français : 2 heures de parole utile (15 hommes et 15 femmes) émissions de France Inter parole « semi-spontanée », réductions 40% de voyelles.(avec nasales) // et // sont comptabilisés ensemble pas de nasales dans nos analyses Corpus allemand : 2 heures de parole utile (20 hommes et 10 femmes) émissions journalistiques d’ARTE 37% de voyelles (avec diphtongues) pas de diphtongues dans nos analyses

Voy. #occ. (%) voy. #occ. (%) a 5365 (18.2) I 3186 (13.3)
e 3713 (12.6) A 2625 (10.9) ,  3361 (11.4) i 2466 (10.3)  3148 (10.7) a 2386 (9.9)  2219 (7.5)  2252 (9.4)  1672 (5.7) e 1840 (7.7) u 1374 (4.7) U 1700 (7.1) y 1313 (4.5)  1322 (5.5) õ 1274 (4.3) o 1244 (5.2)  1130 (3.8) u 688 (2.9) o 833 (2.8) y 371 (1.5)  289 (1.0) Y 306 (1.3)  : 250 (1.0)  190 (0.8) quantité majoritaire de /a/ voyelles relâchées (/I/, /A/, /U/) + fréquentes que leurs contreparties tendues (/i/, /a/, /u/) les voyelles antérieures (non arrondies) sont plus fréquentes les voyelles non arrondies sont plus fréquentes

 F 2   a  e i o u y (Hz) 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 200 400 600

2.2. Segmentation automatique
Le système de reconnaissance automatique du LIMSI a été utilisé pour l’alignement du corpus. La transcription orthographique étant connue à priori, le « système d’alignement » sert à : poser les frontières des phonèmes alignés (segments), à déterminer d’éventuelles variantes de prononciation réalisées (e.g. liaisons et /  /), isoler silences, respirations et autres bruits. Des modèles de phones indépendants du contexte sont utilisés pour l’alignement. Pour des raisons techniques, la précision de segmentation est de 10ms, la durée minimale d’un segment est de 30ms. L’étiquetage ainsi produit est phonémique (correspondant à une prononciation standard des mots). Les mesures des formants permettront d’évaluer les variations observées dans la réalisation des phonèmes.

un exemple

2.3. Filtrages Mesures brutes 2nd filtrage 1er filtrage retenues
rejetées rejetées retenues

1er filtrage précautions méthodologiques indispensables … pour éviter les détections erronées ! précision de la segmentation automatique dévoisement partiel (voire total) des voyelles formants proches, plus particulièrement dans les basses fréquences, (e.g. voyelles fermées postérieures /u/)

1er filtrage … suite /e/ (Hommes) F1 < 800 Hz
Les valeurs de pics d’amplitude mesurées sont filtrées afin de rejeter les valeurs aberrantes par rapport à l’acoustique du conduit vocal. Des fourchettes de valeurs inférieures et supérieures pour les trois premiers formants sont utilisées par exemple, /e/h doit réunir toutes les conditions suivantes pour être retenu par le 1er filtrage /e/ (Hommes) F1 < 800 Hz F2 >1100 et <2400 Hz F3 > 2000 Hz 4.16 % de rejets La majeure partie de ces rejets correspondent à des segments de très courte durée (600 des segments rejetés ont une durée inférieure à 50ms).

Mesures brutes 96 % 2nd filtrage 1er filtrage retenues rejetées rejetées retenues 4 %

2nd filtrage : Avec ce filtrage 38% des segments sont rejetés.
Les valeurs conservées par l’étape précédente sont ensuite filtrées par rapport à des valeurs canoniques publiées dans la littérature ; Les plages sont fixées arbitrairement à +/- 200Hz pour chaque formant (F1 et F2). Cette plage peut paraître trop restrictive surtout pour les fréquences élevées. Les valeurs retenues après ce second filtrage sont considérées comme proches des valeurs canoniques, (bonne articulation) Les valeurs rejetées sont conservées dans le but de les comparer aux valeurs retenues. (cibles non atteintes, "formant undershoot") Avec ce filtrage 38% des segments sont rejetés.

Mesures brutes 96 % 2nd filtrage 1er filtrage retenues rejetées rejetées retenues 4 % 38 % 62 %

3. ANALYSES ET RESULTATS

3.1. Taux de rejet des voyelles 1er -2nd filtrage
en fonction de l’identité de la voyelle : 1er filtrage : les taux de rejets sont plus élevés pour /i/, /y/, /u/, /o/ et /¿/. 2ème filtrage : les taux de rejets sont plus élevés pour les voyelles postérieures et /a/. Le /u/ est fortement rejeté pour les deux types de filtrage i y e E a O o u 5 15 1 0.3 0.6 4 0.4 1 4.9 25 34 25 34 28 46 35 22 43 41 65 pour le 1er filtr, ¿ car souvent trop court, dévoisé pour le 2nd filtr, /a/ car +/-200 Hz semble être trop petite fourchette

3.1. Taux de rejet des voyelles 1er - 2nd filtrage
en fonction de la durée : plus de segments courts éliminés que de segments longs ... ... pour ces segments courts les effets de coarticulation et d’assimilation sont les plus importants. Intervalle D (en ms) [ ] [ ] [90 – 110] filtrage 1 6.1 % 2.8 % 2.4 % filtrage 2 46.9 % 35.7 % 29.3 % tab. : proportion de segments rejetés pour différents intervalles de durée allemand similaire mais pas le temps ici

3.2. Variations du triangle vocalique
Cette étude est réalisée sur le corpus moins les 4% éliminés après 1er filtrage ... les valeurs retenues après le second filtrage sont globalement : plus extrêmes en termes de fermeture/ouverture : les valeurs de F1 sont plus faibles pour les voyelles fermées et plus élevées pour les voyelles ouvertes. plus extrêmes en termes d’antériorité/postériorité : les valeurs de F2 sont plus faibles pour les voyelles postérieures et plus élevées pour les voyelles antérieures. Les voyelles centrales /¿/ et /O/ gardent quant à elles, des valeurs stables pour les deux filtrages..

Valeurs moyennes de F1 et F2 pour les voyelles orales du français
Valeurs moyennes de F1 et F2 pour les voyelles orales du français. En noir, les valeurs retenues par le 1er filtrage (96%). En rouge, les valeurs retenues par le 2nd filtrage(60%) 2600 2600 2400 2400 2200 2200 2000 2000 1800 1800 1600 1600 1400 1400 1200 1200 1000 1000 800 800 200 200 i y   a  e i o u  y u e  o 400 400    600 600 a 800 800 F F (Hz) (Hz) 2 2

Valeurs moyennes de F1 et F2 pour les voyelles orales du français.
En rouge, les valeurs retenues par le 2nd filtrage (60%) 2600 2600 2400 2400 2200 2200 2000 2000 1800 1800 1600 1600 1400 1400 1200 1200 1000 1000 800 800 200 200 i y   a  e i o u  y u e  o 400 400    600 600 a 800 800 F F (Hz) (Hz) 2 2

En noir, les valeurs retenues par le 1er filtrage (96%). 2600 2600 2400 2400 2200 2200 2000 2000 1800 1800 1600 1600 1400 1400 1200 1200 1000 1000 800 800 200 200 i y e u  400 400  o   a 600 600 800 800 F F (Hz) (Hz) 2 2

Valeurs moyennes de F1 et F2 pour les voyelles orales du français
Valeurs moyennes de F1 et F2 pour les voyelles orales du français. En noir, les valeurs retenues par le 1er filtrage (96%). En rouge, les valeurs retenues par le 2nd filtrage(60%) 2600 2600 2600 2600 2400 2400 2400 2400 2200 2200 2200 2200 2000 2000 2000 2000 1800 1800 1800 1800 1600 1600 1600 1600 1400 1400 1400 1400 1200 1200 1200 1200 1000 1000 1000 1000 800 800 800 800 200 200 200 200 i y i y u e e   u o 400 400 400 400   o     a 600 600 600 600 a 800 800 800 800 F F F F (Hz) (Hz) (Hz) (Hz) 2 2 2 2

Valeurs moyennes de F1 et F2 pour les voyelles de l'allemand.
En noir, les valeurs retenues par le 1er filtrage. En rouge, les valeurs retenues par le 2nd filtrage 2600 2600 2400 2400 2200 2200 2000 2000 1800 1800 1600 1600 1400 1400 1200 1200 1000 1000 800 800 200 200 i i y y Y u u e I I Y e : 400 400 : U   U o o : : E E O O 600 600 a A A a 800 800 F F (Hz) (Hz) 2 2

3.2. Variations du triangle vocalique
Cette étude est réalisée sur le corpus moins les 4% éliminés après 1er filtrage ... en fonction du sexe du locuteur Le vecteur reliant les voyelles est petit pour les voyelles arrières, ... celles-ci étant des voyelles arrondies (et fermées), la différence entre hommes et femmes est moindre que pour les autres voyelles.

  a  e i o u  y 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 200 400 600 F 2 (Hz) FIG. 3 – Valeurs moyennes de F1 et F2 pour les voyelles orales du français après le filtrage1. En rouge pour les femmes En noir pour les hommes.

800 1000 1200 1400 1600 1800 2000 2200 2400 2600 200 400 600 F 2 (Hz)   a  e i o u  y   a  e i o u  y 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 200 400 600 F 2 (Hz) FIG. 3 – Valeurs moyennes de F1 et F2 pour les voyelles orales du français après le filtrage1. En rouge pour les femmes En noir pour les hommes.

pour l'allemand ...

2600 2600 2400 2400 2200 2200 2000 2000 1800 1800 1600 1600 1400 1400 1200 1200 1000 1000 800 800 200 200 i y I Y u e   U 400 400 o : E O 600 600 a A 800 800 F F (Hz) (Hz) 2 2

2600 2600 2400 2400 2200 2200 2000 2000 1800 1800 1600 1600 1400 1400 1200 1200 1000 1000 800 800 200 200 i y I Y u :  E I O Y a e i o u  y A U e   U 400 400 o : E O 600 600 a A 800 800 F F (Hz) (Hz) 2 2

en fonction de la durée les segments courts subissent plus de rejets que les segments longs lors du 2nd filtrage. Les voyelles courtes sont en effet considérablement réduites en termes de F1 et de F2 centralisation des voyelles cibles non atteintes Les variations observées pour l’allemand en fonction de la durée des voyelles sont très proches de celles observées pour le français pour les voyelles les plus brèves

pour le français ...

valeurs retenues par le 2nd filtrage (60%) 2600 2600 2400 2400 2200 2200 2000 2000 1800 1800 1600 1600 1400 1400 1200 1200 1000 1000 800 800 200 200   a  e i o u  y 400 400 600 600 800 800 F F (Hz) (Hz) 2 2 valeurs canoniques

2600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 200 400 600 F 2 (Hz)   a  e i o u  y 2600 2400 2400 2200 2200 2000 1800 1600 1400 1200 1000 800 200 200   a  e i o u  y 400 400 600 600 800 800 F (Hz) 2 valeurs canoniques (ici durée  90 ms)

800 1000 1200 1400 1600 1800 2000 2200 2400 2600 200 400 600 F 2 (Hz)   a  e i o u  y 2600 2600 2400 2400 2200 2200 2000 1800 1600 1400 1200 1000 800 200 200 400 400 600 600 800 800 F (Hz) 2 (ici durée  90 ms)

x 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 200 400 600 F 2 (Hz)   a  e i o u y 2600 2600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 200 400 600 F 2 (Hz)   a  e i o u  y 2400 2400 2200 2200 2000 1800 1600 1400 1200 1000 800 200 200 400 400 600 600 800 800 en bleu ... durée  90 ms F (Hz) 2 en rouge ms durée  60 ms

x 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 200 400 600 F 2 (Hz)   a  e i o u y 2600 2600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 200 400 600 F 2 (Hz)   a  e i o u  y 2400 2400 2200 2200 2000 1800 1600 1400 1200 1000 800 200 200 i y e  400 400  o u  a 600 600 800 800 en bleu ... durée  90 ms F (Hz) 2 en rouge ms durée  60 ms en noir ... durée  50 ms

pour l'allemand ...

Valeurs moyennes de F1 et F2 pour les voyelles orales de l ’allemand.
2600 2600 2600 2400 2400 2400 2200 2200 2200 2000 2000 2000 1800 1800 1800 1600 1600 1600 1400 1400 1400 1200 1200 1200 1000 1000 1000 800 800 800 200 200 200 :  A E I O U Y a e i o u  y (ici durée  90 ms) : A I O U Y a e i o u  y : E 400 400 400 600 600 600 800 800 800 F F F (Hz) (Hz) (Hz) 2 2 2 valeurs canoniques

800 1000 1200 1400 1600 1800 2000 2200 2400 2600 200 400 600 F 2 (Hz) :  A E I O U Y a e i o u  y :  A E I O U Y a e i o u  y en rouge ms durée  60 ms en bleu ... durée  90 ms :  A E I O U Y a e i o u  y en noir ... durée  50 ms

9  A E I O U Y a e i o u x y 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 200 400 600 F 2 (Hz) FIG. 9 – Valeurs moyennes de F1 et F2 pour les voyelles orales de l’allemand en fonction de leur durée. Par ordre croissant (noir, rouge, bleu)

4. DISCUSSION dans quelles proportions peut-on, avec des traitements automatiques, extraire des valeurs de formants de manière fiable? quelle proportion des voyelles extraites de parole naturelle, a des valeurs de formants proches des cibles attendues? Nous retrouvons pour environ 60% des voyelles des valeurs formantiques proches des valeurs de référence connues. Pour les 40% de voyelles rejetées, les valeurs formantiques extraites décrivent un mouvement concentrique dans le triangle vocalique. Ceci évoque des phénomènes de réduction vocalique, plutôt que des erreurs de détection de formants, ce qui plaide en faveur de la validité de l’approche automatique

4. DISCUSSION comment évoluent les formants en fonction de la durée des segments ; quelles voyelles sont les plus sujettes à réduction? quelles différences entre les réductions dans les deux langues ? Les variations formantiques sur l’ensemble du corpus (moins les 4% du premier filtrage) en fonction de la durée ne sont pas chaotiques. Les formants tendent vers une voyelle centrale pour les segments de courte durée. allemand : langue à accent lexical, plus de réduction que pour le français? Les réductions sont observées à un degré comparable dans les deux langues. Ceci suggère que la réduction n’est pas un phénomène exclusivement linguistique, mais admet aussi une cause d’ordre physique ou physiologique.

Analyses formantiques automatiques de voyelles orales : évidence de la réduction vocalique en langues française et allemande Cédric Gendrot 1 et.

Présentations similaires

Présentation au sujet: "Analyses formantiques automatiques de voyelles orales : évidence de la réduction vocalique en langues française et allemande Cédric Gendrot 1 et."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Analyses formantiques automatiques de voyelles orales : évidence de la réduction vocalique en langues française et allemande Cédric Gendrot 1 et.

Présentations similaires

Présentation au sujet: "Analyses formantiques automatiques de voyelles orales : évidence de la réduction vocalique en langues française et allemande Cédric Gendrot 1 et."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back