La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Analyses formantiques automatiques de voyelles orales : évidence de la réduction vocalique en langues française et allemande Cédric Gendrot 1 et Martine.

Présentations similaires


Présentation au sujet: "1 Analyses formantiques automatiques de voyelles orales : évidence de la réduction vocalique en langues française et allemande Cédric Gendrot 1 et Martine."— Transcription de la présentation:

1 1 Analyses formantiques automatiques de voyelles orales : évidence de la réduction vocalique en langues française et allemande Cédric Gendrot 1 et Martine Adda-Decker 2 1 LPP Université Paris Sorbonne Nouvelle CNRS UMR 7018 ILPGA 2 LIMSI-CNRS Bât. 508, BP 133, Orsay cedex, France

2 2 Plan 1 Introduction 2 Méthodologie : 2.1. Corpus 2.2. Segmentation 2.3. Filtrages 3 Analyses 3.1. Taux de rejets 3.2. Variations du triangle vocalique 4 Discussion

3 3 1. INTRODUCTION Cette étude est menée dans le cadre du projet MIDL du programme interdisciplinaire Société de lInformation du CNRS, dont les partenaires sont le LIMSI-CNRS, LPP Paris3, CTA/DGA, Télécom Paris, EA1483 Paris3. Utilisation de : –Grands corpus audio –Outils automatiques dalignement –Analyses formantiques automatiques

4 4 1. INTRODUCTION Nous tenterons de répondre à ces questions : –dans quelles proportions peut-on, avec des traitements automatiques, extraire des valeurs de formants de manière fiable? –quelle proportion des voyelles extraites de parole naturelle, a des valeurs de formants proches des cibles attendues? –comment évoluent les formants en fonction de la durée des segments ; quelles voyelles sont les plus sujettes à réduction? Nous comparerons les langues françaises et allemandes à partir de ces données. –quelles différences entre les réductions dans les deux langues ?

5 5 Contribution de ces travaux... Si la fiabilité est avérée.... létablissement de valeurs de formants et de leur variabilité en français –les phénomènes de réduction –variations en termes daperture (corrélée à F1) et dantériorité/postériorité (corrélée à F2).

6 6 Plan 1 Introduction 2 Méthodologie : 2.1. Corpus 2.2. Segmentation 2.3. Filtrages 3 Analyses 3.1. Taux de rejets 3.2. Variations du triangle vocalique 4 Discussion

7 CORPUS Enregistrements radio-et télédiffusés démissions journalistiques Corpus français : –2 heures de parole utile (15 hommes et 15 femmes) –émissions de France Inter –parole « semi-spontanée », réductions –40% de voyelles.(avec nasales) –/ / et / / sont comptabilisés ensemble –pas de nasales dans nos analyses Corpus allemand : –2 heures de parole utile (20 hommes et 10 femmes) –émissions journalistiques dARTE –37% de voyelles (avec diphtongues) –pas de diphtongues dans nos analyses

8 8 Voy.#occ.(%)voy.#occ.(%) a5365(18.2)I3186(13.3) i3781(12.8), 3174(13.3) e3713(12.6)A2625(10.9), 3361(11.4)i2466(10.3) 3148(10.7)a2386(9.9) 2219(7.5) 2252(9.4) 1672(5.7)e1840(7.7) u1374(4.7)U1700(7.1) y1313(4.5) 1322(5.5) õ1274(4.3)o1244(5.2) 1130(3.8)u688(2.9) o833(2.8)y371(1.5) 289(1.0)Y306(1.3) : 250(1.0) 190(0.8) les voyelles antérieures (non arrondies) sont plus fréquentes voyelles relâchées (/ I /, / A /, / U /) + fréquentes que leurs contreparties tendues (/i/, /a/, /u/) quantité majoritaire de /a/ les voyelles non arrondies sont plus fréquentes

9 9 F 2 a e i o u y F (Hz)

10 Segmentation automatique Le système de reconnaissance automatique du LIMSI a été utilisé pour lalignement du corpus. La transcription orthographique étant connue à priori, le « système dalignement » sert à : –poser les frontières des phonèmes alignés (segments), –à déterminer déventuelles variantes de prononciation réalisées (e.g. liaisons et / /), –isoler silences, respirations et autres bruits. Des modèles de phones indépendants du contexte sont utilisés pour lalignement. Pour des raisons techniques, la précision de segmentation est de 10ms, la durée minimale dun segment est de 30ms. Létiquetage ainsi produit est phonémique (correspondant à une prononciation standard des mots). Les mesures des formants permettront dévaluer les variations observées dans la réalisation des phonèmes.

11 11 un exemple

12 12 Plan 1 Introduction 2 Méthodologie : 2.1. Corpus 2.2. Segmentation 2.3. Filtrages 3 Analyses 3.1. Taux de rejets 3.2. Variations du triangle vocalique 4 Discussion

13 Filtrages Mesures brutes retenues 2nd filtrage rejetées retenues 1er filtrage rejetées

14 14 1er filtrage précautions méthodologiques indispensables … pour éviter les détections erronées ! –précision de la segmentation automatique –dévoisement partiel (voire total) des voyelles –formants proches, plus particulièrement dans les basses fréquences, (e.g. voyelles fermées postérieures /u/)

15 15 1er filtrage … suite Les valeurs de pics damplitude mesurées sont filtrées afin de rejeter les valeurs aberrantes par rapport à lacoustique du conduit vocal. Des fourchettes de valeurs inférieures et supérieures pour les trois premiers formants sont utilisées par exemple, /e/ h doit réunir toutes les conditions suivantes pour être retenu par le 1er filtrage /e/ (Hommes) F1 < 800 Hz F2 >1100 et <2400 Hz F3 > 2000 Hz 4.16 % de rejets La majeure partie de ces rejets correspondent à des segments de très courte durée (600 des segments rejetés ont une durée inférieure à 50ms).

16 16 Mesures brutes retenues 2nd filtrage rejetées retenues 1er filtrage rejetées 96 % 4 %

17 17 2nd filtrage : Les valeurs conservées par létape précédente sont ensuite filtrées par rapport à des valeurs canoniques publiées dans la littérature ; Les plages sont fixées arbitrairement à +/- 200Hz pour chaque formant (F1 et F2). Cette plage peut paraître trop restrictive surtout pour les fréquences élevées. Les valeurs retenues après ce second filtrage sont considérées comme proches des valeurs canoniques, (bonne articulation) Les valeurs rejetées sont conservées dans le but de les comparer aux valeurs retenues. (cibles non atteintes, "formant undershoot") Avec ce filtrage 38% des segments sont rejetés.

18 18 Mesures brutes retenues 2nd filtrage rejetées retenues 1er filtrage rejetées 96 % 4 % 38 % 62 %

19 19 Plan 1 Introduction 2 Méthodologie : 2.1. Corpus 2.2. Segmentation 2.3. Filtrages 3 Analyses 3.1. Taux de rejets 3.2. Variations du triangle vocalique 4 Discussion

20 20 3. ANALYSES ET RESULTATS

21 Taux de rejet des voyelles 1er -2nd filtrage en fonction de lidentité de la voyelle : 1er filtrage : les taux de rejets sont plus élevés pour /i/, /y/, /u/, /o/ et / ¿ /. 2ème filtrage : les taux de rejets sont plus élevés pour les voyelles postérieures et /a/. Le /u/ est fortement rejeté pour les deux types de filtrage iye E a ¿O ou pour le 1er filtr, ¿ car souvent trop court, dévoisé pour le 2nd filtr, /a/ car +/-200 Hz semble être trop petite fourchette

22 Taux de rejet des voyelles 1er - 2nd filtrage en fonction de la durée : plus de segments courts éliminés que de segments longs pour ces segments courts les effets de coarticulation et dassimilation sont les plus importants. Intervalle D (en ms) filtrage 1 filtrage 2 [ ] 6.1 % 46.9 % [ ] 2.8 % 35.7 % [90 – 110] 2.4 % 29.3 % tab. : proportion de segments rejetés pour différents intervalles de durée allemand similaire mais pas le temps ici

23 Variations du triangle vocalique Cette étude est réalisée sur le corpus moins les 4% éliminés après 1er filtrage... les valeurs retenues après le second filtrage sont globalement : –plus extrêmes en termes de fermeture/ouverture : – les valeurs de F1 sont plus faibles pour les voyelles fermées et plus élevées pour les voyelles ouvertes. –plus extrêmes en termes dantériorité/postériorité : – les valeurs de F2 sont plus faibles pour les voyelles postérieures et plus élevées pour les voyelles antérieures. Les voyelles centrales /¿/ et /O/ gardent quant à elles, des valeurs stables pour les deux filtrages..

24 24 a e i o u y F 2 (Hz) a e i o u y F 2 (Hz) Valeurs moyennes de F1 et F2 pour les voyelles orales du français. En noir, les valeurs retenues par le 1er filtrage (96%). En rouge, les valeurs retenues par le 2nd filtrage(60%)

25 25 a e i o u y F 2 (Hz) F 2 (Hz) Valeurs moyennes de F1 et F2 pour les voyelles orales du français. En rouge, les valeurs retenues par le 2nd filtrage (60%) a e i o u y

26 F 2 (Hz) a e i o u y F 2 (Hz) Valeurs moyennes de F1 et F2 pour les voyelles orales du français. En noir, les valeurs retenues par le 1er filtrage (96%).

27 F 2 (Hz) a e i o u y F 2 (Hz) a e i o u y F 2 (Hz) F 2 (Hz) Valeurs moyennes de F1 et F2 pour les voyelles orales du français. En noir, les valeurs retenues par le 1er filtrage (96%). En rouge, les valeurs retenues par le 2nd filtrage(60%)

28 28 : : A E I O U Y a e i o u y F 2 (Hz) : : A E I O U Y a e i o u y F 2 (Hz) Valeurs moyennes de F1 et F2 pour les voyelles de l'allemand. En noir, les valeurs retenues par le 1er filtrage. En rouge, les valeurs retenues par le 2nd filtrage

29 29 : : A E I O U Y a e i o u y F 2 (Hz) : : A E I O U Y a e i o u y F 2 (Hz) Valeurs moyennes de F1 et F2 pour les voyelles de l'allemand. En noir, les valeurs retenues par le 1er filtrage. En rouge, les valeurs retenues par le 2nd filtrage

30 30 : : A E I O U Y a e i o u y F 2 (Hz) : : A E I O U Y a e i o u y F 2 (Hz) Valeurs moyennes de F1 et F2 pour les voyelles de l'allemand. En noir, les valeurs retenues par le 1er filtrage. En rouge, les valeurs retenues par le 2nd filtrage

31 31 Plan 1 Introduction 2 Méthodologie : 2.1. Corpus 2.2. Segmentation 2.3. Filtrages 3 Analyses 3.1. Taux de rejets 3.2. Variations du triangle vocalique 4 Discussion

32 Variations du triangle vocalique Cette étude est réalisée sur le corpus moins les 4% éliminés après 1er filtrage... en fonction du sexe du locuteur Le vecteur reliant les voyelles est petit pour les voyelles arrières,... celles-ci étant des voyelles arrondies (et fermées), la différence entre hommes et femmes est moindre que pour les autres voyelles.

33 33 FIG. 3 – Valeurs moyennes de F1 et F2 pour les voyelles orales du français après le filtrage1. En rouge pour les femmes En noir pour les hommes.

34 34 FIG. 3 – Valeurs moyennes de F1 et F2 pour les voyelles orales du français après le filtrage1. En rouge pour les femmes En noir pour les hommes.

35 35 FIG. 3 – Valeurs moyennes de F1 et F2 pour les voyelles orales du français après le filtrage1. En rouge pour les femmes En noir pour les hommes.

36 36 FIG. 3 – Valeurs moyennes de F1 et F2 pour les voyelles orales du français après le filtrage1. En rouge pour les femmes En noir pour les hommes.

37 37 pour l'allemand...

38 38 : A E I O U Y a e i o u y F 2 (Hz) F 2 (Hz)

39 39 : A E I O U Y a e i o u y F 2 (Hz) F 2 (Hz)

40 40 : A E I O U Y a e i o u y F 2 (Hz) F 2 (Hz) : E I O Y a e i o u y A U

41 41 : A E I O U Y a e i o u y F 2 (Hz) F 2 (Hz) : E I O Y a e i o u y A U

42 42 : A E I O U Y a e i o u y F 2 (Hz) F 2 (Hz) : E I O Y a e i o u y A U

43 43 en fonction de la durée les segments courts subissent plus de rejets que les segments longs lors du 2nd filtrage. Les voyelles courtes sont en effet considérablement réduites en termes de F1 et de F2 centralisation des voyelles cibles non atteintes Les variations observées pour lallemand en fonction de la durée des voyelles sont très proches de celles observées pour le français pour les voyelles les plus brèves

44 44 pour le français...

45 F 2 (Hz) F 2 (Hz) a e i o u y Valeurs moyennes de F1 et F2 pour les voyelles orales du français. valeurs retenues par le 2nd filtrage (60%) valeurs canoniques

46 F 2 (Hz) (ici durée 90 ms) a e i o u y valeurs canoniques

47 F 2 (Hz) (ici durée 90 ms)

48 F 2 (Hz) en bleu... durée 90 ms x F 2 (Hz) a e i o u x y F 2 (Hz) F 2 (Hz) F 2 (Hz) en rouge... 90ms durée 60 ms

49 F 2 (Hz) x F 2 (Hz) a e i o u x y F 2 (Hz) F 2 (Hz) F 2 (Hz) en rouge... 90ms durée 60 ms en bleu... durée 90 ms

50 F 2 (Hz) x F 2 (Hz) a e i o u x y F 2 (Hz) F 2 (Hz) F 2 (Hz) a e i o u y en bleu... durée 90 ms en rouge... 90ms durée 60 ms en noir... durée 50 ms

51 51 pour l'allemand...

52 F 2 (Hz) F 2 (Hz) F 2 (Hz) : A I O U Y a e i o u y : E : A E I O U Y a e i o u y (ici durée 90 ms) valeurs canoniques Valeurs moyennes de F1 et F2 pour les voyelles orales de l allemand.

53 53 en bleu... durée 90 ms : A E I O U Y a e i o u y en rouge... 90ms durée 60 ms : A E I O U Y a e i o u y en noir... durée 50 ms

54 54 FIG. 9 – Valeurs moyennes de F1 et F2 pour les voyelles orales de lallemand en fonction de leur durée. Par ordre croissant (noir, rouge, bleu)

55 55 Plan 1 Introduction 2 Méthodologie : 2.1. Corpus 2.2. Segmentation 2.3. Filtrages 3 Analyses 3.1. Taux de rejets 3.2. Variations du triangle vocalique 4 Discussion

56 56 4. DISCUSSION –dans quelles proportions peut-on, avec des traitements automatiques, extraire des valeurs de formants de manière fiable? –quelle proportion des voyelles extraites de parole naturelle, a des valeurs de formants proches des cibles attendues? Nous retrouvons pour environ 60% des voyelles des valeurs formantiques proches des valeurs de référence connues. Pour les 40% de voyelles rejetées, les valeurs formantiques extraites décrivent un mouvement concentrique dans le triangle vocalique. Ceci évoque des phénomènes de réduction vocalique, plutôt que des erreurs de détection de formants, ce qui plaide en faveur de la validité de lapproche automatique

57 57 4. DISCUSSION –comment évoluent les formants en fonction de la durée des segments ; quelles voyelles sont les plus sujettes à réduction? –quelles différences entre les réductions dans les deux langues ? allemand : langue à accent lexical, plus de réduction que pour le français? Les réductions sont observées à un degré comparable dans les deux langues. Ceci suggère que la réduction nest pas un phénomène exclusivement linguistique, mais admet aussi une cause dordre physique ou physiologique. Les variations formantiques sur lensemble du corpus (moins les 4% du premier filtrage) en fonction de la durée ne sont pas chaotiques. Les formants tendent vers une voyelle centrale pour les segments de courte durée.


Télécharger ppt "1 Analyses formantiques automatiques de voyelles orales : évidence de la réduction vocalique en langues française et allemande Cédric Gendrot 1 et Martine."

Présentations similaires


Annonces Google