théorie de la perturbation (Chiba et Kajiyama) La théorie de la perturbation s’applique sur chaque formant séparément. par exemple, une constriction dans le pharynx tombe près d’un minimum de vitesse dans le pharynx pour la 1ère résonance ; on prédit un réhaussement de F1 (/ɑ/ > /œ/) Dans le même temps, une constriction dans le pharynx coïncide avec un maximum de vitesse pour la 2ème résonance ; on prédit un abaissement de F2 (/ɑ/ < /œ/) la théorie de la perturbation et la modélisation dans un système à 2 tubes aboutit aux même résultat pour /ɑ/
Les 2 modèles apportent également les mêmes résultats pour le F2 de /i/ le nomogramme montre que F2, pour une constriction à 10 cm de la glotte a une valeur de F2 proche de 2 kHz la théorie de la perturbation indique que si on a une constriction à 10cm de la glotte correspond à un point où la vitesse est minimale/faible pour F2 ; on prédit un F2 plus élevé. qu’en est-il pour les autres formants de /i/ ?
loi de la perturbation Les gestes basiques pour manipuler les formants sont (pour un adulte) globalement : 1 geste pour manipuler F1, 2 pour F2, 3 pour F3.
Vaissière, 2007
entassement/retroflexion langue arrondissement lèvres L’utilité de la théorie de la perturbation est parfaitement illustrée par le 3ème formant de /ɹ/ de l’anglais américain. Ce son est produit avec 3 constrictions simultanées (labiale, coronale et pharyngale), et est atypique puisque produit avec un F3 très bas (Lindau, 1985) La modélisation est beaucoup plus complexe que celles que nous avons vu mais la théorie de la perturbation permet très facilement d’expliquer les fréquences très basses du 3ème formant. entassement/retroflexion langue arrondissement lèvres constriction pharyngale se produisent toutes les 3 à un max de vitesse
La théorie de la perturbation et de la modélisation par tubes pour les voyelles /i/ et /ɑ/ fournissent des prédictions identiques pour les fréquences de résonances. Cependant quand il y a plus d’une constriction, comme pour /ɹ/, il est plus facile d’appliquer la théorie de la perturbation
Une autre distinction importante : la modélisation par tubes prédit que les résonances du conduit vocal proviennent des propriétés de résonance de cavités spécifiques. Les valeurs de formants sont affiliées à une cavité (ou une autre) En conséquence, les prédictions de la modélisation par tubes sont meilleures dans des articulations avec des constrictions étroites, et donc pas trop de couplage entre les cavités.
Delattre, 1955
La protrusion des lèvres et l’arrondissement abaisse tous les formants, particulièrement ceux affiliés à la cavité antérieure. (F3 de /i/) L’abaissement du larynx a le même effet que l’arrondissement/protrusion, mais a un effet + important sur les formants affiliés à la cavité postérieure
voyelles préférées – théorie quantique et dispersion adaptative La théorie quantique prédit que les plateaux dans la correspondance articulatoire-acoustique définissent des articulations universelles préférées. pour le /i/ par exemple, F2 aura une valeur stable quand la taille de la cavité postérieure varie entre 10 et 12 cm (constriction palatale) l’écart entre F2 et F3 y est faible et on devrait retrouver cela dans un grand nombre de langues idem pour /u/ (contriction près du palais mou) voyelles supposément stables puisque une certaine marge de manœuvre articulatoire est autorisée Ce sont également les voyelles les + fréquentes dans les langues Selon Lindblom, c’est leur éloignement acoustique qui favorise leur apparition. Selon Schwartz et al, c’est le renforcement des formants.
un peu de perception qu’est-ce qui est encodé dans la phonologie de l’auditeur le geste (articulatoire) les cibles acoustiques … pas vraiment reglé (cf ouvrage de Nick Clements et Rachid Ridouane )
représentations acoustiques des voyelles Les caractéristiques auditives des voyelles sont différentes de leurs représentations acoustiques (vues dans les spectrogrammes par exemple et prédites par la théorie source-filtre) à cause des caractéristiques non linéaires du système auditif humain (Liljencrants et Lindblom, 1972 ; Syrdal et Gophal, 1986 ; Miller, 1989 ; Traunmüller, 1981 ; etc.)
acoustique : formants et LPC LPC estime les résonances du conduit vocal
La LPC est extrêmement utilisée en phonétique, mais a ses limites elle émet l’hypothèse que le spectre est caractérisé par des pics spectraux nets (donc peu pratique pour les nasales, latérales, fricatives) il est nécessaire de préciser le nombre de formants attendus dans une fourchette spectrale (que la LPC cherchera à tout prix à atteindre)
représentation auditive des voyelles z = [26.81 / (1 + 1960 / f )] - 0.53, with f in Hz
le système auditif réalise une analyse de Fourier sur les sons qui lui parviennent. Cependant, cette analyse de fréquences physiologique n’est pas la même que la décomposition mathématique des sons (de Fourier). La principale différence est que la réponse en fréquences du système auditif humain n’est pas linéaire. De même qu’un changement de 1000 µPa pour un son de faible intensité n’est pas perceptivement équivalent à une variation du même ordre, mais à des intensités plus élevées. un changement de son de 500 à 600 Hz n’est pas perceptivement équivalent à un changement de 5000 à 5100 Hz
La figure précédente montre la relation entre une échelle de fréquence auditive appelée l’échelle Bark (Zwicker, 1961 ; Schroeder et al. 1979) et une échelle de fréquences en kHertz Zwicker (1975) a montré que l’échelle Bark était proportionnelle à une échelle de hauteur perçue (Mel) et à la distance le long de la membrane basilaire Un son simple d’une fréquence de 500 Hz a une fréquence auditive de 4.9 Bark, et un son d’une fréquence de 1000 Hz correspond à 8.5 Bark, soit une différence de 3.6 Bark 5000 Hz 19.2 Bark ; 5500 Hz 19.8 Bark Le système auditif est + sensible aux variations de fréquence dans les basses que dans les hautes fréquences
Cette non linéarité dans la sensation de fréquence est liée au fait que l’expérience de l’auditeur concernant la hauteur des sons voisés et le timbre des sons complexes est largement basée sur la structure physique de la membrane basilaire La figure illustre la relation entre la fréquence et le lieu le long de la membrane basilaire. une portion large de la membrane répond aux sons sous les 1000 Hz, alors qu’une portion fine répond aux fréquences entre 12000 et 13000 Hz par exemple.
En pratique, quand nous calculons un spectre acoustique (avec ou sans LPC) d’un son de la parole, les échelles de fréquence et d’intensité de l’analyseur (Praat) ne sont pas les mêmes que celles de l’auditeur. Par conséquence, les analyses acoustiques pourraient ne pas correspondre à l’expérience du locuteur. L’écart peut s’avérer crucial pour des sons comme les fricatives ou les occlusives qui possèdent beaucoup d’énergie dans les hautes fréquences. Il est alors conseillé d’utiliser une échelle s’approchant du système auditif, (Mel et Bark étant les plus connues)
perception des voyelles inter-langues Etude de Terbeek (1977). L’auteur a produit des voyelles dans le contexte [bəb_] puis les a présentées en séquences de 3 en demandant aux auditeurs de juger les 2 les + proches ainsi que les 2 les + éloignées A B C [bəbi] [bəby] [bəbu] si les auditeurs décident que [i] et [u] sont les + éloignées et que [y] et [u] sont les + proches
matrice de dissimilarité qui permettent de générer des cartes perceptives elles sont très semblables aux représentations acoustiques (F1 et F2) … F1 et F2 jouent donc forcément un rôle dans la perception des voyelles l’inventaire des sons distinctifs (phonèmes) de la langue influence leur perception. En comparant l’allemand et le turc avec l’anglais et le thaï. L’allemand et le turc possèdent un /y/ qui du coup s’éloigne des autres voyelles en formant une sorte de pic en haut de l’espace acoustique. Le turc et l’allemand ne possèdent pas de /ʌ/ et le fusionnent (perceptivement) avec le /ɑ/ Si un son distinctif existe dans la langue, les auditeurs le percevront comme plus différent d’autres sons acoustiquement proches qui ne seraient pas utilisés dans la langue
/æ/, bien que non distinctif en allemand et en turc, reste perceptivement distinct de /e/ et /ɑ/, comme les auditeurs anglais et thaï, pour qui il s’agit bien d’un phonème. Cette observation semble suggérer que la distinction acoustique/auditive brute compte dans toutes les langues. /ʌ/ peut être confondu avec /ɑ/ car ils sont auditivement similaires, mais /æ/ est suffisamment distinct pour résister à la fusion (perceptive) avec d’autres voyelles.
Pour finir, notons que la géométrie de l’espace perceptif change d’une langue à l’autre. Ce sont les mêmes signaux acoustiques écoutés par les auditeurs qui ont des systèmes linguistiques différents. Ainsi il est intéressant de constater que pour les locuteurs de l’anglais, /y/ est plus proche de /u/ que de /i/ (ce qui est le cas pour l’allemand et le turc) Cela pourrait être lié à la façon dont le /u/ américain est prononcé : en fait antériorisé, plus proche de /ʉ/. Cela résulte en un F2 + haut, comme trouvé pour /y/. Pour les auditeurs anglais, cela peut représenter une catégorie de voyelle ayant un F2 élevé.
On peut observer une organisation perceptive similaire dans la postériorité relative du /ɑ/ en turc versus la position centrale du /ɑ/ dans les autres langues. Peut-être que l’harmonie vocalique de postériorité en turc accroit chez les auditeurs turcs une affinité linguistique au /ɑ/ et à d’autres voyelles postérieures.
utilisation de vtcalc
… ou tractsyn (peter birkholz)