La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Martine Toda IRCOM et LPP, UMR 7018

Présentations similaires


Présentation au sujet: "Martine Toda IRCOM et LPP, UMR 7018"— Transcription de la présentation:

1 Martine Toda IRCOM et LPP, UMR 7018 martinetoda@gmail.com
Primitives sonores des langues : techniques et finalités de la phonétique de corpus Martine Toda IRCOM et LPP, UMR 7018

2 Séminaire IPS - Strasbourg
Plan I. Primitives phonétiques : les unités sonores de la parole Phonèmes, traits Indices contrastifs des fricatives sibilantes Plusieurs corrélats articulatoires Stratégies spécifiques aux locuteurs Pertinence des indices acoustiques en fonction des langues Conclusion partielle Convergence phonétique, changement historique, émergence des systèmes phonologiques II. Vers une approche ascendante de la diversité sonore des langues Principes Etat de l’art des ressources linguistiques et outils disponibles Archives linguistiques Outils : transcription automatique, alignement automatique, annotation automatique, concordanciers, fouille Méthodes non supervisées d’extraction d’information III. Conclusion et perspectives 22/05/2012 Séminaire IPS - Strasbourg

3 I. Primitives phonétiques : les unités sonores de la parole
Etude de cas des fricatives sibilantes Dans cette première partie, je vais surtout vous parler de fricatives sibilantes que j’ai étudiées au cours de ma thèse, à titre d’illustration, mais je souhaite traiter une problématique qui concerne bel et bien les systèmes phonologiques et leur représentation dans leur globalité.

4 Séminaire IPS - Strasbourg
Phonèmes, traits français s  ʃ japonais s  sj Phonèmes antérieur / postérieur non-palatal / palatal /s/fr /ʃ/ /s/jp Géométrie des traits (Clements, 1985) Quand nous entendons de la parole, nous décodons les unités qui la composent. Historiquement, les unités distinctives minimales ont été identifiées en tant que phonèmes. Par exemple, en français et en japonais, on trouve un s, qui s’oppose à une autre fricative sibilante par son lieu d’articulation. En français, il s’agit d’un contraste simple de lieu, et en japonais, c’est une opposition de type palatal/ non-palatal. Le problème des phonèmes, représentés par des symboles simples dans la plupart des cas, c’est qu’ils ne permettent pas de rendre compte de la différence de statut des s dans les deux langues. C’est alors qu’on peut faire appel aux traits phonologiques, qui sont des concepts qui décrivent des caractéristiques infra-phonémiques, et qui permettent de refléter plus fidèlement l’organisation des phonèmes en systèmes : les phonèmes qui présentent un comportement similaire dans des contextes similaires forment des classes naturelles, et ces classes se caractérisent par un ou plusieurs trait(s) partagé(s). Ici, la non-palatalisation du /s/ japonais est représentée par un trait vocalique d’articulation secondaire. Les traits sont des objets abstraits, mais qui peuvent être reliés partiellement à des caractéristiques physiques, articulatoires ou acoustiques. Or, la description en traits souffre de certaines imperfections. Par exemple, il existe des oppositions qui peuvent être décrites par plusieurs traits à la fois, de manière redondante. Dans ces cas de figure, on ne dispose pas toujours d’arguments pour écarter un trait plutôt qu’un autre, ou alors si on doit considérer plusieurs traits comme un ensemble. La description ne fait donc pas nécessairement unanimité. L’autre limitation qui à mon sens est d’une importance capitale est la difficulté de prendre en compte l’enchaînement des traits dans le temps : l’assimilation peut être considérée comme la propagation par anticipation ou par persistence d’un trait sur un segment voisin, mais le domaine d’assimilation semble dépendre des organes impliqués (ex. plus long pour la nasalisation que pour le voisement). De même, l’opposition de palatalisation des consonnes, est décrite par l’adjonction (ex. Clements 1985) d’un trait de lieu vocalique. Or, en russe ou en chinois, par exemple, la qualité de la voyelle va varier en fonction de la palatalisation ou non de la consonne qui la précède. Le trait de lieu vocalique serait donc partagé par les consonne et voyelle tautosyllabiques. On pourrait considérer qu’il s’agit d’un phénomène d’assimilation qui se serait phonologisé. Dans la chaine temporelle, on pourrait donc s’attendre à ce que le trait de lieu vocalique soit légèrement anticipé par rapport au trait de mode d’articulation, dans les langues où la palatalisation consonantique est phonologiquement effective. Dans cette hypothèse, qui peut être mise en parallèle avec les opposition de phonation (aspiré/sourd/voisé cf Keating 84), la coordination temporelle peut donc être une variable activement contrôlée et pleinement responsable de la réalisation des oppositions phonologiques, et qui mériterait d’être mieux décrite, ou mieux « modélisée » pour reprendre le vocabulaire des phonologues. Lieu [- antérieur] [+ arrondi] [Coronal] [+ antérieur] [Coronal] Lieu vocalique [+ arrière] Trait vocalique (articulation secondaire) Trait de renforcement (Stevens et al. ) Trait consonantique 22/05/2012 Séminaire IPS - Strasbourg

5 Excursus : étude de corpus à l’aide de l’échographie de la langue
toda_poster_ICPhS_2011.pdf 22/05/2012 Séminaire IPS - Strasbourg

6 Séminaire IPS - Strasbourg
Questions de fond Quelles sont les primitives qui composent la parole ? Existe-t-il un ensemble fini ? Les traits permettent-ils une bonne représentation des systèmes sonores des langues, ou y aurait-il une meilleure représentation 22/05/2012 Séminaire IPS - Strasbourg

7 Manœuvres articulatoires possibles
Coupes sagittales IRM (chinois), Toda et Honda, ISSP 2003 /r, u, w/  /ʃ/ Analyse en composantes principales des mouvements du visage pendant la parole : Maeda et al. ICSLP 2002 ; Toda et al, ICPhS 2003 (n = 3) Forme plate bombée ɕ ʂ ( ʃ ) Si l’exploration de l’aspect dynamique des traits et leur possible « modélisation » ou en tout cas leur description formelle reste encore exploratoire, on en sait davantage sur les traits du point de vue statique. Voici les manœuvres articulatoires possibles (et qui sont admises dans la littérature) dans la réalisation de l’opposition des sibilantes. Position antérieure postérieure 22/05/2012 Séminaire IPS - Strasbourg (Au moins) 2 degrés de liberté pour la langue et 2 pour les lèvres

8 Stratégies propres aux locuteurs
En français (n = 7 ; production tenue, IRM) Recul de la langue pour /ʃ/ Bombement du dos de la langue pour /ʃ/ -> création d’un chenal palatal long et étroit Et voici ce qu’on observe comme manœuvres articulatoires mises en œuvre dans réalisation du contraste entre s et sh en français. Toda, JEP 2006 ; thèse 2009 Pas de protrusion des lèvres pour /ʃ/ en référence à /s/ chez certains locuteurs 22/05/2012 Séminaire IPS - Strasbourg

9 chinois (4), suédois (1) et polonais (2)
fr jp Etude articulatoire (IRM), Toda et Honda, ISSP2003 Type de contraste [+/- antérieur] [+/- arrière] les deux français (7) et anglais (5) japonais (9) chinois (4), suédois (1) et polonais (2) palatal/non-palatal La dispersion de l’articulation du /s/ en français reflète les deux stratégies articulatoires qui permettent aux locuteurs de produire un bruit de friction contrasté. Le lieu d’articulation est sous-spécifié dans la dimension de la forme de la langue par rapport à d’autres langues où la palatalisation est phonologiquement active. chinois français japonais lieu 22/05/2012 Séminaire IPS - Strasbourg

10 Équivalence acoustique
Complémentarité entre cavité antérieure et chenal palatal : équivalence acoustique du spectre de bruit des deux types articulatoires de /ʃ/ Fréquence de coupure des 104 combinaisons Hz Simulations acoustiques à l’aide de VTF_fric (Maeda, 1982) , Toda et Maeda, ISSP 2006 ʃ (déformation) lCPal (mm) ʃ (recul) lCA (mm) 22/05/2012 Séminaire IPS - Strasbourg

11 Stratégies articulatoires : conséquences dynamiques
pres\posterISSP2008.pdf Les articulations acoustiquement équivalentes sur le plan statique ne sont pas nécessairement équivalentes sur le plan dynamique (transition formantiques) En raison de la morphologie du conduit vocal En fonction de la combinaison de cibles articulatoires successives Simulation acoustique (VTCalcs), Toda et Maeda, ISSP 2008 22/05/2012 Séminaire IPS - Strasbourg

12 Pertinence des indices acoustiques en fonction des langues
Etude acoustique, Toda, ICPhS 2007 /s/, /ʃ/ en français, dans les contextes /a_a/, /i_i/ et /u_u/ ; /s/ et /sj/ en japonais, dans les contextes /a_a/ et /u_u/ ; /u/  [ɯ] Opposition neutralisée en contexte antérieur (sauf emprunts récents) Bruit de friction et fréquence des formants Estimation de la robustesse des contrastes (score de distinctivité) entre /s/-/ʃ/ et /s/-/sj/ à l’aide de la formule du T de Student (Hz) 22/05/2012 Séminaire IPS - Strasbourg

13 Bruit de friction (CoG)
Japanese French Contraste plus robuste en français The s sh separability is better in French, but all the differences are significant (wilcoxon’s paired-rank T-test with alpha (bilateral) = 0.05). DS = ɯ 22/05/2012 Séminaire IPS - Strasbourg

14 Score de distinctivité
Calculé avec : Centre de gravité du bruit de friction Fréquence normalisée des formants à la jonction FV (début de transition) Contexte Ds Jp a 1.66* u 1.41* Fr 3.54* i 3.80* 1.91* Contexte Ds (F1) (F2) (F3) (F4) Jp a 0.33 -1.39* -0.3 0.34 u -0.1 -2.27* -0.55 1.46* Fr 0.37 -1.41* 0.2 3.11* i 0.05 -0.26 0.18 0.27 0.19 0.38 0.62 0.54 * : différence significative (test T de rangs appariés de Wilcoxon, bilatéral, seuil de 0,05) |Ds| > 1,9 : moins de 10% |Ds| > 3,5 : moins de 1% de superposition dans la distribution du T de Student 22/05/2012 Séminaire IPS - Strasbourg

15 Contraste des sibilantes : résumé
En français, langue où le bruit de friction constitue un indice robuste pour la distinction /s/-/ʃ/, les locuteurs ont recours à des stratégies articulatoires exploitant l’équivalence acoustique du bruit, Par opposition au japonais, langue où les transitions formantiques constituent un indice complémentaire. 22/05/2012 Séminaire IPS - Strasbourg

16 Séminaire IPS - Strasbourg
Conclusion partielle Les oppositions phonémiques (d’un point de vue statique) se réalisent différemment en fonction des systèmes phonologiques des langues A l’intérieur d’une même langue, plusieurs solutions articulatoires peuvent être mises en œuvre, qui permettent toutes de répondre aux besoins de la communication Boucle production-perception-production (Ohala 1981) Convergence phonétique (cf. Pardo 2006) Isolats (changements historiques) La recherche d’une représentation unique du système phonético-phonologique d’une langue à un instant t est un problème mal posé On peut toutefois décrire quantitativement des tendances régulières, ou la robustesse des indices contrastifs Point 2 Cette sous-spécification, ou variation libre est facteur d’instabilité des langues Les systèmes d’opposition sont constamment réinterprétés, dans le processus d’acquisition (boucle perception-production de J. Ohala 1981) ou simplement dans le phénomène de convergence ou imitation phonétique (où des détails phonétiques peuvent varier en faveur d’un rapprochement de la production des interlocuteurs). Au contraire, en l’absence de situation de communication, comme les parlers d’îles isolées, on assiste à l’émergence de variétés locales qui peuvent dériver vers des dialectes ou des langues distinctes avec le temps dans les cas extrêmes. On peut même interpréter la diminution actuelle de la diversité linguistique comme étant la conséquence d’une société mondialisé, où les échanges sont plus nombreux. 22/05/2012 Séminaire IPS - Strasbourg

17 II. Vers une approche ascendante de la diversité sonore des langues
Prospection

18 Séminaire IPS - Strasbourg
Principes Il existe des régularités dans les systèmes sonores des langues (principes phonologiques, universaux). La phonétique vise à expliquer ces mécanismes en termes causaux, objectifs et quantitatifs Il serait intéressant de pouvoir décrire ces phénomènes de manière plus générale, dans une perspective typologique Si les appareils phonatoire, auditif et cognitif humains sont fonctionnellement communs à tous les individus, Alors, on devrait pouvoir isoler un nombre assez restreint de variables (primitives), découlant de contraintes et propriétés physiques, qui permettent de composer le code de la parole dans toute sa variété Il s’agirait de faire une typologie fonctionnelle plutôt qu’une typologie génétique (apparentement linguistique) Quelle méthode ? La phonétique en tant que discipline scientifique Comme en phonologie, mais cette fois en termes plus précis 22/05/2012 Séminaire IPS - Strasbourg

19 Ressources et techniques émergentes
Linguistique et phonétique de corpus Ressources linguistiques de plus en plus nombreuses et plus exhaustives Outils de traitement Techniques d’extraction et de fusion de l’information sur des données massives Exploitation des ressources secondaires produites par des humains Utilisation de méthodes semi- ou non- supervisées Le paysage scientifique a changé. 22/05/2012 Séminaire IPS - Strasbourg

20 Ressources linguistiques orales
Archives et corpus linguistiques OLAC (Open Language Archive Community ressources, couvrant la moitié des langues du monde. Il ne s’agit pas d’un centre unique qui stocke les données, mais d’un réseau avec un protocole : les ressources documentées avec des métadonnées OLAC Archives du LACITO : transcriptions phonétiques alignées au niveau de la phrase + autres annotations (>1300 ressources, dont principalement des récits) DoBeS (MPI) : ressources (audio, vidéo, texte, photos) sur les langues en danger (deux tiers des quelques 6500 langues du monde seraient vouées à la disparition au cours 21ème siècle), métadonnées IMDI AILLA (Archive of the Indigenous Languages of Latin America), BNC (British National Corpus mots), CGN (Corpus Gesproken Nederlands mots), ESTER 1 (100 h transcrites)… CRDO-Paris et SLDR (ex-CRDO-Aix) : entrepôts OLAC ; archivage institutionnel en France 22/05/2012 Séminaire IPS - Strasbourg

21 Ressources secondaires (annotations) produites par des humains
Avantages Permet d’encoder de l’information linguistique complexe (compréhension du code) Taux d’erreur faible Inconvénients Formats disparates Conventions variables Standards variables (cf. TEI, ISOcat) A priori théoriques Formats variables dus à des logiciels divers (Transcriber, Praat, Exmaralda, Elan…) coûteux x 10 ou x 100 le temps réel 22/05/2012 Séminaire IPS - Strasbourg

22 Outils de traitement automatique dans une perspective linguistique
Alignement automatique Alignement phonétique à partir de transcription phonétique phrase par phrase Easyalign (extension de Praat), Sailalign, système du LIA… Détournement pour les langues non prévues (via transphonologisation) Calcul d’indices phonétiques (acoustiques, articulatoires, physiologiques) Approche phonétique à creuser Grille de calcul ou « Grille de services » TGE-Adonis ? Alignement automatique : pas parfait, mais permet de dégrossir Approche phonétique  informatique En informatique, on fait beaucoup de simplification, et on s’en contente car cela marche (pour les objectifs visés). Mais dans la perspective d’une étude phonétique, il serait nécessaire de tenir compte des connaissances que nous avons sur où se situe l’information linguistiquement pertinente (ex. indices correspondant aux traits distinctifs), et de les décrire de manière le plus possible dé-corrélée. 22/05/2012 Séminaire IPS - Strasbourg

23 Discrétisation de l’information contenue dans le signal de parole
Etude articulatoire (EMA) ; implémentation des points critiques d’Ananthakrishnan et Engwall, Toda, LabPhon 2010 Trajectoire de la pointe de la langue durant la production d’un énoncé Points critiques désynchronisés d’un articulateur à un autre Ici : illustration d’extraction automatique d’indices phonétiques pour l’articulation de la langue et la mâchoire. On peut faire la même chose pour le mode d’articulation à partir du signal de parole ou du voisement à partir de l’EGG. Même performance en inversion acoustique-articulatoire de la parole avec 5,27 % des données (les points critiques) ou 80 % des données (tout, en dehors des 20% réservés à l’entraînement) Désynchronisation entre les articulateurs due en partie à la différence de leurs propriétés cinématiques (due à l’élasticité, la motricité et la masse…), mais aussi probablement à leur contrôle moteur différencié. On peut également rechercher des indices dé-corrélés, linguistiquement pertinents, à l’aide, par exemple, des techniques de découverte de motif audio appliquée à l’échelle du segment – guidé par les connaissances préalables en phonétique. Dos de la langue Pointe de la langue Mâchoire 22/05/2012 Séminaire IPS - Strasbourg

24 Outils de fouille, de visualisation et d’analyse
Nombreux outils pour la langue écrite Segmentation morphologique automatique Annotation automatique en parties du discours (Part Of Speech tagging) et en arbres syntaxiques Concordanciers Statistiques cooccurrences, distributions complémentaires En phonétique, on aurait besoin, en plus, de pouvoir visualiser le signal (ex. logiciel en cours de développement au LORIA, Jconc cf. 22/05/2012 Séminaire IPS - Strasbourg

25 Alternative à l’annotation humaine : approches non supervisées
Pas d’a priori Pas de biais théorique Même méthode applicable à toute ressource sans connaissance (ou enrichissement = annotation) préalable de la langue, c.-à-d. peu coûteuse en travail humain Peut-être découvrirait-on des choses qu’on n’avait pas pensé à étudier auparavant ? Indexation et découverte de motifs Catégorisation automatique 22/05/2012 Séminaire IPS - Strasbourg

26 Séminaire IPS - Strasbourg
Représentation simplifiée, non (ou juste moins) redondante, de la parole Utilisation des coefficients MFCC (Mel Frequency Cepstral Coefficients) Utilisation possible d’autres variables (ex. quantification spécifiques des voyelles – ex. Pellegrino 1998) Mel Hz Utilisée dans ex. la reconnaissance automatique de la parole Images provenant de : (gauche bas) et wikipédia (gauche haut) (cepstrum - droite) 22/05/2012 Séminaire IPS - Strasbourg

27 Découverte de motifs / catégorisation non-supervisée
Découverte de motifs audio : ex. Muscariello et al. 2009a et b Technique utilisée dans l’étude du génome Découverte non supervisée de mots (extraction de mots clefs…), malgré les variantes de production x y Muscariello et al (multimedia modeling) : principe : énorme masse de données (émissions radiophoniques…) -> extraction de mots clefs audio par la découverte de mots (interspeech) Sous-tâches Découpage de la chaîne de la parole en segments (pouvant contenir au moins une répétition de motif audio mais dont le début et la fin ne coïncide pas nécessairement avec le début et la fin dudit motif) Simplification de la représentation des segments audio basée sur des vecteurs MFCC Définition d’une mesure de similarité basée sur les données Recherche de motifs La taille des motifs (mots clefs audio) est découverte dans les données (approche non supervisée) Droite : diapos de F. Rossi Catégorisation automatique ici, exemple portant sur la taille du sépale de l’iris Extrait du diaporama Classification automatique, F. Rossi 2009 Comparaison de portions audio à l’aide de la programmation dynamique (dynamic time warping) 22/05/2012 Séminaire IPS - Strasbourg

28 Conclusion et perspectives

29 Révolution numérique => révolution scientifique ?
Confronter les paradigmes scientifiques (cf. Kuhn, 1962) à une nouvelle face des données Ex. OCP (Obligatory Contour Principle) et lieu consonantique dans les racines verbales en arabe (McCarthy, 1986) Nouvelles ressources, besoin de nouveaux outils (surtout en phonétique) Exploitation (détournement) d’outils existants Linguistique de l’écrit en avance sur l’oral (dans le domaine de l’étude de corpus) « annotation » (discrétisation) à l’aide d’indices phonétiques Collaboration transdisciplinaires TAP : Traitement automatique de la parole (informatique - STIC) Kuhn : exemple de l’éther qui véhiculait la lumière, ou le fait que la terre est ronde – face à de nouvelles observations en désaccord avec le paradigme présent (le paradigme étant une conception du monde), la science connait des changements de paradigme. Je fais ici le choix délibéré de comparer la phonétique aux autres disciplines scientifiques comme la physique ou la biologie, car même si elle s’intéresse à un objet complexe (même extrêmement complexe), qui est un comportement du vivant, je considère qu’il peut être étudié avec une méthodologie scientifique, dont les résultats répondent au critère de réfutabilité. Par exemple, on observe des phénomènes de dissimilation, par exemple, par lesquels les racines verbales arabes se composent de consonnes dont le lieu d’articulation est différent, et ce, de manière significativement différente d’une distribution aléatoire. En phonologie, on désigne ce phénomène à l’aide du principe du contour obligatoire (initialement proposé par Leben, 1973 d’après wikipédia D’un point de vue théorique, ce principe pose (au moins) 2 problèmes : 1. Il est insuffisant : on ne nous précise pas dans quelle condition il s’applique, car un tel phénomène de dissimilation n’est pas observé dans toutes les langues et on a besoin d’une explication. 2. On peut difficilement l’articuler avec d’autres facettes de la réalité (ex. d’autres phénomènes phonologiques, comme l’assimilation pour ne prendre qu’un exemple) : un paradigme scientifique idéal (toujours d’après Kuhn) doit permettre d’expliquer (décrire de manière concise) le plus grand nombre possible de phénomènes observables – ce doit être une vision du monde la plus globale possible. Je voudrais souligner le fait que l’établissement de relations causales des phénomènes observables permet de réduire la complexité du paradigme scientifique – par exemple, en mettant en évidence des liens entre taux de mémorisation/restitution correcte et spécification de lieu d’articulation des racines lexicale, on pourrait se passer d’un concept, l’OCP. Ce que je viens de dire peut ou peut ne pas remporter l’adhésion de tous, mais en tout cas permet d’illustrer comment la phonétique et la phonologie se retrouvent souvent en désaccord, non pas en ce qui concerne leur objet d’étude, mais par leur « vision du monde » sur le fonctionnement de la parole. L’apport de nouvelles observations liées à la révolution numérique (qui permet le traitement d’une masse inédite de données), telles l’invention du télescope, nous réconforte dans l’espoir que la science de la parole puisse voir naître un paradigme scientifique plus consensuel, plus efficace, doté d’une meilleure image et donc plus concurrentiel (en particulier en terme de dotation budgétaire) face aux autres disciplines scientifiques. Je pense en particulier aux STIC ou aux sciences biologiques. La parole est une manifestation humaine très importante sur le plan sociétal, et pourrait a priori être prise aussi au sérieux, par exemple, que la recherche sur le cancer en termes de retombées pour la société. Or, vraisemblablement, son état d’avancement ne lui a pas encore permis à s’imposer comme telle. L’enjeu actuel est surtout de se donner les moyens pour tirer parti de ces nouvelles opportunités Collaboration TAP : besoin d’apprendre mais aussi d’expliquer – l’approche phonétique du détail et l’approche informatique massive ne révèlent pas les mêmes réalités, on doit adopter une attitude pédagogue dans les deux sens, pour mieux se connaître et prendre conscience des sujets de recherche prometteurs présentant des atouts partagés par les deux disciplines. 22/05/2012 Séminaire IPS - Strasbourg

30 Séminaire IPS - Strasbourg
Phonétique de corpus Pour une meilleure compréhension de la diversité sonore des langues Investigation outillée Utilisation d’annotations manuelles ou d’indices issus de connaissances linguistique et phonétique : ex. concordanciers Contextes d’occurrence Fréquences d’occurrence Variation inter-locuteurs, régularités intra-locuteurs… Robustesse des oppositions Relation entre événements phonétiques et fonctions linguistiques (transcriptions phonétiques) Co-occurrences ou distribution complémentaire entre événements phonétiques Recours à des méthodes non-supervisées Étude des phénomènes phonétiques à l’échelle de grands corpus Multilingues et multi-locuteurs, plus représentatifs de la réalité linguistique La phonétique de corpus, en tant qu’approche alternative pour l’étude de la parole comme phénomène général, se caractériserait par des méthodes et un objet d’étude propres. 22/05/2012 Séminaire IPS - Strasbourg

31 Séminaire IPS - Strasbourg
Références Clements, 1985, The geometry of phonological features, Phonology 2 : pp P. A. Keating: "Phonetic and phonological representation of stop consonant voicing", Language 60.2, , 1984 T. S. Kuhn, La structure des révolutions scientifiques, Flammarion 1983 (1962) McCarthy, John J ‘OCP Effects: Gemination and Antigemination’, Linguistic Inquiry 17, 207–263. Muscariello, A., Gravier, G., Bimbot, F.: Variability tolerant audio motif discovery. Multimedia Modeling 2009. Muscariello, A., Gravier, G., Bimbot, F. : Audio keyword extraction by unsupervised word discovery, Interspeech 2009 Ohala, J. J The listener as a source of sound change. In: C. S. Masek, R. A. Hendrick, & M. F. Miller (eds.), Papers from the Parasession on Language and Behavior. Chicago: Chicago Ling. Soc Pellegrino, F., 1998, "Une approche phonétique en identification automatique des langues: la modélisation acoustique des systèmes vocaliques", Doctorat, 1998, Université Paul Sabatier, Toulouse   J.S. Pardo. On phonetic convergence during conversational interaction. JASA 119 :2382–2393, 2006. Stevens, K.N. and Keyser, S.J Primary features and their enhancement in consonants. Language 65.1, 22/05/2012 Séminaire IPS - Strasbourg

32 Séminaire IPS - Strasbourg
Bibliographie Articles et présentations en version intégrale : 22/05/2012 Séminaire IPS - Strasbourg

33 A quoi servent les lèvres dans /s/-/ʃ/
Bonus A quoi servent les lèvres dans /s/-/ʃ/

34 Constrictions dentale et linguale
Coupes sagittales et coronales IRM (ʂ, polonais), Toda, thèse 2009 Coupe sagittale Coupes coronales 22/05/2012 Séminaire IPS - Strasbourg

35 Aires de constriction linguale et dentale
Constriction dentale entre 2 et 8 fois la constriction linguale Aire variable selon la sibilante et la langue s sj ʃ ɕ Français (n=7) Anglais (n=5) Japonais (n=9) Chinois (n=4) Polonais (n=2) 22/05/2012 Séminaire IPS - Strasbourg

36 Structure du conduit vocal des sibilantes
Conception classique « Cavité antérieure » Constriction Cavité orale antérieure Cavité labiale distincte Cavité labiale Constriction linguale Constriction dentale 22/05/2012 Séminaire IPS - Strasbourg

37 Rapport d’aire COA/constriction dentale
sj ʃ ɕ Français (n=7) Anglais (n=5) Japonais (n=9) Chinois (n=4) Polonais (n=2) 22/05/2012 Séminaire IPS - Strasbourg

38 Effet de la cavité labiale sur la fonction de transfert de /ʃ/
« Lèvres seulement » « Normal » « Sans lèvres » Simulation acoustique 3D éléments finis ; cf. Toda et Kitamura, IEEE 2003 Locuteur Fr1 (stratégie « recul ») 22/05/2012 Séminaire IPS - Strasbourg

39 Séminaire IPS - Strasbourg
Fonctions de transfert calculées (simulation 3D ; méthode des éléments finis) Spectre moyen du bruit réel Normal Lèvres seulement Sans lèvres Une légère différence de fréquence (attribuée aux erreurs de morphologie au cours de la construction du modèle), mais distribution de pics semblable (2 pics). Pente spectrale différente attribuée à l’enveloppe de la source Les modèles tronqués ne présentent qu’un seul pic (différence de fréquence due aux conditions des frontières forcément différentes du modèle d’origine) Les lèvres donnent lieu à un formant labial Leur présence a également comme conséquence d’abaisser la fréquence du pic principal affilié principalement à la cavité orale antérieure 22/05/2012 Séminaire IPS - Strasbourg

40 Fréquence théorique de la première résonance labiale
10 mm 14 mm /s/ /ʃ/ FR = c x 1 4 x llèvres FR = c x 1 4 x llèvres 8750 Hz 6250 Hz 35000 cm/s 35000 cm/s 1 cm 1,4 cm La protrusion (allongement) abaisse le formant labial L’arrondissement (diminution de l’aire) n’a pas cet effet Le statut des lèvres diffère entre les sibilantes et les vocoïdes tels que [u, w, ɹ] où les lèvres font partie intégrante d’un résonateur de Helmholtz avec la cavité orale. 22/05/2012 Séminaire IPS - Strasbourg

41 Spectres moyens de tous les locuteurs - français (n = 7)
+/- 1 5 kHz et + /s/ Deux zones de fréquence où on trouve une différence spectrale entre s et sh /ʃ/ Abaissement du formant labial par protrusion 1,5 – 4 kHz 22/05/2012 Séminaire IPS - Strasbourg


Télécharger ppt "Martine Toda IRCOM et LPP, UMR 7018"

Présentations similaires


Annonces Google