Martine Toda IRCOM et LPP, UMR 7018

Slides:



Advertisements
Présentations similaires
APPRENDRE A LIRE Présentation par : Marie-Christine Ratez CPC Chauny Roselyne Cail CPC Guise.
Advertisements

Distance inter-locuteur
Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)
Indexation Parole / Musique / Bruit
Démarches de modélisation
Présentation des programmes de terminale STG Juin 2006.
Reconnaissance de la parole
UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE
Effets de la compression temporelle dindices acoustiques sur la perception de la parole C. Jacquier & F. Meunier Laboratoire Dynamique Du Langage. CNRS.
Indexation vidéo Indexation multimédia
Dr DEVILLE Emmanuelle J D V 12/07/2006
TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
Apprendre à lire.
Unité Mixte de Recherche - Sciences Techniques Éducation Formation ECOLE NORMALE SUPERIEURE DE CACHAN 61, avenue du Président Wilson Cachan Cedex.
Reconnaissance de la parole
Sylvain Fleury, Julien Guillemé (orateur), Éric Jamet,
Présenté par Martine Toda
1 7 Langues niveaux débutant à avancé. 2 Allemand.
ARC RAPSODIS Reconnaissance Automatique de la Parole Suivie et Orientée par Des Informations Syntaxico-Sémantiques PAROLE – METISS – TALARIS – TEXMEX –
Maple, modélisation et résolution de problèmes
LIN1720 cours 11 Traits phonologiques
1 Bibdoc 37 – Regards croisés Bibliothèques virtuelles, usages réels 7 avril 2009 – Tours « Les usages des bibliothèques virtuelles » Jean-Philippe Accart.
Les Logiciels Tuteurs Fermés : Institutions d’apprentissage et d’enseignement des Mathématiques ? Le cas du début du secondaire. Bonjour, mesdames, messieurs.
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 1 : La notion de système.
Présenté par Martine Toda
Hésitations autonomes en 8 langues :
Evaluation de la qualité des documents anciens
Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.
Recherche Documentaire et traitement de l’information
GROUPE ICOR
Corpus parallèles et textométrie
SCIENCES DE L ’INGENIEUR
Veille Technologique : Étudier les avantages et inconvénients du typage statique et du typage dynamique pour des applications interactives Sujet proposé.
Reconnaissance Vocale
Conception de documents multimédia efficaces
(A. Meurant - UCL )1 Grammaire de base et lecture de textes latins ( ) Premier baccalauréat en Philosophie et Lettres (Langues et littératures.
Jeopardy - Révision Final Jeopardy $100 $100 $100 $100 $100 $200 $200
Jeopardy - Révision Final Jeopardy Phonèmes Traits Règles Syllabe
Jeopardy $100 ArticulationVoyelles 1Voyelles 2Acoustique 1Acoustique 2 $200 $300 $400 $500 $400 $300 $200 $100 $500 $400 $300 $200 $100 $500 $400 $300.
Jeopardy - Révision Final Jeopardy Articulation Voyelles Consonnes
Consonnes Transcription Norme et variation Mécanique phonatoire
LIN 1720 DGD 9 Traits phonologiques
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
ADAMOS Une plate-forme pour concevoir et évaluer des services proactifs Système proactif ? qui évolue en fonction des paramètres de lenvironnement physique.
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
CDS - 9 février 2011 Améliorer la maîtrise du français des étudiants de 1er bac. en médecine et dentisterie dans le cadre du MIT.
Vers une auto-évaluation formative en ligne ?
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires - Démonstration : quel imitateur êtes vous ? Plateau Traitement du son.
Activités développées RTP 12 : Information et connaissance : "découvrir et résumer" Actions spécifiques et équipes-projets associées Objectifs thématiques.
« Dynamique de la nasalité. Émergence et phonologisation des voyelles nasales » ANR : Programme jeunes chercheuses et jeunes chercheurs 2005.
Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -
Master 1 – Sciences du Langage –
Traitement de la parole : Synthèse et reconnaissance
Dans cet article, une nouvelle approche relative à l’indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les.
1 La norme individuelle : étude pilote sur le lien perception-production Martine Toda LPP et ENST-LTCI (UMR 5141) Crédits : Projet.
Arkhênum Patrimoine du Futur. Répartitions par types d’erreurs mineures.
Présentation RFIA janvier 2002
Classe 1 Phonétique - phonologie
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
Fusion de paramètres en classification Parole/Musique Julie Mauclair – Equipe Parole Julien Pinquier – Equipe SAMoVA.
Fusion de paramètres rythmiques et segmentaux pour l’Identification Automatique des Langues Jean-Luc Rouas1, Jérôme Farinas1, François Pellegrino2 & Régine.
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Journée Des Doctorants 2004
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
À la recherche d’indices discriminant des accents ouest- africains en français Philippe Boula de Mareüil LIMSI-CNRS, Orsay.
Brève révision de la terminologie articulatoire
Transcription de la présentation:

Martine Toda IRCOM et LPP, UMR 7018 martinetoda@gmail.com Primitives sonores des langues : techniques et finalités de la phonétique de corpus Martine Toda IRCOM et LPP, UMR 7018 martinetoda@gmail.com

Séminaire IPS - Strasbourg Plan I. Primitives phonétiques : les unités sonores de la parole Phonèmes, traits Indices contrastifs des fricatives sibilantes Plusieurs corrélats articulatoires Stratégies spécifiques aux locuteurs Pertinence des indices acoustiques en fonction des langues Conclusion partielle Convergence phonétique, changement historique, émergence des systèmes phonologiques II. Vers une approche ascendante de la diversité sonore des langues Principes Etat de l’art des ressources linguistiques et outils disponibles Archives linguistiques Outils : transcription automatique, alignement automatique, annotation automatique, concordanciers, fouille Méthodes non supervisées d’extraction d’information III. Conclusion et perspectives 22/05/2012 Séminaire IPS - Strasbourg

I. Primitives phonétiques : les unités sonores de la parole Etude de cas des fricatives sibilantes Dans cette première partie, je vais surtout vous parler de fricatives sibilantes que j’ai étudiées au cours de ma thèse, à titre d’illustration, mais je souhaite traiter une problématique qui concerne bel et bien les systèmes phonologiques et leur représentation dans leur globalité.

Séminaire IPS - Strasbourg Phonèmes, traits français s  ʃ japonais s  sj Phonèmes antérieur / postérieur non-palatal / palatal /s/fr /ʃ/ /s/jp Géométrie des traits (Clements, 1985) Quand nous entendons de la parole, nous décodons les unités qui la composent. Historiquement, les unités distinctives minimales ont été identifiées en tant que phonèmes. Par exemple, en français et en japonais, on trouve un s, qui s’oppose à une autre fricative sibilante par son lieu d’articulation. En français, il s’agit d’un contraste simple de lieu, et en japonais, c’est une opposition de type palatal/ non-palatal. Le problème des phonèmes, représentés par des symboles simples dans la plupart des cas, c’est qu’ils ne permettent pas de rendre compte de la différence de statut des s dans les deux langues. C’est alors qu’on peut faire appel aux traits phonologiques, qui sont des concepts qui décrivent des caractéristiques infra-phonémiques, et qui permettent de refléter plus fidèlement l’organisation des phonèmes en systèmes : les phonèmes qui présentent un comportement similaire dans des contextes similaires forment des classes naturelles, et ces classes se caractérisent par un ou plusieurs trait(s) partagé(s). Ici, la non-palatalisation du /s/ japonais est représentée par un trait vocalique d’articulation secondaire. Les traits sont des objets abstraits, mais qui peuvent être reliés partiellement à des caractéristiques physiques, articulatoires ou acoustiques. Or, la description en traits souffre de certaines imperfections. Par exemple, il existe des oppositions qui peuvent être décrites par plusieurs traits à la fois, de manière redondante. Dans ces cas de figure, on ne dispose pas toujours d’arguments pour écarter un trait plutôt qu’un autre, ou alors si on doit considérer plusieurs traits comme un ensemble. La description ne fait donc pas nécessairement unanimité. L’autre limitation qui à mon sens est d’une importance capitale est la difficulté de prendre en compte l’enchaînement des traits dans le temps : l’assimilation peut être considérée comme la propagation par anticipation ou par persistence d’un trait sur un segment voisin, mais le domaine d’assimilation semble dépendre des organes impliqués (ex. plus long pour la nasalisation que pour le voisement). De même, l’opposition de palatalisation des consonnes, est décrite par l’adjonction (ex. Clements 1985) d’un trait de lieu vocalique. Or, en russe ou en chinois, par exemple, la qualité de la voyelle va varier en fonction de la palatalisation ou non de la consonne qui la précède. Le trait de lieu vocalique serait donc partagé par les consonne et voyelle tautosyllabiques. On pourrait considérer qu’il s’agit d’un phénomène d’assimilation qui se serait phonologisé. Dans la chaine temporelle, on pourrait donc s’attendre à ce que le trait de lieu vocalique soit légèrement anticipé par rapport au trait de mode d’articulation, dans les langues où la palatalisation consonantique est phonologiquement effective. Dans cette hypothèse, qui peut être mise en parallèle avec les opposition de phonation (aspiré/sourd/voisé cf Keating 84), la coordination temporelle peut donc être une variable activement contrôlée et pleinement responsable de la réalisation des oppositions phonologiques, et qui mériterait d’être mieux décrite, ou mieux « modélisée » pour reprendre le vocabulaire des phonologues. Lieu [- antérieur] [+ arrondi] [Coronal] [+ antérieur] … [Coronal] … Lieu vocalique [+ arrière] … Trait vocalique (articulation secondaire) Trait de renforcement (Stevens et al. ) Trait consonantique 22/05/2012 Séminaire IPS - Strasbourg

Excursus : étude de corpus à l’aide de l’échographie de la langue toda_poster_ICPhS_2011.pdf 22/05/2012 Séminaire IPS - Strasbourg

Séminaire IPS - Strasbourg Questions de fond Quelles sont les primitives qui composent la parole ? Existe-t-il un ensemble fini ? Les traits permettent-ils une bonne représentation des systèmes sonores des langues, ou y aurait-il une meilleure représentation 22/05/2012 Séminaire IPS - Strasbourg

Manœuvres articulatoires possibles Coupes sagittales IRM (chinois), Toda et Honda, ISSP 2003 /r, u, w/  /ʃ/ Analyse en composantes principales des mouvements du visage pendant la parole : Maeda et al. ICSLP 2002 ; Toda et al, ICPhS 2003 (n = 3) Forme plate bombée ɕ ʂ ( ʃ ) Si l’exploration de l’aspect dynamique des traits et leur possible « modélisation » ou en tout cas leur description formelle reste encore exploratoire, on en sait davantage sur les traits du point de vue statique. Voici les manœuvres articulatoires possibles (et qui sont admises dans la littérature) dans la réalisation de l’opposition des sibilantes. Position antérieure postérieure 22/05/2012 Séminaire IPS - Strasbourg (Au moins) 2 degrés de liberté pour la langue et 2 pour les lèvres

Stratégies propres aux locuteurs En français (n = 7 ; production tenue, IRM) Recul de la langue pour /ʃ/ Bombement du dos de la langue pour /ʃ/ -> création d’un chenal palatal long et étroit Et voici ce qu’on observe comme manœuvres articulatoires mises en œuvre dans réalisation du contraste entre s et sh en français. Toda, JEP 2006 ; thèse 2009 Pas de protrusion des lèvres pour /ʃ/ en référence à /s/ chez certains locuteurs 22/05/2012 Séminaire IPS - Strasbourg

chinois (4), suédois (1) et polonais (2) fr jp Etude articulatoire (IRM), Toda et Honda, ISSP2003 Type de contraste [+/- antérieur] [+/- arrière] les deux français (7) et anglais (5) japonais (9) chinois (4), suédois (1) et polonais (2) palatal/non-palatal La dispersion de l’articulation du /s/ en français reflète les deux stratégies articulatoires qui permettent aux locuteurs de produire un bruit de friction contrasté. Le lieu d’articulation est sous-spécifié dans la dimension de la forme de la langue par rapport à d’autres langues où la palatalisation est phonologiquement active. chinois français japonais lieu 22/05/2012 Séminaire IPS - Strasbourg

Équivalence acoustique Complémentarité entre cavité antérieure et chenal palatal : équivalence acoustique du spectre de bruit des deux types articulatoires de /ʃ/ Fréquence de coupure des 104 combinaisons Hz Simulations acoustiques à l’aide de VTF_fric (Maeda, 1982) , Toda et Maeda, ISSP 2006 ʃ (déformation) lCPal (mm) ʃ (recul) lCA (mm) 22/05/2012 Séminaire IPS - Strasbourg

Stratégies articulatoires : conséquences dynamiques pres\posterISSP2008.pdf Les articulations acoustiquement équivalentes sur le plan statique ne sont pas nécessairement équivalentes sur le plan dynamique (transition formantiques) En raison de la morphologie du conduit vocal En fonction de la combinaison de cibles articulatoires successives Simulation acoustique (VTCalcs), Toda et Maeda, ISSP 2008 22/05/2012 Séminaire IPS - Strasbourg

Pertinence des indices acoustiques en fonction des langues Etude acoustique, Toda, ICPhS 2007 /s/, /ʃ/ en français, dans les contextes /a_a/, /i_i/ et /u_u/ ; /s/ et /sj/ en japonais, dans les contextes /a_a/ et /u_u/ ; /u/  [ɯ] Opposition neutralisée en contexte antérieur (sauf emprunts récents) Bruit de friction et fréquence des formants Estimation de la robustesse des contrastes (score de distinctivité) entre /s/-/ʃ/ et /s/-/sj/ à l’aide de la formule du T de Student (Hz) 22/05/2012 Séminaire IPS - Strasbourg

Bruit de friction (CoG) Japanese French Contraste plus robuste en français The s sh separability is better in French, but all the differences are significant (wilcoxon’s paired-rank T-test with alpha (bilateral) = 0.05). DS = ɯ 22/05/2012 Séminaire IPS - Strasbourg

Score de distinctivité Calculé avec : Centre de gravité du bruit de friction Fréquence normalisée des formants à la jonction FV (début de transition) Contexte Ds Jp a 1.66* u 1.41* Fr 3.54* i 3.80* 1.91* Contexte Ds (F1) (F2) (F3) (F4) Jp a 0.33 -1.39* -0.3 0.34 u -0.1 -2.27* -0.55 1.46* Fr 0.37 -1.41* 0.2 3.11* i 0.05 -0.26 0.18 0.27 0.19 0.38 0.62 0.54 * : différence significative (test T de rangs appariés de Wilcoxon, bilatéral, seuil de 0,05) |Ds| > 1,9 : moins de 10% |Ds| > 3,5 : moins de 1% de superposition dans la distribution du T de Student 22/05/2012 Séminaire IPS - Strasbourg

Contraste des sibilantes : résumé En français, langue où le bruit de friction constitue un indice robuste pour la distinction /s/-/ʃ/, les locuteurs ont recours à des stratégies articulatoires exploitant l’équivalence acoustique du bruit, Par opposition au japonais, langue où les transitions formantiques constituent un indice complémentaire. 22/05/2012 Séminaire IPS - Strasbourg

Séminaire IPS - Strasbourg Conclusion partielle Les oppositions phonémiques (d’un point de vue statique) se réalisent différemment en fonction des systèmes phonologiques des langues A l’intérieur d’une même langue, plusieurs solutions articulatoires peuvent être mises en œuvre, qui permettent toutes de répondre aux besoins de la communication Boucle production-perception-production (Ohala 1981) Convergence phonétique (cf. Pardo 2006) Isolats (changements historiques) La recherche d’une représentation unique du système phonético-phonologique d’une langue à un instant t est un problème mal posé On peut toutefois décrire quantitativement des tendances régulières, ou la robustesse des indices contrastifs Point 2 Cette sous-spécification, ou variation libre est facteur d’instabilité des langues Les systèmes d’opposition sont constamment réinterprétés, dans le processus d’acquisition (boucle perception-production de J. Ohala 1981) ou simplement dans le phénomène de convergence ou imitation phonétique (où des détails phonétiques peuvent varier en faveur d’un rapprochement de la production des interlocuteurs). Au contraire, en l’absence de situation de communication, comme les parlers d’îles isolées, on assiste à l’émergence de variétés locales qui peuvent dériver vers des dialectes ou des langues distinctes avec le temps dans les cas extrêmes. On peut même interpréter la diminution actuelle de la diversité linguistique comme étant la conséquence d’une société mondialisé, où les échanges sont plus nombreux. 22/05/2012 Séminaire IPS - Strasbourg

II. Vers une approche ascendante de la diversité sonore des langues Prospection

Séminaire IPS - Strasbourg Principes Il existe des régularités dans les systèmes sonores des langues (principes phonologiques, universaux). La phonétique vise à expliquer ces mécanismes en termes causaux, objectifs et quantitatifs Il serait intéressant de pouvoir décrire ces phénomènes de manière plus générale, dans une perspective typologique Si les appareils phonatoire, auditif et cognitif humains sont fonctionnellement communs à tous les individus, Alors, on devrait pouvoir isoler un nombre assez restreint de variables (primitives), découlant de contraintes et propriétés physiques, qui permettent de composer le code de la parole dans toute sa variété Il s’agirait de faire une typologie fonctionnelle plutôt qu’une typologie génétique (apparentement linguistique) Quelle méthode ? La phonétique en tant que discipline scientifique Comme en phonologie, mais cette fois en termes plus précis 22/05/2012 Séminaire IPS - Strasbourg

Ressources et techniques émergentes Linguistique et phonétique de corpus Ressources linguistiques de plus en plus nombreuses et plus exhaustives Outils de traitement Techniques d’extraction et de fusion de l’information sur des données massives Exploitation des ressources secondaires produites par des humains Utilisation de méthodes semi- ou non- supervisées Le paysage scientifique a changé. 22/05/2012 Séminaire IPS - Strasbourg

Ressources linguistiques orales Archives et corpus linguistiques OLAC (Open Language Archive Community http://www.language-archives.org/) 100000 ressources, couvrant la moitié des langues du monde. Il ne s’agit pas d’un centre unique qui stocke les données, mais d’un réseau avec un protocole : les ressources documentées avec des métadonnées OLAC Archives du LACITO : transcriptions phonétiques alignées au niveau de la phrase + autres annotations (>1300 ressources, dont principalement des récits) DoBeS (MPI) : ressources (audio, vidéo, texte, photos) sur les langues en danger (deux tiers des quelques 6500 langues du monde seraient vouées à la disparition au cours 21ème siècle), métadonnées IMDI AILLA (Archive of the Indigenous Languages of Latin America), BNC (British National Corpus 10 000 000 mots), CGN (Corpus Gesproken Nederlands 10 000 000 mots), ESTER 1 (100 h transcrites)… CRDO-Paris et SLDR (ex-CRDO-Aix) : entrepôts OLAC ; archivage institutionnel en France 22/05/2012 Séminaire IPS - Strasbourg

Ressources secondaires (annotations) produites par des humains Avantages Permet d’encoder de l’information linguistique complexe (compréhension du code) Taux d’erreur faible Inconvénients Formats disparates Conventions variables Standards variables (cf. TEI, ISOcat) A priori théoriques Formats variables dus à des logiciels divers (Transcriber, Praat, Exmaralda, Elan…) coûteux x 10 ou x 100 le temps réel 22/05/2012 Séminaire IPS - Strasbourg

Outils de traitement automatique dans une perspective linguistique Alignement automatique Alignement phonétique à partir de transcription phonétique phrase par phrase Easyalign (extension de Praat), Sailalign, système du LIA… Détournement pour les langues non prévues (via transphonologisation) Calcul d’indices phonétiques (acoustiques, articulatoires, physiologiques) Approche phonétique à creuser Grille de calcul ou « Grille de services » TGE-Adonis ? Alignement automatique : pas parfait, mais permet de dégrossir Approche phonétique  informatique En informatique, on fait beaucoup de simplification, et on s’en contente car cela marche (pour les objectifs visés). Mais dans la perspective d’une étude phonétique, il serait nécessaire de tenir compte des connaissances que nous avons sur où se situe l’information linguistiquement pertinente (ex. indices correspondant aux traits distinctifs), et de les décrire de manière le plus possible dé-corrélée. 22/05/2012 Séminaire IPS - Strasbourg

Discrétisation de l’information contenue dans le signal de parole Etude articulatoire (EMA) ; implémentation des points critiques d’Ananthakrishnan et Engwall, 2008. Toda, LabPhon 2010 Trajectoire de la pointe de la langue durant la production d’un énoncé Points critiques désynchronisés d’un articulateur à un autre Ici : illustration d’extraction automatique d’indices phonétiques pour l’articulation de la langue et la mâchoire. On peut faire la même chose pour le mode d’articulation à partir du signal de parole ou du voisement à partir de l’EGG. Même performance en inversion acoustique-articulatoire de la parole avec 5,27 % des données (les points critiques) ou 80 % des données (tout, en dehors des 20% réservés à l’entraînement) Désynchronisation entre les articulateurs due en partie à la différence de leurs propriétés cinématiques (due à l’élasticité, la motricité et la masse…), mais aussi probablement à leur contrôle moteur différencié. On peut également rechercher des indices dé-corrélés, linguistiquement pertinents, à l’aide, par exemple, des techniques de découverte de motif audio appliquée à l’échelle du segment – guidé par les connaissances préalables en phonétique. Dos de la langue Pointe de la langue Mâchoire 22/05/2012 Séminaire IPS - Strasbourg

Outils de fouille, de visualisation et d’analyse Nombreux outils pour la langue écrite Segmentation morphologique automatique Annotation automatique en parties du discours (Part Of Speech tagging) et en arbres syntaxiques Concordanciers Statistiques cooccurrences, distributions complémentaires En phonétique, on aurait besoin, en plus, de pouvoir visualiser le signal (ex. logiciel en cours de développement au LORIA, Jconc cf. http://hal.archives-ouvertes.fr/docs/00/52/33/97/PDF/Pratiques_TCOFMVEC2010.pdf) 22/05/2012 Séminaire IPS - Strasbourg

Alternative à l’annotation humaine : approches non supervisées Pas d’a priori Pas de biais théorique Même méthode applicable à toute ressource sans connaissance (ou enrichissement = annotation) préalable de la langue, c.-à-d. peu coûteuse en travail humain Peut-être découvrirait-on des choses qu’on n’avait pas pensé à étudier auparavant ? Indexation et découverte de motifs Catégorisation automatique 22/05/2012 Séminaire IPS - Strasbourg

Séminaire IPS - Strasbourg Représentation simplifiée, non (ou juste moins) redondante, de la parole Utilisation des coefficients MFCC (Mel Frequency Cepstral Coefficients) Utilisation possible d’autres variables (ex. quantification spécifiques des voyelles – ex. Pellegrino 1998) Mel Hz Utilisée dans ex. la reconnaissance automatique de la parole Images provenant de : https://wiki.inf.ed.ac.uk/twiki/pub/CSTR/Listen/vtln_csl09.pdf (gauche bas) et wikipédia (gauche haut) http://www.phon.ucl.ac.uk/courses/spsci/matlab/lect10.html (cepstrum - droite) 22/05/2012 Séminaire IPS - Strasbourg

Découverte de motifs / catégorisation non-supervisée Découverte de motifs audio : ex. Muscariello et al. 2009a et b Technique utilisée dans l’étude du génome Découverte non supervisée de mots (extraction de mots clefs…), malgré les variantes de production x y Muscariello et al (multimedia modeling) : principe : énorme masse de données (émissions radiophoniques…) -> extraction de mots clefs audio par la découverte de mots (interspeech) Sous-tâches Découpage de la chaîne de la parole en segments (pouvant contenir au moins une répétition de motif audio mais dont le début et la fin ne coïncide pas nécessairement avec le début et la fin dudit motif) Simplification de la représentation des segments audio basée sur des vecteurs MFCC Définition d’une mesure de similarité basée sur les données Recherche de motifs La taille des motifs (mots clefs audio) est découverte dans les données (approche non supervisée) Droite : diapos de F. Rossi http://apiacoa.org/publications/teaching/data-mining/clustering.pdf Catégorisation automatique ici, exemple portant sur la taille du sépale de l’iris Extrait du diaporama Classification automatique, F. Rossi 2009 http://apiacoa.org/publications/teaching/data-mining/clustering.pdf Comparaison de portions audio à l’aide de la programmation dynamique (dynamic time warping) 22/05/2012 Séminaire IPS - Strasbourg

Conclusion et perspectives

Révolution numérique => révolution scientifique ? Confronter les paradigmes scientifiques (cf. Kuhn, 1962) à une nouvelle face des données Ex. OCP (Obligatory Contour Principle) et lieu consonantique dans les racines verbales en arabe (McCarthy, 1986) Nouvelles ressources, besoin de nouveaux outils (surtout en phonétique) Exploitation (détournement) d’outils existants Linguistique de l’écrit en avance sur l’oral (dans le domaine de l’étude de corpus) « annotation » (discrétisation) à l’aide d’indices phonétiques Collaboration transdisciplinaires TAP : Traitement automatique de la parole (informatique - STIC) Kuhn : exemple de l’éther qui véhiculait la lumière, ou le fait que la terre est ronde – face à de nouvelles observations en désaccord avec le paradigme présent (le paradigme étant une conception du monde), la science connait des changements de paradigme. Je fais ici le choix délibéré de comparer la phonétique aux autres disciplines scientifiques comme la physique ou la biologie, car même si elle s’intéresse à un objet complexe (même extrêmement complexe), qui est un comportement du vivant, je considère qu’il peut être étudié avec une méthodologie scientifique, dont les résultats répondent au critère de réfutabilité. Par exemple, on observe des phénomènes de dissimilation, par exemple, par lesquels les racines verbales arabes se composent de consonnes dont le lieu d’articulation est différent, et ce, de manière significativement différente d’une distribution aléatoire. En phonologie, on désigne ce phénomène à l’aide du principe du contour obligatoire (initialement proposé par Leben, 1973 d’après wikipédia http://en.wikipedia.org/wiki/Obligatory_Contour_Principle). D’un point de vue théorique, ce principe pose (au moins) 2 problèmes : 1. Il est insuffisant : on ne nous précise pas dans quelle condition il s’applique, car un tel phénomène de dissimilation n’est pas observé dans toutes les langues et on a besoin d’une explication. 2. On peut difficilement l’articuler avec d’autres facettes de la réalité (ex. d’autres phénomènes phonologiques, comme l’assimilation pour ne prendre qu’un exemple) : un paradigme scientifique idéal (toujours d’après Kuhn) doit permettre d’expliquer (décrire de manière concise) le plus grand nombre possible de phénomènes observables – ce doit être une vision du monde la plus globale possible. Je voudrais souligner le fait que l’établissement de relations causales des phénomènes observables permet de réduire la complexité du paradigme scientifique – par exemple, en mettant en évidence des liens entre taux de mémorisation/restitution correcte et spécification de lieu d’articulation des racines lexicale, on pourrait se passer d’un concept, l’OCP. Ce que je viens de dire peut ou peut ne pas remporter l’adhésion de tous, mais en tout cas permet d’illustrer comment la phonétique et la phonologie se retrouvent souvent en désaccord, non pas en ce qui concerne leur objet d’étude, mais par leur « vision du monde » sur le fonctionnement de la parole. L’apport de nouvelles observations liées à la révolution numérique (qui permet le traitement d’une masse inédite de données), telles l’invention du télescope, nous réconforte dans l’espoir que la science de la parole puisse voir naître un paradigme scientifique plus consensuel, plus efficace, doté d’une meilleure image et donc plus concurrentiel (en particulier en terme de dotation budgétaire) face aux autres disciplines scientifiques. Je pense en particulier aux STIC ou aux sciences biologiques. La parole est une manifestation humaine très importante sur le plan sociétal, et pourrait a priori être prise aussi au sérieux, par exemple, que la recherche sur le cancer en termes de retombées pour la société. Or, vraisemblablement, son état d’avancement ne lui a pas encore permis à s’imposer comme telle. L’enjeu actuel est surtout de se donner les moyens pour tirer parti de ces nouvelles opportunités Collaboration TAP : besoin d’apprendre mais aussi d’expliquer – l’approche phonétique du détail et l’approche informatique massive ne révèlent pas les mêmes réalités, on doit adopter une attitude pédagogue dans les deux sens, pour mieux se connaître et prendre conscience des sujets de recherche prometteurs présentant des atouts partagés par les deux disciplines. 22/05/2012 Séminaire IPS - Strasbourg

Séminaire IPS - Strasbourg Phonétique de corpus Pour une meilleure compréhension de la diversité sonore des langues Investigation outillée Utilisation d’annotations manuelles ou d’indices issus de connaissances linguistique et phonétique : ex. concordanciers Contextes d’occurrence Fréquences d’occurrence Variation inter-locuteurs, régularités intra-locuteurs… Robustesse des oppositions Relation entre événements phonétiques et fonctions linguistiques (transcriptions phonétiques) Co-occurrences ou distribution complémentaire entre événements phonétiques … Recours à des méthodes non-supervisées Étude des phénomènes phonétiques à l’échelle de grands corpus Multilingues et multi-locuteurs, plus représentatifs de la réalité linguistique La phonétique de corpus, en tant qu’approche alternative pour l’étude de la parole comme phénomène général, se caractériserait par des méthodes et un objet d’étude propres. 22/05/2012 Séminaire IPS - Strasbourg

Séminaire IPS - Strasbourg Références Clements, 1985, The geometry of phonological features, Phonology 2 : pp 225-252 P. A. Keating: "Phonetic and phonological representation of stop consonant voicing", Language 60.2, 286-319, 1984 T. S. Kuhn, La structure des révolutions scientifiques, Flammarion 1983 (1962) McCarthy, John J. 1986. ‘OCP Effects: Gemination and Antigemination’, Linguistic Inquiry 17, 207–263. Muscariello, A., Gravier, G., Bimbot, F.: Variability tolerant audio motif discovery. Multimedia Modeling 2009. Muscariello, A., Gravier, G., Bimbot, F. : Audio keyword extraction by unsupervised word discovery, Interspeech 2009 Ohala, J. J. 1981. The listener as a source of sound change. In: C. S. Masek, R. A. Hendrick, & M. F. Miller (eds.), Papers from the Parasession on Language and Behavior. Chicago: Chicago Ling. Soc. 178 - 203. Pellegrino, F., 1998, "Une approche phonétique en identification automatique des langues: la modélisation acoustique des systèmes vocaliques", Doctorat, 1998, Université Paul Sabatier, Toulouse   J.S. Pardo. On phonetic convergence during conversational interaction. JASA 119 :2382–2393, 2006. Stevens, K.N. and Keyser, S.J. 1989. Primary features and their enhancement in consonants. Language 65.1, 81-106. 22/05/2012 Séminaire IPS - Strasbourg

Séminaire IPS - Strasbourg Bibliographie Articles et présentations en version intégrale : http://www.martinetoda.org/publis.htm 22/05/2012 Séminaire IPS - Strasbourg

A quoi servent les lèvres dans /s/-/ʃ/ Bonus A quoi servent les lèvres dans /s/-/ʃ/

Constrictions dentale et linguale Coupes sagittales et coronales IRM (ʂ, polonais), Toda, thèse 2009 Coupe sagittale Coupes coronales 22/05/2012 Séminaire IPS - Strasbourg

Aires de constriction linguale et dentale Constriction dentale entre 2 et 8 fois la constriction linguale Aire variable selon la sibilante et la langue s sj ʃ ɕ ṣ Français (n=7) Anglais (n=5) Japonais (n=9) Chinois (n=4) Polonais (n=2) 22/05/2012 Séminaire IPS - Strasbourg

Structure du conduit vocal des sibilantes Conception classique « Cavité antérieure » Constriction Cavité orale antérieure Cavité labiale distincte Cavité labiale Constriction linguale Constriction dentale 22/05/2012 Séminaire IPS - Strasbourg

Rapport d’aire COA/constriction dentale sj ʃ ɕ ṣ Français (n=7) Anglais (n=5) Japonais (n=9) Chinois (n=4) Polonais (n=2) 22/05/2012 Séminaire IPS - Strasbourg

Effet de la cavité labiale sur la fonction de transfert de /ʃ/ « Lèvres seulement » « Normal » « Sans lèvres » Simulation acoustique 3D éléments finis ; cf. Toda et Kitamura, IEEE 2003 Locuteur Fr1 (stratégie « recul ») 22/05/2012 Séminaire IPS - Strasbourg

Séminaire IPS - Strasbourg Fonctions de transfert calculées (simulation 3D ; méthode des éléments finis) Spectre moyen du bruit réel Normal Lèvres seulement Sans lèvres Une légère différence de fréquence (attribuée aux erreurs de morphologie au cours de la construction du modèle), mais distribution de pics semblable (2 pics). Pente spectrale différente attribuée à l’enveloppe de la source Les modèles tronqués ne présentent qu’un seul pic (différence de fréquence due aux conditions des frontières forcément différentes du modèle d’origine) Les lèvres donnent lieu à un formant labial Leur présence a également comme conséquence d’abaisser la fréquence du pic principal affilié principalement à la cavité orale antérieure 22/05/2012 Séminaire IPS - Strasbourg

Fréquence théorique de la première résonance labiale 10 mm 14 mm /s/ /ʃ/ FR1 = c x 1 4 x llèvres FR1 = c x 1 4 x llèvres 8750 Hz 6250 Hz 35000 cm/s 35000 cm/s 1 cm 1,4 cm La protrusion (allongement) abaisse le formant labial L’arrondissement (diminution de l’aire) n’a pas cet effet Le statut des lèvres diffère entre les sibilantes et les vocoïdes tels que [u, w, ɹ] où les lèvres font partie intégrante d’un résonateur de Helmholtz avec la cavité orale. 22/05/2012 Séminaire IPS - Strasbourg

Spectres moyens de tous les locuteurs - français (n = 7) +/- 1 5 kHz et + /s/ Deux zones de fréquence où on trouve une différence spectrale entre s et sh /ʃ/ Abaissement du formant labial par protrusion 1,5 – 4 kHz 22/05/2012 Séminaire IPS - Strasbourg