Chapitre Théories et modèles perceptifs

Slides:



Advertisements
Présentations similaires
Dans l'ouvrage PHONO qui vise le développement des compétences phonologiques des élèves de GS et CP, GOIGOUX - CEBE - PAOUR ont mis en oeuvre les principes.
Advertisements

CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole par indexation indépendant du locuteur Dijana PETROVSKA-DELACRETAZ.
Reconnaissance de la parole
Reconnaissance Automatique de la Parole
Codage de la parole à très bas débit avec des unités ALISP
Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.
Codage de la parole à très bas débit: passage du cas dépendant vers le cas indépendant du locuteur 6-ème réunion d'avancement SYMPATEX : ENST, 19 Septembre.
Approches comportementales et électroencéphalographiques
Effets de la compression temporelle dindices acoustiques sur la perception de la parole C. Jacquier & F. Meunier Laboratoire Dynamique Du Langage. CNRS.
l’évolution du langage chez l’enfant
La lecture et son apprentissage
Apprendre à lire.
Traitement des sons de parole (4)
Reconnaissance de la parole
Asservissement et régulation continue
La philosophie de l’esprit La survenance psychophysique (ch. 4)
PERCEPTION/ATTENTION Sophie Donnadieu
Décodage des informations
Théorie neuronale de la Cognition et entraînement cognitif
Mais l’analyse visuelle des mots est fragile :
Hésitations autonomes en 8 langues :
TRANSMISSION DES DONNEES.
Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.
Apprentissages scolaires
Chapitre Perception Naturelle et Artificielle de la Parole
Le cahier de charge d'un système de RAP
Introduction à la sociolinguistique
Reconnaissance de la parole Difficultés Modèles
Filtrer le signal audio numérique
Conscience phonologique
Reconnaissance Vocale
La méthodologie expérimentale Fondements et bases d’application
Jeopardy - Révision Final Jeopardy $100 $100 $100 $100 $100 $200 $200
LIN1720 DGD 10 La syllabe.
Jeopardy - Révision Final Jeopardy Phonèmes Traits Règles Syllabe
Jeopardy $100 ArticulationVoyelles 1Voyelles 2Acoustique 1Acoustique 2 $200 $300 $400 $500 $400 $300 $200 $100 $500 $400 $300 $200 $100 $500 $400 $300.
États du larynx Phonologie Théories et traits Règles phonologiques
Jeopardy - Révision Final Jeopardy Articulation Voyelles Consonnes
Consonnes Transcription Norme et variation Mécanique phonatoire
LIN 1720 DGD 9 Traits phonologiques
LIN 1720 DGD 2 Voyelles University of Ottawa.
La méthodologie expérimentale Fondements et bases d’application
Chapitre 2 La description du langage
Chapitre 5: le bilinguisme
Modélisation de la lecture grâce à un modèle connexionniste
Perception visuelle et traitement sémantique
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires - Démonstration : quel imitateur êtes vous ? Plateau Traitement du son.
Qu'est ce que savoir lire ?
Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique
Chapitre Analyse de scènes auditives
Existe-t-il une rééducation de la dyslexie ?
L’approche du code au cycle 2
Traitement automatique de la langue
L’apport du Connexionnisme
Plan cours parole 29 Octobre 2003  1. Applications et démos (appli) voir feuilles distribués + démos  2. Fondements théoriques (theorie)  2.1 voir cours.
La perception de la parole
Traitement de la parole : Synthèse et reconnaissance
Animation Pédagogique FRANCHEVILLE – LYON – S te -FOY 10 Janvier 2007.
1 La norme individuelle : étude pilote sur le lien perception-production Martine Toda LPP et ENST-LTCI (UMR 5141) Crédits : Projet.
La conscience phonologique : « Distinguer les sons de la parole »
Juillet 2001  Les organes Cavité nasale Cavité buccale Langue Épiglotte et cordes vocales Trachée Voile du palais.
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole à très bas débit. Maurice CHARBIT, Gérard CHOLLET, Niklas PAULSSON,
Classe 1 Phonétique - phonologie
Evaluation automatique du débit de la parole sur des données multilingues spontanées Jean-Luc Rouas, Jérôme Farinas, François Pellegrino.
2.4 Le langage SFC - Un langage de description de systèmes séquentiels
Journée Des Doctorants 2004
La perception de la parole
 Mise en évidence de certaines difficultés de lecture  Suspicion d’une éventuelle dyslexie  Repérage des enfants dits à risque permet une PEC adaptée.
Comment mon Iphone peut-il reconnaître mes paroles?
À la recherche d’indices discriminant des accents ouest- africains en français Philippe Boula de Mareüil LIMSI-CNRS, Orsay.
Transcription de la présentation:

Chapitre 4 -------- Théories et modèles perceptifs Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences Cognitives Module PNPA Déc 04 – Fév 05

Le point de vue: information verbale seulement Niveaux acoustico-phonétiques Des indices aux phonèmes Voyelles consonnes   Accès lexical Des phonèmes aux mots Modèles Modèles multi-niveaux Trace

La perception acoustico-phonétique niveau 6 500ms unités cognitives niveau 2 15ms indices acoustiques niveau 1 1ms unités cochléaires niveau 0 0.1ms Signal niveau 3 30ms traits phonétiques niveau 4 60ms unités phonetiques niveau 5 200ms unités lexicales branche verbale branche prosodique

Niveaux acoustico-phonétiques : 2 à 4 Evidence et limites du niveau phonémique (niveau 4) - Les traits distinctifs (niveau 3) - Indices acoustiques (niveau 2) - formants, F'2, enveloppe spectrale grossière - Voyelles - Systèmes vocaliques - Typicalité des voyelles - Consonnes - Transitions de formants - VOT vs invariants acoustiques - Théorie motrice

Evidence du niveau phonémique - Double articulation : dizaines de phonèmes ---> millions de mots - Système phonémique = ensemble de symboles représentant les sons de la parole - Sons arbitraires, mais tous formés par l'organe vocal humain - N'importe quelle structure à 3 formants ne peut pas être perçue comme un son de parole - La perception détermine les meilleurs sons ? - Ensemble de 30 à 40 phonèmes dans toutes les langues, incluant 3 à 20 voyelles - Pas de système universel

Limitations du niveau phonémique Phonème = concept abstrait Formé à partir de distinctions minimales entre mots d'une langue Donc à partir de ressemblances acoustiques et linguistiques La reconnaissance comme la synthèse montrent qu'un phonème n'est pas un état acoustique du signal Nécessité de représentations intermédiaires Débit d'information phonémique au niveau 4 : 50 à 100 bits par seconde Débit d'information cochléaire : peut atteindre 25000x100 bps ! La réduction d'information ne peut se faire en 1 étape

Les traits distinctifs Jakobson, Fant et Halle 1952

Les traits distinctifs Intérêt de la notion Intègre divers points de vue : acoustique, production, perception ? "constituants ultimes" de la langue Binarisme règles phonologiques et phonotactiques: assimilation, régression, nasalisation… Limites En 50 ans, personne n'a pu extraire les traits distinctifs du signal de manière fiable et robuste… Binarisme contesté ---> voir dans le détail la structure des signaux, à partir du niveau 2

Les voyelles spectrogrammes des voyelles F1 et F2 prépondérants: démo Snack Formants

Question : la perception utilise-t-elle les formants ? Pour : - travaux de Delgutte sur le chat - pertinence de F1 et F2 en production - équivalence avec point d'articulation (un peu simpliste) F1 <---> ouvert/fermé F2 <---> avant/arrière

? Contre - difficulté de repérer les formants - difficulté d'identifier les formants ?

Contre : - même voyelle perçue avec divers jeux de formants Fant : 2e formant équivalent F'2 [i] [e] Chistovitch : intégration large bande 3,5 Bark Contre : - le vocodeur à formants n'a jamais fonctionné - les systèmes de reconnaissance ont consacré l'utilisation du banc de filtres mfcc, qui n'implique pas d'identification des formants

Indices acoustiques pour les consonnes Consonnes: plusieurs types acoustiques - phase statique: fricatives - transition de formants: plosives, liquides, nasales - cas général: succession d'indices acoustiques (niveau 2) VCV : - fermeture (transition de formants) - occlusion totale ou partielle - explosion (burst) - aspiration - ouverture (transition de formants)

Fricatives (constrictives)

Plosives (occlusives)

Rôle perceptif des transitions formantiques Liberman, Delattre, Cooper 1955 Expériences avec le Pattern Playback

La théorie du locus Proposition: de même que toute voyelle est définie par F1 et F2, le point d'articulation de toute consonne est défini par les loci de F1 et F2 Concerne en fait F2 Problèmes - à l'analyse, la détermination du locus est difficile: - suppose que les formants soient identifiés - et qu'on sache à quelle abscisse faire la mesure - /k/ et /g/ ont 2 loci, selon la voyelle qui suit ---> relatif abandon de la notion, inutilisable en reconnaissance. Résurgence récente (équations du locus, Sussman 1991)

Voice Onset Time VOT Lisker et Abramson 1967

Voice Onset Time VOT Le VOT, indice perceptif des plosives à l'initiale ? OUI mais - dépend de la langue, - de la vitesse d'articulation, - de la force de voix…

Théorie motrice (A.Liberman, 1967) Constat de base - la parole est produite par des commandes motrices, qui constituent le "vrai code" de la parole - les mouvements des articulateurs sont lents, ce qui entraîne la coarticulation - la perception interprète le signal en termes de commandes motrices, qui ont un caractère universel - "speech is special"

Limitations de la théorie motrice - l'existence d'un module cérébral traitant uniquement la parole n'est pas prouvée sur le plan neurobiologique - on ne sait pas inverser le processus articulatoire --> acoustique - la variabilité articulatoire est au moins aussi grande que la variabilité acoustique (plusieurs configurations pour un même son perçu) - on peut comprendre sans savoir articuler - le mainate

Le retour des invariants acoustiques Stevens et Blumstein 1978 Gabarit spectral de l'explosion, indépendant de la voyelle

L'accès lexical niveau 6 500ms unités cognitives niveau 2 15ms indices acoustiques niveau 1 1ms unités cochléaires niveau 0 0.1ms Signal niveau 3 30ms traits phonétiques niveau 4 60ms unités phonetiques niveau 5 200ms unités lexicales branche verbale branche prosodique

Modèles de reconnaissance de mots et d'accès lexical Théorie des logogènes (Morton 1969) - A chaque mot du lexique mental sont associés tous ses aspects: significations, rôles syntaxiques, fréquence dans le lexique, chaîne phonétique, chaîne orthographique etc. - Chacun de ces aspects contribue à une fonction d'activation du logogène. - A un instant donné un logogène devient actif si sa fonction d'activation dépasse un seuil. ---> modèle mot, passif, mettant sur le même plan toutes les sources de connaissances - ne dit pas comment ces connaissances sont apprises et exploitées, ni comment les logogènes interagissent

Modèles de reconnaissance de mots et d'accès lexical Théorie de l'accès lexical par les spectres LAFS (Klatt 1979) - les mots du répertoire mental sont reconstruits en mémoire à partir de spectres constituant des diphones - le mot à reconnaître est aussi représenté par une suite de spectres - la comparaison est faite sur une base acoustique ---> vision influencée par la reconnaissance automatique pas de représentation en traits ou en phonèmes processus d'analyse par synthèse

Le Modèle Cohorte Marslen-Wilson (1975) - strictement gauche-droite - incorporation possible de connaissance de plus haut niveau - difficulté avec les effets de fréquence de mots - sensible aux erreurs phonémiques --> incompatible avec la variabilité de la parole réelle

Le Modèle Trace Elmann et MacClelland 1986 Equilibre entre 3 niveaux niveau 6 500ms unités cognitives niveau 2 15ms indices acoustiques niveau 1 1ms unités cochléaires niveau 0 0.1ms Signal niveau 3 30ms traits phonétiques niveau 4 60ms unités phonetiques niveau 5 200ms unités lexicales branche verbale branche prosodique Elmann et MacClelland 1986 Equilibre entre 3 niveaux

Le Modèle Trace - 3 niveaux: traits distinctifs, phonèmes, mots - connexions inhibitrices intra-niveau (en bleu), excitatrices d'un niveau à l'autre (en rouge et en vert) - unités à seuil - Réglages manuels - modèle actif, bottom-up et top-down - tolère certaines distorsions et erreurs - problème: duplication massive des unités à chaque pas de temps Fig2 – Un sous-ensemble des unités dans TRACE II. Chaque rectangle représente une unité différente. Les étiquettes indiquent l'élément représenté et la largeur du rectangle indique son empan temporel. Les spécifications d'entrée pour la trace "tea cup" précédée et suivie par un silence sont indiquées par le noicissement des unités traits correspondantes