Traitement automatique de la langue

Slides:



Advertisements
Présentations similaires
[number 1-100].
Advertisements

Distance inter-locuteur
Licence 2 Option de découverte (1L4INJM) APPLICATIONS INFORMATIQUES POUR LINTERACTION HOMME-ROBOT Responsable : Julien PINQUIER
Classification des signaux exemples de signaux réels
Analyse temps-fréquence
Classe : …………… Nom : …………………………………… Date : ………………..
Reconnaissance de la parole
Reconnaissance Automatique de la Parole
Mesures dans le domaine fréquentiel
Est Ouest Sud 11 1 Nord 1 Laval Du Breuil, Adstock, Québec I-17-17ACBLScore S0417 Allez à 1 Est Allez à 4 Sud Allez à 3 Est Allez à 2 Ouest RndNE
Est Ouest Sud 11 1 Nord 1 RondeNE SO
Sud Ouest Est Nord Individuel 36 joueurs
Les Prepositions.
Présentation de l’application « Livret personnel de compétences »
Page : 1 / 6 Conduite de projet Examen du 6 mai 1999 Durée : 4 heures Le support de cours est toléré La notation tiendra compte très significativement.
Page : 1 / 6 INSA Rouen département ASI UV MGPI Examen du 25 juin 2003 Durée : 120 mn Le support de cours est toléré La notation tiendra compte très significativement.
Séries de Fourier Tout signal périodique (T) de puissance finie peut être décomposé en une somme de sinus et de cosinus. An=0 1(4/) 1+ 3 (4/3)
Université Paris 3 La Dictée vocale SLFD Johanna Deron.
La reconnaissance vocale
1 Louverture des économies Pour relâcher la contrainte des ressources productives.
La diapo suivante pour faire des algorithmes (colorier les ampoules …à varier pour éviter le « copiage ») et dénombrer (Entoure dans la bande numérique.
Reconnaissance de la parole
07/24/09 1.
Traitement Automatique de la Langue:
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
Etienne Bertaud du Chazaud
LE SON & L’ AUDITION Dr CHAKOURI M.
LIN1720 cours 11 Traits phonologiques
Interagir avec un objet mixte Propriétés physiques et numériques Céline Coutrix, Laurence Nigay Équipe Ingénierie de lInteraction Homme-Machine (IIHM)
Interaction Homme Robot Sujet « 16/03/2012 » Réalisé par :
1 Cours numéro 3 Graphes et informatique Définitions Exemple de modélisation Utilisation de ce document strictement réservée aux étudiants de l IFSIC.
Propriétés et Classification
Classe 2 Phonétique - phonologie
SUJET D’ENTRAINEMENT n°2
Partie 1: Ondes et Particules.
Reconnaissance Vocale
Jeopardy - Révision Final Jeopardy $100 $100 $100 $100 $100 $200 $200
Jeopardy - Révision Final Jeopardy Phonèmes Traits Règles Syllabe
Jeopardy $100 ArticulationVoyelles 1Voyelles 2Acoustique 1Acoustique 2 $200 $300 $400 $500 $400 $300 $200 $100 $500 $400 $300 $200 $100 $500 $400 $300.
Jeopardy - Révision Final Jeopardy Articulation Voyelles Consonnes
Consonnes Transcription Norme et variation Mécanique phonatoire
LIN 1720 DGD 9 Traits phonologiques
LIN 1720 DGD 2 Voyelles University of Ottawa.
LIN 1720 DGD 2 Voyelles University of Ottawa.
Tournoi de Flyball Bouin-Plumoison 2008 Tournoi de Flyball
Notre calendrier français MARS 2014
3ème partie: les filtres
C'est pour bientôt.....
Veuillez trouver ci-joint
SUJET D’ENTRAINEMENT n°4
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
* Source : Étude sur la consommation de la Commission européenne, indicateur de GfK Anticipations.
CALENDRIER-PLAYBOY 2020.
Projet de stage d’année IIR4 sous le thème:
Le français dans tous les sens
Les Chiffres Prêts?
Tolérance de parallélisme
1 Formation à l’usage éco-performant de votre pc 1 ère Partie.
UHA-FST Année L1S1-2 Examen de janvier 2006 – Durée 90 minutes Introduction aux concepts de la Physique N° carte étudiant:………………… 1-Donnez votre.
Partie II: Temps et évolution Energie et mouvements des particules
Traitement de la parole : Synthèse et reconnaissance
Dans cet article, une nouvelle approche relative à l’indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les.
Formation instituteurs
Juillet 2001  Les organes Cavité nasale Cavité buccale Langue Épiglotte et cordes vocales Trachée Voile du palais.
Classe 1 Phonétique - phonologie
TRAITEMENT DE LA PAROLE
Comment mon Iphone peut-il reconnaître mes paroles?
Transcription de la présentation:

Traitement automatique de la langue DESA ANITS Année scolaire 05/06

Plan du cours Initiation à la parole Bases en traitement du signal de parole  Modélisation statistique pour le traitement automatique de la parole Méthodes d’évaluation Axes de recherche en traitement automatique de la parole Synthèse de la parole traitement automatique des textes écrits

Objectifs : Les technologies vocales ont connu, ces dernières années, un très important développement : d’une part, il est maintenant reconnu que la parole, moyen le plus naturel de commnunication entre hommes, doit être considérée comme un moyen de communication homme-machine privilégié. d’autre part, les systèmes automatiques, qu’il s’agisse de systèmes de reconnaissance de parole ou de synthèse de parole, ou de traitement de textes ont acquis des performances suffisantes pour envisager leur intégration dans des systèmes interactifs.

Objectifs  Le traitement automatique de la parole est un domaine de recherche pluridisciplinaire : Il utilise des notions empruntées au traitement de signal, à la linguistique ( phonétique, phonologie,…), à la statistique et à l’informatique. Il reste que nombre de problèmes restent ouverts : parole spontanée, parole naturelle, recherche d’informations dans des documents sonores…), l’identification de (locuteur, langue), commandes vocales en milieu bruité,… et la recherche peut y trouver nombre d’études.

Objectifs  Ce cours a pour but de donner les fondements théoriques du traitement automatique de la parole. Les bases théoriques de la reconnaissance de la parole. La présentation de l’état de l’art dans ce domaine permettra de comprendre les limites scientifiques et de mettre en évidence les problèmes actuels.

Historique On peut résumer en quelques dates les grandes étapes de la reconnaissance de la parole : 1952 : reconnaissance des 10 chiffres, pour un monolocuteur , par un dispositif électronique câblé 1960 : utilisation des méthodes numériques 1965 : reconnaissance de phonèmes en parole continue 1968 : reconnaissance de mots isolés par des systèmes implantés sur gros ordinateurs (jusqu’à 500 mots) 1969 : utilisation d’informations linguistiques

Historique 1971 : lancement du projet ARPA aux USA (15 millions de dollars) pour tester la faisabilité de la compréhension automatique de la parole continue avec des contraintes raisonnables 1972 : premier appareil commercialisé de reconnaissance de mots 1976 : fin du projet ARPA ; les systèmes opérationnels sont HARPY, HEARSAY I et II et HWIM 1978 : commercialisation d’un système de reconnaissance à microprocesseurs sur une carte de circuits imprimés

Historique 1981 : utilisation de circuits intégrés VLSI (Very Large Scale Integration) spécifiques du traitement de la parole 1981 : système de reconnaissance de mots sur un circuit VLSI 1983 : première mondiale de commande vocale à bord d’un avion de chasse en France 1985 : commercialisation des premiers systèmes de reconnaissance de plusieurs milliers de mots 1986 : lancement du projet japonais ATR de téléphone avec traduction automatique en temps réel

Historique 1988 : apparition des premières machines à dicter par mots isolés 1989 : recrudescence des modèles connexionnistes neuromimétiques 1990 : premières véritables applications de dialogue oral homme-machine 1994 : IBM lance son premier système de reconnaissance vocale sur PC 1997 : lancement de la dictée vocale en continu par IBM 

Quelques segments d’un signal

Quelques propriétés du signal de parole La parole est quasi-stationnaire La parole est 70% du temps (pseudo-)périodique (bruit ou silence le reste du temps) La parole est un signal large bande (il remplit toute la largeur de bande) La parole est un signal à bande limitée (0-8000 Hz essentiellement)

Fonctionnement acoustique de l’appareil vocal Système acoustique = excitateur + résonateur Trois modes de fonctionnement Excitation glottique du conduit vocal Excitation du conduit vocal en un point de constriction par un bruit d’écoulement Excitation du conduit vocal par une impulsion acoustique

Les organes de la parole

Qu’est-ce qu’un son ? Son = phénomène vibratoire qui se propagent à une certaine vitesse dans un milieu élastique (en général l’air). son = bruit  onde sonore apériodique  vibrations non périodiques CONSONNES périodique  vibrations périodiques se répètent de façon identique dans le temps VOYELLES impulsionnelle OCCLUSIVES continue FRICATIVES

Transcription phonétique du français

Classes majeures de sons (1) CONSONNES : occlusives (ou plosives) vs. fricatives (ou constrictives) liquides (latérale ou vibrante) & nasales (1) MODE D’ARTICULATION (i.e. selon que le son est produit par la fermeture momentanée ou par le rétrécissement du conduit vocal)  OCCLUSIVES = l’air qui provient des poumons est bloqué dans les cavités supra-glottiques (moment de l’occlusion), avant d’être brutalement expulsé (moment de l’explosion) FRICATIVES = l’air qui provient des poumons est engagé dans un conduit (selon la localisation vocal rétréci ( fermé) (2) LIEU D’ARTICULATION des articulateurs, notamment de la langue) 7 lieux possibles : labial – dental – alvéolaire – palatale – vélaire – uvulaire - pharyngal

Classes majeures de sons (2) VOYELLES : résultent du libre passage du flux laryngé dans les cavités supra-glottiques  théorie de la source (flux laryngé) & du filtre (résonateurs  cavités supra-glottiques). Voyelles orales ou nasales (mode d’articulation) Voyelles antérieures vs. postérieures (lieu d’articulation) Voyelles ouvertes vs. fermées (degré d’aperture) timbre

Phonétique acoustique Echelle de fréquences correspondant aux sons de parole : de 16 à 16.000 Hz  16 kHz Plus la fréquence est élevée plus le son est aigu amplitude = intensité pression fréquence = nbr. d’oscillations / sec.

Analyse spectrale Analyse tri-dimensionnelle montrant la configuration fréquentielle d’un son (ou d’une séquence de sons) dans le temps  spectrogramme ou sonagramme  de l’acoustique au visuel Formant = zone de fréquences de plus grande intensité (varient en fonction des sons) F1 : axe ouvert ~ fermé F2 : avant ~ arrière F3 : étiré ~ arrondi

Analyse spectrale  amplitude  degré de noirceur fréquences (Hz) Temps (ms) amplitude  degré de noirceur  fréquences (Hz) F1 F2 F3

Caractéristiques acoustiques des consonnes occlusives  zones de plus grande intensité pour

Caractéristiques acoustiques des consonnes fricatives  zones de plus grande intensité

Caractéristiques acoustiques des segments vocaliques & valeurs formantiques moyennes  350 1600 2250  350 900 2500  500 2000 2750  500 1500 2500  500 1000 2500  750 1300 2300  800 1200 2400 F1 F2 F3 fréquences (Hz)

Liquides & Vibrantes  cf. présence de transitions formantiques  voyelles

Nasales Présence d’anti-formants (correspondant au résonateur nasal)

Les cas particuliers : les semi-voyelles  transitions formantiques dynamiques

Transcription phonétique du français

Description acoustique de la parole

Voyelles orales françaises

Triangle vocalique

Représentation acoustique (ex. 1

Représentation acoustique (ex. 2)

Les limites de l’oreille L’oreille est à bande limitée L’oreille est fausse sur des sons purs L’oreille n’est pas également sensible L’oreille a une résolution en temps limitée L’oreille a une résolution en fréquence limitée