Plan cours parole 29 Octobre 2003 1. Applications et démos (appli) voir feuilles distribués + démos 2. Fondements théoriques (theorie) 2.1 voir cours 22 Octobre 2003 2.2 Reconnaissance de forme 3. Traitement du signal voir feuilles distribuées
1. 2 Applications et démos (rappel: domaines ) Identité PHONETIQUE RECONNAISSANCE GRAPHEMES VERS PHONEMES SYNTHESE ANALYSE STOCKAGERESTITUTION TRANSMISSION Bla-bla bla … Bla-bla LANGUE MESSAGE
voir feuilles module 2-applis
Resultats de verification du locuteur du groupe DIVA-UniFribourg aux concours international annuel NIST 2003 NIST= National Institute for Standards and Technology aux USA
Demos www AT&T “How May I Help You” synthèse text-to-speech
2. Fondements théoriques 2.2 Reconnaissance de formes Humains et reco de formes (d’après Introduction du livre “Pattern Recognition” Duda,… ) L’être humain est en train de capter, analyser et réagir de manière continue: Processus associées= reconnaissance de formes Definition: les données sont capturées et analysées, en vue d’un but (vision pour marcher, reco parole pour comprendre..) Leurs performance en “reconnaissance de formes” sont excellentes humain: on ne sait pas exactement comment cela fonctionne: malgré d’énormes progrès en biologie, médecine, physique, …. on ne sait toujours pas le fonctionement exact des processus de “reconnaissance de forme” à tous les niveaux
2.2.2 Machines et reco de formes Au contraire, les machines ont des piètres performances en “machine perception”: reco automatique de la parole vision artificille reconnaissance de caractère (systèmes OCR de Optical Character recognitions).... Cela fonctionne mal, mais on sait comment cela fonctionne Ce serait pourtant utile si cela marcerait mieux Pour l’automatisation Pour approfondir nos connaissance de fonctionement humain
2.2.3 Un exemple imaginaire Automatisation de la tâche de triage de saumons et daurades, à partir des images captées avec une caméra se trouvant au-dessous du tapis de triage On y arrive très bien, mais comment
2.2.4 Etapes d’un processus de reconnaissance de formes données -> capture -> pre-traitement(segmentation) -> extraction de paramètres pertinents (feature extraction) -> classification saumon ……………......…….. daurade
2.2.5 Extraction de paramètres Paramètre pertinents à partir d’une population de départ (d’entrainement) x1: longuer du poisson => histogram: de la longueur en foction du nombre de possons présent => seuil de décision => pas assèz caractéristique on a besoin d’informations supplémentaires x2: nobre de tâches x3: luminosité …. surfaces de décision classification
2.2.6 Design du système collection de données ► choix des paramètres ► choix des modèles ► entraînement du classifieur ►evaluation du classifieur (avec données indépendantes) Ex de difficulté de segmentation: anicipation articulatoire “sklee” and “skloo” prononciation de s différente OCR: association de deux barres horizontales de = pour former un seul symbole comment définir les unités atomiques On verra chacune de ces étapes dans le cas du traitement automatique de la parole