La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Reconnaissance de mots manuscrits cursifs par modèles de Markov cachés en contexte Application au français, à langlais et à larabe Anne-Laure Bianne-Bernard.

Présentations similaires


Présentation au sujet: "Reconnaissance de mots manuscrits cursifs par modèles de Markov cachés en contexte Application au français, à langlais et à larabe Anne-Laure Bianne-Bernard."— Transcription de la présentation:

1 Reconnaissance de mots manuscrits cursifs par modèles de Markov cachés en contexte Application au français, à langlais et à larabe Anne-Laure Bianne-Bernard 21 novembre 2011

2 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Introduction à la reconnaissance décriture manuscrite Objectifs et contributions de la thèse Les modèles de Markov cachés en contexte Applications et résultats Conclusions et perspectives 2 Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion

3 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Introduction à la reconnaissance décriture manuscrite Objectifs et contributions de la thèse Les modèles de Markov cachés en contexte Applications et résultats Conclusions et perspectives 2 Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion La reconnaissance décriture De la page au mot Extraction de caractéristiques Modélisation HMMs

4 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Reconnaissance décriture Hors ligneEn ligne 3 Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion La reconnaissance décriture De la page au mot Extraction de caractéristiques Modélisation HMMs

5 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Reconnaissance décriture hors ligne ImpriméManuscritAutres 4 Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion La reconnaissance décriture De la page au mot Extraction de caractéristiques Modélisation HMMs

6 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Extraction des blocs de texteExtraction des lignes de texte Extraction de mots 5 Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion La reconnaissance décriture De la page au mot Extraction de caractéristiques Modélisation HMMs

7 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Prétraitements des images de mots : –Correction de la pente du mot (skew) –Correction de langle dinclinaison des caractères (slant) –Re-proportionnement –Binarisation 6 Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion La reconnaissance décriture De la page au mot Extraction de caractéristiques Modélisation HMMs

8 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Stratégies de parcours de limage Segmentation explicite Sans segmentation : approche par fenêtres glissantes 7 Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion La reconnaissance décriture De la page au mot Extraction de caractéristiques Modélisation HMMs

9 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Extraction de caractéristiques par fenêtres glissantes –Caractéristiques géométriques et statistiques (El Hajj et al. 2005) configurations de pixels centre de gravité de la fenêtre densité de pixels dans la fenêtre, etc. –Caractéristiques directionnelles (Rodriguez et al. 2008) histogrammes de gradients Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion La reconnaissance décriture De la page au mot Extraction de caractéristiques Modélisation HMMs

10 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Modélisation et reconnaissance de mots isolés –Objectif : trouver le mot ŵ tel que O T : la séquence de vecteurs de caractéristiques –Règle de Bayes : calculé par des HMMs 9 Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion La reconnaissance décriture De la page au mot Extraction de caractéristiques Modélisation HMMs modélisation lexicale

11 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Modélisation par HMMs –Un mot = concaténation des caractères qui le composent modèle(pendant) = hmm_p + hmm_e + hmm_n + hmm_d + hmm_a + hmm_n + hmm_t 10 Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion La reconnaissance décriture De la page au mot Extraction de caractéristiques Modélisation HMMs hmm_e :

12 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Introduction à la reconnaissance décriture manuscrite Objectifs et contributions de la thèse Les modèles de Markov cachés en contexte Applications et résultats Conclusions et perspectives 11 Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Objectifs Contributions

13 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Objectifs Reconnaissance de mots manuscrits avec HMMs et sans segmentation Système à létat de lart Reconnaisseur robuste indépendamment de la base de données utilisée : –script (alphabet) –grande taille du dictionnaire ( 10 5 mots) 12 Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Objectifs Contributions

14 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Contributions Raffinement de la modélisation HMM de caractères –optimisation du nombre détats des HMMs –ajout de caractéristiques dynamiques Elaboration de modèles HMMs dépendants de leur contexte : les trigraphes –création de questions binaires originales sur la forme des caractères pour le clustering détats des trigraphes –mise en place des modèles contextuels pour le français, langlais et larabe 13 Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Objectifs Contributions

15 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Objectifs Contributions Segmentation explicite (graphèmes) Segmentation implicite (fenêtres glissantes) Modèles hybrides HMM/NN HMMs type Bakis (loi gaussienne) Modèles de caractères Reconnaissance de mots 74 caractéristiques (profil, ratio H/L, centre de gravité, etc.) 34 caractéristiques + caract. dynamiques Extraction de caractéristiques + prise en compte du contexte 14 Pré-traitements Binarisation, deslant, etc. Système existant à A2iABriques ajoutées/modifiées new

16 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Introduction à la reconnaissance décriture manuscrite Objectifs et contributions de la thèse Les modèles de Markov cachés en contexte Applications et résultats Conclusions et perspectives 15 Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Elaboration de HMMs de caractères robustes Modélisation Clustering par position détat Arbres binaires pour le clustering Décodage

17 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Introduction à la reconnaissance décriture manuscrite Objectifs et contributions de la thèse Les modèles de Markov cachés en contexte –Adaptation de la topologie des HMMs –Ajout de caractéristiques dynamiques –Modélisation de HMMs contextuels Applications et résultats Conclusions et perspectives 15 Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Elaboration de HMMs de caractères robustes Modélisation Clustering par position détat Arbres binaires pour le clustering Décodage

18 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Adaptation de la topologie des modèles Calcul du nombre optimal détats L s (C) par HMM de caractère – Γ(s) : statistique de passage dans létat s – S c : états du caractère C – |C| : nombre de caractères utilisés pour calculer Γ(s) 16 Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Elaboration de HMMs de caractères robustes Modélisation Clustering par position détat Arbres binaires pour le clustering Décodage

19 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Adaptation de la topologie des modèles Exemple sur la base OpenHart 17 Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Elaboration de HMMs de caractères robustes Modélisation Clustering par position détat Arbres binaires pour le clustering Décodage

20 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Adaptation de la topologie des modèles (cont.) Optimisation du nombre de gaussiennes par état Exemple sur la base Rimes Rimes-validation 2011 lexique :1612 Point de fonctionnement Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Elaboration de HMMs de caractères robustes Modélisation Clustering par position détat Arbres binaires pour le clustering Décodage 18 nombre de gaussiennes par mélange taux de reconnaissancetemps de décodage (s)

21 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Ajout de caractéristiques dynamiques et 19 Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Elaboration de HMMs de caractères robustes Modélisation Clustering par position détat Arbres binaires pour le clustering Décodage

22 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Les HMMs contextuels Prennent en compte la variabilité des caractères manuscrits en fonction de leur contexte : phénomène de co-articulation Modélisent plus finement les caractères 20 Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Elaboration de HMMs de caractères robustes Modélisation Clustering par position détat Arbres binaires pour le clustering Décodage

23 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Les HMMs contextuels : modélisation d – a + nd – a + n contexte précédent – caractère central + contexte suivant pendant = (Ø-p+e) (p-e+n) (e-n+d) (n-d+a) (d-a+n) (a-n+t) (n-t+Ø) 21 Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Elaboration de HMMs de caractères robustes Modélisation Clustering par position détat Arbres binaires pour le clustering Décodage

24 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Modélisation plus fine MAIS Augmentation du nombre détats –1 modèle environ 10 états Peu de données dapprentissage pour un grand nombre de trigraphes –< 10 exemples pour 70% des trigraphes base de données # mots apprentissage # monographes# trigraphes Rimes IAM OpenHart Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Elaboration de HMMs de caractères robustes Modélisation Clustering par position détat Arbres binaires pour le clustering Décodage x60 x90 x150

25 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Comment réduire le nombre de paramètres? Partage de paramètres (tying) –modèles semi-continus : Gaussiennes partagées pour tous les états et tous les modèles –Gaussiennes partagées par les trigraphes avec même caractère central –états centraux des HMMs partagés par les trigraphes avec même caractère central (Nedel et al., 2000) Suppression de modèles –modèles bigraphes ou trigraphes avec peu dexemples (Schussler et al. 08) Regroupement de modèles (Fink and Plotz 07, El-Hajj et al. 08) –modèles avec contextes similaires regroupés (ascendants, descendants, …) Clustering par position détat (state-based clustering, Natarajan et al. 06 & 09, Fink and Ploetz 07, Bianne-Bernard et al. 10) –états regroupés par lettre centrale et position dans le HMM 23 Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Elaboration de HMMs de caractères robustes Modélisation Clustering par position détat Arbres binaires pour le clustering Décodage

26 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Apprentissage des modèles contextuels monographes initialisés ( 1 distribution Gauss. par état) duplication : trigraphes estimation des Paramètres (Baum-Welch) clustering par position détat incrémentation # gaussiennes par mélange trigraphes finaux ( n distributions Gauss. par état) 24 Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Elaboration de HMMs de caractères robustes Modélisation Clustering par position détat Arbres binaires pour le clustering Décodage

27 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Clustering par position détat e-b+r e-b+i a-b+s etc … e-b+r a-b+s m-b+i e-b+i o-b+s r-b+o position détat 1 n-1 n ….. o-b+s m-b+i 25 Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Elaboration de HMMs de caractères robustes Modélisation Clustering par position détat Arbres binaires pour le clustering Décodage 2

28 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Comment réaliser le clustering ? Directement sur les données (data-driven) Par arbre de décision (tree-based) –lexique de décodage indépendant de lapprentissage 26 Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Elaboration de HMMs de caractères robustes Modélisation Clustering par position détat Arbres binaires pour le clustering Décodage

29 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Clustering par position détat à base darbres binaires Notre contribution principale Arbres construits à partir de questions binaires sur la forme des caractères à gauche et à droite de la lettre centrale 27 Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Elaboration de HMMs de caractères robustes Modélisation Clustering par position détat Arbres binaires pour le clustering Décodage

30 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Clustering par position détat à base darbres binaires 1 arbre construit pour chaque numéro détat des trigraphes *-x+* Trouver la question q* maximisant ΔL q sur les données (frames) (Young et al. 1994) 28 Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Elaboration de HMMs de caractères robustes Modélisation Clustering par position détat Arbres binaires pour le clustering Décodage

31 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Formule de Young (Young et al. 1997) L(S) = log vraisemblance de lensemble S des états s générant lensemble F de vecteurs de caractéristiques o f sachant que les états s S sont liés – les états s S partagent µ et – gaussienne –(S) diagonale – les observations f F correspondent à lensemble S – γ s (o f ) probabilité a posteriori de générer o f par s 29 Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Elaboration de HMMs de caractères robustes Modélisation Clustering par position détat Arbres binaires pour le clustering Décodage

32 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Exemple : construction de larbre pour la position détat n°2 des trigraphes *-b+* *-b+* Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Elaboration de HMMs de caractères robustes Modélisation Clustering par position détat Arbres binaires pour le clustering Décodage 30

33 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Exemple : construction de larbre pour la position détat n°2 des trigraphes *-b+* maximal ensemble des états 2 pour *-b+* Q1 q tel que 31 Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Elaboration de HMMs de caractères robustes Modélisation Clustering par position détat Arbres binaires pour le clustering Décodage

34 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Exemple : construction de larbre pour la position détat n°2 des trigraphes *-b+* Q2Q3 ouinon sil-b+r A-b+i … a-b+e a-b+d i-b+l … ensemble des états 2 pour *-b+* Q1 : contexte gauche minuscule? 31 Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Elaboration de HMMs de caractères robustes Modélisation Clustering par position détat Arbres binaires pour le clustering Décodage

35 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard ouinon ensemble des états 2 pour *-b+* Q1 : contexte gauche minuscule? Q3 : contexte droit en forme de « u »? Q2 : lien avec contexte gauche sur ligne de base basse? Critères darrêt ΔL < seuil défini ΔL min # observations par nœud < seuil défini Γ min Exemple : construction de larbre pour la position détat n°2 des trigraphes *-b+* 31 Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Elaboration de HMMs de caractères robustes Modélisation Clustering par position détat Arbres binaires pour le clustering Décodage

36 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard ouinon ensemble des états 2 pour *-b+* Q1 : contexte gauche minuscule? Q3 : contexte droit en forme de « u »? Q2 : lien avec contexte gauche sur ligne de base basse? Exemple : construction de larbre pour la position détat n°2 des trigraphes *-b+* Q4 oui non 31 Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Elaboration de HMMs de caractères robustes Modélisation Clustering par position détat Arbres binaires pour le clustering Décodage

37 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Réduction du nombre détats * nombre de trigraphes différents après regroupement de modèles identiques base de données # mots apprentissage type# modèles# états Rimes trigraphes init trigraphes + clustering 1691*2804 IAM7097 trigraphes init trigraphes + clustering 2700*3171 OpenHart 2010 Phase trigraphes init trigraphes + clustering 2782 * Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Elaboration de HMMs de caractères robustes Modélisation Clustering par position détat Arbres binaires pour le clustering Décodage

38 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Clustering par arbres binaires important pour le décodage : Un mot hors du lexique dapprentissage peut être modélisé Les trigraphes non appris sont modélisés –attribution dun cluster à chaque état –en répondant aux questions des arbres construits à lapprentissage 33 Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Elaboration de HMMs de caractères robustes Modélisation Clustering par position détat Arbres binaires pour le clustering Décodage

39 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard État n°2 de e-b+l Q1 : contexte gauche minuscule? Exemple : attribution dun cluster à létat n°2 du trigraphe non appris e-b+l e-b+l nest pas dans lensemble dapprentissage Les arbres pour toutes les positions détat des trigra- phes *-b+* sont disponibles Descendre les arbres permet dallouer un cluster à chaque état du nouveau trigraphe 34 Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Elaboration de HMMs de caractères robustes Modélisation Clustering par position détat Arbres binaires pour le clustering Décodage

40 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard ouinon Q3 Q2 : lien avec contexte gauche sur ligne de base basse? Exemple : attribution dun cluster à létat n°2 du trigraphe non appris e-b+l e-b+l nest pas dans lensemble dapprentissage Les arbres pour toutes les positions détat des trigra- phes *-b+* sont disponibles Descendre les arbres permet dallouer un cluster à chaque état du nouveau trigraphe État n°2 de e-b+l Q1 : contexte gauche minuscule? 34 Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Elaboration de HMMs de caractères robustes Modélisation Clustering par position détat Arbres binaires pour le clustering Décodage

41 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard ouinon Q3 Q2 : lien avec contexte gauche sur ligne de base basse? Exemple : attribution dun cluster à létat n°2 du trigraphe non appris e-b+l e-b+l nest pas dans lensemble dapprentissage Les arbres pour toutes les positions détat des trigra- phes *-b+* sont disponibles Descendre les arbres permet dallouer un cluster à chaque état du nouveau trigraphe État n°2 de e-b+l Q1 : contexte gauche minuscule? oui Q4 : contexte droit contient un ascen- dant avec boucle? e-b+l a-b+h 34 Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Elaboration de HMMs de caractères robustes Modélisation Clustering par position détat Arbres binaires pour le clustering Décodage oui

42 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Exemple : attribution dun cluster à létat n°2 du trigraphe non appris e-b+l e-b+l a-b+h Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Elaboration de HMMs de caractères robustes Modélisation Clustering par position détat Arbres binaires pour le clustering Décodage 35

43 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Bilan des modèles HMMs en contexte Modélisation dun caractère en fonction de son voisinage Augmentation du nombre détats clustering par position détats Arbres binaires pour le clustering, questions sur la morphologie des caractères Lexique de test indépendant du lexique dapprentissage Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Elaboration de HMMs de caractères robustes Modélisation Clustering par position détat Arbres binaires pour le clustering Décodage 36

44 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Introduction à la reconnaissance décriture manuscrite Objectifs et contributions de la thèse Les modèles de Markov cachés en contexte Applications et résultats Conclusions et perspectives Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Les bases de données Construction dun système HMM générique Elaboration du système HMMs contexuels Comparaison à létat de lart 37

45 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Rimes : courriers manuscrits en français (Augustin et al. 2006) –12500 documents –1300 scripteurs –campagne 2011 mots isolés mots pour lapprentissage 7464 mots pour la validation 7776 mots pour le test lexique de 5744 mots Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Les bases de données Construction dun système HMM générique Elaboration du système HMMs contexuels Comparaison à létat de lart 38

46 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard IAMdb : documents en anglais (Marti et Bunke 1999) –1540 documents –671 scripteurs –IAM-words : mots pour lapprentissage mots pour la validation mots pour le test –lexique : 10K mots les plus fréquents du LOB corpus Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Les bases de données Construction dun système HMM générique Elaboration du système HMMs contexuels Comparaison à létat de lart 39

47 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard OpenHart : documents manuscrits en arabe ( site web)site web – documents –450 scripteurs –4x10 6 images de mots –Phase 1 : mots pour lapprentissage mots pour la validation mots pour le test –lexique : 20K mots les plus fréquents de Phase1_Train Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Les bases de données Construction dun système HMM générique Elaboration du système HMMs contexuels Comparaison à létat de lart 40

48 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Elaboration dun système robuste à base de HMMs indépendants du contexte Taux derreur sur base de validation, dictionnaire restreint (1-10K mots), nombre de gaussiennes par mélange restreint (=5) base de données Syst. initial + caract. dynamiques + topologie adaptée Rimes ,5%26,84%26,6% IAM38,7%35,1%33,3% OpenHart 2010 Phase1 N/A60,7%57,0% Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Les bases de données Construction dun système HMM générique Elaboration du système HMMs contexuels Comparaison à létat de lart 41

49 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Elaboration dun système à base de HMMs contextuels Construction des arbres : 2 paramètres à optimiser –ΔL min : contrôle la variation de la vraisemblance des clusters enfants vs parent –Γ min : contrôle le taux doccupation de chaque noeud ΔL min et Γ min sont optimisés sur une base de validation Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Les bases de données Construction dun système HMM générique Elaboration du système HMMs contexuels Comparaison à létat de lart 42

50 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Rimes : optimisation de ΔL min et Γ min Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Les bases de données Construction dun système HMM générique Elaboration du système HMMs contexuels Comparaison à létat de lart 43 nombre final de clusters seuil sur Γ min seuil sur ΔL min

51 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Les bases de données Construction dun système HMM générique Elaboration du système HMMs contexuels Comparaison à létat de lart 44 système choisi Γ min = 200 et ΔL min =1000 taux de reconnaissance nombre de clusters Rimes : optimisation de ΔL min et Γ min

52 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Résultats des HMMs contextuels (taux derreur sur les bases de test) * Un modèle de langage (trigrammes de mots) a été utilisé base de données HMMs indépendants du contexte HMMs contextuels Rimes ,6%20,1% IAM32,1%30,5% OpenHart 2010*55,1%46% Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Les bases de données Construction dun système HMM générique Elaboration du système HMMs contexuels Comparaison à létat de lart 45

53 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Comparaison à létat de lart : Rimes 2011 Systèmes isolés à base de HMMs Système Taux derreur 1-best10-best HMMs contextuels20,1%5,6% IRISA (1)21,4%11,5% ParisTech24,9%6,9% IRISA (2)25,5%16,1% E. Grosicki et H. El Abed : ICDAR French Handwriting Recognition Competition, in Proceedings of the 11th International Conference on Document Analysis and Recognition (ICDAR 2011), p , Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Les bases de données Construction dun système HMM générique Elaboration du système HMMs contexuels Comparaison à létat de lart 46

54 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Comparaison à létat de lart : Rimes 2011 Système Taux derreur 1-best10-best HMMs contextuels20,1%5,6% IRISA (1)21,4%11,5% ParisTech24,9%6,9% IRISA (2)25,5%16,1% E. Grosicki et H. El Abed : ICDAR French Handwriting Recognition Competition, in Proceedings of the 11th International Conference on Document Analysis and Recognition (ICDAR 2011), p , Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Les bases de données Construction dun système HMM générique Elaboration du système HMMs contexuels Comparaison à létat de lart 46

55 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Comparaison à létat de lart : Rimes 2011 * systèmes issus de combinaison de systèmes Système Taux derreur 1-best10-best A2iA *5,1%0,4% Jouve *12,5%2,0% HMMs contextuels20,1%5,6% IRISA (1)21,4%11,5% ParisTech24,9%6,9% IRISA (2)25,5%16,1% E. Grosicki et H. El Abed : ICDAR French Handwriting Recognition Competition, in Proceedings of the 11th International Conference on Document Analysis and Recognition (ICDAR 2011), p , Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Les bases de données Construction dun système HMM générique Elaboration du système HMMs contexuels Comparaison à létat de lart 46

56 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Comparaison à létat de lart : Rimes 2011 * systèmes issus de combinaison de systèmes Système Taux derreur 1-best10-best A2iA *5,1%0,4% Jouve *12,5%2,0% HMMs contextuels20,1%5,6% IRISA (1)21,4%11,5% ParisTech24,9%6,9% IRISA (2)25,5%16,1% E. Grosicki et H. El Abed : ICDAR French Handwriting Recognition Competition, in Proceedings of the 11th International Conference on Document Analysis and Recognition (ICDAR 2011), p , Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Les bases de données Construction dun système HMM générique Elaboration du système HMMs contexuels Comparaison à létat de lart 46

57 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Comparaison à létat de lart : OpenHart Tous les systèmes utilisent un modèle de langage (trigrammes de mots) Source : site web Openhart (compétitions 2010).site web Openhart SystèmeTaux derreurs A2iA.primary.137,69% HMMs contextuels42% UPV-PRHLT.primary.151,49% Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Les bases de données Construction dun système HMM générique Elaboration du système HMMs contexuels Comparaison à létat de lart 47

58 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Participation aux compétitions internationales de reconnaissance décriture manuscrite –compétition Rimes ICDAR 2009 (reconnaissance de mots manuscrits français) : 2 ème place –compétition IFN-Enit ICDAR 2009 (reconnaissance de noms de villes (mots manuscrits) arabes) : 2 ème place –compétition OpenHart 2010 (reconnaissance de lignes manuscrites arabes pré-segmentées) : 1 ère place –compétition Rimes ICDAR 2011 (reconnaissance de mots et de lignes manuscrits français) : 1 ère place Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Les bases de données Construction dun système HMM générique Elaboration du système HMMs contexuels Comparaison à létat de lart 48

59 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Introduction à la reconnaissance décriture manuscrite Objectifs et contributions de la thèse Les modèles de Markov cachés en contexte Applications et résultats Conclusions et perspectives Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Perspectives 49

60 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Mise en place dun système robuste de reconnaissance de mots à base de HMMs –ajout dune dimension dynamique aux caractéristiques extraites –mise en place de calcul automatique de longueur de modèle optimale Amélioration du taux de reconnaissance Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Perspectives 50

61 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Application dun outil inédit en reconnaissance de lécriture manuscrite : les modèles contextuels –utilisés en reconnaissance de la parole –modélisent plus finement les caractères –nécessitent un partage de paramètres Clustering basé sur des arbres binaires de décision –clustering par position détat –questions originales basées sur expertise humaine –trigraphes inconnus sont modélisés Application avec succès sur 2 alphabets et 3 tailles de base de données différents Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Perspectives 51

62 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Perspectives Combinaison de systèmes Généralisation des résultats dune base à une autre Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Perspectives Base de testBase dapprentissageTaux derreurs Rimes valid2011 Rimes train201115,8% IAM train42,7% IAM valid Rimes train201155,9% IAM train32,1% 52

63 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Perspectives (cont.) Utilisation dautres techniques connues des HMMs mais non / peu pratiquées en HWR –adaptation au scripteur –apprentissage discriminant –subspace-GMM Passage du niveau mots au niveau lignes –nouveaux challenges de prétraitement des images –utilisation de modèles de langage innovants : Modèle M RNN-LM Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Perspectives 53

64 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Merci de votre attention.

65 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard A-L. Bianne-Bernard, F. Menasri, R. Al-Hajj Mohamad, C. Mokbel, C. Kermorvant and L. Likforman- Sulem. Dynamic and contextual information in HMM modeling for handwritten word recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 33(10) : , A-L. Bianne-Bernard, C. Kermorvant, L. Likforman-Sulem and C. Mokbel. Modélisation de HMMs en contexte avec des arbres de décision pour la reconnaissance de mots manuscrits. Document Numérique, 14(2) :29-52, A-L. Bianne-Bernard, F. Menasri, L. Likforman-Sulem, C. Mokbel and C. Kermorvant. Variable length and context-dependent HMM letter form models for Arabic handwritten word recognition. In Proccedings of the 19th Document Recognition and Retrieval Conference, part of the IS\&T-SPIE Electronic Imaging Symposium - DRR2012, vol : pages to appear, A-L. Bianne, C. Kermorvant and L. Likforman-Sulem. Context-dependent {HMM} modeling using tree- based clustering for the recognition of handwritten words. In Proccedings of the 17th Document Recognition and Retrieval Conference, part of the IS&T-SPIE Electronic Imaging Symposium - DRR2010, vol. 7534, A-L. Bianne, C. Kermorvant and L. Likforman-Sulem. Modélisation de HMMs en contexte avec des arbres de décision pour la reconnaissance de mots manuscrits. In Proccedings of the Colloque International Francophone sur l'Ecrit et le Document - CIFED2010, A-L. Bianne, C. Kermorvant, P. Marty and F. Menasri. Les caractères ne sont pas la clef des champs. In Proceedings of the 11th Conférence Francophone sur l'Apprentissage Artificiel - CAP2009, Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Publications

66 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard C. Kermorvant, F. Menasri, A-L. Bianne, R. Al-Hajj Mohamad, C. Mokbel and L. Likforman-Sulem. The A2iA-Télécom ParisTech-UOB system for the ICDAR 2009 handwriting recognition competition. In Proceedings of the 12th International Workshop on Frontiers of Handwriting Recognition - IWFHR2010, pages , F. Menasri, J. Louradour, A-L. Bianne-Bernard, C. Kermorvant. The A2iA French handwriting recognition system at the Rimes-ICDAR2011 competition. In Proccedings of the 19th Document Recognition and Retrieval Conference, part of the IS\&T-SPIE Electronic Imaging Symposium - DRR2012, vol : pages to appear, C. Kermorvant, A-L. Bianne, P. Marty and F. Menasri. From isolated handwritten characters to fields recognition: There's many a slip twixt cup and lip. In Proceedings of the Tenth International Conference on Document Analysis and Recognition - ICDAR2009, pages , Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Publications

67 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Calcul de langle dinclinaison des caractères pseudo-entropie : p i = projection de la colonne de pixels i normalisée entre 0 et 1. (les p i ne somment pas à 1 ) Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Annexe pseudo-entropie pseudo-entropie normalisée pseudo-entropie pseudo-entropie normalisée angles

68 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Comparaison à létat de lart : IAM comparaison à titre indicatif Reconnaissance de –lignes / mots, –avec / sans modèle de langage. SystèmeTaux derreur HMMs contextuels30,5% TU Dortmund28,9% IAM (Univ. Bern)37,3% BBN technologies40,1% T. Plötz et G. A. Fink: Markov models for offline handwriting recognition: a survey, in Proceedings of the International Journal on Document Analysis and Recognition, vol. 12, pp , Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Annexe

69 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard QS "R_isnotchar" {*+sA,*+sB,*+sT,*+sN} QS "R_lowercase"{*+1,*+8,*+a,*+b,*+c,*+d,*+e,*+f,*+g,*+h,*+i,*+j, *+k,*+l,*+m,*+n,*+o,*+p,*+q,*+r,*+s,*+t,*+u,*+v,*+w,*+x,*+y, *+z,*+ç} QS "R_uppercase" {*+2,*+3,*+4,*+6,*+7,*+9,*+A,*+B,*+C,*+D,*+E, *+F,*+G,*+H,*+I,*+J,*+K,*+L,*+M,*+N,*+O,*+P,*+Q,*+R,*+S,*+T, *+U,*+V,*+W,*+X,*+Y,*+Z,*+À,*+É} QS "R_LC_descender" {*+f,*+g,*+j,*+p,*+q,*+y,*+z,*+ç} QS "R_LC_ascender" {*+1,*+8,*+b,*+d,*+f,*+h,*+k,*+l,*+t} QS "R_LC_small" {*+a,*+c,*+d,*+e,*+i,*+m,*+n,*+o,*+q,*+r,*+s, *+u,*+v,*+w,*+x,*+z} QS "R_LC_accent" {*+à,*+â,*+é,*+è,*+ê,*+ë,*+î,*+ï,*+ô,*+ù,*+û} Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Annexe

70 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Adaptation du modèle au scripteur Transformation linéaire : CMLLR (Constrained MLLR) –Réduction de la distance entre le modèle et les données dadaptation –Transformation linéaire W appliquée aux moyennes µ : µ adapt = W ξ = A µ + b ( ξ = [ b µ ] ) –Même transformation appliquée à la matrice de covariance (diagonale) : Σ adapt = A Σ A T Base dapprentissage Base de test Taux derreurs Sans adaptationAvec adaptation IAM trainIAM test30,5%30,1% Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Annexe

71 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Combinaison de sorties de systèmes Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Annexe reconnaisseur 1 reconnaisseur 2 reconnaisseur 3 sous 0,5129 vous 0,3265 nous 0,1606 vous 0,5629 avons 0,2793 sous 0,1578 sous 0,4047 vous 0,3419 Nous 0,2534 vous 0,4103 sous 0,359 avons 0,093 Nous 0,0843 nous 0,0534 (N=3)

72 21 Novembre 2011Soutenance de thèse Anne-Laure Bianne-Bernard Intuition : variabilité des modèles Exemple sur la base Rimes σ vrais = 43 versus σ vrais = 17( 300 exemples) Introduction Objectifs et contributions Les HMMS contextuels Expériences Conclusion Annexe


Télécharger ppt "Reconnaissance de mots manuscrits cursifs par modèles de Markov cachés en contexte Application au français, à langlais et à larabe Anne-Laure Bianne-Bernard."

Présentations similaires


Annonces Google