1 Apprentissage par exemples Jean-François Bérubé Traitement statistique des langages naturels Université de Montréal DIRO, 10 Avril 2003
2 Introduction n Traitement basé sur les connaissances –Grammaires non probabilistes n Approche statistique –Problème de rareté des données –Pertinence de certaines données difficile à évaluer –On ne sait pas toujours comment un système entraîné réussit à résoudre les problèmes n Méthodes de ML (example-based) –Apprentissage basé sur l’expérience –Induction d’arbres de décisions –Memory-based learning
3 Plan de la présentation n Memory-based learning –Qu’est-ce que c’est ? –À quoi ça sert ? n Expériences de Daelemans et al. –Quoi faire avec les exceptions dans l’ensemble d’entraînement ? n Conclusion
4 Memory-Based learning Qu’est-ce que c’est? n Plusieurs noms pour la même chose: –Example-based learning –Memory-based learning –Lazy learning –etc. n Idée: réutilisation directe des expériences passées sans en extraire de structures ou de règles n Apprentissage du langage accumulation d’exemples en mémoire n Traitement du langage réutilisation de solutions associées à des traitements passés similaires au problème à résoudre
5 Memory-Based learning Justifications n Les justifications linguistiques: –Il n’y a pas de distinction claire entre les cas réguliers et irréguliers dans l’utilisation d’une langue –L’approche analogique est plus simple que la découverte de règles –Plus flexible que les approches basées sur des règles statiques n Les justifications psychologiques: –L’humain catégorise les choses en mémorisant des exemples et en comparant les stimuli qui y sont associés
6 Memory-based learning Fonctionnement n Traitement du langage réutilisation de solutions associées à des traitements passés similaires au problème à résoudre n La définition de la similarité est très importante n Technique du plus proche voisin (K-nn): –Exemples décrits par des attributs numériques définissant un espace d’exemples –Un nouvel exemple trouve sa position comme un point dans l’espace d’exemples et définit sa classe (catégorie) en fonction de ses K voisins les plus proches
7 Apprentissage supervisé Exemple intuitif Ensemble des exemples {(visage, identité)} Exemple test (, ?) Anne Jean Maude Eric Paul Qui est-ce? Une image = profil d’un cas Source: Yoshua Bengio
8 Apprentissage supervisé Exemple intuitif (plus proche voisin) Choisir l’exemple d’apprentissage dont le « profil » (image) est le plus proche de celui de l’exemple test identité =Paul plus proche voisin Source: Yoshua Bengio
9 Memory-based learning Les limites et solutions n Limites: –Coûteux en temps et en mémoire –Sensible au bruit introduit par des exemples impertinents –Sensible à la métrique de similarité utilisée n Solution: éliminer les exceptions –Améliore la précision de la généralisation –Réduit les temps de calcul et l’espace mémoire nécessaire –Consensus dans le domaine du machine learning
10 Memory-based learning - Forgetting exceptions is harmful in language learning - n Daelemans, Van den Bosch et Zavrel –Prétendent que l’élimination des exceptions dans l’apprentissage d’un langage est néfaste: –Difficile de discriminer entre le bruit et les exceptions pouvant être importantes pour qu’un modèle représente bien une langue –Proposent de comparer différents algorithmes d’apprentissage basés sur les exemples sur différents types de tâches –Hypothèse: conserver tous les exemples de l’ensemble d’entraînement permet de faire une meilleure généralisation
11 Contexte des tests Les tâches n GS : Grapheme – phoneme conversion n POS : Part – of – speech tagging n PP : Prepositional – phrase attachment n NP : Base noun phrase chunking
12 Contexte des tests Les tâches
13 Algorithmes comparés IB1-IG Daelemans et Van den Bosch, 1992 n Construit des « instances » durant la phase d’entraînement –Vecteur de n paires –Un champ indiquant la classification du vecteur –Les nouvelles instances sont classifiées en les comparant à celles déjà présentes
14 Contexte des tests Déterminer les exceptions n Typicality : Une instance est typique lorsque sa similarité avec les membres de sa classe est plus grande que sa similarité avec les instances hors de sa classe –Les instances atypiques sont considérées comme des exceptions et sont effacées de la mémoire –Certaines instances fortement typiques peuvent aussi être éliminées lorsqu’elles se répètent beaucoup n Class prediction strength : Une instance prédit-elle bien la classe des autres instances de sa classe ?
15 Contexte des tests Déterminer les exceptions
16 Résultats des tests IB1-IG (avec édition et sans édition)
17 Résultats des tests IB1-IG (avec édition et sans édition)
18 Résultats des tests IB1-IG (avec édition et sans édition)
19 Résultats des tests IB1-IG (avec édition et sans édition)
20 Algorithmes comparés C5.0 Quinlan 1993 n Induction top-down d’arbres de décision –L’arbre est construit en compressant les informations de classification –On profite des différences d’importance relative entre les paramètres (utilise les mêmes formules que IB1-IG) –Paramètres ajustables de l’algorithme: –Le pruning confidence level –Le nombre minimal d’instances représentées par un noeud
21 Clients Temps d’attente J’ai faim Aller ailleurs J’ai réservé Ven ou sam Aller ailleurs Il pleut Bar NonOui NonOui Non Oui Non Oui Non Vais-je attendre ??? Aucun Peu Beaucoup > <10 Oui Non Oui Non Oui Non Oui Non Oui Non Oui r Clients(r,Beaucoup) Temps d’attente(r,10-30) J’ai faim(r,Non) J’attends(r) Source: Russell & Norvig Apprentissage supervisé Arbres de décision
22 Algorithmes comparés IGTREE Daelemans, Van den Bosch et Weijters 1997 n Similaire au C5.0 (induction d’arbres de décision) mais n’élimine pas les exceptions dans l’ensemble d’exemples n Permet de faire une certaine compression des instances (les exemples partageant un sous chemin commun ne sont pas entièrement dédoublés)
23 Résultats des tests IB1-IG (sans édition) vs les arbres de décision Significatif ??
24 Explication des résultats n Propriétés de l’apprentissage d’une langue –Degré de polymorphisme élevé
25 Explication des résultats n Propriétés de l’apprentissage d’une langue –Utilité des instances « exceptionnelles »
26 Conclusions n Éliminer les exceptions est néfaste ou à tout le moins jamais bénéfique n Ceci s’explique largement par le fort degré de polymorphisme des langues n « Taken together, the empirical results of our research strongly suggest that keeping full memory of all training instances is at all times a good idea in leanguage learning » [Daelamans et al.]
27 Conclusions n Leurs expériences sont-elles représentatives des tâches en apprentissage des langages ? n À quel point les tâches d’apprentissage « standards » affichent-elles un degré de polymorphisme plus faible que celles relatives à l’apprentissage des langues ?
28 Références n Bengio, Yoshua. Présentation sur les algorithmes d’apprentissage, n Daelemans W. Memory-Based Language Processing Introduction to the special issue, Special Issue of JETAI on Memory-Based Language Processing Introduction, JETAI Volume 11 Number 3, Taylor and Francis, , n Daelemans W., Van den Bosch A., Zarvel, J. Forgetting Exceptions is Harmful in Language Learning, Machine Learning 34 (1-3): 11-41, n Russell, S. et Norvig, P. Artificial Intelligence A Modern Approach, Prentice-Hall, 1995, 932 pages.