Télécharger la présentation
Publié parYvette François Modifié depuis plus de 9 années
1
Apprentissage semi-supervisé avec des modèles discriminants : application au résumé automatique de texte Massih-Réza Amini LIP6, Université de Paris VI Equipe Connexionniste Séminaire LIMSI 9 Avril 2002
2
Plan Classification et apprentissage semi-supervisé 1 Contexte
Introduction Contexte Accès à l’Information et apprentissage Etat de l’art Classification et apprentissage semi-supervisé Contribution Conclusion Discussion 1
3
Contexte - Apprentissage et accès aux données textuelles
Existant - accès aux données textuelles Recherche d’information : modèles statistiques simples, tâches génériques. Extraction d’Information : systèmes dépendant du domaine. Apport de l’apprentissage pour l’accès à l’information modèles plus puissants, adaptés à des tâches plus complexes et nouvelles. automatisation de la mise au point de systèmes « dédiés ». Classes de méthodes apprentissage symbolique : règles, e.g. apprentissage de patrons d’extraction dans MUC, Wrappers. apprentissage numérique : extension modèles de RI, nouveaux modèles (séquence, structure, etc). 2
4
Résumé de texte Premiers travaux : années 50 - mesure de similarité [Luhn 58]. Les résumés qualité humaine Trop difficile [Spark-Jones 93] Extraction de passages approches linguistiques [Radev 98] combinaison des approches linguistiques et statistiques [Carbonell 98] méthodes d’apprentissage [Kupiec 95] structure rhétorique du texte [Marcu 97] multi-documents [Goldstein 99] Résumé générique Résumé à base de requête 3
5
Méthode d’apprentissage : Modèle de Naïve Bayes [Kupiec 95]
L’appartenance des phrases au résumé est caractérisée par un score : une probabilité a posteriori, calculée par un modèle naïve Bayes. Résumé . . Document 4
6
Classification et apprentissage
Avantage : l’apprentissage permet de s’adapter au corpus traité ou aux demandes d’utilisateurs. Inconvénient : les approches proposées jusqu’à aujourd’hui reposent sur de l’apprentissage supervisé. Peu réaliste pour l’extraction (et pour différentes tâches en texte) car demande l’étiquetage au niveau phrase sur des bases de document. Non supervisé ou semi-supervisé 5
7
Apprentissage semi-supervisé
En Intelligence Artificielle premiers travaux 1998 [Blum 98] Apprendre à partir d’un petit nombre de données étiquetées et d’une grosse base de données non-étiquetées. Questions ouvertes Formalisme e.g. mesurer l’apport de l’information non supervisée Algorithmes Evaluation 6
8
Apprentissage semi-supervisé : approches
Méthodes génératives Approche la plus utilisée Point de départ : non-supervisé hypothèse usuelle : les exemples sont générés par un mélange de densités semi-supervisé : la composante d ’origine est connue pour les données étiquetées Apprentissage : maximiser la vraisemblance Méthodes discriminantes Point de départ : supervisé Pas d’hypothèse sur les données Co-Training [Blum 98] et Co-Boosting [Collins 99] Signal 1 décrivant x Forme x Signal 2 décrivant x 7
9
Approche développée Algorithme général Analyse Basé sur discriminant
« auto-apprentissage » semi-supervisé ou non-supervisé (complètement automatique, interactif) pas d’hypothèse sur la densité des données utilisable avec différents classifieurs plus performant que le cas génératif si peu de données étiquetées e.g. plus robuste Analyse Classifieurs estimant les probabilités a posteriori de classes Basé sur algorithme CEM critère de vraisemblance de classification 8
10
Vraisemblance classifiante ou CML Critère non-supervisé
Algorithme non-supervisé pour faire du clustering [Symons et al. 71]. On suppose qu’il y a m données qui sont générées à partir d’un mélange de densités. Le but est de classer les exemples en exactement C groupes en prenant une décision dure. avec T=(t1,…,tC) le vecteur d’indicateur de classe : 9
11
Vraisemblance classifiante (suite)
En définissant les poids de mélange pk, comme les probabilités d’appartenance aux classes pk= p (tk =1) on a Le critère vraisemblance classifiante est défini comme le logarithme de V : Le critère vraisemblance du mélange : 10
12
Algorithme CEM-Discriminant
Idée : Auto-apprentissage x y si xDl si xDu +1 -1 Seuillage t + Algorithme d’apprentissage Classifieur 11
13
Critère d’optimisation et convergence (cas 2 classes – semi-supervisé)
Critère discriminant : Maximiser l’opposé de l’entropie croisée Croissance A l’étape 1 : E(P(j+1), w(j)) ≥ E(P(j), w(j)) A l’étape 2 : E(P(j+1), w(j+1)) ≥ E(P(j+1), w(j)) Soit à chaque itération E(P(j+1), w(j+1)) ≥ E(P(j), w(j)) Convergence Il y a un nombre fini de partition des exemples en C groupes, la séquence (P(j) ,w(j)) prend un nombre fini de valeurs. Le critère est croissant et borné. 12
14
Extension semi-supervisé du CML
Avec un modèle d’apprentissage de paramètres w, estimant les probabilités a posteriori, on maximise : D’autre part le critère de CML dans le cas semi-supervisé : On peut réécrire ce critère en utilisant la règle de Bayes : 13
15
Résumé de texte : Classification de phrases
Tâche : classification de phrases – pertinents, non-pertinents par rapport au résumé. Base de donnée Reuters constitués de 1000 dépêches. Summac Cmp_lg constitué de 183 articles scientifiques. Représentation vectorielle [Kupiec 95] sentence length cut-of-feature, Permet d’exclure les phrases n’excédant pas les 5 mots. fixed-phrase feature, Permet d’indexer les phrases contenant les 26 mots indicateurs I = {« this letter », « In conclusion », « results », « conclusions », « summary », « discussion »} thematic word feature, Permet d’indexer les phrases ayant une similarité plus grande qu’un seuil d. Cette similarité est calculée entre les phrases et une requête R. Cette dernière étant constituée des mots les plus fréquents de la base d’apprentissage (requête générique) paragraph feature, Permet d’indexer les phrases par rapport à leur position Début, Milieu, Fin dans le document. upper case word feature. Permet d’indexer les phrases contenant des acronymes. 14
16
Evaluation de systèmes de Résumé
Abstracts Méthode d’alignement Documents Matching Score Ensemble de phrases Système de Résumé Requête générique Représentation : sac de mots Requête 15
17
Taux de compression : base Reuters
Pour la base Reuters, nous avons trouvé que la longueur des résumé etaient indépendante de la logueur des documents associés, et que le taux de compression était plus petite pour des longs documents. Cela suggère que l’utilisation classique de taux de compression fixe n’est pas approprié. Pour l’évaluation nous avons alors construit des résumés pour chaque document en extrayant autant de phrases que de phrases dans les résumés associés à ces documents. Evaluation : garder autant de phrases pour le résumé que de phrases dans les résumés associés pour chaque document. 16
18
Résumé de Texte : Base Reuters
17
19
Résumé de Texte : Base Summac Taux de compression : 10%
18
20
Résumé de texte Apport des exemples non-étiquetés - Base Reuters
Apprentissage Non-superisé 19
21
Résumé de texte Apport des exemples non-étiquetés - Base Summac Taux de compression : 10%
Apprentissage Non-superisé 20
22
Conclusion Modèle d’apprentissage générique qui opère d’une manière automatique en se basant sur une approche semi-supervisée. Approche discriminante à l’apprentissage semi-supervisé L’apprentissage peut améliorer sensiblement les résultats du résumé. Essais en cours sur des bases bruitées de grande taille. 21
23
Algorithme de Classification Expectation Maximization [McLachlan 90, Celeux et Govaërt 92]
Critère CML pour la classification dans le cas non-supervisé : Algorithme CEM:
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.