Apprentissage semi-supervisé avec des modèles discriminants : application au résumé automatique de texte Massih-Réza Amini LIP6, Université de Paris VI.

Slides:



Advertisements
Présentations similaires
Soutenance du stage de DEA.
Advertisements

Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Classification et prédiction
Classification et prédiction
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Apprentissage supervisé à partir de séquences
RECONNAISSANCE DE FORMES
Paris F-RO /1/98 De lemploi de modèles pour explorer de nouvelles stratégies de conduite de culture : application à la conduite du blé M.H. Chatelin.
Application de réseaux bayésiens à la détection de fumées polluantes
Yann Chevaleyre et Jean-Daniel Zucker
Complexité et Classification
Indexation textuelle : Systèmes de recherche d’informations
Reconnaissance de la parole
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
Sélection automatique d’index et de vues matérialisées
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
Classification automatique de documents
Concepts avancés en mathématiques et informatique appliquées
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
Apprendre à partir des observations
Zone de rejet et scoring
Décodage des informations
FRE 2645 CIDED04 : 22 Juin 2004 Système de reconnaissance structurelle de symboles, basé sur une multi représentation en graphes de régions, et exploitant.
Méthode des k plus proches voisins
Groupe 1: Classes de même intervalle
DEA Perception et Traitement de l’Information
Construction de modèles visuels
Recherche Documentaire et traitement de l’information
Moteur de recherche d’information
Reconnaissance Vocale
Cours 2 Recherche d'informations Espace vectoriel des sacs de mots.
Universté de la Manouba
Modélisation de la topologie avec le Graphe Génératif Gaussien
Apprentissage semi-supervisé
Systeme Question-Reponse SQR
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Université d’Avignon et du pays du Vaucluse
Classification automatique de textes
Introduction à la reconnaissance:
Activités développées RTP 12 : Information et connaissance : "découvrir et résumer" Actions spécifiques et équipes-projets associées Objectifs thématiques.
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
Classification : objectifs
Christelle Scharff IFI 2004
Arbres binaires et tables de hachage
Fast and Furious Decision Tree Induction
Extraction de segments pour la reconnaissance de symboles : Une approche robuste par Transformée de Hough Présenté par : Simon BERNARD Encadré par : Jean-Marc.
Arkhênum Patrimoine du Futur. Répartitions par types d’erreurs mineures.
S. Canu, laboratoire PSI, INSA de Rouen
Improving large-scale search engines with semantic annotations Damaris Fuentes-Lorenzo, Norberto Fernández, Jesús A. Fisteus, Luis Sánchez.
Apprentissage « machine »
Vérification du locuteur avec des méthodes segmentales en collaboration avec : Jean HENNEBERT Jan CERNOCKY Gérard CHOLLET.
Recherche d’information
Présentation RFIA janvier 2002
Fusion de paramètres en classification Parole/Musique Julie Mauclair – Equipe Parole Julien Pinquier – Equipe SAMoVA.
Classification de données par l’algorithme FPSO-GA
Soutenance de Stage DEA / DESS
Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Apprentissage Interactif Apprentissage avec SpamAssassin UFR de Sciences Département d’Informatique.
Combating Web Spam with TrustRank. OSINI Aurélien.
TEXT MINING Fouille de textes
GPA-779 Application des systèmes experts et des réseaux de neurones.
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Le Traitement Automatique des Langues (TAL)
Classification automatique des messages électroniques
Les Extra-Trees+SW Réalisé par : Encadrante:
Journée Des Doctorants 2004
Extreemly Random Trees + SubWindows HOURRI Soufiane NAIT ABDELLAH OUALI Ismail OUFQIR Anouar OUSSAFI Mohammed.
Exemple et critique d’un système de vision simple Patrick Hébert (dernière révision septembre 2008) Référence complémentaire: Shapiro et Stockman: chap.
Comment faire un résumé d’article ?
Réseaux bayésiens pour la recommandation au sein d’un configurateur Anr BR4CP Mathieu Serrurier IRIT.
Transcription de la présentation:

Apprentissage semi-supervisé avec des modèles discriminants : application au résumé automatique de texte Massih-Réza Amini LIP6, Université de Paris VI Equipe Connexionniste Séminaire LIMSI 9 Avril 2002

Plan     Classification et apprentissage semi-supervisé 1 Contexte Introduction Contexte   Accès à l’Information et apprentissage Etat de l’art  Classification et apprentissage semi-supervisé Contribution Conclusion Discussion 1

Contexte - Apprentissage et accès aux données textuelles Existant - accès aux données textuelles Recherche d’information : modèles statistiques simples, tâches génériques. Extraction d’Information : systèmes dépendant du domaine. Apport de l’apprentissage pour l’accès à l’information modèles plus puissants, adaptés à des tâches plus complexes et nouvelles. automatisation de la mise au point de systèmes « dédiés ». Classes de méthodes apprentissage symbolique : règles, e.g. apprentissage de patrons d’extraction dans MUC, Wrappers. apprentissage numérique : extension modèles de RI, nouveaux modèles (séquence, structure, etc). 2

Résumé de texte Premiers travaux : années 50 - mesure de similarité [Luhn 58]. Les résumés qualité humaine Trop difficile [Spark-Jones 93] Extraction de passages approches linguistiques [Radev 98] combinaison des approches linguistiques et statistiques [Carbonell 98] méthodes d’apprentissage [Kupiec 95] structure rhétorique du texte [Marcu 97] multi-documents [Goldstein 99] Résumé générique Résumé à base de requête 3

Méthode d’apprentissage : Modèle de Naïve Bayes [Kupiec 95] L’appartenance des phrases au résumé est caractérisée par un score : une probabilité a posteriori, calculée par un modèle naïve Bayes. Résumé . . Document 4

Classification et apprentissage Avantage : l’apprentissage permet de s’adapter au corpus traité ou aux demandes d’utilisateurs. Inconvénient : les approches proposées jusqu’à aujourd’hui reposent sur de l’apprentissage supervisé. Peu réaliste pour l’extraction (et pour différentes tâches en texte) car demande l’étiquetage au niveau phrase sur des bases de document. Non supervisé ou semi-supervisé 5

Apprentissage semi-supervisé En Intelligence Artificielle premiers travaux 1998 [Blum 98] Apprendre à partir d’un petit nombre de données étiquetées et d’une grosse base de données non-étiquetées. Questions ouvertes Formalisme e.g. mesurer l’apport de l’information non supervisée Algorithmes Evaluation 6

Apprentissage semi-supervisé : approches Méthodes génératives Approche la plus utilisée Point de départ : non-supervisé hypothèse usuelle : les exemples sont générés par un mélange de densités semi-supervisé : la composante d ’origine est connue pour les données étiquetées Apprentissage : maximiser la vraisemblance Méthodes discriminantes Point de départ : supervisé Pas d’hypothèse sur les données Co-Training [Blum 98] et Co-Boosting [Collins 99] Signal 1 décrivant x Forme x Signal 2 décrivant x 7

Approche développée Algorithme général Analyse Basé sur discriminant « auto-apprentissage » semi-supervisé ou non-supervisé (complètement automatique, interactif) pas d’hypothèse sur la densité des données utilisable avec différents classifieurs plus performant que le cas génératif si peu de données étiquetées e.g. plus robuste Analyse Classifieurs estimant les probabilités a posteriori de classes Basé sur algorithme CEM critère de vraisemblance de classification 8

Vraisemblance classifiante ou CML Critère non-supervisé Algorithme non-supervisé pour faire du clustering [Symons et al. 71]. On suppose qu’il y a m données qui sont générées à partir d’un mélange de densités. Le but est de classer les exemples en exactement C groupes en prenant une décision dure. avec T=(t1,…,tC) le vecteur d’indicateur de classe : 9

Vraisemblance classifiante (suite) En définissant les poids de mélange pk, comme les probabilités d’appartenance aux classes pk= p (tk =1) on a Le critère vraisemblance classifiante est défini comme le logarithme de V : Le critère vraisemblance du mélange : 10

Algorithme CEM-Discriminant Idée : Auto-apprentissage x y si xDl si xDu +1 -1 Seuillage t   + Algorithme d’apprentissage Classifieur 11

Critère d’optimisation et convergence (cas 2 classes – semi-supervisé) Critère discriminant : Maximiser l’opposé de l’entropie croisée Croissance A l’étape 1 : E(P(j+1), w(j)) ≥ E(P(j), w(j)) A l’étape 2 : E(P(j+1), w(j+1)) ≥ E(P(j+1), w(j)) Soit à chaque itération E(P(j+1), w(j+1)) ≥ E(P(j), w(j)) Convergence Il y a un nombre fini de partition des exemples en C groupes, la séquence (P(j) ,w(j)) prend un nombre fini de valeurs. Le critère est croissant et borné. 12

Extension semi-supervisé du CML Avec un modèle d’apprentissage de paramètres w, estimant les probabilités a posteriori, on maximise : D’autre part le critère de CML dans le cas semi-supervisé : On peut réécrire ce critère en utilisant la règle de Bayes : 13

Résumé de texte : Classification de phrases Tâche : classification de phrases – pertinents, non-pertinents par rapport au résumé. Base de donnée Reuters constitués de 1000 dépêches. Summac Cmp_lg constitué de 183 articles scientifiques. Représentation vectorielle [Kupiec 95] sentence length cut-of-feature, Permet d’exclure les phrases n’excédant pas les 5 mots. fixed-phrase feature, Permet d’indexer les phrases contenant les 26 mots indicateurs I = {« this letter », « In conclusion », « results », « conclusions », « summary », « discussion »}  thematic word feature, Permet d’indexer les phrases ayant une similarité plus grande qu’un seuil d. Cette similarité est calculée entre les phrases et une requête R. Cette dernière étant constituée des mots les plus fréquents de la base d’apprentissage (requête générique) paragraph feature, Permet d’indexer les phrases par rapport à leur position Début, Milieu, Fin dans le document. upper case word feature. Permet d’indexer les phrases contenant des acronymes. 14

Evaluation de systèmes de Résumé Abstracts Méthode d’alignement Documents Matching Score Ensemble de phrases Système de Résumé Requête générique Représentation : sac de mots Requête 15

Taux de compression : base Reuters Pour la base Reuters, nous avons trouvé que la longueur des résumé etaient indépendante de la logueur des documents associés, et que le taux de compression était plus petite pour des longs documents. Cela suggère que l’utilisation classique de taux de compression fixe n’est pas approprié. Pour l’évaluation nous avons alors construit des résumés pour chaque document en extrayant autant de phrases que de phrases dans les résumés associés à ces documents. Evaluation : garder autant de phrases pour le résumé que de phrases dans les résumés associés pour chaque document. 16

Résumé de Texte : Base Reuters 17

Résumé de Texte : Base Summac Taux de compression : 10% 18

Résumé de texte Apport des exemples non-étiquetés - Base Reuters Apprentissage Non-superisé 19

Résumé de texte Apport des exemples non-étiquetés - Base Summac Taux de compression : 10% Apprentissage Non-superisé 20

Conclusion Modèle d’apprentissage générique qui opère d’une manière automatique en se basant sur une approche semi-supervisée. Approche discriminante à l’apprentissage semi-supervisé L’apprentissage peut améliorer sensiblement les résultats du résumé. Essais en cours sur des bases bruitées de grande taille. 21

Algorithme de Classification Expectation Maximization [McLachlan 90, Celeux et Govaërt 92] Critère CML pour la classification dans le cas non-supervisé : Algorithme CEM: