Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parLammert Cornu Modifié depuis plus de 10 années
1
Apprentissage et Fouilles de données Salma Najar 20 Mars 2008 FilterBoost: Regression et Classification On Large Datasets FilterBoost: Regression et Classification On Large Datasets Joseph K. Bradley et Robert E.Schapire
2
Plan Introduction Filterboost Analyse Expérimentations Conclusion
3
Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion Introduction Analyse FilterBoost Expérimentations Conclusion Introduction Problématique Motivation Batch Boosting Weak Learner S: Ensemble fixe dexemple dentrainement Après T ronds - + -- + Booster Hypothèse Finale H DtDt εtεt αtαt htht DtDt
4
Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion Problématique Batch Booster accède à lensemble entier des exemples dentrainement Traitement très cher pour les larges bases de données. Limite son application: Problème de classification des sites en ligne par exemple Limite son efficacité: A chaque rond Un traitement dans la base de données entière. Introduction Problématique Motivation Introduction Analyse FilterBoost Expérimentations Conclusion
5
Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion Motivation Le but principal : Rendre le boosting faisable dans de large base de données Idée principle: Utiliser un flux de données au lieu dutiliser la base de données en entier. Entrainer un nouveau sous ensemble de données à chaque rond. Introduction Problématique Motivation Introduction Analyse FilterBoost Expérimentations Conclusion FilterBoost
6
Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion Présentation du FilterBoost Présentation Batch Algorithme FilterBoost Algorithme Filtre Oracle Nouveaux exemples IID de D dans chaque rond. Algorithme : Adaptif Basé sur une logique de régression logistique. Moins dassomptions exigées que les travaux antérieurs. Applicable: Estimation de la probabilité conditionnelle plus robuste au bruit et au sur apprentissage. Classification prouve compétitivité. Introduction Analyse FilterBoost Expérimentations Conclusion
7
Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion Batch Algorithme Etant donné: Un ensemble fixe dentrainement S Pour t = 1,…,T Construire la distribution Dt de S Faire fonctionner le Weak Learner Choix hypothèse ht Estimer Erreur εt de ht Donner un poids αt à ht Sortie : Hypothèse Finale H(x) = Σ t α t h t (x) Présentation Batch Algorithme FilterBoost Algorithme Filtre Dans le Filtrage : Il nya pas densemble fixe dentrainement. Dans le Filtrage : Il nya pas densemble fixe dentrainement. Mécanisme du Filtre: Simuler Dt Accepter ou rejeter les exemples selon une probabilité qt Mécanisme du Filtre: Simuler Dt Accepter ou rejeter les exemples selon une probabilité qt Introduction Analyse FilterBoost Expérimentations Conclusion
8
Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion FilterBoost Algorithme Etant donné: Oracle Pour t = 1,…,T Filtre donne acces à Dt Tirer mt exemple du filtre Choisir lhypothèse ht Tirer de nouveax exemples du filtre Estimer lerreur εt de h t Donner un poids α t à ht Output: Hypothèse Finale Le nombre mt dexemple doit être suffisamment large pour assurer que lerreur εt < ½ avec une forte probabilité. Le nombre mt dexemple doit être suffisamment large pour assurer que lerreur εt < ½ avec une forte probabilité. Présentation Batch Algorithme FilterBoost Algorithme Filtre Tirer mt exemple du filtre Lerreur de lhypothèse finale < ε Output: Hypothèse Finale Introduction Analyse FilterBoost Expérimentations Conclusion
9
Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion Filtre + Label = + 1 Booster prédit -1 Mal classé Poids élevé Probabilité élevé dêtre accepté Accepter Refuser - Label = -1 Booster prédit -1 Bien classé Poids faible Probabilité faible dêtre accepté Le filtre accepte lexemple (x,y) avec une probabilité proportionnelle à lerreur de la prédiction du booster H(x) Introduction Analyse FilterBoost Expérimentations Conclusion Présentation Batch Algorithme FilterBoost Algorithme Filtre Oracle
10
Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion Analyse Condition darrêt du boosting? Si le filtre rejète suffisament dexemples dans un seul appel, pt est petite Ht est suffisamment correcte. Nombre de ronds que le boosting a besoin? Si lerreur de ht : εt < ½ progrés significatif dans ce rond. Estimation des limites de lHypothèse faible? Utilisation du Nonmonotonic Adative Sampling Introduction Analyse FilterBoost Expérimentations Conclusion
11
Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion Expérimentation (1/2) La pondération au lieu du filtrage des exemples. Augmente lexactitude. Augmente la taille de lensemble dentrainement. Simulation Oracle Permutation par hasard des données et utilisation des exemples dans le nouvel ordre. Filtrer lors de lentrainement du Weak Learner. Pondérer lors de lestimation des limites. Filtrer lors de lentrainement du Weak Learner. Pondérer lors de lestimation des limites. Introduction Analyse FilterBoost Expérimentations Conclusion Expérimentation Expérimentation :CPE Expérimentation: Classification
12
Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion Expérimentation (2/2) Tester FilterBoost avec et sans Confidence-Rated predictions. Tester FilterBoost contre dautres Batch et Filtering Boostings: MadaBoost, AdaBoost, Logistic AdaBoost Tester: classification et conditional probability estimation Filtering Boster est plus long que les batch dans de petite base de données. Mais plus rapide dans les larges base de données. Filtering Boster est plus long que les batch dans de petite base de données. Mais plus rapide dans les larges base de données. Introduction Analyse FilterBoost Expérimentations Conclusion Expérimentation Expérimentation :CPE Expérimentation: Classification
13
Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion Expérimentation: CPE Introduction Analyse FilterBoost Expérimentations Conclusion Expérimentation Expérimentation :CPE Expérimentation: Classification Décision ExpertArbre de Décision
14
Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion Expérimentation: Classification Introduction Analyse FilterBoost Expérimentations Conclusion Expérimentation Expérimentation :CPE Expérimentation: Classification
15
Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion FilterBooster utilise des techniques de régression logistique, pour lEstimation des probabilités conditionnelles et la classification. Boosting-by-Filtering Utilisation dun oracle et non pas dun ensemble fixe dentraînement. Résultats: Plus efficace et plus robuste pour apprendre avec de large bases de données. Plus rapide et plus robuste que le batch booster sans sacrifié lexactitude. Introduction Analyse FilterBoost Expérimentations Conclusion
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.