La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Apprentissage et Fouilles de données Salma Najar 20 Mars 2008 FilterBoost: Regression et Classification On Large Datasets FilterBoost: Regression et Classification.

Présentations similaires


Présentation au sujet: "Apprentissage et Fouilles de données Salma Najar 20 Mars 2008 FilterBoost: Regression et Classification On Large Datasets FilterBoost: Regression et Classification."— Transcription de la présentation:

1 Apprentissage et Fouilles de données Salma Najar 20 Mars 2008 FilterBoost: Regression et Classification On Large Datasets FilterBoost: Regression et Classification On Large Datasets Joseph K. Bradley et Robert E.Schapire

2 Plan Introduction Filterboost Analyse Expérimentations Conclusion

3 Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion Introduction Analyse FilterBoost Expérimentations Conclusion Introduction Problématique Motivation Batch Boosting Weak Learner S: Ensemble fixe dexemple dentrainement Après T ronds - + -- + Booster Hypothèse Finale H DtDt εtεt αtαt htht DtDt

4 Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion Problématique Batch Booster accède à lensemble entier des exemples dentrainement Traitement très cher pour les larges bases de données. Limite son application: Problème de classification des sites en ligne par exemple Limite son efficacité: A chaque rond Un traitement dans la base de données entière. Introduction Problématique Motivation Introduction Analyse FilterBoost Expérimentations Conclusion

5 Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion Motivation Le but principal : Rendre le boosting faisable dans de large base de données Idée principle: Utiliser un flux de données au lieu dutiliser la base de données en entier. Entrainer un nouveau sous ensemble de données à chaque rond. Introduction Problématique Motivation Introduction Analyse FilterBoost Expérimentations Conclusion FilterBoost

6 Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion Présentation du FilterBoost Présentation Batch Algorithme FilterBoost Algorithme Filtre Oracle Nouveaux exemples IID de D dans chaque rond. Algorithme : Adaptif Basé sur une logique de régression logistique. Moins dassomptions exigées que les travaux antérieurs. Applicable: Estimation de la probabilité conditionnelle plus robuste au bruit et au sur apprentissage. Classification prouve compétitivité. Introduction Analyse FilterBoost Expérimentations Conclusion

7 Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion Batch Algorithme Etant donné: Un ensemble fixe dentrainement S Pour t = 1,…,T Construire la distribution Dt de S Faire fonctionner le Weak Learner Choix hypothèse ht Estimer Erreur εt de ht Donner un poids αt à ht Sortie : Hypothèse Finale H(x) = Σ t α t h t (x) Présentation Batch Algorithme FilterBoost Algorithme Filtre Dans le Filtrage : Il nya pas densemble fixe dentrainement. Dans le Filtrage : Il nya pas densemble fixe dentrainement. Mécanisme du Filtre: Simuler Dt Accepter ou rejeter les exemples selon une probabilité qt Mécanisme du Filtre: Simuler Dt Accepter ou rejeter les exemples selon une probabilité qt Introduction Analyse FilterBoost Expérimentations Conclusion

8 Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion FilterBoost Algorithme Etant donné: Oracle Pour t = 1,…,T Filtre donne acces à Dt Tirer mt exemple du filtre Choisir lhypothèse ht Tirer de nouveax exemples du filtre Estimer lerreur εt de h t Donner un poids α t à ht Output: Hypothèse Finale Le nombre mt dexemple doit être suffisamment large pour assurer que lerreur εt < ½ avec une forte probabilité. Le nombre mt dexemple doit être suffisamment large pour assurer que lerreur εt < ½ avec une forte probabilité. Présentation Batch Algorithme FilterBoost Algorithme Filtre Tirer mt exemple du filtre Lerreur de lhypothèse finale < ε Output: Hypothèse Finale Introduction Analyse FilterBoost Expérimentations Conclusion

9 Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion Filtre + Label = + 1 Booster prédit -1 Mal classé Poids élevé Probabilité élevé dêtre accepté Accepter Refuser - Label = -1 Booster prédit -1 Bien classé Poids faible Probabilité faible dêtre accepté Le filtre accepte lexemple (x,y) avec une probabilité proportionnelle à lerreur de la prédiction du booster H(x) Introduction Analyse FilterBoost Expérimentations Conclusion Présentation Batch Algorithme FilterBoost Algorithme Filtre Oracle

10 Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion Analyse Condition darrêt du boosting? Si le filtre rejète suffisament dexemples dans un seul appel, pt est petite Ht est suffisamment correcte. Nombre de ronds que le boosting a besoin? Si lerreur de ht : εt < ½ progrés significatif dans ce rond. Estimation des limites de lHypothèse faible? Utilisation du Nonmonotonic Adative Sampling Introduction Analyse FilterBoost Expérimentations Conclusion

11 Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion Expérimentation (1/2) La pondération au lieu du filtrage des exemples. Augmente lexactitude. Augmente la taille de lensemble dentrainement. Simulation Oracle Permutation par hasard des données et utilisation des exemples dans le nouvel ordre. Filtrer lors de lentrainement du Weak Learner. Pondérer lors de lestimation des limites. Filtrer lors de lentrainement du Weak Learner. Pondérer lors de lestimation des limites. Introduction Analyse FilterBoost Expérimentations Conclusion Expérimentation Expérimentation :CPE Expérimentation: Classification

12 Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion Expérimentation (2/2) Tester FilterBoost avec et sans Confidence-Rated predictions. Tester FilterBoost contre dautres Batch et Filtering Boostings: MadaBoost, AdaBoost, Logistic AdaBoost Tester: classification et conditional probability estimation Filtering Boster est plus long que les batch dans de petite base de données. Mais plus rapide dans les larges base de données. Filtering Boster est plus long que les batch dans de petite base de données. Mais plus rapide dans les larges base de données. Introduction Analyse FilterBoost Expérimentations Conclusion Expérimentation Expérimentation :CPE Expérimentation: Classification

13 Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion Expérimentation: CPE Introduction Analyse FilterBoost Expérimentations Conclusion Expérimentation Expérimentation :CPE Expérimentation: Classification Décision ExpertArbre de Décision

14 Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion Expérimentation: Classification Introduction Analyse FilterBoost Expérimentations Conclusion Expérimentation Expérimentation :CPE Expérimentation: Classification

15 Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion FilterBooster utilise des techniques de régression logistique, pour lEstimation des probabilités conditionnelles et la classification. Boosting-by-Filtering Utilisation dun oracle et non pas dun ensemble fixe dentraînement. Résultats: Plus efficace et plus robuste pour apprendre avec de large bases de données. Plus rapide et plus robuste que le batch booster sans sacrifié lexactitude. Introduction Analyse FilterBoost Expérimentations Conclusion


Télécharger ppt "Apprentissage et Fouilles de données Salma Najar 20 Mars 2008 FilterBoost: Regression et Classification On Large Datasets FilterBoost: Regression et Classification."

Présentations similaires


Annonces Google