Apprentissage et Fouilles de données Salma Najar 20 Mars 2008 FilterBoost: Regression et Classification On Large Datasets FilterBoost: Regression et Classification.

Slides:



Advertisements
Présentations similaires
Statistique II Chapitre 3: Tests d’hypothèses
Advertisements

Soutenance du stage de DEA.
Thomas G. Dietterich Approximate Statistical Tests for Comparing
Managing Domain Knowledge and Multiple Models with Boosting Peng Zang – Charles Isbell.
Relational Learning as a Search in a Critical Region Lou Fedon 9 Mars 2006.
Combiner des apprenants: le boosting
A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting.
Classification et prédiction
Classification et prédiction
RECONNAISSANCE DE FORMES
Les tests d’hypothèses (I)
Echantillonnage Introduction
Inférence statistique
Les TESTS STATISTIQUES
Les K plus proches voisins
Les TESTS STATISTIQUES
A Pyramid Approach to Subpixel Registration Based on Intensity
Les Tests dhypothèses. 1)Définition Un test cest une méthode qui permet de prendre une décision à partir des résultats dun échantillon.
Apprentissage et Fouille de Données
Complexité et Classification
Les tests d’hypothèses
R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)
Système déducation des éducateurs des adultes Projet du FSE, priorité 3.2: Support de l'éducation supérieure, de la recherche et du développement Enregistré
DEA instrumentation et commande
Concepts avancés en mathématiques et informatique appliquées
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
Classification multiclasses
Apprendre à partir des observations
Tests de comparaison de moyennes
Application des algorithmes génétiques
Méthodes de Biostatistique
Journée thématique du GDR IFS « Réduction de modèle en IFS » ENSAM – Jeudi 18 mai 2006 Validation de l’approche de la réduction a priori - POD sur l'équation.
Méthode des k plus proches voisins
Plan de la présentation
DEA Perception et Traitement de l’Information
Les réseaux de neurones
Le test t.
La puissance statistique
La puissance statistique
CSI 4506: Introduction à l’intelligence artificielle
La corrélation et la régression
Prédiction multi-step de la volatilité : le modèle ARIMA-GARCH appliqué aux séries temporelles d’affaiblissement par la pluie sur les liaisons Terre-Satellite.
Robots footballeurs: Fusion de données
1 Séminaire LOVe du 29/03/07 Combinaison d'objets (fusion centralisée) T3.2 Combinaison de pistages (fusion décentralisée) T3.3.
Objectifs du chapitre 8: Puissance statistique
Apprentissage par arbre de décision
Filtre de Kalman – Préliminaires (1)
Les réseaux de neurones artificiels (RNA)
Développement d’un système d’aide à la conduite:
Contrat pédagogique Durée : 24h Enseignant : Tanguy van Ypersele
Cédric LAOUENAN 20/11/2008 Tests statistiques Cédric LAOUENAN 20/11/2008
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
AGREGATION DE CLASSIFIEURS
Sujets spéciaux en informatique I PIF Approches non-paramétriques u Technique de classification NN u Technique de classification k-NN u Erreurs.
Apprentissage « machine »
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :35 1 Comparaisons multiples Ce qu’elles sont.
Paramétrage en un essai pour une évaluation rapide
Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Apprentissage Interactif Apprentissage avec SpamAssassin UFR de Sciences Département d’Informatique.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :52 1 Comparaisons multiples Ce qu’elles sont.
L’erreur standard et les principes fondamentaux du test de t
Méthode des moindres carrés (1)
4ème journées PDM IA - Vendredi 7 mai 2004 Recherche en ligne pour la résolution de PDMs Laurent Péret, Frédérick Garcia INRA Toulouse, équipe Méthodes.
L’entrainement a-t-il un effet sur le temps de réaction ? Etude de cas d’un même test sur deux élèves.
Extreemly Random Trees + SubWindows HOURRI Soufiane NAIT ABDELLAH OUALI Ismail OUFQIR Anouar OUSSAFI Mohammed.
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM Bootstrap et permutations.
Sciences Mécaniques Appliquées
Chapitre 4 Concepts fondamentaux Les composantes d’un test statistique Les hypothèses nulles en statistiques Le sens de p Inférence: comment traduire p.
Exemple et critique d’un système de vision simple Patrick Hébert (dernière révision septembre 2008) Référence complémentaire: Shapiro et Stockman: chap.
MENU 1 Modèles de choix.
Introduction aux statistiques Intervalles de confiance
Transcription de la présentation:

Apprentissage et Fouilles de données Salma Najar 20 Mars 2008 FilterBoost: Regression et Classification On Large Datasets FilterBoost: Regression et Classification On Large Datasets Joseph K. Bradley et Robert E.Schapire

Plan Introduction Filterboost Analyse Expérimentations Conclusion

Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion Introduction Analyse FilterBoost Expérimentations Conclusion Introduction Problématique Motivation Batch Boosting Weak Learner S: Ensemble fixe dexemple dentrainement Après T ronds Booster Hypothèse Finale H DtDt εtεt αtαt htht DtDt

Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion Problématique Batch Booster accède à lensemble entier des exemples dentrainement Traitement très cher pour les larges bases de données. Limite son application: Problème de classification des sites en ligne par exemple Limite son efficacité: A chaque rond Un traitement dans la base de données entière. Introduction Problématique Motivation Introduction Analyse FilterBoost Expérimentations Conclusion

Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion Motivation Le but principal : Rendre le boosting faisable dans de large base de données Idée principle: Utiliser un flux de données au lieu dutiliser la base de données en entier. Entrainer un nouveau sous ensemble de données à chaque rond. Introduction Problématique Motivation Introduction Analyse FilterBoost Expérimentations Conclusion FilterBoost

Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion Présentation du FilterBoost Présentation Batch Algorithme FilterBoost Algorithme Filtre Oracle Nouveaux exemples IID de D dans chaque rond. Algorithme : Adaptif Basé sur une logique de régression logistique. Moins dassomptions exigées que les travaux antérieurs. Applicable: Estimation de la probabilité conditionnelle plus robuste au bruit et au sur apprentissage. Classification prouve compétitivité. Introduction Analyse FilterBoost Expérimentations Conclusion

Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion Batch Algorithme Etant donné: Un ensemble fixe dentrainement S Pour t = 1,…,T Construire la distribution Dt de S Faire fonctionner le Weak Learner Choix hypothèse ht Estimer Erreur εt de ht Donner un poids αt à ht Sortie : Hypothèse Finale H(x) = Σ t α t h t (x) Présentation Batch Algorithme FilterBoost Algorithme Filtre Dans le Filtrage : Il nya pas densemble fixe dentrainement. Dans le Filtrage : Il nya pas densemble fixe dentrainement. Mécanisme du Filtre: Simuler Dt Accepter ou rejeter les exemples selon une probabilité qt Mécanisme du Filtre: Simuler Dt Accepter ou rejeter les exemples selon une probabilité qt Introduction Analyse FilterBoost Expérimentations Conclusion

Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion FilterBoost Algorithme Etant donné: Oracle Pour t = 1,…,T Filtre donne acces à Dt Tirer mt exemple du filtre Choisir lhypothèse ht Tirer de nouveax exemples du filtre Estimer lerreur εt de h t Donner un poids α t à ht Output: Hypothèse Finale Le nombre mt dexemple doit être suffisamment large pour assurer que lerreur εt < ½ avec une forte probabilité. Le nombre mt dexemple doit être suffisamment large pour assurer que lerreur εt < ½ avec une forte probabilité. Présentation Batch Algorithme FilterBoost Algorithme Filtre Tirer mt exemple du filtre Lerreur de lhypothèse finale < ε Output: Hypothèse Finale Introduction Analyse FilterBoost Expérimentations Conclusion

Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion Filtre + Label = + 1 Booster prédit -1 Mal classé Poids élevé Probabilité élevé dêtre accepté Accepter Refuser - Label = -1 Booster prédit -1 Bien classé Poids faible Probabilité faible dêtre accepté Le filtre accepte lexemple (x,y) avec une probabilité proportionnelle à lerreur de la prédiction du booster H(x) Introduction Analyse FilterBoost Expérimentations Conclusion Présentation Batch Algorithme FilterBoost Algorithme Filtre Oracle

Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion Analyse Condition darrêt du boosting? Si le filtre rejète suffisament dexemples dans un seul appel, pt est petite Ht est suffisamment correcte. Nombre de ronds que le boosting a besoin? Si lerreur de ht : εt < ½ progrés significatif dans ce rond. Estimation des limites de lHypothèse faible? Utilisation du Nonmonotonic Adative Sampling Introduction Analyse FilterBoost Expérimentations Conclusion

Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion Expérimentation (1/2) La pondération au lieu du filtrage des exemples. Augmente lexactitude. Augmente la taille de lensemble dentrainement. Simulation Oracle Permutation par hasard des données et utilisation des exemples dans le nouvel ordre. Filtrer lors de lentrainement du Weak Learner. Pondérer lors de lestimation des limites. Filtrer lors de lentrainement du Weak Learner. Pondérer lors de lestimation des limites. Introduction Analyse FilterBoost Expérimentations Conclusion Expérimentation Expérimentation :CPE Expérimentation: Classification

Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion Expérimentation (2/2) Tester FilterBoost avec et sans Confidence-Rated predictions. Tester FilterBoost contre dautres Batch et Filtering Boostings: MadaBoost, AdaBoost, Logistic AdaBoost Tester: classification et conditional probability estimation Filtering Boster est plus long que les batch dans de petite base de données. Mais plus rapide dans les larges base de données. Filtering Boster est plus long que les batch dans de petite base de données. Mais plus rapide dans les larges base de données. Introduction Analyse FilterBoost Expérimentations Conclusion Expérimentation Expérimentation :CPE Expérimentation: Classification

Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion Expérimentation: CPE Introduction Analyse FilterBoost Expérimentations Conclusion Expérimentation Expérimentation :CPE Expérimentation: Classification Décision ExpertArbre de Décision

Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion Expérimentation: Classification Introduction Analyse FilterBoost Expérimentations Conclusion Expérimentation Expérimentation :CPE Expérimentation: Classification

Introduction Travaux antérieurs Problématique & motivations Contribution Conclusion FilterBooster utilise des techniques de régression logistique, pour lEstimation des probabilités conditionnelles et la classification. Boosting-by-Filtering Utilisation dun oracle et non pas dun ensemble fixe dentraînement. Résultats: Plus efficace et plus robuste pour apprendre avec de large bases de données. Plus rapide et plus robuste que le batch booster sans sacrifié lexactitude. Introduction Analyse FilterBoost Expérimentations Conclusion