La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Managing Domain Knowledge and Multiple Models with Boosting Peng Zang – Charles Isbell.

Présentations similaires


Présentation au sujet: "Managing Domain Knowledge and Multiple Models with Boosting Peng Zang – Charles Isbell."— Transcription de la présentation:

1 Managing Domain Knowledge and Multiple Models with Boosting Peng Zang – Charles Isbell

2 Quelques rappels Boosting : –Combinaison de « weak learners » –+ Performance agrégation de classifieurs AdaBoost (Adaptative Boosting - Freund et Schapire (96)): –Entraînement des classifieurs dun modèle en séquence –Accent sur les points mal classés –Agrégation pondérée des prédictions : Y M (x) = sign ( m α m y m (x) )

3 Objectif et caractéristiques de MBoost Objectif : Améliorer la capacité de généralisation Trois extensions à la technique du boosting : –Intégration explicite de plusieurs modèles –Utilisation dun ensemble de validation interne –Mise en place dune condition darrêt systématique

4 Intégration explicite de plusieurs modèles Chaque classifieur propose une hypothèse Sélection de la meilleure hypothèse (~ fonction de perte) Mboost joue le rôle darbitre (ø biais supplémentaire)

5 Utilisation dun ensemble de validation interne Risque de sur-apprentissage du classifieur final (~ méthode dévaluation des hypothèses) Découpage des données : Apprentissage & Validation Génération des hypothèses : données dapprentissage Évaluation des hypothèses : données de test Repondération des données de test uniquement

6 Mise en place dune condition darrêt systématique Limite de lensemble de validation interne –Sur-apprentissage lié bruit –Performance hypothèses Hasard MBoost sarrête après un roulement suffisant des données dapprentissage et de validation

7 Conclusions et Preuves (1/3) MBoost dirige et utilise efficacement plusieurs modèles et leurs connaissances du domaine Cf. première expérience : –Performance MBoost Performance AdaBoost –MBoost est cinq fois plus rapide

8 Conclusions et Preuves (2/3) Performance MBoost Performance AdaBoost Cf. deuxième expérience : –5 ensembles de données et 25 classifieurs –Mboost > BestAda (5 ens.) et C Mboost = C AdaBoost –Mboost > BestCV-Ada (3 ens.) et –Mboost = BestCV-Ada (2 ens.) et –10*C Mboost = C AdaBoost

9 Conclusions et Preuves (3/3) Critère darrêt de MBoost : robuste au sur-apprentissage Cf. quatrième expérience : –Mboost = MboostAuto MBoost : une alternative à la sélection de modèle par cross-validation Cf. quatrième expérience : –Mboost > BestCV-Ind (1 ens.) et C Mboost = C BestCV-Ind

10 Questionnement Efficacité de lutilisation dune variété de modèles par MBoost ? –Hypothèse : performances observées dans la 2 ième et 4 ième expériences peuvent être dues à lensemble de validation interne Choisir la meilleure hypothèse VS Agréger les meilleures hypothèses


Télécharger ppt "Managing Domain Knowledge and Multiple Models with Boosting Peng Zang – Charles Isbell."

Présentations similaires


Annonces Google