A. Cornuéjols IAA (basé sur Rob Schapire’s IJCAI’99 talk) Combiner des apprenants: le boosting.

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
LES NOMBRES PREMIERS ET COMPOSÉS
[number 1-100].
Qualité du Premier Billot. 2 3 Défauts reliés à labattage.
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
Le pluriel des noms
Combiner des apprenants: le boosting
A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting.
Les numéros 70 –
Les numéros
TROUVER LES FACTEURS PREMIERS
Sud Ouest Est Nord Individuel 36 joueurs
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
Analyse de la variance à un facteur
Minimisation Techniques 1 Assimilation Algorithms: Minimisation Techniques Yannick Trémolet ECMWF Data Assimilation Training Course March 2006.
2 1. Vos droits en tant quusagers 3 1. Vos droits en tant quusagers (suite) 4.
Révision (p. 130, texte) Nombres (1-100).
Reading an analog clock
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
Français I Leçon 2B Une semaine au lycée Au Debut #7 (for the dates of November 5 and 6) Please Translate the Following: 1. I love the math course. (Adorer.
CONCOURS DE CONAISSANCE 4 Français I Mars Il ________ la géographie (to learn).
PROMOTION 2012 Les résultats. Baccalauréat général et technologique Filière STG CFE STG COM RH STG MERC LES 1ES 2S1S2S3TOTAL Nb de candidats
1 of 46 2 of 46 UPDATE UPDATE ON TV ANTENNAS SINCE LAST BOARD MEETING SINCE LAST BOARD MEETING HELD ON FEBRUARY 25, 2010, YOUR BOARD HAS MADE MORE PROGRESS.
Quelle heure est-il? What time is it?.
Quelle heure est-il? Le But: Je peux dire l’heure
1 of of 40 UPDATE UPDATE ON TV ANTENNAS SINCE LAST BOARD MEETING SINCE LAST BOARD MEETING HELD ON FEBRUARY 25, 2010, YOUR BOARD HAS MADE MORE PROGRESS.
PM18 MONTAGE DU BLINDAGE AUTOUR DE LA QRL F. DELSAUX - 25 JAN 2005
INDUSTRIE sa Tel : 0033(0) Fax : Projet: SKIP CAPSULES – v.1 Client: CARDIVAL HEALTH.
LES NOMBRES PREMIERS ET COMPOSÉS
Les chiffres & les nombres
Les choses que j aime Learning Objective: To know how to use j aime to talk about things I like to do.
Laboratoire de Bioinformatique des Génomes et des Réseaux Université Libre de Bruxelles, Belgique Introduction Statistics.
1 INETOP
RACINES CARREES Définition Développer avec la distributivité Produit 1
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
Tournoi de Flyball Bouin-Plumoison 2008 Tournoi de Flyball
Notre calendrier français MARS 2014
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
Jeudi le 7 novembre. F 3 DUE: Virtual tour in LMS by 7:30 for the 70! DUE: Flashcards also for the 70 today (50 Friday) 1. Poem practice Le dormeur du.
CLS algorithm Step 1: If all instances in C are positive, then create YES node and halt. If all instances in C are negative, create a NO node and halt.
VOCABULAIRE 7.2 Français II. 2 Tu dois.... Youve got to.... stronger than the expression on the next slide Tu dois étudier si tu veux réussir à la classe.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
C'est pour bientôt.....
Les Nombres 0 – 100 en français.
Les nombres.
Les Nombres! de 0 à 20.
Aire d’une figure par encadrement
Copyright 2011 – Les Chiffres Copyright 2011 –
LA GESTION COLLABORATIVE DE PROJETS Grâce aux outils du Web /03/2011 Académie de Créteil - Nadine DUDRAGNE 1.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Elaboré par M. NUTH Sothan 1. 2 Soit x, y et z des coordonnées cartésiennes à 3 dimension. G un ensemble de points dans le plan (u, v). Déf. : On appelle.
Différencier: NOMBRE PREMIER vs. NOMBRE COMPOSÉ
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1 Modèle pédagogique d’un système d’apprentissage (SA)
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Leçons To attend Assister à 2. To fish.
Quelle heure est-il? What time is it ?.
Modélisation des données Niveau conceptuel DON-2 V0-0.

CALENDRIER-PLAYBOY 2020.
Ministère de l’Éducation, du Loisir et du Sport Responsables des programmes FLS et ELA: Diane Alain et Michele Luchs Animateurs: Diane Alain et Michael.
Slide 1 of 39 Waterside Village Fête ses 20 ans.
Les Chiffres Prêts?
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
To practice: Quantities Un, une, des, de Du, de la, de l’, de Le, la, l’, les.
Les parties du corps By Haru Mehra Le Frehindi 1Haru Mehra, DELF, DALF,CFP.
Transcription de la présentation:

A. Cornuéjols IAA (basé sur Rob Schapire’s IJCAI’99 talk) Combiner des apprenants: le boosting

Boosting 2 Prédiction de courses hippiques

Boosting 3 Comment gagner aux courses ? On interroge des parieurs professionnels Supposons: –Que les professionnels ne puissent pas fournir une règle de pari simple et performante –Mais que face à des cas de courses, ils puissent toujours produire des règles un peu meilleures que le hasard Pouvons-nous devenir riche?

Boosting 4 Idée Demander à l’expert des heuristiques Recueillir un ensemble de cas pour lesquels ces heuristiques échouent (cas difficiles) Ré-interroger l’expert pour qu’il fournisse des heuristiques pour les cas difficiles Et ainsi de suite… Combiner toutes ces heuristiques Un expert peut aussi bien être un algorithme d’apprentissage peu performant (weak learner)

Boosting 5 Questions Comment choisir les courses à chaque étape? å Se concentrer sur les courses les plus “difficiles” (celles sur lesquelles les heuristiques précédentes sont les moins performantes) Comment combiner les heuristiques (règles de prédiction) en une seule règle de prédiction ? å Prendre une vote (pondéré) majoritaire de ces règles

Boosting 6 Boosting boosting boosting = méthode générale pour convertir des règles de prédiction peu performantes en une règle de prédiction (très) performante Plus précisément : –Étant donné un algorithme d’apprentissage “faible” qui peut toujours retourner une hypothèse de taux d’erreur  1/2-  –Un algorithme de boosting peut construire (de manière prouvée) une règle de décision (hypothèse) de taux d’erreur  

Boosting 7 Soit X un espace d’entrée à 10 dimensions Les attributs sont indépendants et de distribution gaussienne L’étiquette est définie par : 2000 exemples d’apprentissages (1000+;1000-) exemples de test Apprentissage d’arbres de décision Illustration avec :

Boosting 8 Illustration (cont.) 0,5 0,4 0,3 0,2 0,1 0, Arbre à un noeud Arbre à 400 noeuds Arbres à un nœud avec boosting

Boosting 9 Plan Introduction au boosting (AdaBoost) Expériences Conclusion Analyse de l’erreur en apprentissage Analyse de l’erreur en généralisation basée sur la théorie des marges Extensions Bibliographie

Boosting 10 Étant donné l’échantillon d’apprentissage S = {(x 1,y 1 ),…,(x m,y m )} y i  {  } étiquette de l’exemple x i  S Pour t = 1,…,T : Construire la distribution D t sur {1,…,m} Trouver l’hypothese faible (“heuristique”) h t : S  {  } avec erreur petite  t sur D t : Retourner l’hypothèse finale h final Boosting : vue formelle

Boosting 11 Le principe général X h0h0 D0D0 X h1h1 D1D1 X h2h2 D2D2 X hThT DTDT Comment passer de D t à D t+1 ? Comment calculer la pondération  t ?

Boosting 12 AdaBoost [Freund&Schapire ’97] construire D t : Étant donnée D t et h t : où: Z t = constante de normalisation Hypothèse finale :

Boosting 13 AdaBoost en plus gros

Boosting 14 Exemple jouet

Boosting 15 Étape 1

Boosting 16 Étape 2

Boosting 17 Étape 3

Boosting 18 Hypothèse finale

Boosting 19 Une Applet Boosting

Boosting 20 Avantages pratiques de AdaBoost (très) rapide simple + facile à programmer Une seul paramètre à régler : le nombre d’étapes de boosting (T) Applicable à de nombreux domaines par un bon choix de classifieur faible (neuro net, C4.5, …) Pas de sur-spécialisation par la maximisation des marges Peut être adapté au cas où ht : X  R ; la classe est définie par le signe de h t (x) ; la confiance est donnée par | h t (x) | Peut être adapté aux problèmes multi-classes où y i  {1,..,c} et aux problèmes multi-étiquettes Permet de trouver les exemples aberrants (outliers)

Boosting 21 Caveats performance depends on data & weak learner AdaBoost can fail if –weak hypothesis too complex (overfitting) –weak hypothesis too weak (  t  0 too quickly), underfitting Low margins  overfitting empirically, AdaBoost seems especially susceptible to noise

Boosting 22 Conclusion boosting useful tool for classification problems grounded in rich theory performs well experimentally often (but not always) resistant to overfitting many applications but slower classifiers result less comprehensible sometime susceptible to noise

Boosting 23 UCI Benchmarks Comparison with C4.5 (Quinlan’s Decision Tree Algorithm) Decision Stumps (only single attribute)

Boosting 24 UCI Results

Boosting 25 Analyzing the Training Error Theorem [Freund&Schapire ’97]: write  t as ½-  t then so if  t:  t   > 0 then Remark: AdaBoost is adaptive: does not need to know  or T a priori can exploit  t  

Boosting 26 Proof Intuition on round t : increase weight of examples incorrectly classified by h t if x i incorrectly classified by H final then x i incorrectly classified by weighted majority of h t ’s then x i must have “large” weight under final dist. D T+1 since total weight  1: number of incorrectly classified examples “small”

Boosting 27 A First Attempt at Analyzing Generalization Error we expect:  training error to continue to drop (or reach zero)  test error to increase when H final becomes “too complex” (Occam’s razor)

Boosting 28 A Typical Run Test error does not increase even after 1,000 rounds (~2,000,000 nodes) Test error continues to drop after training error is zero! Occam’s razor wrongly predicts “simpler” rule is better. (boosting on C4.5 on “letter” dataset)

Boosting 29 A Better Story: Margins Key idea: Consider confidence (margin): with define: margin of (x,y) =

Boosting 30 Margins for Toy Example

Boosting 31 The Margin Distribution epoch training error0.0 test error %margins  Minimum margin

Boosting 32 Boosting Maximizes Margins Can be shown to minimize  to margin of (x i,y i )

Boosting 33 Analyzing Boosting Using Margins generalization error bounded by function of training sample margins:  larger margin  better bound  bound independent on # of epochs  boosting tends to increase margins of training examples by concentrating on those with smallest margin

Boosting 34 Relation to SVMs SVM: map x into high-dim space, separate data linearly

Boosting 35 Relation to SVMs (cont.)

Boosting 36 Relation to SVMs Both maximize margins: SVM:Euclidean norm ( L 2 ) AdaBoost:Manhattan norm ( L 1 ) Has implications for optimization, PAC bounds See [Freund et al ‘98] for details

Boosting 37 Extensions: Multiclass Problems Reduce to binary problem by creating several binary questions for each example: “does or does not example x belong to class 1?” “does or does not example x belong to class 2?” “does or does not example x belong to class 3?”...

Boosting 38 Extensions: Confidences and Probabilities Prediction of hypothesis h t : Confidence of hypothesis h t : Probability of H final : [Schapire&Singer ‘98], [Friedman, Hastie & Tibshirani ‘98]

Boosting 39 Text Categorization Decision stumps: presence of word or short phrase. Example: “If the word Clinton appears in the document predict document is about politics” database: Reutersdatabase: AP

Boosting 40 Many More Applications …in many recent papers on boosting!

Boosting 41 Background [Valiant’84] introduced theoretical PAC model for studying machine learning [Kearns&Valiant’88] open problem of finding a boosting algorithm [Schapire’89], [Freund’90] first polynomial-time boosting algorithms [Drucker, Schapire&Simard ’92] first experiments using boosting

Boosting 42 Backgroung (cont.) [Freund&Schapire ’95] –introduced AdaBoost algorithm –strong practical advantages over previous boosting algorithms experiments using AdaBoost: [Drucker&Cortes ’95][Schapire&Singer ’98] [Jackson&Cravon ’96][Maclin&Opitz ’97] [Freund&Schapire ’96][Bauer&Kohavi ’97] [Quinlan ’96][Schwenk&Bengio ’98] [Breiman ’96][Dietterich’98] continuing development of theory & algorithms: [Schapire,Freund,Bartlett&Lee ’97] [Schapire&Singer ’98] [Breiman ’97][Mason, Bartlett&Baxter ’98] [Grive and Schuurmans’98][Friedman, Hastie&Tibshirani ’98]