AGREGATION DE CLASSIFIEURS

Slides:



Advertisements
Présentations similaires
L’échantillonnage & Ses Fluctuations
Advertisements

Gestion de portefeuille
GESTION DE PORTEFEUILLE chapitre n° 7
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Thomas G. Dietterich Approximate Statistical Tests for Comparing
Managing Domain Knowledge and Multiple Models with Boosting Peng Zang – Charles Isbell.
A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting.
Classification et prédiction
Classification et prédiction
Collecte de données F. Kohler.
C1 Bio-statistiques F. KOHLER
Inférence statistique
Comparaison de plusieurs moyennes observées
Echantillonnage Professeur Francis GUILLEMIN > Ecole de santé publique - Faculté de Médecine.
Les TESTS STATISTIQUES
Les TESTS STATISTIQUES
Échantillonnage-Estimation
Statistiques et probabilités en première
variable aléatoire Discrète
Fluctuations d’une fréquence selon les échantillons, Probabilités
L’échange naturel Le choix individuel de Robinson l’amène à déterminer les termes d’un contrat naturel d’échange, selon lequel, en échange des quantités.
Apprendre à partir des observations
Un neurone élémentaire
Chapitre 2 Les indices.
Septième étape : travailler avec des graphes probabilistes
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Méthode des k plus proches voisins
Régression linéaire simple
Échantillonnage (STT-2000)
La segmentation
DEA Perception et Traitement de l’Information
Comprendre la variation dans les données: Notions de base
Méthodes de prévision (STT-3220)
POLI-D-208 Introduction à la recherche en sciences politiques Partie Exercices Titulaire: Jean-Benoit Pilet.
Prévisions météorologiques, projections climatiques : que peut- on prévoir et avec quelle fiabilité ? Exercice 2: estimation de la prévisibilité dans le.
Le test t.
1 CSI 4506: Introduction à lintelligence artificielle La recherche adversairiale.
La corrélation et la régression
Les Arbres de décision ou régression
Structure discriminante (analyse discriminante)
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
La régression multiple
Apprentissage par arbre de décision
Échantillonnage (STT-2000) Section 3 Utilisation de variables auxiliaires. Version: 8 septembre 2003.
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Méthodes de Biostatistique
Programmation linéaire en nombres entiers
STATISTIQUES DESCRIPTIVES
Micro-intro aux stats.
Probabilités et Statistiques Année 2010/2011
Terminale STG 2006 Statistiques à deux variables
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Méthode des moindres carrés (1)
Mais quel est donc le taux d’inflation actuel ? J.C. Lambelet et D. Nilles Catherine Roux Alvaro Aparicio Gregor Banzer Daniel Cavallaro.
Rappel de statistiques
Échantillonnage (STT-2000)
Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003.
Échantillonnage (STT-2000)
STATISTIQUES.
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
La demande.
1_Introduction Toute mesure est entachée d’erreur. Il est impossible d’effectuer des mesures rigoureusement exactes. Pour rendre compte du degré d’approximation.
MENU 1 Modèles de choix.
Chap. 3 Récursion et induction. Les définitions par récurrence consistent à construire des objets finis, à partir d'autres, selon certaines règles. Les.
ECHANTILLONAGE ET ESTIMATION
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Introduction aux statistiques Intervalles de confiance
UED SIM – Département OLCI Année Arts & Métiers ParisTech CER ANGERS Probabilités et statistiques Cours n° 2.
Processus ponctuels Caractéristiques et Modèles de répartitions spatiales.
Transcription de la présentation:

AGREGATION DE CLASSIFIEURS La réduction de l’erreur en généralisation est l’une des principales motivations de l’apprentissage automatique. Breiman [1994, 1996] a montré formellement en s’appuyant sur la décomposition biais-variance qu’il était avantageux d’adopter la décision moyenne de plusieurs classifieurs plutôt que choisir la « meilleure ».

Sa méthode, le bagging, est maintenant une référence et son idée a inspiré de très nombreux chercheurs, non seulement pour en améliorer les performances, mais également pour obtenir une meilleure estimation de l’erreur en généralisation. Exemple : On génère différents arbres en perturbant l’échantillon d’apprentissage.

Définitions Le biais traduit l’incapacité du modèle à apprendre correctement le concept i.e. l’erreur commise systématiquement. La variance traduit la sensibilité de l’algorithme à l’échantillon d’apprentissage. On dit qu’une méthode souffre d’une grande variance si une faible perturbation dans l’échantillon implique d’importantes modifications du classifieur.

Décomposition pour une fonction d’erreur quadratique Régression classique On cherche à reconstruire un concept f(x) tel que y = f(x) + , où x représente un vecteur de variables exogènes, y la variable endogène et  un bruit quelconque.

La fonction (x) est estimée sur un échantillon d’apprentissage a. Pour juger de son efficience, on utilise une fonction d’erreur quadratique qui s’écrit: Erreur(f) = Ea [(x)-f(x)]2 Soit maintenant a1, ……., as, s échantillons extraits de manière indépendante dans la population , produisant chacun un prédicteur i(x) (i=1 à s). Le prédicteur agrégé (x) est défini par: (x) = lim s--> (1/s)  i(x) dont l’erreur quadratique s’écrit: Biais(f) = Ea [(x)-f(x)]2

Breiman a montré en 1996 que: Erreur(f) = Ea( 2) + Biais(f) + Vara(f) où Vara(f) = E [(x)- (x)]2 C’est la décomposition fondamentale de l’erreur en biais-variance pour le schéma de régression avec une erreur quadratique. Remarque: L’erreur moyenne du prédicteur agrégé sera toujours inférieure à l’erreur moyenne d’un seul prédicteur.

Décomposition pour une fonction d’erreur de type « 0-1 » La décomposition pour une fonction d’erreur de type «0-1» (0 si pas d’erreur) est le champ d’un large débat. Maintenant, la variable endogène y est qualitative et prend ses valeurs dans {y1,…,yk}.

La fonction d’erreur du classifieur  s’écrit pour un individu w à classer: e(w) = 0 si (w)=f(w), 1 si (w)!=f(w). Si nous disposons de s échantillons d’apprentissage indépendants, l’erreur moyenne du prédicteur agrégé s’écrit: eA(w) = lim s--> (1/s) i ei(w) Cette quantité constitue également l’estimateur de la probabilité d’occurrence d’un mauvais classement sur un individu lorsqu’on utilise un prédicteur : E[(w)!=f(w)] = eA(w)

D’après Dietterich et Kong (1995), on peut relier le biais et la variance de la manière suivante: soit une observation w à classer, si eA(w) > 0.5, on considère que le prédicteur agrégé le classera mal. On définit: Biais(,w) = 1 si eA(w) > 0.5, 0 sinon. Var[,w] = E[(w)!=f(w)] - Biais [,w] Problème: variance négative! Justification: certains points seront mal classés par certains classifieurs, bien classés par d’autres. Ainsi, des occasionnels classements chanceux peuvent réduire l’erreur moyenne.

Diettrich et Kong ont constaté empiriquement que: Les techniques d’élagage jouent très peu sur la variance tout en accroissant le biais. Les techniques d’agrégation augmentent très légèrement le biais mais cela est compensé par une réduction drastique de la variance.

La décomposition de biais-variance de l’erreur a fortement séduit de nombreux chercheurs pour expliquer le rôle bénéfique de l’agrégation des classifieurs. Mais elle n’est pas la seule manière de prouver qu’un prédicteur agrégé est meilleure en généralisation. Heath et al [1993] ont produit une démonstration formelle de la réduction de la probabilité de mal classer sous certaines conditions en s’appuyant sur l’analyse de la combinaison de l’erreur sous l’hypothèse d’indépendance entre les classifieurs. Il apparaît au regard de cette analyse que l’effet de l’agrégation est multiplicatif, il améliore les bons classifieurs et détériore les mauvais.

Rappel: Formule des probabilités totales On sait qu’on affecte (normalement) à l’individu w la classe qui maximise sa probabilité à postériori:  = arg max P(yk/w) Et, lorsqu’on veut classifier w avec un classifieur Mi, on choisit en général la classe qui maximise l’expression:  = arg max P(yk/w, Mi )

i.e. on lui affecte la classe qui est la plus probable sachant la feuille (le sous-groupe) à laquelle il appartient. On a: P(yk/w) = i P(Mi /w)x P(yk/w, Mi ) Puisqu’il est impossible de générer tous les arbres, toute la problématique de l’agrégation des classifieurs repose sur le choix d’un ensemble de classifieurs Mi (un ensemble d’arbres,…).

Moyennage Le moyennage (averaging) représente, avec les arbres à options, une méthode à part dans toutes les stratégies d’agrégation de classifieurs: on ne génère qu’un seul arbre à partir des données, mais en révisant les probabilités d’affectation lorsqu’on a un individu à classer. Il existe plusieurs façons de construire l’ensemble des sous-arbres. Sur chacun d’eux, on peut recalculer les probabilités.

Arbres à options On part du constat que le choix de l’attribut de découpage sur un nœud se décide souvent à très peu de choses, un ou deux individus supplémentaires peuvent faire basculer la décision. Dès lors, plutôt que de décider en faveur de l’attribut qui maximise la mesure d’évaluation des segmentations, on propose de restituer l’incertitude en proposant plusieurs découpages alternatifs sur un nœud. L’arbre, par la suite, maintiendra ses branches en parallèle.

Construction aléatoire

Agrégation par apprentissage sur plusieurs échantillons différents Agrégation par apprentissage sur plusieurs échantillons différents. Le bagging Pour s classifieurs à produire, on effectue un tirage aléatoire avec remise dans a, puis on construit le classifieur sur l’échantillon ai ainsi constitué.

On remarquera que |ai | = |a | = n, mais qu’environ 37% des individus de a sont absents des ai . En effet, au premier tirage, un individu a (1-(1/n)) chances (probabilités) de ne pas être choisi. Au bout de n tirages indépendants et équiprobables, la probabilité qu’il n’ait jamais été choisi est: (1-(1/n))n  e-1  0.368. Le schéma de tirage étant simple et avec remise, on conjecture que les Mi sont équiprobables au regard de l’individu w à classer, i.e.: P(Mi/w)=1/s

Résumé de la procédure de construction du prédicteur agrégé 1) Pour s replications, a) construire un échantillon ai de taille n en effectuant un tirage aléatoire avec remise dans a . b) construire le classifieur Mi à partir de ai

2) Affecter alors en généralisation à l’individu w la classe yk tel que: yk* = arg maxk i (1/s)x[Mi(w)=yk] ce qui correspond à un vote à la majorité simple. L’efficacité du bagging sur des fichiers benchmark n’est plus à démonter.

Le boosting Freund et Shapire (1995) ont proposé un système de pondération, le boosting, qui permettrait de construire une série de prédicteurs couvrant mieux, par rapport au bagging, l’espace de la représentation. La procédure est la suivante:

1) Au départ, on affecte à chaque individu le poids pw=(1/n) pour le premier échantillon, on a a1 = a (i=1). 2) On construit le classifieur Mi en utilisant les poids pw, ce qui permet d’isoler un ensemble d’individus mal classés en apprentissage a1,mc a, avec i= |ai,mc | / |a |, 3) Si i =0 ou i >= 0.5 alors FIN 4) Dans le cas contraire, on pondère chaque individu mal classé par la quantité i= i /(1- i ) pour constituer l’échantillon a(i+1) (les autres possèdent le poids 1/n).

5) On normalise tous les poids de manière à obtenir leur somme égale à 1. 6) On recommence l’étape 2 avec i=i+1. 7) On agrège alors les s classifieurs Mi en les pondérant par la quantité log (1/i), on affecte ainsi en généralisation la classe yk* à l ’individu w si: yk* = arg maxk i log (1/i)x[Mi(w)=yk] .

Ecueil P(Mi/w) = log (1/i) et donc i P(Mi/w) est différent de 1. Intuitivement, on comprend qu’on pénalise plus les mauvais classifieurs. En revanche, du point de vue de l’analyse probabiliste, la méthode est attaquable. Malgré cette réserve,les performances du boosting sont meilleurs que celle du bagging en moyenne.