AGREGATION DE CLASSIFIEURS La réduction de l’erreur en généralisation est l’une des principales motivations de l’apprentissage automatique. Breiman [1994, 1996] a montré formellement en s’appuyant sur la décomposition biais-variance qu’il était avantageux d’adopter la décision moyenne de plusieurs classifieurs plutôt que choisir la « meilleure ».
Sa méthode, le bagging, est maintenant une référence et son idée a inspiré de très nombreux chercheurs, non seulement pour en améliorer les performances, mais également pour obtenir une meilleure estimation de l’erreur en généralisation. Exemple : On génère différents arbres en perturbant l’échantillon d’apprentissage.
Définitions Le biais traduit l’incapacité du modèle à apprendre correctement le concept i.e. l’erreur commise systématiquement. La variance traduit la sensibilité de l’algorithme à l’échantillon d’apprentissage. On dit qu’une méthode souffre d’une grande variance si une faible perturbation dans l’échantillon implique d’importantes modifications du classifieur.
Décomposition pour une fonction d’erreur quadratique Régression classique On cherche à reconstruire un concept f(x) tel que y = f(x) + , où x représente un vecteur de variables exogènes, y la variable endogène et un bruit quelconque.
La fonction (x) est estimée sur un échantillon d’apprentissage a. Pour juger de son efficience, on utilise une fonction d’erreur quadratique qui s’écrit: Erreur(f) = Ea [(x)-f(x)]2 Soit maintenant a1, ……., as, s échantillons extraits de manière indépendante dans la population , produisant chacun un prédicteur i(x) (i=1 à s). Le prédicteur agrégé (x) est défini par: (x) = lim s--> (1/s) i(x) dont l’erreur quadratique s’écrit: Biais(f) = Ea [(x)-f(x)]2
Breiman a montré en 1996 que: Erreur(f) = Ea( 2) + Biais(f) + Vara(f) où Vara(f) = E [(x)- (x)]2 C’est la décomposition fondamentale de l’erreur en biais-variance pour le schéma de régression avec une erreur quadratique. Remarque: L’erreur moyenne du prédicteur agrégé sera toujours inférieure à l’erreur moyenne d’un seul prédicteur.
Décomposition pour une fonction d’erreur de type « 0-1 » La décomposition pour une fonction d’erreur de type «0-1» (0 si pas d’erreur) est le champ d’un large débat. Maintenant, la variable endogène y est qualitative et prend ses valeurs dans {y1,…,yk}.
La fonction d’erreur du classifieur s’écrit pour un individu w à classer: e(w) = 0 si (w)=f(w), 1 si (w)!=f(w). Si nous disposons de s échantillons d’apprentissage indépendants, l’erreur moyenne du prédicteur agrégé s’écrit: eA(w) = lim s--> (1/s) i ei(w) Cette quantité constitue également l’estimateur de la probabilité d’occurrence d’un mauvais classement sur un individu lorsqu’on utilise un prédicteur : E[(w)!=f(w)] = eA(w)
D’après Dietterich et Kong (1995), on peut relier le biais et la variance de la manière suivante: soit une observation w à classer, si eA(w) > 0.5, on considère que le prédicteur agrégé le classera mal. On définit: Biais(,w) = 1 si eA(w) > 0.5, 0 sinon. Var[,w] = E[(w)!=f(w)] - Biais [,w] Problème: variance négative! Justification: certains points seront mal classés par certains classifieurs, bien classés par d’autres. Ainsi, des occasionnels classements chanceux peuvent réduire l’erreur moyenne.
Diettrich et Kong ont constaté empiriquement que: Les techniques d’élagage jouent très peu sur la variance tout en accroissant le biais. Les techniques d’agrégation augmentent très légèrement le biais mais cela est compensé par une réduction drastique de la variance.
La décomposition de biais-variance de l’erreur a fortement séduit de nombreux chercheurs pour expliquer le rôle bénéfique de l’agrégation des classifieurs. Mais elle n’est pas la seule manière de prouver qu’un prédicteur agrégé est meilleure en généralisation. Heath et al [1993] ont produit une démonstration formelle de la réduction de la probabilité de mal classer sous certaines conditions en s’appuyant sur l’analyse de la combinaison de l’erreur sous l’hypothèse d’indépendance entre les classifieurs. Il apparaît au regard de cette analyse que l’effet de l’agrégation est multiplicatif, il améliore les bons classifieurs et détériore les mauvais.
Rappel: Formule des probabilités totales On sait qu’on affecte (normalement) à l’individu w la classe qui maximise sa probabilité à postériori: = arg max P(yk/w) Et, lorsqu’on veut classifier w avec un classifieur Mi, on choisit en général la classe qui maximise l’expression: = arg max P(yk/w, Mi )
i.e. on lui affecte la classe qui est la plus probable sachant la feuille (le sous-groupe) à laquelle il appartient. On a: P(yk/w) = i P(Mi /w)x P(yk/w, Mi ) Puisqu’il est impossible de générer tous les arbres, toute la problématique de l’agrégation des classifieurs repose sur le choix d’un ensemble de classifieurs Mi (un ensemble d’arbres,…).
Moyennage Le moyennage (averaging) représente, avec les arbres à options, une méthode à part dans toutes les stratégies d’agrégation de classifieurs: on ne génère qu’un seul arbre à partir des données, mais en révisant les probabilités d’affectation lorsqu’on a un individu à classer. Il existe plusieurs façons de construire l’ensemble des sous-arbres. Sur chacun d’eux, on peut recalculer les probabilités.
Arbres à options On part du constat que le choix de l’attribut de découpage sur un nœud se décide souvent à très peu de choses, un ou deux individus supplémentaires peuvent faire basculer la décision. Dès lors, plutôt que de décider en faveur de l’attribut qui maximise la mesure d’évaluation des segmentations, on propose de restituer l’incertitude en proposant plusieurs découpages alternatifs sur un nœud. L’arbre, par la suite, maintiendra ses branches en parallèle.
Construction aléatoire
Agrégation par apprentissage sur plusieurs échantillons différents Agrégation par apprentissage sur plusieurs échantillons différents. Le bagging Pour s classifieurs à produire, on effectue un tirage aléatoire avec remise dans a, puis on construit le classifieur sur l’échantillon ai ainsi constitué.
On remarquera que |ai | = |a | = n, mais qu’environ 37% des individus de a sont absents des ai . En effet, au premier tirage, un individu a (1-(1/n)) chances (probabilités) de ne pas être choisi. Au bout de n tirages indépendants et équiprobables, la probabilité qu’il n’ait jamais été choisi est: (1-(1/n))n e-1 0.368. Le schéma de tirage étant simple et avec remise, on conjecture que les Mi sont équiprobables au regard de l’individu w à classer, i.e.: P(Mi/w)=1/s
Résumé de la procédure de construction du prédicteur agrégé 1) Pour s replications, a) construire un échantillon ai de taille n en effectuant un tirage aléatoire avec remise dans a . b) construire le classifieur Mi à partir de ai
2) Affecter alors en généralisation à l’individu w la classe yk tel que: yk* = arg maxk i (1/s)x[Mi(w)=yk] ce qui correspond à un vote à la majorité simple. L’efficacité du bagging sur des fichiers benchmark n’est plus à démonter.
Le boosting Freund et Shapire (1995) ont proposé un système de pondération, le boosting, qui permettrait de construire une série de prédicteurs couvrant mieux, par rapport au bagging, l’espace de la représentation. La procédure est la suivante:
1) Au départ, on affecte à chaque individu le poids pw=(1/n) pour le premier échantillon, on a a1 = a (i=1). 2) On construit le classifieur Mi en utilisant les poids pw, ce qui permet d’isoler un ensemble d’individus mal classés en apprentissage a1,mc a, avec i= |ai,mc | / |a |, 3) Si i =0 ou i >= 0.5 alors FIN 4) Dans le cas contraire, on pondère chaque individu mal classé par la quantité i= i /(1- i ) pour constituer l’échantillon a(i+1) (les autres possèdent le poids 1/n).
5) On normalise tous les poids de manière à obtenir leur somme égale à 1. 6) On recommence l’étape 2 avec i=i+1. 7) On agrège alors les s classifieurs Mi en les pondérant par la quantité log (1/i), on affecte ainsi en généralisation la classe yk* à l ’individu w si: yk* = arg maxk i log (1/i)x[Mi(w)=yk] .
Ecueil P(Mi/w) = log (1/i) et donc i P(Mi/w) est différent de 1. Intuitivement, on comprend qu’on pénalise plus les mauvais classifieurs. En revanche, du point de vue de l’analyse probabiliste, la méthode est attaquable. Malgré cette réserve,les performances du boosting sont meilleurs que celle du bagging en moyenne.