La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Thomas G. Dietterich. 2 Plan La position des tests statistiques en apprentissage 5 tests : Le test de McNemar Le test des différences de proportions Le.

Présentations similaires


Présentation au sujet: "Thomas G. Dietterich. 2 Plan La position des tests statistiques en apprentissage 5 tests : Le test de McNemar Le test des différences de proportions Le."— Transcription de la présentation:

1 Thomas G. Dietterich

2 2 Plan La position des tests statistiques en apprentissage 5 tests : Le test de McNemar Le test des différences de proportions Le t-test reéchantillonné couplé (resampled paired t-test) Le k-fois validation croisée t-test (k-fold cross-validated paired t-test) Le 5x2cv paired t-test Comparaison sur des données Artificielles réelles

3 3 Rappel sur les tests dhypothèses IL sagit de tester une hypothèse H 1 contre une hypothèse H 0 en utilisant une variable de décision X qui doit être une statistique. Le comportement de X doit être connu sous H 0 ; On se donne une région dacceptation R ok de lhypothèse H 0 pour X ; α erreur de première espèce (ou niveau du test) ; β erreur de seconde espèce ; 1-β est la puissance du test ; H 0 vraieH 1 vraie P(H 0 décidée) = P(X R ok ) 1-αβ P(H 1 décidée) = P(X R ok ) α1- β

4 4 Les statistiques en apprentissage

5 5 Les sources de problèmes Sélection des données de test. Sélection des données dapprentissage (pbms avec arbres comme CART). Certains algorithmes ont une variabilité interne (ex : rétropropagation) Erreurs détiquetage de la base dapprentissage Un test idéal devrait prendre en compte tous ces points lors de létablissement de sa région dacceptation

6 6 Notations Soit X lensemble des points de la population. Il ny a que deux classes possibles f, fonction cible telle que x X, f(x) est la classe de x. Pour apprendre, on dispose : dun ensemble dexemple S extraits de X selon une distribution fixée D. Typiquement on divisera S en R et T R « ensemble dapprentissage » T « ensemble de test » On notera A et B les deux algorithmes que lon souhaite comparer. le classifieur issu de lapplication de A sur R le classifieur issu de lapplication de B sur R Lhypothèse nulle H 0 sera « et ont le même taux derreur sur X »

7 7 Test de McNemar On effectue la division de S en R et T (typiquement répartition 2/3, 1/3) On utilise A et B pour obtenir deux classifieurs On construit la table de contingence n 00 nombre dexemples mal classés par et n 01 nombre dexemples mal classés par mais bien classés par n 10 nombre dexemples mal classés par mais bien classés par n 00 nombre dexemples bien classés par et Sous H 0 on attend : Test de 2 a 1 ddl Rejet au niveau 5% si Pas de mesure de la variabilité de lensemble dapprentissage Pas de mesure de la variabilité interne de lalgorithme La mesure se fait sur des ensemble de taille |R| et non |S| n 00 n 01 n 10 n 11 n 00 (n 01 + n 10 )/2 n 11

8 8 Différence de proportions Principe : p A =(n 00 +n 10 )/n : proportion dindividus mal classés par A p B =(n 00 +n 01 )/n : proportion dindividus mal classés par B On suppose que A a une probabilité p A de mal classer ; le nombre derreurs suit donc une loi binômiale. De même pour B. Si n est assez grand on peut les approximer par des lois normales donc Si on suppose que p A et p B sont indépendants p A -p B suit une loi normale. Sous H 0 cest une avec p=(p A +p B )/2 donc on rejette H 0 (test au niveau 5%) si Problèmes : p A et p B sont mesurés sur T tous les deux et ne sont pas indépendants Variations dus à lensemble dapprentissage et à lalgorithme Mesure des performances sur |R| et non sur |S| Remarques : Rq : Il existe pour ces 2 tests des variantes sans approximations normales Rq : on peut lever la dépendance en utilisant

9 9 Encart : test de Fisher-Snedecor Ce test sapplique à deux échantillons gaussiens de même variance (à tester) le 1 er est tiré selon une N(m 1, ) (n 1 tirages )et le 2 ème une N(m 2, ) (n 2 tirages ) H 0 : « m 1 =m 2 » On sait que (n i s i 2 / 2 ) suit un 2 à (n i -1) ddl (s i écart type estimé dans les données) La moyenne des x i suit une loi normale décart type ( / n i ) (n 1 s n 2 s 2 2 )/ 2 suit un 2 à (n 1 +n 2 -2) ddl La moyenne des x 1 moins la moyenne des x 2 suit une loi normale de moyenne m 1 -m 2 et décart type (1/n 1 +1/n 2 ). Pour éliminer (inconnu) on utilise On rejette H 0 si |T|>cste tq P(|T|>cste / m 1 =m 2 )< Si la taille de léchantillon est suffisamment grande légalité des variances nest plus nécessaire (qqes dizaines de mesures)

10 10 Resampled t-test Principe : Un essai i (on en réalise k) est une division de S en R (i) et T (i) A chaque essai i on estime p A (i) et p B (i) Si on suppose que les différences p (i) = p A (i) - p B (i) sont tirées indépendamment selon une loi normale, on peut utiliser un test de Student sur t (k-1 ddl): Pour 30 essais on rejette (test au niveau 95%) si |t|> Problèmes : p (i) na pas une distribution normale (p A (i) et p B (i) ne sont pas indépendants) Les p (i) ne sont pas indépendants (à cause des intersections non vides des R (i) et T (i) ).

11 11 k-fold cross-validated paired t-test Principe : Au lieu de diviser S en deux, on le divise en k ensembles disjoints de même taille : T 1,…,T k On fait k essais. Dans lessai i T i est lensemble de test et tous les autres T j sont utilisés pour lapprentissage. On utilise la même statistique t que précédemment. Avantage : Chacun des ensembles de tests sont indépendants les uns des autres Problème : les ensembles dapprentissages se chevauchent beaucoup

12 12 5 x 2cv paired t-test Principe : Dans le k-cross validated t-test, la variance nest que légèrement sous-estimée à cause des chevauchements des ensembles dapprentissage. Par contre lévaluation des proportions (numérateur) est occasionnellement mauvais (grand) Si le numérateur est remplacé par celui dune 2-fold cross validation, expérimentalement, les choses se passent mieux. On effectue 5 répétitions dun 2-fold cross-validated test. A chaque répétition i, S est divisé en S i,1 et S i,2. On obtient 4 estimateurs de taux derreur : p i,A (1) et p i,B (1) (entraînés sur S 1 testés sur S 2 ) p i (1) = p i,A (1) - p i,B (1) p i,A (2) et p i,B (2) (entraînés sur S 2 testés sur S 1 ) p i (2) = p i,A (2) - p i,B (2) soit s i lécart type estimé dans la i ème réplication On définit la statistique : Sous H 0 elle suit approximativement un Student à 5 degrés de libertés. (On utilise lapproximation dune binômiale par une loi normale et on suppose lindépendance deux à deux des p i (1 ) et p i (2) )

13 13 Simulations dalgorithmes

14 14 Erreur de première espèce 1000 tests ; 300 exemples/test ; niveau fold cross validated test ; taux derreur décalé de [-0.02,0.02] aléatoirement Pas de simulation de la variation des ensembles dapprentissage ni de la dépendance entre les données. Erreur de première espèce : on rejette H 0 alors quelle est vraie

15 15 Pourquoi ? Tout est dans la forme de la région dacceptation. Identiques du point de vue du test des proportions mais pas du test de McNemar Mauvaises performances du Resampled t-test sont dues au fait que les sous ensembles peuvent ne pas contenir le même nombre de bien classés et de mal classés assez facilement car les régions de performances des deux algorithmes sont différentes

16 16 Sur des données réelles Comparaison entre C4.5 et plus proches voisins sur 3 jeux de données. Il faut « endommager » les algorithmes pour quils aient les mêmes performances. Pour les plus proches voisins, on perturbe la métrique (2 premiers jeux de données) Pour C4.5 on le force à faire des erreurs à un taux spécifié.

17 17 Puissance (1) Cest la probabilité de rejeter H 0 alors que H 0 est fausse On fait varier entre 0 et 1 pour que C4.5 et NN aient les mêmes performances.

18 18 Puissance (2)

19 19 Conclusion Tous les tests statistiques font des approximations qui peuvent se révéler gênantes Pour conclure sur le fait que A et B ont des performances différentes, Il est recommandé dutiliser soit le 5x2cv t-test (si lalgorithme dapprentissage peut-être répété 10 fois) ou le test de McNemar. Si le but est de conclure que A et B ont des performances identiques, cest 10-fold cross-validated t-test qui doit être utilisé. Resampled t-test ne devrait pas être utilisé (erreur de type I élevée)


Télécharger ppt "Thomas G. Dietterich. 2 Plan La position des tests statistiques en apprentissage 5 tests : Le test de McNemar Le test des différences de proportions Le."

Présentations similaires


Annonces Google