DEA instrumentation et commande Reconnaissance des formes Erreurs et coûts des algorithmes S. Canu http://psichaud.insa-rouen.fr/~scanu/RdF
des caractéristiques) Buts de la RdF D : Algorithme de Reconnaissance des Formes Une forme x (vecteur forme des caractéristiques) C’est la forme « y=D(x) » Nous voulons un algorithme de RdF performant
RdF et apprentissage 2 1 Les problèmes Ensemble d’apprentissage (échantillon) 3 A priori sur la nature de la solution 2 A : Algorithme d’apprentissage D : Algorithme de Reconnaissance des Formes Une forme x (vecteur forme des caractéristiques) C’est la forme « y=D(x) »
Grandes déviations précision confiance Fréquence Probabilité La moyenne n’est pas l’espérance prise en compte de l’enchantillonnage précision confiance Fréquence Probabilité d’erreur d’erreur
Grandes déviations Bienaimé Tchebitchev pour tout P Démonstration précision confiance
Grande déviation confiance = (4n)-1/2 précision -6 -4 -2 2 4 6 p : probabilité d’erreur Xi = 1 si on c’est trompé, = 0 sinon confiance = (4n)-1/2 précision
Application : comparaison d’algorithmes 1 (adaline) m exemples pour le test Algorithme 2 (perceptron) Donc l’algorithme 1 est meilleur que l’algorithme 2
Application : comparaison d’algorithmes 1 (adaline) m exemples pour le test Algorithme 2 (perceptron) Donc l’algorithme 1 est meilleur que l’algorithme 2 ssi
Application : Choix de la taille de l’ensemble test Algorithme 1 (adaline) m exemples pour le test Comment choisir m pour que probabilité d’erreur = ? m 0,05 0,1 500 0,01 50.000 Comment améliorer cette borne ?
Comment améliorer cette borne ? Améliorer l’inégalité des grandes déviations. Inégalité de markov Hoeffding erreur bornée Chernov Classification Bernstein Bennet
Grandes déviations généralisation de Bienaimé Tchebitchev pour tout P Démonstration Fonction positive h(x)>0
Lemme de Markov soit (A,,D) un espace probabilisé soit X une v.a. sur (A,) soit > 0 Alors : Démonstration comme Bienaymé Tchébychev
Comment choisir h(x) ? Hoeffding Bennett Bernstein
Récapitulons Approximation normale Hoeffding (1963) Bernstein (1946) Bennett (1962)
Taille de l’échantillon pour une précision
Exemples
Exemples 3200 1800 1000 600 500
Estimation de l’erreur d’un classifieur Avec un ensemble de test Avec des exemples validation croisée bootstrap Indépendamment des exemples il faut une borne
Estimation de l’erreur facture Beaucoup d’exemples : ensemble test DONNEES Peu d’exemples : le rééchantillonnage TEMPS Validation croisée Jackknife Bootstrap Analyse théorique : PRECISION
Ensemble test grandes déviations
Rééchantillonnage Validation croisée Jackknife Bootstrap
Bootstrap Quelle est la loi de ? (comment estimer le biais et la variance d’un estimateur ?) Idée : « observer » la distribution de on tire plusieurs échantillons on calcule plusieurs réalisations de nouvelle idée : créer des échantillons « fictifs » principe Tirage de n points AVEC REMISE X*1 X*2 X*3 … X*i … X*n X1 X2 X3 . Xi Xn X*1 X*2 X*3 … X*i … X*n Échantillon initial X*1 X*2 X*3 … X*i … X*n X*1 X*2 X*3 … X*i … X*n Young G.A. (1994) Bootstrap: More than a stab in the Dark, Statistical Science 9 pp 382-415
Bootstrap Tirage de n points AVEC REMISE X*1 X*2 X*3 … X*i … X*n X1 X2 . Xi Xn X*1 X*2 X*3 … X*i … X*n Échantillon initial X*1 X*2 X*3 … X*i … X*n X*1 X*2 X*3 … X*i … X*n Biais : Variance :
Exemple de Bootstrap n = 20; xi=rand(n,1); m = mean(xi); % 0.528 for b=1:B ind = round(n*rand(n,1)+1/2); mb(b)=mean(xi(ind)); end hist(mb); std(mb) % 0.0676 sqrt(1/12/n) % 0.0645 ind = 13 17 13 8 9 11 5 8 14 19 2 20 4 8 3 1 19 4 16 6 (Fractiles)
Validation par Bootstrap ^ r(x) estimateur P.M.C. + I. B sur l’échantillon initial (x ) Innovation équivalente : = x - r(x ) t ^ t t+1 t Erreur initiale Erreur BS 1 Echantillon BS 2 P.M.C. ( ( (b (B (x*1 ... (x*b (x* B r*1(x) ... r*b(x) ... r*B(x) t t t t t t t ^ ^ ^
Validation par Bootstrap Faire B fois (B 50) 1 : Générer un nouvel échantillon : x*b(t) ; t = 1:T x*b(t+1) = r(x*b(t)) + b(t) 2 : Apprendre ce nouvel échantillon : r*b(x) Biais b : (x(t+1) - r*b(x(t))) - (x*b(t+1) - r*b(x*b(t))) ^ ^ t=1 T-1 1 2 ^ 1 T-1 2 ^ t=1
Exemple de bootstrap
EP(w) < Cemp(w) + (VCdim(B), Cemp(w), n, ) Théorie des bornes Avec une probabilité (1 - a), pour tous les : EP(w) < Cemp(w) + (VCdim(B), Cemp(w), n, ) erreur < coût visible + complexité, nb d’exemples, précision mesure de complexité : Taille de B ? Nombre de paramètres ? dimension de Vapnik - Chervonenkis (pire des cas) e.g. Dim VC d'un ensemble de fonctions à seuil = taille du plus grand ensemble S pour lequel le système peut implémenter les 2|S| dichotomies sur S. Connu pour des systèmes simples e.g. syst. linéaires Systèmes complexes : approximations, bornes
Un exemple de grande déviation T une v.a. de bernouilli
Convergence uniforme
Borne sur l’erreur d’apprentissage Théorème (Vapnik & Chervonenkis, 1974)