Les K plus proches voisins

Slides:



Advertisements
Présentations similaires
Thomas G. Dietterich Approximate Statistical Tests for Comparing
Advertisements

VII) Formalisme Quantique
RECONNAISSANCE DE FORMES
Les tests d’hypothèses (I)
TESTS RELATIFS AUX CARACTERES QUANTITATIFS
Inférence statistique
C1 Bio-statistiques F. KOHLER
Comparaison de deux moyennes observées
Inférence statistique
Comparaison d'une distribution observée à une distribution théorique
Comparaison de plusieurs moyennes observées
Tests non paramétriques
Les TESTS STATISTIQUES
Nombre de sujets nécessaires en recherche clinique
Cours d'algorithmique 11 / Intranet 1 9 janvier 2006 Cours dAlgorithmique N P - complétude.
Les TESTS STATISTIQUES
Raisonnement à Partir de Cas
Les Tests dhypothèses. 1)Définition Un test cest une méthode qui permet de prendre une décision à partir des résultats dun échantillon.
Échantillonnage-Estimation
Les tests d’hypothèses
Modélisation des systèmes non linéaires par des SIFs
Probabilités et statistique en TS
Chapitre VII :Commande par retour d’état
Méthodes d‘optimisation en finance
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
Tests de comparaison de moyennes
Chapitre 2 Les indices.
Méthodes de Biostatistique
RECONNAISSANCE DE FORMES
Nombre de sujets nécessaires en recherche clinique
Méthode des k plus proches voisins
DEA Perception et Traitement de l’Information
DEA Perception et Traitement de l’Information
RECONNAISSANCE DE FORMES
L’Analyse de Covariance
Modeles Lineaires.
La corrélation et la régression
Théorie… Inférence statistique: étude du comportement d’une population ou d’un caractère X des membres d’une population à partir d’un échantillon aléatoire.
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Régression linéaire (STT-2400)
ÉCHANTILLONNAGE AU FIL DES PROGRAMMES Stage : nouveaux programmes de première Novembre 2011.
La régression multiple
Filtrage de Kalman et aperçu probabiliste
2. Modèles linéaires.
ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage
Prise de decision en avenir incertain.
Test d'hypothèse pour des proportions:
Classification : objectifs
STATISTIQUES DESCRIPTIVES
Micro-intro aux stats.
TD4 : « Lois usuelles de statistiques »
STATISTIQUES – PROBABILITÉS
Intervalles de confiance pour des proportions L’inférence statistique
Sujets spéciaux en informatique I PIF Approches non-paramétriques u Technique de classification NN u Technique de classification k-NN u Erreurs.
Vers une loi à densité. Masse en gEffectifFréquence % [600,800[1162,32 [800,900[3957,9 [900,1000[91818,36 [1000,1100[124824,96 [1100,1200[121824,36 [1200,1300[71514,3.
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Méthode des moindres carrés (1)
ANNEE UNIVERSITAIRE :2010/2011
Concepts avancés en mathématiques et informatique appliquées MAP-6014.
Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003.
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
Analyse des semis de point
Probabilités et statistique MQT-1102
1_Introduction Toute mesure est entachée d’erreur. Il est impossible d’effectuer des mesures rigoureusement exactes. Pour rendre compte du degré d’approximation.
ECHANTILLONAGE ET ESTIMATION
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Introduction aux statistiques Intervalles de confiance
C9-1 Modèles décisionnels en gestion Introduction Les modèles linéaires La résolution des modèles linéaires continus La programmation linéaire en nombres.
Réseaux bayésiens pour la recommandation au sein d’un configurateur Anr BR4CP Mathieu Serrurier IRIT.
Processus ponctuels Caractéristiques et Modèles de répartitions spatiales.
Transcription de la présentation:

Les K plus proches voisins L’ARTICLE DE BASE 1) Discriminatory Analysis: NonParametric Discrimination: Consistency Properties by Evelyn Fix and J.L. Hodges University of California, Berkeley En 1951 ... Une variable aléatoire Z de valeur z est distribuée dans un espace soit selon une distribution F soit selon une distribution G. Le problème est de décider, sur la base de z quelle est la distribution de Z. Le problème peut se reformuler selon plusieurs hypothèses: 1)- F et G sont complètement connues 2)- F et G sont connues sauf quelques paramètres 3) -F et G sont complètement inconnues

Situation 1: F et G complètement connues Il s'agit de la décision bayésienne, avec une procédure de ratio de probabilité qui s'exprime sous la forme: f(z)/g(z)>c --> F f(z)/g(z) < c --> G f(z)/g(z) = c --> ? Le choix de c est logiquement 1, mais peut être également choisi de façon à ce que les probabilités d'erreur soient égales. (procédure minimax)

Situation 2: Distribution incomplètement connues Il s'agit d'une estimation paramétrique pour se ramener au cas précédent: Soient: X1,X2,..., Xm Echantillon pour F et Y1,Y2,..., Yn Echantillon pour G Les distributions F et G sont supposées connues dans leur forme mais certains paramètres nommés q sont inconnus. Les distributions correspondantes à un téta donné sont Fq et Gq.On utilise les échantillons pour estimer q par une q^ et on utilise alors les distributions Fq^ et Gq^ comme dans la situation 1. ( exemple de la fonction linéaire discriminante ).

Situation 3: F et G inconnues On estime directement la densité de probabilité en comptant les plus proches voisins de l'observation dans les échantillons disponibles

Situation 3 : suite Les auteurs utilisaient une mesure de Lebeague et la distance Euclidienne. L’erreur de classement ou plutôt la probabilité d'erreur R est bornée de la manière suivante : R*  R  2 R* (1- R*) avec R* la probabilité d’erreur de Bayes. Avec une infinité de données la probabilité pourrait seulement être réduite d'au maximum 1/2. Il faut noter aussi que la certitude R*=0 implique R=0 et que l'ignorance complète R*=1/2 implique R = 1/2, dans les cas extrêmes les erreurs NN et Bayes sont donc identiques.

Algorithme général La règle des K plus proches voisins peut donc s’exprimer de la manière suivante : Soient {(X1,q1),(X2,q2),...,(Xn,qn)} données, et {Y,?} observé { initialiser les k plus proches voisins avec une distance saturée; Pour ( chaque élément Xi de l'échantillon attention !! { Calculer la distance d(Xi,Y); Insérer (si nécessaire) Xi dans les k plus proches voisins; } Déterminer la classe C la plus représentée dans les k plus proches voisins; Si C est suffisamment représentée et si d(Y, « C ») < dmax Alors le résultat est acceptable Sinon Y n'est pas classable.