Méthode des k plus proches voisins

Slides:

Advertisements

Présentations similaires

Module 5 : Implémentation de l'impression

Advertisements

La coupe des matériaux: identification des paramètres

Présenté à Par. 2 3Termes et définitions 3.7 compétence aptitude à mettre en pratique des connaissances et un savoir-faire pour obtenir les résultats.

Les points ECVET Outil de communication conçu à partir des documents développés pour l’organisation des réunions du projet.

A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting.

Classification et prédiction

Classification et prédiction

Regroupement (clustering)

Regroupement (clustering)

RECONNAISSANCE DE FORMES

Calculs de complexité d'algorithmes

Chapitre 5. Description numérique d’une variable statistique.

Modèle Entités-Associations

Les K plus proches voisins

CHAPITRE 6 Fonctions numériques.

Application de réseaux bayésiens à la détection de fumées polluantes

1. Les caractéristiques de dispersion. 11. Utilité.

1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.

Plan de formation Chapitre 1 : Présentation de SAP

Bouyekhf Rachid-Lyuboumir Gruitch Laboratoire SeT UTBM

Construction de Box-Plot ou diagrammes en boîtes ou boîtes à moustaches Construire une boîte à moustaches …

Modélisation des systèmes non linéaires par des SIFs

Intégration réfléchie de la calculatrice Expérimentation

Chapitre VII :Commande par retour d’état

Le modèle de Bayes Christelle Scharff IFI La classification de Bayes Une méthode simple de classification supervisée Basée sur lutilisation du Théorème.

Les attributs, leurs types, leurs valeurs Christelle Scharff IFI Juin 2004.

Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.

Christelle Scharff IFI 2004

Concepts avancés en mathématiques et informatique appliquées

Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble

ALGORITHMES RECURSIFS

Application des algorithmes génétiques

RECONNAISSANCE DE FORMES

Algorithmes Branch & Bound

FDD et Arbres de Décision

Journée thématique du GDR IFS « Réduction de modèle en IFS » ENSAM – Jeudi 18 mai 2006 Validation de l’approche de la réduction a priori - POD sur l'équation.

RECONNAISSANCE DE FORMES

Quelques Modèles de conception

Gestion de Fichiers Arbres B.

SCIENCES DE L ’INGENIEUR

Réseaux de neurones.

Courbes de Bézier.

Cours de Base de Données & Langage SQL

Algorithmes d ’approximation

Gilbert TOUT NEST QUE CALCUL Vous vous êtes certainement déjà demandé ce que voulait dire « se donner à 100% » ?

Module 2 : Préparation de l'analyse des performances du serveur

Les Arbres de décision ou régression

STT-3220 Méthodes de prévision

STT-3220 Méthodes de prévision

Évolution de schémas par classification automatique dans les entrepôts de données 3ème journée francophone sur les Entrepôts de Données et l'Analyse en.

Présentation de la méthode des Eléments Finis

Régression linéaire multiple : hypothèses & interprétation. Partie 2.

Classification automatique de textes

1 Modèle pédagogique d’un système d’apprentissage (SA)

1 Notations Asymptotiques Et Complexité Notations asymptotiques : 0 et  Complexité des algorithmes Exemples de calcul de complexité.

ANALYSE METHODE & OUTILS

Probabilités et Statistiques

Projet Télédétection Vidéo Surveillance Deovan Thipphavanh – Mokrani Abdeslam – Naoui Saïd Master 2 Pro SIS / 2006.

Rappels de statistiques descriptives

Algorithmique et programmation (1)‏

Classification : objectifs

Algorithmes Branch & Bound

Christelle Scharff IFI 2004

Arbres binaires et tables de hachage

Micro-intro aux stats.

Sujets spéciaux en informatique I PIF Approches non-paramétriques u Technique de classification NN u Technique de classification k-NN u Erreurs.

RAISONNEMENT À PARTIR DE CAS R à PC. PLAN DU TRAVAIL Introduction Introduction Raisonnement analogique Raisonnement analogique Principe et étapes de R.

Étude de l’écoulement moyen

CHAPITRE 2 LES SITUATIONS FONCTIONNELLES

Les dossiers patients d’un hôpital contiennent les attributs suivants : – nom – code postal – pression systolique en mm de mercure. – s’il est porteur.

Transcription de la présentation:

Méthode des k plus proches voisins Christelle Scharff IFI 2004

Généralités Apprendre par analogie Classifier ou estimer Recherchant d’un ou des cas similaires déjà résolus Classifier ou estimer “Dis moi qui sont tes amis, et je te dirais qui tu es” Pas de construction de modèle C'est l'échantillon d'apprentissage, associé à une fonction de distance et d'une fonction de choix de la classe en fonction des classes des voisins les plus proches, qui constitue le modèle

Algorithme Paramètre : le nombre k de voisins Donnée : un échantillon de m exemples et leurs classes La classe d’un exemple X est c(X) Entrée : un enregistrement Y 1. Déterminer les k plus proches exemples de Y en calculant les distances 2. Combiner les classes de ces k exemples en une classe c Sortie : la classe de Y est c(Y)=c

Exemple: Client loyal ou non K = 3

Distance entre 2 exemples

Distance Le choix de la distance est primordial au bon fonctionnement de la méthode Les distances les plus simples permettent d'obtenir des résultats satisfaisants (lorsque c'est possible) Propriétés de la distance: d(A,A)=0 d(A,B)= d(B,A) d(A,B)£ d(A,C) + d(B,C)

Distance entre numériques d(x,y) = |x-y| ou d(x,y) = |x-y|/dmax, où dmax est la distance maximale entre deux numériques du domaine considéré

Distance entre nominaux Données binaires : 0 ou 1. On choisit d(0,0)=d(1,1)=0 et d(0,1)=d(1,0)=1. Données énumératives : la distance vaut 0 si les valeurs sont égales et 1 sinon. Données énumératives ordonnées : elles peuvent être considérées comme des valeurs énumératives mais on peut également définir une distance utilisant la relation d'ordre. Exemple: Si un champ prend les valeurs A, B, C, D et E, on peut définir la distance en considérant 5 points de l'intervalle [0,1] avec une distance de 0,2 entre deux points successifs, on a alors d(A,B)=0,2 ; d(A,C)=0,4 ; ... ; d(E,E)=0,2.

Distance Euclidienne entre 2 exemples Soit X = (x1,..., xn) et Y = (y1,..., yn) deux exemples, la distance euclidienne entre X et Y est: 

Autres distances Sommation: Distance euclidienne ponderée: 

Pourquoi pondérer les attributs? Certains attributs peuvent dominer le calcul de la distance Exemple:

Choix de la classe

Choix de la classe Choix de la classe majoritaire Choix de la classe majoritaire pondérée Chaque classe d'un des k voisins sélectionnés est pondéré Soit V le voisin considéré. Le poids de c(V) est inversement proportionnel à la distance entre l'enregistrement Y à classer et V Calculs d’erreur

Exemple (1)

Exemple (2) K = 3

Mise en oeuvre de la méthode Choisir les attributs pertinents pour la tâche de classification considérée et les données Choix de la distance par champ et du mode de combinaison des distances en fonction du type des champs et des connaissances préalables du problème Choix du nombre k de voisins déterminé par utilisation d'un ensemble test ou par validation croisée Une heuristique fréquemment utilisée est de prendre k égal au nombre d'attributs plus 1

Discussion Interprétations: La classe attribuée à un exemple peut être expliquée en exhibant les plus proches voisins qui ont amené à ce choix La méthode peut s'appliquer dès qu'il est possible de définir une distance sur les champs La méthode permet de traiter des problèmes avec un grand nombre d'attributs. Mais, plus le nombre d'attributs est important, plus le nombre d'exemples doit être grand.

Discussion Tous les calculs doivent être effectués lors de la classification (pas de construction de modèle) Le modèle est l'échantillon Espace mémoire important nécessaire pour stocker les données, et méthodes d'accès rapides nécessaires pour accélérer les calculs Les performances de la méthode dépendent du choix de la distance, du nombre de voisins et du mode de combinaison des réponses des voisins. En règle générale, les distances simples fonctionnent bien.

Références Cours de modélisation et de fouilles de données de Prof. Ravi Mantena, New York University.