T. Liu, A. W. Moore, A. Gray, K.Yang —la gang de CMU

Slides:



Advertisements
Présentations similaires
Introduction à l’analyse
Advertisements

Analyse d’items Ensemble de procédés statistiques dont le but est d ’évaluer la qualité d’un instrument de mesure et des items qui le composent. Ensemble.
La théorie du monde est petit
Classification et prédiction
Classification et prédiction
Technique des Surfels Surfels: Surface Elements as Rendering Primitives SIGGRAPH 2000 H.Pfiste, J.van Baar, M.Zwicker, M.Gross.
Efficient Simplification of Point-Sampled Surfaces
LIRMM 1 Journée Deuxièmes années Département Microélectronique LIRMM.
Scène de test (60000 polygones, 4000m2)
Métaheuristiques pour l’optimisation combinatoire
Inférence statistique
Nombre de sujets nécessaires en recherche clinique
Application de réseaux bayésiens à la détection de fumées polluantes
Les tests statistiques. Une situation à risques
Prédiction de sites dinteraction des protéines par analyse darbres phylogénétiques Stéfan Engelen Génomique Analytique, INSERM U511 Université Pierre et.
Les nouveaux programmes de seconde
Lancer de rayons interactif
Traitement Co-Séquentiel: Appariment et Fusion de Plusieurs Listes
Chapitre VIII. Introduction aux graphes
Classification automatique de documents
Apprendre à partir des observations
Cours 8 Arbres équilibrés
CHALLENGE ROADEF 2001 Résolution par une métaheuristique à base de recherche à voisinage variable et propagation par contraintes Fabrice BUSCAYLET Fabrice.
IFT-2000: Structures de Données
Heuristiques A. Introduction B. Recherche d ’une branche
Arbre Rouge Noir.
Classification Introduction k-NN Arbres de décision Réseaux baysiens
Indexation 1. Concepts de base 2. Arbre B 3. Indexes secondaires.
Comment créer une pyramide de population (pages 38 & 39 des photocopies)
RéALISER UN DESSIN D’OBSERVATION ET LE LéGENDER
Les fichiers indexés (Les B-arbres)
LES ARBRES IUP 2 Génie Informatique
Structures de données IFT-2000
Indexes à Arbres et Indexes à Hachage
CSI 4506: Introduction à l’intelligence artificielle
Indexes à Arbres et Indexes à Hachage
Algorithmes d ’approximation
Les arbres binaires.
Arbres en Prolog Un arbre binaire est une structure pouvant contenir des données. Chaque élément de l'arbre contient une donnée et a au plus un 'parent'
Gestion de Fichiers GF-10: Traitement Co-Sequentiel: Appariment et Fusion de Plusieures Listes (Base sur les sections de Folk, Zoellick & Riccardi,
Conception et analyse des algorithmes
Réseaux bayésiens: Inférence
Heuristiques C. Recherche de la meilleure branche . Branch And Bound
Exploration systématique de graphes
Graphes 1. Introduction 2. Définition 3. Représentation mémoire
Dév. d’application interactive III Recherche de chemin.
Structures de données avancées : Arbres Red-Black
Distribution géographique d’un réseau de relations interpersonnelles. Pauline Dedeurwaerder Promoteur : V. Blondel MAP22.
Cours de Systèmes d’exploitations
Algorithmes Branch & Bound
Arbres binaires et tables de hachage
LE FLOT MAXIMAL et LA COUPE MINIMALE
Sujets spéciaux en informatique I PIF Approches non-paramétriques u Technique de classification NN u Technique de classification k-NN u Erreurs.
CSI 4506: Introduction à l’Intelligence Artificielle
Alignement de génomes. MUMmer (1999) Utilise l’arbre des suffixe. Basé sur le principe de « Maximum Unique Match » (MUM). Étant donné deux génomes A et.
4ème journées PDM IA - Vendredi 7 mai 2004 Recherche en ligne pour la résolution de PDMs Laurent Péret, Frédérick Garcia INRA Toulouse, équipe Méthodes.
1 UMLV  FICHIERS Mémoire de masse découpée en blocs Fichier :liste chaînée de blocs, ou arbre de blocs (répertoires - fichiers)‏ Bloc d’éléments Bloc.
Structures de données avancées : Arbres B+ avec expansion partielle D. E ZEGOUR Institut National d ’Informatique.
Concepts avancés en mathématiques et informatique appliquées MAP-6014.
Le Jeu et l’intelligence artificielle
Extreemly Random Trees + SubWindows HOURRI Soufiane NAIT ABDELLAH OUALI Ismail OUFQIR Anouar OUSSAFI Mohammed.
PIF-6003 Sujets spéciaux en informatique I
Analyse des semis de point
4/25/2017 4:30 PM Arbres (2,4) CSI2510 CSI2510.
CSI25101 Tri Plus efficace. CSI25102 Tri récursif Le tri récursif divise les données de grande taille en deux presque moitiés et est appelé récursivement.
Traversées (Parcours ) de graphes
. Le B-Arbre.
1. Tri rapide ou Quicksort Principe : La méthode du Quicksort due au C.A. Hoare (1962) utilise les principes généraux de division et équilibrage. 2.
Algorithmes Branch & Bound Module IAD/RP/RO Master d ’informatique Paris 6 Philippe Chrétienne.
Les dossiers patients d’un hôpital contiennent les attributs suivants : – nom – code postal – pression systolique en mm de mercure. – s’il est porteur.
Transcription de la présentation:

« An Investigation of Practical Approximate Nearest Neighbor Algorithms » T. Liu, A. W. Moore, A. Gray, K.Yang —la gang de CMU (présentation par N. Chapados)

K plus proches voisins (KNN)

Pourquoi cet article? KNN naïf prend O(N) à trouver les plus proches voisins Méthodes de partitionnement de l’espace (kd-trees ou metric trees) promettent une borne inférieure de O(log N) Sujettes à la malédiction de la dimensionalité Cet article: KNN APPROXIMATIF Spill trees + recherche heuristique

Metric Trees Partition récursive de l’espace Points de pivot (dist maximale paire-à-paire) Frontière de décision L

Observation évidente : la balle Pour chaque nœud v, on peut construire une hypersphère qui contient tous les points du nœud Centre = v.center Rayon = v.r Remarque: les balles des enfants d’un nœud ne sont pas nécessairement disjointes

Chercher un voisin dans un Metric Tree Recherche en profondeur (depth-first search; DFS) Pour un nœud N —— explore gauche ou droite selon L —— conserve un candidat NN On élague les nœud qui ne peuvent pas contenir le point de recherche

Élaguage q r ||v.center-q|| NN v v.r Élague si

Recherche « défaitiste » UN SEUL chemin de la racine à la feuille Aucun backtracking Rapide: O(N) Approximatif Ne fonctionne pas très bien pour Metric Trees Si le point-test est près de la frontière d’une balle, il est souvent mal classifié

Spill Trees Améliore la précision de la recherche « défaitiste » Tau=zero <==> Metric tree

Recherche hybride Problème avec spill-trees: Profondeur varie énormément avec taille d’overlap t Introduit un seuil d’équilibre (balance threshold) r Cas typique: r=70% Si un enfant se retrouve avec plus de 70% des points du parent, alors on fixe t=0 et on marque le nœud comme non-overlapping Les nœuds « non-overlapping » sont conservés comme points de banchement dans recherche DFS Nœuds overlapping agissent comme des Cut en Prolog

Résultats (1) Perf. de spill-tree (speedup p/r à LSH) Aerial: N=275 465 , d=60 Corel_hist: N=20 000 , d=64 Corel_uci: N=68 040 , d=64 Disk_trace: N=40 000 , d=1024 Galaxy: N=40 000 , d=4000

Résultats (2)