Bertrand Jouve Université Lyon 2

Slides:



Advertisements
Présentations similaires
MOT Éditeur de modèles de connaissances par objets typés
Advertisements

STATISTIQUE INFERENTIELLE L ’ESTIMATION
A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting.
Data Mining.
Classification et prédiction
Classification et prédiction
Regroupement (clustering)
Efficient Simplification of Point-Sampled Surfaces
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Apprentissage supervisé à partir de séquences
Regroupement (clustering)
RECONNAISSANCE DE FORMES
Site WEB: communication grand publique
Collecte de données F. Kohler.
Extraction des connaissances dans les bases de données
INTRODUCTION Grande quantité de données
LES RESEAUX DE NEURONES
Application de réseaux bayésiens à la détection de fumées polluantes
Les TESTS STATISTIQUES
Visualisation d’information interactive 5 : Graphes
UML (Unified Modeling Langage)
Christelle Scharff IFI Juin 2004
Classification automatique de documents
MRP, MRP II, ERP : Finalités et particularités de chacun.
Traitement de données socio-économiques et techniques d’analyse :
Concepts avancés en mathématiques et informatique appliquées
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
Apprendre à partir des observations
Etude des Technologies du Web services
SECURITE DU SYSTEME D’INFORMATION (SSI)
Initiation à la conception de systèmes d'information
Administration de bases de données spatiales avec SavGIS
Méthode des k plus proches voisins
Groupe 1: Classes de même intervalle
Construction de modèles visuels
La segmentation
RECONNAISSANCE DE FORMES
DEA Perception et Traitement de l’Information
La Classification
Comprendre la variation dans les données: Notions de base
SYSTEMES D’INFORMATION
MOT Éditeur de modèles de connaissances par objets typés
Les réseaux de neurones
Algorithmes d ’approximation
La statistique Définitions et méthodes. La statistique est la branche des mathématiques qui collecte, classe, analyse et interprète des données afin den.
RECHERCHE COMMERCIALE
Le forage de données ou data mining
Interprétation automatique
Apprentissage par arbre de décision
La veille numérique : un outil pour s'informer intelligemment &
Hatainville Les Moitiers d’Allonne – Tel : Website : stratic.online.com La démarche projet Mars 2001.
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
Classification : objectifs
Le contenu est basé aux transparents du 7 ème édition de «Software Engineering» de Ian Sommerville«Software Engineering» de Ian Sommerville B.Shishedjiev.
Christelle Scharff IFI 2004
Arbres binaires et tables de hachage
Fast and Furious Decision Tree Induction
Arkhênum Patrimoine du Futur. Répartitions par types d’erreurs mineures.
Modèles Mathématiques et représentation discrètes pour la description des images couleur Luc Brun.
Olivier Leclair, Université Laval Un algorithme de fouille dans une représentation des données par objets: une application médicale SIMON, Arnaud.
SYSTEMES d’INFORMATION séance 1 : Introduction et définitions
SVM machine à vecteurs de support ou séparateur à vaste marge
Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Apprentissage Interactif Apprentissage avec SpamAssassin UFR de Sciences Département d’Informatique.
Knowledge discovery in Databases (KDD)
TEXT MINING Fouille de textes
GPA-779 Application des systèmes experts et des réseaux de neurones.
Vers l’exploitation de grandes masses de données Encadré par : Mme L.Lamarini Présenté par: Rhaz Yassine Smiri Safae Un article de: Raphaeil Féraud,Maroc.
INTRODUCTION AUX BASES DE DONNEES
Classification-Segmentation
Transcription de la présentation:

Bertrand Jouve Université Lyon 2 Fouille de données Fouille de graphes Eléments de cours - Master 2 Bertrand Jouve Université Lyon 2 2011-2012

Sources Ce support de cours a été réalisé en partie à l’aide de plusieurs documents accessibles en libre accès sur le web ou de notes de cours de collègues : Vipin Kumar : http://www-users.cs.umn.edu/~kumar/dmbook/index.php#item3 Philippe Leray : http://asi.insa-rouen.fr/enseignement/siteUV/dm/Cours/clustering.pdf Taofiq Dkaki : communications personnelles Ricco Rakotomalala : http://eric.univ-lyon2.fr/~ricco/cours/supports_data_mining.html M. Cottrell et P. Letremy : http://samos.univ-paris1.fr/archives/ftp/preprints/samos173.pdf Machine Learning Group (Austin) : http://www.cs.utexas.edu/~mooney/cs391L/slides/svm.ppt Mingyue Tan : http://www.iro.umontreal.ca/~pift6080/H09/documents/papers/svm_tutorial.ppt

Plan 1) Organisation des séances 2) Eléments de bibliographie et logiciels 3) Qu’est ce que la fouille de données ? data (cleaning, preprocessing), visualisation. 4) Méthodes de fouille de données Prédictive/supervisée et descriptive/non-supervisée 5) Challenges 6) Fouille de graphes et système complexes

1) Organisation des séances 2 séances de cours (2*3H) : exposé général sur la fouille de données 2 séances de cours/TD (2*1H45) sur la fouille de graphes à partir d’exemples 5 séances de restitution d’articles 1 séance de 2H pour le contrôle des connaissances.

2) Eléments de bibliographie et logiciels De nombreuses ressources sur le web : Knowledge Discovery in Databases(KDD), Extraction de connaissances dans les bases de données (ECD), Datamining, fouille de données, … http://www.math.ccsu.edu/larose/DM%20resources.htm http://www.kdnuggets.com/ http://www.web-datamining.net/

Des logiciels R SAS http://www.rdatamining.com/

  Usama M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth, Ramasamy Uthurusamy (1996) Des livres J. Han, M. Kamber (2001)   Stéphane Tufféry (2005) Ludovic Lebart, Marie Piron, Alain Morineau (2006)

3) Qu’est ce que la fouille de données ?

EXEMPLES commerciaux http://www.amazon.fr : Le panier de la ménagère : Déterminer les produits qui sont souvent associés dans un chariot de supermarché • traitement des tickets d’achats → corrélation Bières / couches le samedi → réorganisation des rayonnages http://www.amazon.fr : Quels sont les livres qui pourraient être achetés par le visiteur ?

EXEMPLES scientifiques Qualité de vie (réchauffement climatique) • extraction d’information sur la pollution atmosphérique, sonore, … sur la gène ressentie, … → cartographie fine, modèles, prévision → décisions publiques, aménagements, Modèles sociétaux nouveaux • webmining, analyse des réseaux sociaux (Facebook) → communautés dynamiques et multi-échelles → amélioration des modes de communication et d’organisation Génome •Les tumeurs du cerveau représentent la 1er cause de mortalité de cancer chez les enfants → Gene expression database

Encyclopædia Britannica Définition Encyclopædia Britannica “data mining, also called knowledge discovery in databases,  in computer science, the process of discovering interesting and useful patterns and relationships in large volumes of data. (…) Data mining is widely used in business (insurance, banking, retail), science research (astronomy, medicine), and government security (detection of criminals and terrorists).” Extraction automatique ou semi-automatique de connaissances cachées, potentiellement utiles, à partir de données stockées dans des grandes bases de données.

Fouille de données = extraction de connaissances à partir des données (ECD) = Data Mining = Knowledge Data Discovery (KDD) « Comment trouver un diamant dans un tas de charbon sans se salir les mains » Compréhension du domaine d’application Création du sous-ensemble cible de données Nettoyage des données (erreurs, données manquantes, valeurs atypiques) Transformation des données (normalisation, linéarisation, découpage en classes, compression) Explicitation de l’objectif et de la stratégie d’analyse Choix des méthodes Test, en précisant les critères Exploitation Diffusion DATA MINING expert (Fayyad, 1997) analyste décideur

Méthode standardisée CRISP-DM Cross-Industry Standard Process for Data Mining CRISP-DM découpe le processus de data mining en six phases principales : Connaissance du Métier Connaissance des Données Préparation des Données Modélisation Évaluation Déploiement Shearer C. The CRISP-DM model: the new blueprint for data mining [archive]. J Data Warehousing 2000;5:13—22.

Ce que la fouille de données n’est pas : Chercher un numéro de téléphone dans un annuaire téléphonique Effectuer une recherche avec google Ce que la fouille de données est : Analyser des résultats de requêtes effectuées avec google. Analyser la structuration des pages d’un annuaire téléphonique

Fouille de données et statistique Historiquement la fouille de données est la rencontre de l’intelligence artificielle et de la statistique : les entreprises veulent exploiter, valoriser, les masses de données qu’elles archivent (data warehouse = entrepôts de données) à des fin de marketing et de prise de décision. IA Perceptron multicouche Reconnaissance de forme Réseaux bayésiens, Règles d’induction, … CROISER LES METHODES Statistique Classification hiérarchique Nuées dynamiques, Régression linéaire, … Informatique : Evolution des Langages d’interrogation, Environnement hétérogène et sites distants, Fiabilité, sécurité, stockage distribué, temps réel

Fouille de données et statistique Les différences à dépasser : Données a priori : dans la plupart des problèmes de data mining, les données sont préalables à l’étude, recueillies parfois à d’autres fins. En statistique, la démarche de recueil des données (planification expérimentale, sondage) fait partie intégrante du processus. Taille des données : de nombreuses méthodes statistiques classiques ne sont pas adaptées à des volumes de millions de données. Automatisation : la statisticien reste au plus près des experts pour s’assurer une bonne compréhension, une cohérence , une intégrité des données. Les promoteurs de logiciels de FDD isolent les deux par des interfaces différentes. Validation : l’évaluation de l’erreur est primordiale dans certains domaines (pharmacie, aéronautique), et la question de la représentativité des données devient centrale. Objectifs disciplinaires : preuve d’un côté et efficacité opérationnelle de l’autre.

Pourquoi la FDD maintenant ? http://genomesonline.org we see the doubling of the numbers of base pairs in GenBank every 18 months Wikipedia – Google analytics (http://stats.wikimedia.org)

Pourquoi la FDD maintenant ? http://www.allfacebook.com/google-vs-facebook-2010-09

Pourquoi la FDD maintenant ? Google : Statistiques concernant l’exploitation du bois Vitesse de transmission des réseaux (Zighed D.A., Rakotomalala R.,2003.) R. Grossman, C. Kamath, V. Kumar (2001)

Conclusions intermédiaires Les questions de fouille de données sont maintenant cruciales dans beaucoup de domaines. Le problème aujourd’hui n’est pas un manque de données mais un manque d’analystes et de méthodes plus performantes. Il ne faut pas croire que les logiciels sont « plug-and-play » et fournissent des « solutions » sans nécessité de l’être humain : les logiciels donnent toujours des résultats il est facile de faire de la « mauvaise fouille de données » et cela peut « coûter » très cher. La plupart des erreurs proviennent d’une mauvaise utilisation des logiciels « boîte noire ».

a. Les données

Qu’est ce qu’une donnée ? Attributes Une collection d’objets et leurs attributs ou caractéristiques Type d’attribut : Qualitatif Nominal Ordinal Quantitatif Discret Continu Objects

Des contraintes de spécification des données : Données spatiales : images satellitaires, données géo-référencées, … Données textuelles : entretiens, blogs, courrier électronique, … Données relationnelles : World Wide Web, Réseaux Sociaux, … Données temporelles : flux de circulation, bourse, … Données multimédia : photos, vidéo, … Données séquentielles : génome, …

Les données peuvent ne pas être de bonne qualité Qualité des données : Les données peuvent ne pas être de bonne qualité Bruitées ou comprenant des individus aberrants : enregistrement sonore par un mauvais enregistreur, photo mal sauvegardée, manuscrit peu lisible, renard dans un poulailler… Avec des valeurs manquantes : information non non collectée (personne refusant de répondre à un questionnaire), protocole expérimental défaillant ou coûteux, … Problème de Vrai/Fausse duplication : homonymies dans les réseaux sociaux, même personne avec différente adresses mail, …

Ces questions sont souvent difficiles et ne sont pas à sous-estimer. Solutions : Pour les données manquantes, on peut Éliminer les individus à problème Estimer les valeurs manquantes Ignorer les valeurs manquantes pour l’analyse Remplacer par toutes les valeurs possibles Pour les données dupliquées, on peut mettre en œuvre un processus de détection des individus dupliquées Attention : on peut être très intéressé par les individus « aberrants » s’ils sont interprétables Détection d’intrusion dans les réseaux informatiques Détection de fraude sur cartes de crédits Ces questions sont souvent difficiles et ne sont pas à sous-estimer.

Prétraitements des données Agrégation d’attributs ou d’individus Réduire le nombre d’attributs ou d’individus, Opérer un changement d’échelle pour diminuer la variabilité ou augmenter le nombre d’individus par attributs Jours agrégées en semaines, mois, années. © Tan et al. (2004) Standard Deviation of Average Monthly Precipitation (Australie) Standard Deviation of Average Yearly Precipitation

Prétraitements des données Échantillonnage : L'objectif est de construire un échantillon tel que les observations pourront être généralisées à l'ensemble de la population. Question type : est-ce qu’un échantillon de taille n suffit ? Souvent nécessaire pour des questions de coût ou de temps calcul. Notion d’échantillon représentatif Théorie statistique de l’échantillonnage : tirage aléatoire avec ou sans remise, tirage stratifié, …

Prétraitements des données Réduction de dimension : Questions de coût ou de temps calcul. Améliorer la visualisation des données Éliminer le bruit On utilise par exemple les techniques d’ACP, mais aussi les techniques non linéaires. Nuzillard et al. (2003) Analyes multi-spectrale d’une section de grain d’orge (19 dimensions)

Prétraitements des données Sélections d’un sous-ensemble d’attributs Permet aussi de réduire la dimension Lorsque l’information contenue dans un attribut est déjà présente dans d’autres attributs et qu’il n’y a pas nécessité de l’isoler. Exemple : prix de vente d’un produit et TVA Lorsque l’attribut n’est pas utile pour l’étude Exemple : Dans une étude de circulation des usagers sur un campus universitaire, la couleur des yeux. Pour des raisons de confidentialité Exemple : le nom des individus

Prétraitements des données Création ou transformation d’attributs Combinaison d’attributs Transformation dans un nouvel espace Exemple: transformée de Fourier Discrétisation Certaines méthodes ne conviennent que pour des données à valeurs discrètes. Exemples : valeurs de températures et catégories « froid/tiède/chaud »

b. Visualisation (non détaillée)

La visualisation revêt deux aspects : Pour présenter les résultats des calculs dans un format plus facilement appréhendable par l’humain. Comme étape au cœur du data mining, permettant une présentation des données qui permettent à l’humain une exploration visuelle. L’œil humain est extrêmement sensible à des discontinuités de couleurs L’œil humain est capable de détecter des formes inhabituelles, …

Les outils classiques de statistique

Température à la surface de la terre en juillet 1982 (SST) for July 1982 (dizaines de milliers de points)

Evolution de 2 communautés de l’internet Aynaud & Guillaume (2010)

L’œil humain est un « outil » très puissant mais attention : Illusion d’Ehrenstein Triangle de Kanizsa The café wall The café wall

4) Méthodes de fouille de données

2 types de méthodes Méthodes descriptives (ou non supervisées) : objectif : trouver des « formes » interprétables qui permettent de décrire les données sans référence à une base d’exemples. C’est donc la construction d’un modèle et la découverte de relations dans les données. clustering (K-means, CAH), règles d’associations, SOM, … Méthodes prédictives (ou supervisées) : objectif : à partir d’exemples, inférer sur les données pour réaliser des prédictions. En ce basant sur un ensemble d’exemples, on infère par exemple les classes d’appartenance d’autres individus. Les classes sont donc ici connues. classification, régression, k-ppv …

Méthodes descriptives Clustering Règles d’association

Clustering Définition : étant donné un ensemble d’individus chacun ayant un certain nombre d’attributs, et une mesure de similarité entre eux deux à deux, trouver des classes telles que : Les indices de similarités entre individus d’une même classe soient faibles Les indices de similarités entre individus de classes différentes soient fortes. Expression in Exp 1 Expression in Exp 2 Proteins

Notion de similarité Distance : on appelle distance sur un ensemble E, une application telle que : Séparation Symétrie Inégalité triangulaire Une distance est dite ultra-métrique si de plus Une distance est euclidienne si elle peut-être représentée dans l’espace euclidien Rn sans déformation. Exemple A1 A2 A3 A4 A5 A6 I1 1 I2 I3 I4 I5 I6

Notion de similarité Similarité : une similarité est une application qui a les propriétés de la distance sauf éventuellement l’inégalité triangulaire. Ecart : un écart est une application qui a les propriétés d’une similarité sauf éventuellement la symétrie. La similarité peut-être une fonction des valeurs que peuvent prendre les objets sur un certain nombre d’attributs. Elle peut aussi résulter d’un simple test de catégorisation par exemple. Exemple : Sur un ensemble de 10000 articles de journaux, la distance entre deux articles est égale au nombre de mots communs.

Exemples de (dis)similarités Données quelconques:

Exemples de (dis)similarités Données binaires : Dice Exemple A1 A2 A3 A4 A5 A6 I1 1 I2 I3 I4 I5 I6 Certaines peuvent être étendues aux données discrètes non binaires

Exemples de (dis)similarités Exemple de la distance de Dice

Notion de similarité La dissimilarité peut résulter simplement d’un test de catégorisation libre : D(i,j)=0 si i et j sont classés ensemble D(i,j)=1 sinon puis moyenné sur l’ensemble des patients

Différents types de clustering Par partitionnement : Les classes forment une partition de l’espace des individus (pas de recouvrement) les classes peuvent être empiétantes Par classification hiérarchique Il est toujours très important de pouvoir évaluer la qualité d’une partition. Il n’y a pas de critère universel, mais il faut s’accorder sur un critère en début d’étude avec les experts du domaine. Les critères statistiques courants dépendent en général de l’inertie interclasses, de l’inertie totale, du diamètre des classes. Mais si un expert n’est pas capable d’expliquer la majorité des classes trouvées, il y a probablement un problème !! Il est souvent très utile de croiser les méthodes.

Méthode de partitionnement de type k-means Algorithme : Choisir k éléments initiaux, centres des classes Assigner à chaque individu la classe dont le centre est le plus proche Recalculer le centre de chaque classe Itérer l’algorithme jusqu’à ce que les individus ne changent plus de classe.

Méthode de partitionnement de type k-means Avantages et inconvénients Très simple à mettre en place mais la complexité est élevée : k * n * O(distance) * nombre(iter) les « outliers » faussent les moyennes et donc les centres (les supprimer en preprocessing) sensibilité à l’initialisation (essayer plusieurs initialisations et sortir les formes fortes) : on peut tomber dans des minimum locaux. Utiliser une CAH pour déterminer les centroïdes Optimisation de Peu de chances de tirer un point initial dans chaque cluster. K=10 et P=0,00036

Méthode de partitionnement de type k-means Tan el al. (2004)

Méthode de partitionnement de type k-means Original Points K-means (2 Clusters) Tan el al. (2004)

Méthode de classification hiérarchique Principe : produire une série de groupes (« clusters ») emboîtés soit par agglomération des individus (Classification Ascendante Hiérarchique) soit par division du tout (Classification Descendante Hiérarchique). Algorithme général de la CAH : Partir de la partition initiale où les classes sont les singletons Construire une nouvelle partition en réunissant les classes les plus proches (au sens d’un critère à définir) Itérer l’algorithme jusqu’à l’obtention d’une seule classe.

Ultramétrique du lien simple F1 F2 F3 F4 F7 F8 F6 F5 F9 F9 F7 F8 F3 F4 F5 F6 F2 F1 M2 NTIE 2009-2010

Comment définir la similarité inter-clusters ? Lien simple Lien complet Lien moyen Distance de Ward Distance des centres de gravité Effet de chaîne Casse les gros clusters denses Augmentation minimum de l’inertie intra classe Peut être utilisé pour initialiser un k-means Partition à partir d’une CAH: Où Couper le dendrogramme ? → détermination de k le nombre de classes

Exemple : Performances macro-économiques et structures sociales européennes http://www.insee.fr/fr/ffc/docs_ffc/es332-333c.pdf Description des structures démographiques : âge, fécondité, solde migratoire, … description des structures sociales : tx de nuptialité, tx de divortialité, … description du marché du travail : tx d’activité, tx de salariat, … niveau d’éducation : tx de titulaires d’un diplôme de 1er cycle d’études supérieures, … Distance de l’ACP et Métrique de Ward Source : Economie et Statistique n°332-333, 2000, Insee

Exemples : Ward Lien simple Lien complet

Une méthode utilisant le concept de graphes : CHAMELEON Graphe des k plus proches voisins: On dispose d’une matrice de proximité (similarité ou non) Considérer chaque individu comme un nœud du graphe Chaque individu est relié par une arête à ses k plus proches voisins. Techniques de clustering de graphe : coupe minimale, … → multitude de « petits » clusters très denses en connexions Agglomération : Utiliser des techniques d’agglomération hiérarchique (CAH) pour fusionner les « petits » clusters.

Donne de bons résultats sur les données spatiales CHAMELEON CURE

Règles d’associations Principe : Etant donné un ensemble de transactions, trouver des règles qui permettront de prédire un item sur la base des occurrences des autres items dans la transaction : il s’agit de mettre en relation des données Exemple : Supermarché Un grand nombre d’articles : pain, beurre, … Un grand nombre de paniers Items  Lait Beurre Thé Café Confiture   1 2 3 4 5 6 Transactions  Remarque : si « Thé » alors « Beurre » si « Lait et Beurre » alors « confiture » … The → Beurre {Lait, Beurre}→ Confiture

Règles d’associations Mesure : Confiance : Support : Items  Lait Beurre Thé Café Confiture   1 2 3 4 5 6 Transactions  c(Thé→ Beurre) =4/4=1 s(Thé→ Beurre)= 4/6=0,67 c(Beurre→ Thé) =4/5=0,8 s(Beurre→ Thé)= 4/6=0,67 Objectif : étant donné un ensemble de transactions, il s’agit de trouver des règles dont la confiance et le support sont supérieurs à des seuils donnés. Algorithme naïf : lister toutes les règles, calculer les valeurs de support et de confiance et comparer aux seuils. → algorithme irréalisable.

Règles d’associations Stratégie pour baisser la complexité : Ne chercher les règles d’association que dans les ensembles fréquents, c’est-à-dire dont le support est supérieur au seuil fixé. Propriétés : Si un ensemble n’est pas fréquent alors aucun de ses sur-ensemble ne peut être fréquent . Si un ensemble est fréquent alors tous ses sous-ensemble le sont. Algorithme : Générer les singletons fréquents F1. A chaque itération k, générer les Fk candidats à partir des Fk-1. Eliminer les Fk qui contiennent au moins un sous-ensemble non-fréquent. Chercher les Fk qui ont un bon taux de confiance. A=lait ; B = Beurre ; C=Thé D = Café ; E = Confiture s(A→C)=1/3

Cartes de Kohonen (self organizing map) Origine : Organisation anatomo-fonctionnelle du cortex Tanzi (1893) « l’activation répétée d’un neurone conduit à des modifications métaboliques provoquant le mouvement des prolongements de ce neurone en direction d’autres neurones, de façon à former un lien ». Santiago Ramón y Cajal (Nobel, 1906) Loi de « Hebb » (1949) : renforcement synaptique :Si 2 neurones sont activés simultanément alors leur connexion est renforcée → apprentissage 1012 neurones

Cartes de Kohonen Principe : données sortie Principe : Trouver une projection entre l’espace des données (grande dimension) et l’espace des représentations (petite dimension) qui conserve la « topologie » des données d’entrée : des données proches vont donner des « sorties » proches. sortie 3 2 1 3 2 1 entrée Apprentissage compétitif « winner-take-all »

Exemple : la réduction de couleurs 80 78 130 Neurone gagnant indice de proximité données ensemble d’apprentissage 100 45 201 T L ou S R V B résultat Modification de la valeur du représentant et des valeurs des représentants des classes voisines : ils se rapprochent de la donnée présentée. Ainsi c’est toute la région de la carte autour du neurone gagnant qui se spécialise.

Exemple : classification d’images

Cartes de Kohonen Avantages: Inconvénient : Visualisation facile des cartes de sortie avec des entrées qui sont dans des espaces de grandes dimensions Inconvénient : Temps de convergence Pas ou peu de preuves mathématiques (convergence) Pas d’unicité de la représentation Perte de la distance entre les données, remplacée par le « simple » voisinage. Choix du voisinage

Cartes de Kohonen Choix du voisinage : Super-classes : on peut regrouper les classes d’une carte de Kohonen en super-classes à l’aide d’une classification hiérarchique sur les vecteurs des représentants de chaque classe par exemple. Recensement de 1783 communes pour 5 dates Super-classes Distance entre les classes

Cottrel & Letremy http://samos.univ-paris1.fr/archives/ftp/preprints/samos173.pdf

Méthodes prédictives Classification : arbres de décision, SVM, … régression k plus proches voisins

Classification Nombre de classes connu ! Définition : étant donné un ensemble d’individus (appelé ensemble d’apprentissage) répartis en k groupes (appelés classes), il s’agit de définir un modèle (fonction des valeurs d’attributs des individus de l’ensemble d’apprentissage) qui permet d’attribuer chaque nouvel individu à l’une des k classes. Un ensemble d’individus dont la répartition dans les classes est connue sert à tester le modèle. Il est appelé ensemble test. Exemples: Iris de Fischer : 3 classes et 4 attributs Prédire si une tumeur est bénigne ou maligne. Reconnaissance des visages setosa versicolor virginica

L’œil et le cerveau humain L’œil et le cerveau humain son extrêmement efficace dans les tache de classification.

Reconnaissance de visages

Reconnaissance en scènes naturelles

Reconnaissance en scènes naturelles

Classification par arbre de décision Principe : méthode basée sur un principe de « diviser pour régner » pour créer des sous-groupes de plus en plus petits jusqu’à la classification nœud = test sur un attribut Une branche = une valeur d’un attribut Les étiquettes des feuilles = les étiquettes des classes Exemple [Quinlan,86] Taux d’erreur : proportion d’instances mal classées Problèmes : choix de l’ordre des attributs, critère de terminaison, …

Attention au sur-apprentissage qui produit des modèles mauvais en prédiction (incapacité à généraliser)

Classification par arbre de décision Souvent plusieurs arbres sont possibles, pour choisir on attribut une valeur à un arbre → plusieurs modèles de valeurs possibles Il est nécessaire de trouver des critères de construction car on ne peut construire tous les arbres possibles (Iris = 55296 arbres possibles) On choisit l’attribut le plus informatif et on itère (récursif) → Notion d’information et de mesure de l’information Critère de terminaison : Taille de l’arbre, Nombre d’individus dans les feuilles, …

Exemple : Mesure d’entropie de Shannon p(ci) : probabilité de la classe ci Nulle quand il n’y a qu’une classe D’autant plus grande que les classes sont équiprobables : maximal lorsque la distribution est uniforme Gain d’entropie associé à un attribut A A chaque étape dans l’arbre, on choisit l’attribut qui donne le plus grand gain d’information.

Exemple de choix pour le 1er test : Générer les règles associées aux données Michell 97 I(S) = - 9/14 log2(9/14) - 5/14 log2(5/14) = 0,940 Entropie des sous-arbres associés au test Ensoleillement : p2 = 2 n2 = 3 : I(p2,n2) = -2/5log2(2/5)-3/5log2(3/5)=0,971 p1 = 4 n1 = 0 : I(p1,n1) = -4/4log2(4/4) = 0 (« nœud pur ») p3 = 3 n3 = 2 : I(p3,n3) = -3/5log2(3/5)-2/5log2(2/5)=0,971

2ème exemple avec les iris de Fischer : Ensemble d’apprentissage : 100 individus pris au hasard dans le fichier Iris Règles induites uniquement 2 variables utilisées sur 4 Ensemble test : 50 individus pris au hasard dans le fichier Iris privé de l’ensemble d’apprentissage Dans un arbre de décision, les frontières des classes sont parallèles aux axes → difficulté à détecter des combinaisons de variables Taux d’erreur = 2/50 = 4% Rakotomalala (2005)

Une méthode de l’IA : k-PPV k-PPV = k plus proches voisins Principe : à partir d’un ensemble d’apprentissage S, le classifieur fait voter les k plus proches voisins de chaque nouvel individu pour savoir à quelle classe il appartient. Deux choix cruciaux : La mesure de similarité entre les individus L’algorithme de vote Avantages / Inconvénients: Très simple à mettre en œuvre A chaque nouvel individu à classer, il est nécessaire de parcourir tout l’ensemble d’apprentissage.

Diagramme de Voronoi

Cartes de Kohonen (self organizing map) Origine : Organisation anatomo-fonctionnelle du cortex Tanzi (1893) « l’activation répétée d’un neurone conduit à des modifications métaboliques provoquant le mouvement des prolongements de ce neurone en direction d’autres neurones, de façon à former un lien ». Santiago Ramón y Cajal (Nobel, 1906) Loi de « Hebb » (1949) : renforcement synaptique :Si 2 neurones sont activés simultanément alors leur connexion est renforcée → apprentissage 1012 neurones

Cartes de Kohonen Principe : données sortie Principe : Trouver une projection entre l’espace des données (grande dimension) et l’espace des représentations (petite dimension) qui conserve la « topologie » des données d’entrée : des données proches vont donner des « sorties » proches. sortie 3 2 1 3 2 1 entrée Apprentissage compétitif « winner-take-all »

Exemple : la réduction de couleurs 80 78 130 Neurone gagnant indice de proximité données ensemble d’apprentissage 100 45 201 T L ou S R V B résultat Modification de la valeur du représentant et des valeurs des représentants des classes voisines : ils se rapprochent de la donnée présentée. Ainsi c’est toute la région de la carte autour du neurone gagnant qui se spécialise.

Exemple : classification d’images

Cartes de Kohonen Avantages: Inconvénient : Visualisation facile des cartes de sortie avec des entrées qui sont dans des espaces de grandes dimensions Inconvénient : Temps de convergence Pas ou peu de preuves mathématiques (convergence) Pas d’unicité de la représentation Perte de la distance entre les données, remplacée par le « simple » voisinage. Choix du voisinage

Cartes de Kohonen Choix du voisinage : Super-classes : on peut regrouper les classes d’une carte de Kohonen en super-classes à l’aide d’une classification hiérarchique sur les vecteurs des représentants de chaque classe par exemple. Recensement de 1783 communes pour 5 dates Super-classes Distance entre les classes

Cottrel & Letremy http://samos.univ-paris1.fr/archives/ftp/preprints/samos173.pdf

Support Vector Machine Classifieur linéaire x f yest f(x,w,b) = sign(w x + b) +1 -1 w x + b>0 w x + b=0 Comment séparer ces données ? w x + b<0

Support Vector Machine Classifieur linéaire x f yest f(x,w,b) = sign(w x + b) +1 -1 Comment séparer ces données ?

Support Vector Machine Classifieur linéaire x f yest f(x,w,b) = sign(w x + b) +1 -1 Comment séparer ces données ?

Support Vector Machine Classifieur linéaire x f yest f(x,w,b) = sign(w x + b) +1 -1 Comment choisir le bon séparateur ?

Support Vector Machine Classifieur linéaire x f yest f(x,w,b) = sign(w x + b) +1 -1 Classé à tort avec la classe +1

Support Vector Machine Classifieur linéaire +1 -1 Marge = épaisseur maximale de la frontière sans toucher de points

Support Vector Machine Classifieur linéaire +1 -1 Classifieur à marge maximale (LSVM) Vecteurs supports

Support Vector Machine Si les données ne sont pas linéairement séparables On peut plonger les données dans un espace de plus grande dimension dans lequel elle deviennent séparables. x x2

Il est toujours possible de trouver un espace assez grand pour que les données deviennent linéairement séparables mais le temps calcul peut devenir trop important Φ: x → φ(x) K(xi,xj)= φ(xi) Tφ(xj) Produit scalaire, notion de Noyau

Web mining Définition : application des techniques de data mining au contenu, à la structure, aux usages (ressources du web). Web content mining (sons, images, video, textes) : text mining, … Web structure mining Web usage mining (navigation, requêtes, créations, …) : fichiers de « log », cookies content structure usages Hyperlinks, Blog networks, Social network, …

Web mining Objectifs : Optimiser la navigation pour maximiser le confort des internautes, augmenter le nombre de pages consultées (bannières publicitaires), … Déceler les centres d’intérêt des internautes, … Fichier de « log »: fichier texte enregistré sur le serveur du site web dans lequel une ligne est écrite à chaque intervention de l’internaute (changement de pages, requête, téléchargement d’une fichier, …) Source: web-datamining.net

Web mining Deux propriétés communes aux réseaux réels : Loi de faible puissance : distribution des degrés, … [Kumar, Barabasi, …] WWW, graphe des appels téléphoniques, relations proies/prédateurs, … Petits mondes [Watts and Strogatz] : la distance entre 2 nœuds reste faible et 2 nœuds qui ont beaucoup de voisins en communs ont une forte probabilité d’être connectés. Pk ~ k-β (β>1) Q = 0.65 ± 0.02 Broder el al. (2000) Newman & Girvan (2003)

FIN