La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Bertrand Jouve Université Lyon 2 Eléments de cours - Master 2 2011-2012.

Présentations similaires


Présentation au sujet: "Bertrand Jouve Université Lyon 2 Eléments de cours - Master 2 2011-2012."— Transcription de la présentation:

1 Bertrand Jouve Université Lyon 2 Eléments de cours - Master

2 Sources Ce support de cours a été réalisé en partie à laide de plusieurs documents accessibles en libre accès sur le web ou de notes de cours de collègues : o Vipin Kumar : o Philippe Leray : o Taofiq Dkaki : communications personnelles o Ricco Rakotomalala : o M. Cottrell et P. Letremy : o Machine Learning Group (Austin) : o Mingyue Tan :

3 Plan 1) Organisation des séances 2) Eléments de bibliographie et logiciels 3) Quest ce que la fouille de données ? data (cleaning, preprocessing), visualisation. 4) Méthodes de fouille de données Prédictive/supervisée et descriptive/non-supervisée 5) Challenges 6) Fouille de graphes et système complexes

4 2 séances de cours (2*3H) : exposé général sur la fouille de données 2 séances de cours/TD (2*1H45) sur la fouille de graphes à partir dexemples 5 séances de restitution darticles 1 séance de 2H pour le contrôle des connaissances. 1) Organisation des séances

5 De nombreuses ressources sur le web : Knowledge Discovery in Databases(KDD), Extraction de connaissances dans les bases de données (ECD), Datamining, fouille de données, … 2) Eléments de bibliographie et logiciels

6 Des logiciels RSAS

7 J. Han, M. Kamber (2001) Ludovic Lebart, Marie Piron, Alain Morineau (2006) Stéphane Tufféry (2005) Usama M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth, Ramasamy Uthurusamy (1996) Des livres

8 3) Quest ce que la fouille de données ?

9 EXEMPLES commerciaux Le panier de la ménagère : Déterminer les produits qui sont souvent associés dans un chariot de supermarché traitement des tickets dachats corrélation Bières / couches le samedi réorganisation des rayonnages : Quels sont les livres qui pourraient être achetés par le visiteur ?

10 EXEMPLES scientifiques Qualité de vie (réchauffement climatique) extraction dinformation sur la pollution atmosphérique, sonore, … sur la gène ressentie, … cartographie fine, modèles, prévision décisions publiques, aménagements, Modèles sociétaux nouveaux webmining, analyse des réseaux sociaux (Facebook) communautés dynamiques et multi-échelles amélioration des modes de communication et dorganisation Génome Les tumeurs du cerveau représentent la 1 er cause de mortalité de cancer chez les enfants Gene expression database

11 Encyclopædia Britannica data mining, also called knowledge discovery in databases, in computer science, the process of discovering interesting and useful patterns and relationships in large volumes of data. (…) Data mining is widely used in business (insurance, banking, retail), science research (astronomy, medicine), and government security (detection of criminals and terrorists). Définition Extraction automatique ou semi-automatique de connaissances cachées, potentiellement utiles, à partir de données stockées dans des grandes bases de données.

12 Fouille de données = extraction de connaissances à partir des données (ECD) = Data Mining = Knowledge Data Discovery (KDD) « Comment trouver un diamant dans un tas de charbon sans se salir les mains » 1. Compréhension du domaine dapplication 2. Création du sous-ensemble cible de données 3. Nettoyage des données (erreurs, données manquantes, valeurs atypiques) 4. Transformation des données (normalisation, linéarisation, découpage en classes, compression) 5. Explicitation de lobjectif et de la stratégie danalyse 6. Choix des méthodes 7. Test, en précisant les critères 8. Exploitation 9. Diffusion DATAMININGDATAMINING expert décideuranalyste(Fayyad, 1997)

13 CRISP-DM découpe le processus de data mining en six phases principales : Connaissance du Métier Connaissance des Données Préparation des Données Modélisation Évaluation Déploiement Shearer C. The CRISP-DM model: the new blueprint for data mining [archive]. J Data Warehousing 2000;5:1322. Cross-Industry Standard Process for Data Mining Méthode standardisée CRISP-DM Cross-Industry Standard Process for Data Mining

14 Ce que la fouille de données nest pas : Chercher un numéro de téléphone dans un annuaire téléphonique Effectuer une recherche avec google Ce que la fouille de données est : Analyser des résultats de requêtes effectuées avec google. Analyser la structuration des pages dun annuaire téléphonique

15 Informatique : Evolution des Langages dinterrogation, Environnement hétérogène et sites distants, Fiabilité, sécurité, stockage distribué, temps réel Fouille de données et statistique Historiquement la fouille de données est la rencontre de lintelligence artificielle et de la statistique : les entreprises veulent exploiter, valoriser, les masses de données quelles archivent (data warehouse = entrepôts de données) à des fin de marketing et de prise de décision. Statistique Classification hiérarchique Nuées dynamiques, Régression linéaire, … IA Perceptron multicouche Reconnaissance de forme Réseaux bayésiens, Règles dinduction, … CROISER LES METHODES

16 Les différences à dépasser : Données a priori : dans la plupart des problèmes de data mining, les données sont préalables à létude, recueillies parfois à dautres fins. En statistique, la démarche de recueil des données (planification expérimentale, sondage) fait partie intégrante du processus. Taille des données : de nombreuses méthodes statistiques classiques ne sont pas adaptées à des volumes de millions de données. Automatisation : la statisticien reste au plus près des experts pour sassurer une bonne compréhension, une cohérence, une intégrité des données. Les promoteurs de logiciels de FDD isolent les deux par des interfaces différentes. Validation : lévaluation de lerreur est primordiale dans certains domaines (pharmacie, aéronautique), et la question de la représentativité des données devient centrale. Objectifs disciplinaires : preuve dun côté et efficacité opérationnelle de lautre. Fouille de données et statistique

17 Pourquoi la FDD maintenant ? we see the doubling of the numbers of base pairs in GenBank every 18 months Wikipedia – Google analytics (http://stats.wikimedia.org)http://stats.wikimedia.org

18 Pourquoi la FDD maintenant ? facebook

19 Pourquoi la FDD maintenant ? Google : Statistiques concernant lexploitation du bois Vitesse de transmission des réseaux (Zighed D.A., Rakotomalala R.,2003.) R. Grossman, C. Kamath, V. Kumar (2001)

20 Les questions de fouille de données sont maintenant cruciales dans beaucoup de domaines. Le problème aujourdhui nest pas un manque de données mais un manque danalystes et de méthodes plus performantes. Il ne faut pas croire que les logiciels sont « plug-and-play » et fournissent des « solutions » sans nécessité de lêtre humain : les logiciels donnent toujours des résultats il est facile de faire de la « mauvaise fouille de données » et cela peut « coûter » très cher. La plupart des erreurs proviennent dune mauvaise utilisation des logiciels « boîte noire ». Conclusions intermédiaires

21 a. Les données

22 Quest ce quune donnée ? Une collection dobjets et leurs attributs ou caractéristiques Type dattribut : Qualitatif Nominal Ordinal Quantitatif Discret Continu Attributes Objects

23 Données spatiales : images satellitaires, données géo-référencées, … Données textuelles : entretiens, blogs, courrier électronique, … Des contraintes de spécification des données : Données relationnelles : World Wide Web, Réseaux Sociaux, … Données temporelles : flux de circulation, bourse, … Données multimédia : photos, vidéo, … Données séquentielles : génome, …

24 Qualité des données : Les données peuvent ne pas être de bonne qualité Bruitées ou comprenant des individus aberrants : enregistrement sonore par un mauvais enregistreur, photo mal sauvegardée, manuscrit peu lisible, renard dans un poulailler… Avec des valeurs manquantes : information non non collectée (personne refusant de répondre à un questionnaire), protocole expérimental défaillant ou coûteux, … Problème de Vrai/Fausse duplication : homonymies dans les réseaux sociaux, même personne avec différente adresses mail, …

25 Solutions : Pour les données manquantes, on peut Éliminer les individus à problème Estimer les valeurs manquantes Ignorer les valeurs manquantes pour lanalyse Remplacer par toutes les valeurs possibles Pour les données dupliquées, on peut mettre en œuvre un processus de détection des individus dupliquées Ces questions sont souvent difficiles et ne sont pas à sous-estimer. Attention : on peut être très intéressé par les individus « aberrants » sils sont interprétables Détection dintrusion dans les réseaux informatiques Détection de fraude sur cartes de crédits

26 Prétraitements des données Agrégation dattributs ou dindividus Réduire le nombre dattributs ou dindividus, Opérer un changement déchelle pour diminuer la variabilité ou augmenter le nombre dindividus par attributs Jours agrégées en semaines, mois, années. Standard Deviation of Average Monthly Precipitation (Australie) Standard Deviation of Average Yearly Precipitation © Tan et al. (2004)

27 Prétraitements des données Échantillonnage : L'objectif est de construire un échantillon tel que les observations pourront être généralisées à l'ensemble de la population. Question type : est-ce quun échantillon de taille n suffit ? Souvent nécessaire pour des questions de coût ou de temps calcul. Notion déchantillon représentatif Théorie statistique de léchantillonnage : tirage aléatoire avec ou sans remise, tirage stratifié, …

28 Prétraitements des données Réduction de dimension : Questions de coût ou de temps calcul. Améliorer la visualisation des données Éliminer le bruit On utilise par exemple les techniques dACP, mais aussi les techniques non linéaires. Analyes multi-spectrale dune section de grain dorge (19 dimensions) Nuzillard et al. (2003)

29 Prétraitements des données Sélections dun sous-ensemble dattributs Permet aussi de réduire la dimension Lorsque linformation contenue dans un attribut est déjà présente dans dautres attributs et quil ny a pas nécessité de lisoler. Exemple : prix de vente dun produit et TVA Lorsque lattribut nest pas utile pour létude Exemple : Dans une étude de circulation des usagers sur un campus universitaire, la couleur des yeux. Pour des raisons de confidentialité Exemple : le nom des individus

30 Prétraitements des données Création ou transformation dattributs Combinaison dattributs Transformation dans un nouvel espace Exemple: transformée de Fourier Discrétisation Certaines méthodes ne conviennent que pour des données à valeurs discrètes. Exemples : valeurs de températures et catégories « froid/tiède/chaud »

31 b. Visualisation (non détaillée)

32 La visualisation revêt deux aspects : Pour présenter les résultats des calculs dans un format plus facilement appréhendable par lhumain. Comme étape au cœur du data mining, permettant une présentation des données qui permettent à lhumain une exploration visuelle. Lœil humain est extrêmement sensible à des discontinuités de couleurs Lœil humain est capable de détecter des formes inhabituelles, …

33 Les outils classiques de statistique

34 Température à la surface de la terre en juillet 1982 (SST) for July 1982 (dizaines de milliers de points)

35 Evolution de 2 communautés de linternet Aynaud & Guillaume (2010)

36 Lœil humain est un « outil » très puissant mais attention : The café wall Triangle de Kanizsa The café wall Illusion dEhrenstein

37 4) Méthodes de fouille de données

38 2 types de méthodes Méthodes descriptives (ou non supervisées) : objectif : trouver des « formes » interprétables qui permettent de décrire les données sans référence à une base dexemples. Cest donc la construction dun modèle et la découverte de relations dans les données. clustering (K-means, CAH), règles dassociations, SOM, … Méthodes prédictives (ou supervisées) : objectif : à partir dexemples, inférer sur les données pour réaliser des prédictions. En ce basant sur un ensemble dexemples, on infère par exemple les classes dappartenance dautres individus. Les classes sont donc ici connues. classification, régression, k-ppv …

39 Méthodes descriptives Clustering Règles dassociation

40 Clustering Définition : étant donné un ensemble dindividus chacun ayant un certain nombre dattributs, et une mesure de similarité entre eux deux à deux, trouver des classes telles que : Les indices de similarités entre individus dune même classe soient faibles Les indices de similarités entre individus de classes différentes soient fortes. Expression in Exp 1 Expression in Exp 2 Proteins

41 Notion de similarité Distance : on appelle distance sur un ensemble E, une application telle que : Séparation Symétrie Inégalité triangulaire Une distance est dite ultra-métrique si de plus Une distance est euclidienne si elle peut-être représentée dans lespace euclidien R n sans déformation. A1A2A3A4A5A6 I11111 I2111 I3111 I411 I511 I61111 Exemple

42 Notion de similarité Similarité : une similarité est une application qui a les propriétés de la distance sauf éventuellement linégalité triangulaire. Ecart : un écart est une application qui a les propriétés dune similarité sauf éventuellement la symétrie. La similarité peut-être une fonction des valeurs que peuvent prendre les objets sur un certain nombre dattributs. Elle peut aussi résulter dun simple test de catégorisation par exemple. Exemple : Sur un ensemble de articles de journaux, la distance entre deux articles est égale au nombre de mots communs.

43 Exemples de (dis)similarités Données quelconques:

44 Exemples de (dis)similarités Données binaires : A1A2A3A4A5A6 I11111 I2111 I3111 I411 I511 I61111 Exemple Certaines peuvent être étendues aux données discrètes non binaires Dice

45 Exemples de (dis)similarités Exemple de la distance de Dice

46 Notion de similarité La dissimilarité peut résulter simplement dun test de catégorisation libre : D(i,j)=0 si i et j sont classés ensemble D(i,j)=1 sinon puis moyenné sur lensemble des patients

47 Différents types de clustering Par partitionnement : Les classes forment une partition de lespace des individus (pas de recouvrement) les classes peuvent être empiétantes Par classification hiérarchique Il est toujours très important de pouvoir évaluer la qualité dune partition. Il ny a pas de critère universel, mais il faut saccorder sur un critère en début détude avec les experts du domaine. Les critères statistiques courants dépendent en général de linertie interclasses, de linertie totale, du diamètre des classes. Mais si un expert nest pas capable dexpliquer la majorité des classes trouvées, il y a probablement un problème !! Il est souvent très utile de croiser les méthodes.

48

49 Méthode de partitionnement de type k-means Algorithme : Choisir k éléments initiaux, centres des classes Assigner à chaque individu la classe dont le centre est le plus proche Recalculer le centre de chaque classe Itérer lalgorithme jusquà ce que les individus ne changent plus de classe.

50 Méthode de partitionnement de type k-means Très simple à mettre en place mais la complexité est élevée : k * n * O(distance) * nombre(iter) les « outliers » faussent les moyennes et donc les centres (les supprimer en preprocessing) sensibilité à linitialisation (essayer plusieurs initialisations et sortir les formes fortes) : on peut tomber dans des minimum locaux. Utiliser une CAH pour déterminer les centroïdes Avantages et inconvénients Optimisation de Peu de chances de tirer un point initial dans chaque cluster. K=10 et P=0,00036

51 Méthode de partitionnement de type k-means Tan el al. (2004)

52 Méthode de partitionnement de type k-means Tan el al. (2004) Original Points K-means (2 Clusters)

53 Méthode de classification hiérarchique Principe : produire une série de groupes (« clusters ») emboîtés soit par agglomération des individus (Classification Ascendante Hiérarchique) soit par division du tout (Classification Descendante Hiérarchique). Algorithme général de la CAH : Partir de la partition initiale où les classes sont les singletons Construire une nouvelle partition en réunissant les classes les plus proches (au sens dun critère à définir) Itérer lalgorithme jusquà lobtention dune seule classe.

54 M2 NTIE F1F1 F2F2 F3F3 F4F4 F7F7 F8F8 F6F6 F5F5 F9F9 F2F2 F1F1 F5F5 F6F6 F3F3 F4F4 F7F7 F8F8 F9F9 Ultramétrique du lien simple

55 Comment définir la similarité inter-clusters ? Lien simple Lien complet Lien moyen Distance de Ward Distance des centres de gravité Partition à partir dune CAH : Où Couper le dendrogramme ? détermination de k le nombre de classes Augmentation minimum de linertie intra classe Effet de chaîne Casse les gros clusters denses Peut être utilisé pour initialiser un k-means

56 Source : Economie et Statistique n° , 2000, Insee Description des structures démographiques : âge, fécondité, solde migratoire, … description des structures sociales : tx de nuptialité, tx de divortialité, … description du marché du travail : tx dactivité, tx de salariat, … niveau déducation : tx de titulaires dun diplôme de 1 er cycle détudes supérieures, … Distance de lACP et Métrique de Ward Exemple : Performances macro-économiques et structures sociales européennes

57 WardLien simpleLien complet Exemples :

58 Une méthode utilisant le concept de graphes : CHAMELEON Graphe des k plus proches voisins: o On dispose dune matrice de proximité (similarité ou non) o Considérer chaque individu comme un nœud du graphe o Chaque individu est relié par une arête à ses k plus proches voisins. Techniques de clustering de graphe : coupe minimale, … multitude de « petits » clusters très denses en connexions Agglomération : o Utiliser des techniques dagglomération hiérarchique (CAH) pour fusionner les « petits » clusters.

59 Donne de bons résultats sur les données spatiales CHAMELEONCURE

60 Règles dassociations Principe : Etant donné un ensemble de transactions, trouver des règles qui permettront de prédire un item sur la base des occurrences des autres items dans la transaction : il sagit de mettre en relation des données Exemple : Supermarché o Un grand nombre darticles : pain, beurre, … o Un grand nombre de paniers Items LaitBeurreThéCaféConfiture Transactions Remarque : si « Thé » alors « Beurre » si « Lait et Beurre » alors « confiture » … The Beurre {Lait, Beurre} Confiture

61 Règles dassociations Mesure : Confiance : Support : Objectif : étant donné un ensemble de transactions, il sagit de trouver des règles dont la confiance et le support sont supérieurs à des seuils donnés. Algorithme naïf : lister toutes les règles, calculer les valeurs de support et de confiance et comparer aux seuils. algorithme irréalisable. Items LaitBeurreThéCaféConfiture Transactions c(Thé Beurre) =4/4=1 s(Thé Beurre)= 4/6=0,67 c(Beurre Thé) =4/5=0,8 s(Beurre Thé)= 4/6=0,67

62 Règles dassociations Stratégie pour baisser la complexité : Ne chercher les règles dassociation que dans les ensembles fréquents, cest-à-dire dont le support est supérieur au seuil fixé. Propriétés : o Si un ensemble nest pas fréquent alors aucun de ses sur-ensemble ne peut être fréquent. o Si un ensemble est fréquent alors tous ses sous-ensemble le sont. Algorithme : Générer les singletons fréquents F 1. A chaque itération k, générer les F k candidats à partir des F k-1. Eliminer les F k qui contiennent au moins un sous-ensemble non-fréquent. Chercher les F k qui ont un bon taux de confiance. A=lait ; B = Beurre ; C=Thé D = Café ; E = Confiture s(AC)=1/3

63 Cartes de Kohonen (self organizing map) Origine : o Organisation anatomo-fonctionnelle du cortex o Tanzi (1893) « lactivation répétée dun neurone conduit à des modifications métaboliques provoquant le mouvement des prolongements de ce neurone en direction dautres neurones, de façon à former un lien ». Santiago Ramón y Cajal (Nobel, 1906) o Loi de « Hebb » (1949) : renforcement synaptique : Si 2 neurones sont activés simultanément alors leur connexion est renforcée apprentissage neurones

64 Cartes de Kohonen Principe : o Trouver une projection entre lespace des données (grande dimension) et lespace des représentations (petite dimension) qui conserve la « topologie » des données dentrée : des données proches vont donner des « sorties » proches Apprentissage compétitif entrée sortie « winner-take-all » données sortie

65 Exemple : la réduction de couleurs T L ou S ensemble dapprentissage RVBRVB indice de proximité Modification de la valeur du représentant et des valeurs des représentants des classes voisines : ils se rapprochent de la donnée présentée. Ainsi cest toute la région de la carte autour du neurone gagnant qui se spécialise. données résultat Neurone gagnant

66 Exemple : classification dimages

67 Cartes de Kohonen Avantages : o Visualisation facile des cartes de sortie avec des entrées qui sont dans des espaces de grandes dimensions Inconvénient : o Temps de convergence o Pas ou peu de preuves mathématiques (convergence) o Pas dunicité de la représentation o Perte de la distance entre les données, remplacée par le « simple » voisinage. o Choix du voisinage

68 Choix du voisinage : Cartes de Kohonen Super-classes : on peut regrouper les classes dune carte de Kohonen en super-classes à laide dune classification hiérarchique sur les vecteurs des représentants de chaque classe par exemple. Super-classes Distance entre les classes Recensement de 1783 communes pour 5 dates

69 Cottrel & Letremy

70 Méthodes prédictives Classification : arbres de décision, SVM, … régression k plus proches voisins

71 Classification Définition : étant donné un ensemble dindividus (appelé ensemble dapprentissage) répartis en k groupes (appelés classes), il sagit de définir un modèle (fonction des valeurs dattributs des individus de lensemble dapprentissage) qui permet dattribuer chaque nouvel individu à lune des k classes. Un ensemble dindividus dont la répartition dans les classes est connue sert à tester le modèle. Il est appelé ensemble test. Exemples: Iris de Fischer : 3 classes et 4 attributs Prédire si une tumeur est bénigne ou maligne. Reconnaissance des visages setosaversicolorvirginica Nombre de classes connu !

72 Lœil et le cerveau humain Lœil et le cerveau humain son extrêmement efficace dans les tache de classification.

73 Reconnaissance de visages

74 Reconnaissance en scènes naturelles

75

76 Classification par arbre de décision Principe : méthode basée sur un principe de « diviser pour régner » pour créer des sous-groupes de plus en plus petits jusquà la classification nœud = test sur un attribut Une branche = une valeur dun attribut Les étiquettes des feuilles = les étiquettes des classes Taux derreur : proportion dinstances mal classées Problèmes : choix de lordre des attributs, critère de terminaison, … Exemple [Quinlan,86]

77 Attention au sur-apprentissage qui produit des modèles mauvais en prédiction (incapacité à généraliser)

78 Classification par arbre de décision Souvent plusieurs arbres sont possibles, pour choisir on attribut une valeur à un arbre plusieurs modèles de valeurs possibles Il est nécessaire de trouver des critères de construction car on ne peut construire tous les arbres possibles (Iris = arbres possibles) o On choisit lattribut le plus informatif et on itère (récursif) Notion dinformation et de mesure de linformation Critère de terminaison : o Taille de larbre, o Nombre dindividus dans les feuilles, o …

79 Mesure dentropie de Shannon Exemple : p(c i ) : probabilité de la classe c i o Nulle quand il ny a quune classe o Dautant plus grande que les classes sont équiprobables : maximal lorsque la distribution est uniforme Gain dentropie associé à un attribut A A chaque étape dans larbre, on choisit lattribut qui donne le plus grand gain dinformation.

80 Exemple de choix pour le 1 er test : Générer les règles associées aux données Michell 97 I(S) = - 9/14 log 2 (9/14) - 5/14 log 2 (5/14) = 0,940 p 2 = 2 n 2 = 3 : I(p 2,n 2 ) = -2/5log 2 (2/5)-3/5log 2 (3/5)=0,971 p 1 = 4 n 1 = 0 : I(p 1,n 1 ) = -4/4log 2 (4/4) = 0 (« nœud pur ») p 3 = 3 n 3 = 2 : I(p 3,n 3 ) = -3/5log 2 (3/5)-2/5log 2 (2/5)=0,971 Entropie des sous-arbres associés au test Ensoleillement :

81 2 ème exemple avec les iris de Fischer : Ensemble dapprentissage : 100 individus pris au hasard dans le fichier Iris Règles induites uniquement 2 variables utilisées sur 4 Ensemble test : 50 individus pris au hasard dans le fichier Iris privé de lensemble dapprentissage Taux derreur = 2/50 = 4% Dans un arbre de décision, les frontières des classes sont parallèles aux axes difficulté à détecter des combinaisons de variables Rakotomalala (2005)

82 Une méthode de lIA : k-PPV Principe : à partir dun ensemble dapprentissage S, le classifieur fait voter les k plus proches voisins de chaque nouvel individu pour savoir à quelle classe il appartient. Deux choix cruciaux : o La mesure de similarité entre les individus o Lalgorithme de vote k-PPV = k plus proches voisins Avantages / Inconvénients : o Très simple à mettre en œuvre o A chaque nouvel individu à classer, il est nécessaire de parcourir tout lensemble dapprentissage.

83

84 Diagramme de Voronoi

85 Cartes de Kohonen (self organizing map) Origine : o Organisation anatomo-fonctionnelle du cortex o Tanzi (1893) « lactivation répétée dun neurone conduit à des modifications métaboliques provoquant le mouvement des prolongements de ce neurone en direction dautres neurones, de façon à former un lien ». Santiago Ramón y Cajal (Nobel, 1906) o Loi de « Hebb » (1949) : renforcement synaptique : Si 2 neurones sont activés simultanément alors leur connexion est renforcée apprentissage neurones

86 Cartes de Kohonen Principe : o Trouver une projection entre lespace des données (grande dimension) et lespace des représentations (petite dimension) qui conserve la « topologie » des données dentrée : des données proches vont donner des « sorties » proches Apprentissage compétitif entrée sortie « winner-take-all » données sortie

87 Exemple : la réduction de couleurs T L ou S ensemble dapprentissage RVBRVB indice de proximité Modification de la valeur du représentant et des valeurs des représentants des classes voisines : ils se rapprochent de la donnée présentée. Ainsi cest toute la région de la carte autour du neurone gagnant qui se spécialise. données résultat Neurone gagnant

88 Exemple : classification dimages

89 Cartes de Kohonen Avantages : o Visualisation facile des cartes de sortie avec des entrées qui sont dans des espaces de grandes dimensions Inconvénient : o Temps de convergence o Pas ou peu de preuves mathématiques (convergence) o Pas dunicité de la représentation o Perte de la distance entre les données, remplacée par le « simple » voisinage. o Choix du voisinage

90 Choix du voisinage : Cartes de Kohonen Super-classes : on peut regrouper les classes dune carte de Kohonen en super-classes à laide dune classification hiérarchique sur les vecteurs des représentants de chaque classe par exemple. Super-classes Distance entre les classes Recensement de 1783 communes pour 5 dates

91 Cottrel & Letremy

92 Support Vector Machine Classifieur linéaire f x y est +1 f(x,w,b) = sign(w x + b) Comment séparer ces données ? w x + b=0 w x + b<0 w x + b>0

93 Support Vector Machine Classifieur linéaire f x y est +1 f(x,w,b) = sign(w x + b) Comment séparer ces données ?

94 Support Vector Machine Classifieur linéaire f x y est +1 f(x,w,b) = sign(w x + b) Comment séparer ces données ?

95 Support Vector Machine Classifieur linéaire f x y est +1 f(x,w,b) = sign(w x + b) Comment choisir le bon séparateur ?

96 Support Vector Machine Classifieur linéaire f x y est +1 f(x,w,b) = sign(w x + b) Classé à tort avec la classe +1

97 Support Vector Machine Classifieur linéaire +1 Marge = épaisseur maximale de la frontière sans toucher de points

98 Support Vector Machine Classifieur linéaire +1 Vecteurs supports Classifieur à marge maximale (LSVM)

99 Support Vector Machine Si les données ne sont pas linéairement séparables o On peut plonger les données dans un espace de plus grande dimension dans lequel elle deviennent séparables. 0 x x2x2

100 Φ: x φ(x) Il est toujours possible de trouver un espace assez grand pour que les données deviennent linéairement séparables mais le temps calcul peut devenir trop important K(x i,x j )= φ(x i ) T φ(x j ) Produit scalaire, notion de Noyau

101 Web mining Définition : application des techniques de data mining au contenu, à la structure, aux usages (ressources du web). o Web content mining (sons, images, video, textes) : text mining, … o Web structure mining o Web usage mining (navigation, requêtes, créations, …) : fichiers de « log », cookies Hyperlinks, Blog networks, Social network, … contentstructureusages

102 Web mining Objectifs : o Optimiser la navigation pour maximiser le confort des internautes, augmenter le nombre de pages consultées (bannières publicitaires), … o Déceler les centres dintérêt des internautes, o … Fichier de « log »: fichier texte enregistré sur le serveur du site web dans lequel une ligne est écrite à chaque intervention de linternaute (changement de pages, requête, téléchargement dune fichier, …) Source: web- datamining.net

103 Web mining Deux propriétés communes aux réseaux réels : o Loi de faible puissance : distribution des degrés, … [Kumar, Barabasi, …] WWW, graphe des appels téléphoniques, relations proies/prédateurs, … o Petits mondes [Watts and Strogatz] : la distance entre 2 nœuds reste faible et 2 nœuds qui ont beaucoup de voisins en communs ont une forte probabilité dêtre connectés. Broder el al. (2000) P k ~ k -β (β>1) Newman & Girvan (2003) Q = 0.65 ± 0.02

104 FIN


Télécharger ppt "Bertrand Jouve Université Lyon 2 Eléments de cours - Master 2 2011-2012."

Présentations similaires


Annonces Google