La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

La segmentation Plan Définition et Objectifs Méthodes de Partitionnement Méthodes Hiérarchiques Méthodes par Densité

Présentations similaires


Présentation au sujet: "La segmentation Plan Définition et Objectifs Méthodes de Partitionnement Méthodes Hiérarchiques Méthodes par Densité"— Transcription de la présentation:

1 La segmentation

2 Plan Définition et Objectifs Méthodes de Partitionnement Méthodes Hiérarchiques Méthodes par Densité Autres méthodes Applications Exemple

3 Définition et Objectifs Regrouper des objets en groupes homogènes ou proches En marketing, la segmentation du public consiste à « le découper en un certain nombre de sous-ensembles, aussi homogènes que possibles, afin de permettre à une entreprise de mieux adapter sa politique de marketing à chacun de ces sous-ensembles » [Mercator] En statistiques, on parle plutôt de « classification » En anglais (marketing ou statistiques) on parle de « clustering »

4 Approche intuitive Objectif Identifier des « attroupements » de points. Intérêt Représentation plus compacte Inteprétation des groupes

5 Conditions Les objets sont supposés décrits par un tableau En ligne, un individu, ou objet En colonne, une caractéristique, ou variable Les données individuelles peuvent être Continues (le cas général) Binaires ou discrètes Textuelles Les données doivent être connues pour chaque individu

6 Pour pouvoir poser le problème Disposer de n caractéristiques décrivant chaque objet : Nombre de caractéristiques fixes Pas de séries temporelles Pas de listes Toutes les données doivent être connues

7 Les outils mathématiques de base Groupes Homogènes Groupes = Partitions Une partition est la décomposition dun ensemble en sous-ensembles deux à deux disjoints, et de réunion égale à lensemble de départ Homogènes = Distances et dissimilarités Entre individus Entre ensembles

8 Approche combinatoire Critère de qualité dune partition Ex : inertie intraclasse Recherche de la meilleure partition Recherche exhaustive ? Nombre de partitions dun ensemble …

9 Partitions dun ensemble Nombre de partitions dun ensemble P n,k = P n-1,k-1 +k.P n-1,k

10 Méthodes de partitionnement

11 Méthodes des nuées dynamiques Soient n points partitionnés en k groupes On définit pour chaque groupe : g 1, g 2, …, g K le centre de gravité I 1, I 2, …, I k linertie Linertie totale des n points est égale à : I=I B +I W (théorème de König_Huyghens)

12 Inertie intraclasse et interclasses I B =(n 1 /n).d(G1,G) 2 +(n 2 /n).d(G2,G) 2 I W =(n 1 /n).I 1 +(n 2 /n).I 2

13 Méthode des nuées dynamiques Rechercher la partition qui minimise linertie intraclasse (I B ) (groupes bien homogènes) … donc maximise linertie interclasses (I W ) (groupes bien éloignés) Ce critère ne sapplique quà un nombre de classes fixé.Sinon : k=n réalise I B =0

14 Méthode des nuées dynamiques 1.On part de k centres 2.Ces centres déterminent une partition 3.On remplace les centres par les centres de gravité de chaque sous ensemble 4.On recommence en 2 Lalgorithme converge

15 Méthode des nuées dynamiques 1 2

16 Convergence Notons E C i la classe constituée par les points de E plus proches de C i que dun autre centre Notons E g i la classe obtenue en remplaçant C i par g i le centre de gravité de E C i Variance intraclasse avant = >= >= Variance intraclasse après

17 Faiblesses Sensibilité aux points initiaux La convergence nest garantie que vers un minimum local Variables qualitatives ? Difficultés Sil y a des points extrêmes Si les groupes ont des tailles ou des densités différentes Si les groupes ne sont pas de forme convexe

18 Amélioration des k-means k-medoids (PAM) K fixé Choisir k points aléatoirement appelés medoids, notés H Associer chaque point J au medoid le plus proche Calculer linertie intraclasse Pour chaque couple (H,J) évaluer le gain en inertie si on échange H et J Echanger si linertie diminue Plus robuste, mais moins efficace pour des grandes bases de données.

19 Méthodes hiérarchiques

20 La classification hiérarchique Principe Utiliser un regroupement successif de parties Regroupement ascendant Problème Disposer dune distance entre parties

21 CAH : Principe

22 Définitions Hiérarchies de parties dun ensemble E Une famille H est une hiérarchie ssi E et tous les singletons {a} appartiennent à H Si A et B appartiennent à H, alors elles sont soient disjointes, soit incluses lune dans lautre Toute classe est la réunion des classes qui sont incluses en elle A toute hiérarchie correspond un arbre de classification

23 Exemple

24 Distances entre parties Dissimilarités Saut minimum : plus petite distance entre éléments des deux parties Distance moyenne A B

25 Indice de la hiérarchie Les niveaux dagrégation sont égaux à la distance des parties réunies I({a,b,c}) = 0.5 = d({a,b},{c})

26 Coupure de la hiérarchie Une partition de E compatible avec la hiérarchie H est une partition dont les classes sont des éléments de H Cest une partition obtenue en « coupant larbre et en regroupant les morceaux »

27 Méthodes par densité

28 Principe La segmentation est basée sur la densité Fonctionne bien si la densité de points est beaucoup plus élevée à lintérieur dun segment quà lextérieur.

29 Définitions (1) Deux paramètres Eps: Rayon maximum dun voisinage MinPts: Nombre minimum de points dans le Eps-voisinage dun point Point dense : point entour é d au moins MinPts points dans un rayon de Eps p q MinPts = 5 Eps = 1 cm

30 Définitions (2) N Eps (p):{q | dist(p,q) <= Eps} Point directement accessible par densité: Un point p est directement accessible par densité à partir dun point q si : 1) q est un point dense 2) p N Eps (q)

31 Définitions (3) Point accessible par densité: Un point p est accessible par densité à partir dun point q sil existe une chaîne de points p 1, …, p n, p 1 = q, p n = p telle que p i+1 est directement accessible par densité à partir de p i Point connecté par densité Un point p est connecté par densité à un point q sil existe un point o tel que p et q soit accessible par densité à partir de o.

32 Illustration des définitions p q p1p1 pq o p est accessible par densité à partir de q p et q sont connectés par densité

33 DBSCAN Repose sur une notion de segment basée sur la densité : un segment est défini comme un ensemble maximal de points connectés par densité Cet algorithme permet de découvrir des segments de forme quelconque Point noyau Point bordure Point isolé

34 Algorithme DBSCAN Entrées D={t1,t2, …, tn} // Ensemble de points MinPts// Nombre minimal de points dun segment Eps// Distance maximale pour connexion Résultat K={K1, K2, …Kp}// Ensemble de segments Algorithme p=0 Pour i=1 à n, faire Si ti nest pas dans un segment alors X={tj|tj est accessible par densité à partir de ti}; Si X est un segment valide, alors P=p+1; Kp=X; FinSi FinPour

35 Comparaison k-means et DBSCAN Résultat de K-means Résultat de DBSCAN

36 Apport de lACP

37 Visualisation des groupes homogènes Les segments trouvés sont difficiles à analyser Option 1 Projection des individus sur le plan des deux axes principaux dinertie Segmentation du nuage en 2 dimensions Option 2 Segmentation du nuage en n dimensions Projection des segments sur le plan des deux axes principaux dinertie

38 Exemple

39 Autres méthodes

40 Self-organising MAPs (SOM) Ou Cartes topologiques autoadaptatives Idée de Teuvo Kohonen Basée sur une modélisation de certains systèmes neuronaux Visualisation en 2D de données en dimension élevée Conservation de la topologie (proximité) Extension à la classification

41 SOM - Principe de fonctionnement (1)

42 SOM - Principe de fonctionnement (2) 0.3 Carte topologique Neurone individuel

43 SOM - Algorithme Initialiser le réseau Trouver le neurone gagnant Le rapprocher de lexemple Rapprocher les voisins proches Eloigner les voisins éloignés Présenter un exemple

44 Principe du renforcement Carte topologique Neurone individuel

45 Exemple Points en 3 dimensions Chaque point est une couleur codée en R,G,B Dans la carte initiale, chaque neurone répond aléatoirement On colorie chaque neurone en fonction de la couleur à laquelle il répond.

46 Etude de cas Un cas pratique Analyse des sessions de navigation sur un site professionnel Des outils de lanalyse des données Préparation des données Analyse en composantes principales Segmentation

47 Description du cas Etude réalisée pour le groupe Lafarge Identification des usages dun site internet professionnel : le configurateur de toit.

48 Le configurateur de toiture

49 Les données Les données brutes sont des données de « log » : Données de « trace » de la navigation Chaque ligne matérialise une action individuelle de linternaute 1.6,geo,ssid=default&null&nomProjet=&codePost=&vill e=&adresse=&nomRoofer=Larroque&fonction=& =dlar :04:07 …

50 Prétraitement des données Ces données brutes ne peuvent pas être analysées Pourquoi ? Lobjectif est de comprendre les usages Usage = ensemble des lignes dun même utilisateur (session) Représentation de lusage sous forme dun ensemble de chiffres Les usages doivent être comparables entre eux Créer un « Vecteur dusage » par session

51 Représentation des données Exemple de caractéristiques des usages Durée dune session Heure de la session Code Postal Profession Sauvegarde du résultat Nombre derreurs Etc.

52 Représentation des données Pour être analysées les données sont représentées sous forme dun tableau Une ligne par session (utilisateur) Une colonne par caractéristique

53 Représentation des données

54 Travaux dirigés Fichier de données semi-brutes Analyse statistique des données Segmentation des données Analyse et interprétation des segments Outils Excel, XLMiner, Spad


Télécharger ppt "La segmentation Plan Définition et Objectifs Méthodes de Partitionnement Méthodes Hiérarchiques Méthodes par Densité"

Présentations similaires


Annonces Google