La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Les distances. 2 Analyses de données : Les tableaux à soumettre aux analyses? 1. Introduction. Il existe deux groupes de méthodes d'analyses de données.

Présentations similaires


Présentation au sujet: "1 Les distances. 2 Analyses de données : Les tableaux à soumettre aux analyses? 1. Introduction. Il existe deux groupes de méthodes d'analyses de données."— Transcription de la présentation:

1 1 Les distances

2 2 Analyses de données : Les tableaux à soumettre aux analyses? 1. Introduction. Il existe deux groupes de méthodes d'analyses de données correspondant à deux approches différentes de l'information. Le premier groupe est constitué des méthodes descriptives telles que l'analyse en composantes principales (A.C.P), l'analyse des correspondances (A.C.), les classifications. Elles mettent en évidence des ressemblances, des différences, des oppositions. Elles donnent des tendances et classent les individus, les variables ou les modalités.

3 3 Le deuxième groupe est constitué des méthodes dites explicatives parmi lesquelles on trouve la multi- corrélation et la segmentation qui permettent de représenter la variable à expliquer (de nature qualitative ou quantitative) par des variables de même nature appelées variables explicatives.

4 4 Ces méthodes s'appliquent sur des tableaux rectangulaires ou carrés appropriés et utilisent toutes la notion de proximité mise en évidence par des objets comme les distances. Il est donc impératif, lorsque l'on fait une étude, de préparer l'information (questions, codages,...etc) de telle sorte que les possibilités de traitements soient optimales.

5 5 Il est à noter, que ces méthodes ne font appel à aucune hypothèse particulière et permettent une étude globale de données nombreuses et complexes qu'il serait impossible de réaliser directement sur le fichier de base. C'est leur intérêt, même si parfois la quantité d'information restituée n'est pas excellente. Nous devons enfin prendre conscience, que toutes ces méthodes constituent des moyens d'aide à la décision, mais qu'elles ne se substituent pas à la prise de décision. Cest en grande partie la qualité de lanalyste, sa connaissance et son expérience qui font la qualité dune étude.

6 6 2. Présentation optimale pour lutilisation des méthodes danalyse de données 21. Tableau de mesures Sur les individus interrogés, on a mesuré un certain nombre de variables quantitatives A l'intersection de la ligne i (individu) et de la colonne j (variable) du tableau, on trouve le nombre qui représente la valeur prise par la variable X j sur l'individu i.

7 7 Exemple. On a relevé sur 4 individus les valeurs de 3 variables. Les résultats sont présentés sous forme dun tableau de mesures : IndividusAge en annéesSalaire en 1000 Nombre denfants à charge Nous constatons que les variables ne sont pas comparables et ne sont pas exprimées dans les mêmes unités. Il est donc nécessaire de les centrer et de les réduire. Le calcul des moyennes arithmétiques et des écart-types est réalisé ci-après :

8 8 Moyenne Ecart-type6, ,2141,581 Le tableau des valeurs centrées et réduites est donné ci-après : Individus.AgeSalaireNombre denfants à charge. 1- 0,816- 1,414- 0, , ,8161,4141,265 41, ,265 Nous remarquons que les variables obtenues sont sans unité et quelles sont du même ordre de grandeur.

9 9 Une lecture en ligne du tableau signifie que lon a choisi de représenter les individus alors quune lecture en colonne signifie que lon a choisi de représenter les variables. Dans les 2 cas on parlera de nuage de points.

10 10 1. Nuage des individus. Chaque individu étudié dans léchantillon peut-être représenté par un point de lespace euclidien, ayant comme coordonnées dans cet espace le p-uplet Lensemble porte le nom de nuage des individus.

11 11 2. Le nuage des variables. Chaque variable peut-être représentée par un point de lespace euclidien ayant pour coordonnées Il est possible daccorder à chaque individu un poids correspondant à limportance quil doit avoir dans létude. Naturellement, on doit avoir les relations suivantes :

12 12 Lensemble porte le nom de nuage des variables.

13 13 La ressemblance entre 2 individus du nuage des individus, peut-être mesurée par le nombre : Considérons lexemple donné ci-dessus représentant 3 variables quantitatives étudiées sur 4 individus. En accordant à chaque variable un poids égal à 1/3, nous pouvons élaborer le tableau des distances entre les individus :

14 14 ProximitésInd. 1Ind.2Ind.3Ind.4 Ind.10 Ind.21,1930 Ind.31,9661,0110 Ind.41,6731,4462,1910 La proximité entre 2 variables quelconques peut-être mesurée par le nombre :

15 15 La proximité entre les variables peut-être représenter en accordant à chaque individu le même poids ¼. Les résultats sont présentés dans le tableau suivant : ProximitésAge.Salaire.Enfants. Age.0 Salaire.1,4140 Enfants.1,2250,8110 Nous pouvons remarquer que ces distances sont fortement associés à la notion de corrélation que nous connaissons par ailleurs. En effet, on montre que :

16 16 si on accorde à tous les individus le même poids 1 et que : si on accorde à chaque individu le poids. Age.Salaire.Enfants. Age.1 Salaire.0,0001 Enfants.-0,250,6711

17 Tableau de contingence La difficulté de lélaboration dune distance pour un tel tableau vient du fait que lon doit travailler sur des populations qui ne sont pas de même taille. Pour contourner cette difficulté, on travaillera sur des profils ligne ou colonne en fonction de ce que lon veut mettre en avant. Noublions pas que nous voulons mettre en avant la ressemblance entre des modalités.

18 18 Tableau de profil/ ligne Tableau de profil/ colonne

19 19 Concernant les profils ligne, elle peut-être définie par la relation Concernant les profils colonne, nous pouvons écrire :

20 20 Considérons le tableau de contingence suivant: Profils Proximités

21 21 Nous savons que dans un tel tableau, un individu i est représenté par une suite de 0 et de 1 en fonction de la présence ou de labsence du critère étudié. Notons lensemble des résultats quil a obtenus, si le critère est absent chez lindividu et si il est présent. 23. Tableau de présence/absence

22 22 respectivement le nombre de concordances à 1 entre i et k, le nombre de concordances à 0 et le nombre de discordances.

23 23 Pour mesurer la proximité entre les deux individus i et k on peut utiliser lune des distances suivantes : Rogers et Tanimoto : Jaccard : Sokal- Sneath- Aldeberg : Russel-Rao : Hamming :

24 24 On a relevé la présence ou labsence de 4 critères sur 8 individus dun échantillon. Les résultats sont présentés dans le tableau suivant :

25 25 Le tableau qui suit donne les distances de Jaccard entre les individus.


Télécharger ppt "1 Les distances. 2 Analyses de données : Les tableaux à soumettre aux analyses? 1. Introduction. Il existe deux groupes de méthodes d'analyses de données."

Présentations similaires


Annonces Google