Les distances.

Slides:



Advertisements
Présentations similaires
5. Statistiques.
Advertisements

La Méthode de Simplexe Standardisation
Licence pro MPCQ : Cours
Les bases de la COMPTABILITE
Fonctions & procédures
Regroupement (clustering)
RECONNAISSANCE DE FORMES
Test statistique : principe
Organisation et gestion de données, fonctions
Statistique et probabilité Série n° 1
Collecte de données F. Kohler.
Tests de comparaison de pourcentages
Le Modèle Logique de Données
1. Les caractéristiques de dispersion. 11. Utilité.
Les classifications hiérarchiques
Les mères de trois enfants (ou plus) qui travaillent
et évaluation des compétences
ETALONNAGE D’UN CAPTEUR
Analyse Factorielle des Correspondances
variable aléatoire Discrète
Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.
Analyse en Composantes Principales
Les résultats Le tri croisé
Principes de la technologie orientée objets
Application des algorithmes génétiques
2-1 CIRCUITS ÉLECTRIQUES SIMPLES
Notions de base de statistique
Chap 4 Les bases de données et le modèle relationnel
1.2 COMPOSANTES DES VECTEURS
Nature, numération, code
Méthode des k plus proches voisins
SUJET D’ENTRAINEMENT n°2
Échantillonnage (STT-2000)
Mathématiques Les statistiques et probabilités en STI2d/STL
Division euclidienne - décimale
Tableaux de distributions
Tableaux de distributions
Comprendre la variation dans les données: Notions de base
1.3 COORDONNÉES DES POINTS
La droite dans R2 Montage préparé par : André Ross
Expression littérale  1) Définition
Représentation des systèmes dynamiques dans l’espace d’état
Courbes de Bézier.
Cours de Base de Données & Langage SQL
Cours N°2 Base de Données & Langage SQL
Gilbert TOUT NEST QUE CALCUL Vous vous êtes certainement déjà demandé ce que voulait dire « se donner à 100% » ?
Notre calendrier français MARS 2014
Relations et fonctions
LE CHOIX EN CONTEXTE D’INCERTITUDE
Excel (Partie 2).
Échantillonnage (STT-2000) Section 2 Tirage aléatoire simple (plan SI). Version: 22 août 2003.
Introduction à l’algèbre
Modélisation Nuage de points.
SUJET D’ENTRAINEMENT n°4
La droite dans R3 Montage préparé par : André Ross
Programmation linéaire en nombres entiers : les méthodes de troncature
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
Equation différentielle
1 - Programme de Seconde (juin 2009) Statistique et probabilités
1. Présentation générale du système
CALENDRIER-PLAYBOY 2020.
Master 1 – Sciences du Langage –
Rappels de statistiques descriptives
ANALYSE DE DONNEES TESTS D’ASSOCIATION
Micro-intro aux stats.
Que sont les fichiers de mobilité de l’INSEE?
BIOSTATISTIQUES Définitions.
Transcription de la présentation:

Les distances

Les tableaux à soumettre aux analyses? Analyses de données : Les tableaux à soumettre aux analyses? 1. Introduction. Il existe deux groupes de méthodes d'analyses de données correspondant à deux approches différentes de l'information. Le premier groupe est constitué des méthodes descriptives telles que l'analyse en composantes principales (A.C.P), l'analyse des correspondances (A.C.), les classifications. Elles mettent en évidence des ressemblances, des différences, des oppositions. Elles donnent des tendances et classent les individus, les variables ou les modalités.

Le deuxième groupe est constitué des méthodes dites explicatives parmi lesquelles on trouve la multi-corrélation et la segmentation qui permettent de représenter la variable à expliquer (de nature qualitative ou quantitative) par des variables de même nature appelées variables explicatives.

Ces méthodes s'appliquent sur des tableaux rectangulaires ou carrés appropriés et utilisent toutes la notion de proximité mise en évidence par des objets comme les distances. Il est donc impératif, lorsque l'on fait une étude, de préparer l'information (questions, codages,...etc) de telle sorte que les possibilités de traitements soient optimales.

Il est à noter, que ces méthodes ne font appel à aucune hypothèse particulière et permettent une étude globale de données nombreuses et complexes qu'il serait impossible de réaliser directement sur le fichier de base. C'est leur intérêt, même si parfois la quantité d'information restituée n'est pas excellente. Nous devons enfin prendre conscience, que toutes ces méthodes constituent des moyens d'aide à la décision, mais qu'elles ne se substituent pas à la prise de décision. C’est en grande partie la qualité de l’analyste, sa connaissance et son expérience qui font la qualité d’une étude.

2. Présentation optimale pour l’utilisation des méthodes d’analyse de données 21. Tableau de mesures Sur les individus interrogés, on a mesuré un certain nombre de variables quantitatives A l'intersection de la ligne i (individu) et de la colonne j (variable) du tableau, on trouve le nombre qui représente la valeur prise par la variable Xj sur l'individu i .

Nombre d’enfants à charge. Exemple. On a relevé sur 4 individus les valeurs de 3 variables. Les résultats sont présentés sous forme d’un tableau de mesures : Individus Age en années Salaire en 1000 € Nombre d’enfants à charge. 1 20 7 2 25 9 3 11 4 35 Nous constatons que les variables ne sont pas comparables et ne sont pas exprimées dans les mêmes unités. Il est donc nécessaire de les centrer et de les réduire. Le calcul des moyennes arithmétiques et des écart-types est réalisé ci-après :

Nombre d’enfants à charge. Moyenne 25 9000 2 Ecart-type 6,124 1414,214 1,581 Le tableau des valeurs centrées et réduites est donné ci-après : Individus. Age Salaire Nombre d’enfants à charge. 1 - 0,816 - 1,414 - 0,633 2 0,633 3 - 0,816 1,414 1,265 4 1,633 - 1,265 Nous remarquons que les variables obtenues sont sans unité et qu’elles sont du même ordre de grandeur.

Une lecture en ligne du tableau signifie que l’on a choisi de représenter les individus alors qu’une lecture en colonne signifie que l’on a choisi de représenter les variables. Dans les 2 cas on parlera de nuage de points.

1. Nuage des individus. Chaque individu étudié dans l’échantillon peut-être représenté par un point de l’espace euclidien , ayant comme coordonnées dans cet espace le p-uplet L’ensemble porte le nom de nuage des individus.

ayant pour coordonnées Il est possible d’accorder à chaque individu un poids correspondant à l’importance qu’il doit avoir dans l’étude. Naturellement, on doit avoir les relations suivantes : 2. Le nuage des variables. Chaque variable peut-être représentée par un point de l’espace euclidien ayant pour coordonnées

L’ensemble porte le nom de nuage des variables.

La ressemblance entre 2 individus du nuage des individus, peut-être mesurée par le nombre : Considérons l’exemple donné ci-dessus représentant 3 variables quantitatives étudiées sur 4 individus. En accordant à chaque variable un poids égal à 1/3, nous pouvons élaborer le tableau des distances entre les individus :

La proximité entre 2 variables quelconques peut-être Proximités Ind. 1 Ind.2 Ind.3 Ind.4 Ind.1 1,193 1,966 1,011 1,673 1,446 2,191 La proximité entre 2 variables quelconques peut-être mesurée par le nombre :

La proximité entre les variables peut-être représenter en accordant à chaque individu le même poids ¼. Les résultats sont présentés dans le tableau suivant : Proximités Age. Salaire. Enfants. 1,414 1,225 0,811 Nous pouvons remarquer que ces distances sont fortement associés à la notion de corrélation que nous connaissons par ailleurs. En effet, on montre que :

si on accorde à tous les individus le même poids 1 et que : si on accorde à chaque individu le poids Age. Salaire. Enfants. 1 0,000 -0,25 0,671 .

22. Tableau de contingence La difficulté de l’élaboration d’une distance pour un tel tableau vient du fait que l’on doit travailler sur des populations qui ne sont pas de même taille. Pour contourner cette difficulté, on travaillera sur des profils ligne ou colonne en fonction de ce que l’on veut mettre en avant. N’oublions pas que nous voulons mettre en avant la ressemblance entre des modalités.

Tableau de profil/ ligne Tableau de profil/ colonne

Concernant les profils ligne, elle peut-être définie par la relation  Concernant les profils colonne , nous pouvons écrire :

Considérons le tableau de contingence suivant: Profils Proximités

23. Tableau de présence/absence Nous savons que dans un tel tableau, un individu i est représenté par une suite de 0 et de 1 en fonction de la présence ou de l’absence du critère étudié. Notons l’ensemble des résultats qu’il a obtenus, si le critère est absent chez l’individu et si il est présent.

respectivement le nombre de concordances à 1 entre i et k, le nombre de concordances à 0 et le nombre de discordances.

Pour mesurer la proximité entre les deux individus i et k on peut utiliser l’une des distances suivantes : Rogers et Tanimoto : Jaccard : Sokal- Sneath- Aldeberg : Russel-Rao : Hamming :

On a relevé la présence ou l’absence de 4 critères sur 8 individus d’un échantillon. Les résultats sont présentés dans le tableau suivant :

Le tableau qui suit donne les distances de Jaccard entre les individus.