La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse)

Présentations similaires


Présentation au sujet: "Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse)"— Transcription de la présentation:

1 Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse)
L’ANALYSE STATISTIQUE DES DONNEES Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse)

2 • des variables qualitatives (discrètes)
Données brutes objet attribut A attribut B attribut C 1 A1 B3 C2 2 A3 B2 C1 3 A4 4 A2 B1 5 6 N Les attributs (ou propriétés) qui définissent les objets peuvent être : • des variables qualitatives (discrètes) • des variables quantitatives (continues) • un mélange des deux

3 Codage: des données brutes au tableau disjonctif complet
Tableau attributs-valeurs (« multi-valued context ») Tableau disjonctif complet (« one-valued context » = formal context) Rough Set Analysis Formal Concept Analysis Correspondance Factor Analysis NB: cette opération est implémentée dans Semana

4 Codage: du tableau disjonctif complet au tableau de Burt
Les relations entre attributs sont renforcées L’information relative aux individus est perdue Table de Burt (co-occurrence des variables) NB: cette opération est implémentée dans Semana

5 Autres opérations de codage
• « Discrétisation » : remplacement des variables quantitatives par des variables nominales Exemple: Passage d’une note sur 20 à une appréciation A,B,C,D >16/20 = A; = B; = C; etc. • « Logical scaling » : remplacement d’attributs par d’autres en application de règles NB: ces procédures sont implémentées dans Semana

6 Exemple d’une partition en 3 classes d’effectifs égaux
Discrétisation Exemple d’une partition en 3 classes d’effectifs égaux Modalité 1 (Xi<31.5) : « petit » Modalité 2 (31.5≤Xi<37.5) : « moyen » Modalité 3 (Xi≥37.5) : « grand » 1/3 2/3 Courbe cumulative Ni/Nt = f(Xi)

7 Discrétisation Discrétisation de la température (4 mod.):
Discrétisation du poids (5 modalités): ≤ => W1 { } => W2 { } => W3 { } => W4 ≥ => W5 Discrétisation du prix (3 modalités): ≤ => cheap { } => notexp ≥ => expensive 21 sacs de couchage caractérisés par trois variables quantitatives (température, poids et prix) et un attribut nominal (matériau synthétique ou natural) (d’après S. Prediger ,Symbolic objects in FCA, 1997) d’après Susanne Prediger (1997). Symbolic objects in Formal concept Analysis, Vancouver

8 Discrétisation et « logical scaling »
Température minimale discrétisée en 4 modalités Poids discrétisé in 5 modalités Prix discrétisé in 3 modalités Discrétisation de la température: {+7, +3} => T1 {0, -3} => T2 {-7, -10} => T3 {-15} => T4 Discrétisation du poids: ≤ => W1 { } => W2 { } => W3 { } => W4 ≥ => W5 Discrétisation du prix: ≤ => cheap { } => notexp ≥ => expensive Etape 1: discrétisation des variables quantitatives température, poids et prix

9 Discrétisation et « logical scaling »
Étalement des 5 modalités de poids Etalement des 4 modalités de température Étalement des 3 modalités de prix Etape 2: transformation du « multi-valued context » (AV) en « one-valued context » (FCA)

10 Discrétisation et « logical scaling »
Étalement des 5 modalités de poids Étalement des 3 modalités de prix Etalement des 4 modalités de température Etape 3 : Logical scaling {T1 and W1} or {T2 and (W1 or W2)} or {T3 and (W1 or W2 or W3)} or {T4 and (W1 or W2 or W3 or W4)} => good {T1 and (W1 or W2)} or {T2 and (W1 or W2 or W3)} or {T3 and (W1 or W2 or W3 or W4)} or {T4} => acceptable {T1 and (W3 or W4 or W5)} or {T2 and (W4 or W5)} or {T3 and W5} => bad

11 Discrétisation et « logical scaling »
3 attributs qualitatifs remplacent 9 modalités de 2 variables quantitatives (température et poids)

12 Les techniques de l’Analyse Statistique des Données
• Classification Ascendante Hiérarchique (CAH) • L’Analyse Factorielle des Correspondances (AFC) • une combinaison des deux: CAH sur l’AFC Programmes Fortran de l’équipe du Professeur J.-P. Benzécri (Université Paris-VI) adaptés en langage Transcript de Revolution® NB: ces opérations sont implémentées dans Semana (STAT 3)

13 Classification Ascendante Hiérarchique (CAH)
Objet de la CAH : agréger successivement les éléments d’une table de contingence (ou d’une table de Burt) en classes en utilisant une mesure de la distance entre classes et d’un critère d’agrégation. (3) (2) (1) (5) (4)  (9) (9) • Distance enclidienne (métrique du 2) • critère d’agrégation : moment centré d’ordre 2 d’une partition maximum (8)  (8) (7)  (7) Les élements qui ont des profils voisins s’agrègent très tôt. Ils forment des classes (ou « clusters ») utiles pour l’interprétation.  (6) (6)

14 Analyse Factorielle des Correspondances (AFC)
z x y Trois dimensions (3 variables x,y,z) Projections dans les plans [x,y], [x,z] et [y,z] => vues déformées (difficiles à interpréter) y x y = ax + b F1 F2 F3 AFC => changements d’axes F1, F2, F3 : axes d’inertie du nuages de points  projections sur les plans [F1,F2], [F1,F3], etc. Deux dimensions (deux variables x,y)  régression linéaire, mesure du2

15 11 couleurs décrites par 89 adjectifs
Analyse Factorielle des Correspondances (AFC) exemple: le champ sémantique des couleurs 11 couleurs décrites par 89 adjectifs

16 Analyse Factorielle des Correspondances (AFC) exemple: le champ sémantique des couleurs
silencieux Avantages de l’AFC : • Les objets et les propriétés sont représentés sur le même graphe • leurs relations sont significatives sévère profond religieux sobre sinistre NOIR mystérieux triste vieux discret VIOLET mort rafffiné brumeux angoissant GRIS sombre lisse hivernal vide violent décoratif sale BLANC agressif doux parfumé ROUGE immaculé neigeux attirant F1 brûlant révolutionnaire passionné sanguin MARRON dur automnal glacé masculin pur harmonieux vif maladif chaud sournois bête cru éclatant laid énervant sonore propre rond JAUNE clair dynamique fruité féminin juteux joyeux lumineux limpide pâle ORANGE ensoleillé froid ROSE acide enfantin sucré comique naturel léger romantique franc calme BLEU VERT 11 couleurs décrites par 89 adjectifs champêtre printanier patriotique vivant reposant

17 Analyse Factorielle des Correspondances (AFC) exemple: le champ sémantique des couleurs
silencieux class 161 sévère profond religieux sobre sinistre NOIR mystérieux triste vieux discret VIOLET mort rafffiné brumeux angoissant GRIS sombre lisse hivernal vide violent décoratif sale BLANC agressif doux parfumé ROUGE class 158 immaculé neigeux attirant F1 brûlant révolutionnaire passionné sanguin MARRON dur automnal glacé masculin pur harmonieux vif maladif chaud sournois class 159 bête cru éclatant laid énervant JAUNE sonore propre rond clair class 118 class 153 class 156 dynamique fruité féminin juteux ORANGE joyeux lumineux limpide pâle ensoleillé froid ROSE acide enfantin sucré comique naturel léger romatique franc calme BLEU VERT class 163 11 couleurs décrites par 89 adjectifs champêtre printanier patriotique vivant reposant

18 Trois exemples typiques de structures mises en évidence par AFC
• Dichotomie (deux classes opposées) • Hiérarchies (structures arborescentes) • Sériation (classes ordonnées)

19 AFC : exemple 1 - Dichotomie
TABLEAU INITIAL A B C D E F G Ob Ob Ob Ob Ob Ob Ob A | | 00 | | | 00 | Ob | | 00 | Ob4D | 00 | | G B Ob2| 00 | Ob | 00 | | C | 00 | Ob | 00 | | Ob | 00 | F E | | 00 | Ob | | 00 Axe 1 Axe 2

20 AFC : exemple 1 - Dichotomie
TABLEAU INITIAL A B C D E F G Ob Ob Ob Ob Ob Ob Ob A | | 00 | | | 00 | Ob | | 00 | Ob4D | 00 | | G B Ob2| 00 | Ob | 00 | | C | 00 | Ob | 00 | | Ob | 00 | F E | | 00 | Ob | | 00 Axe 1 Axe 2 REPRESENTATION DE LA CLASSIFICATION HIERARCHIQUE Ob *--* ** Ob *-----* * * Ob * * * Ob * * Ob *--* * Ob * * Ob * A *----* ** D *---* * * G * * * B * * C *----* * E * * F * Classification (AHC) sur les coordonnées:

21 AFC : exemple 1 - Dichotomie
TABLEAU INITIAL A B C D E F G Ob Ob Ob Ob Ob Ob Ob A | | 00 | | | 00 | Ob | | 00 | Ob4D | 00 | | G B Ob2| 00 | Ob | 00 | | C | 00 | Ob | 00 | | Ob | 00 | F E | | 00 | Ob | | 00 Axe 1 Axe 2 Les objets 1, 4, 7, 2 appartiennent à une classe caractérisée par les propriétés A, B, D, G REPRESENTATION DE LA CLASSIFICATION HIERARCHIQUE Ob *--* ** Ob *-----* * * Ob * * * Ob * * Ob *--* * Ob * * Ob * A *----* ** D *---* * * G * * * B * * C *----* * E * * F * Les deux classes sont clairement opposées Les objets 3, 5, 6 appartiennent à une classe caractérisée par les propriétés C, E, F

22 AFC : exemple 2 - Hiérarchies
TABLEAU INITIAL A B C D E F G ob ob ob ob E | | | 00 | | ob | 00 +-----ob A B F ob | | 10 G | | 00 | | ob | 00 | | D | 00 E G | | 00 | | | 00 | ob | | 00 A ob1---B C | ob2 D | 10 | | E | 00 | ob | | 00 F | | 00 Axe 2 Axe 3 G ob4 ob2 Axe 1 F C G ob3 ob4 B ob1 ob2 B D E A Axe 1 A C ob1 ob3 D F

23 AFC : exemple 2 - Hiérarchies
TABLEAU INITIAL A B C D E F G ob ob ob ob FJ Axe 1 (50%) Axe 2 (25%) Axe 3 (25%) o1 o2 o3 o4 A, attribut commun à tous les objets, a le poids le plus fort. Il est au centre du nuage et la racine de l’arbre. C A B D E F G A B D E F G C

24 AFC : exemple 3 - Sériation
PROJECTION DANS LE PLAN FACTORIEL [1,2] | Horizontal: Axe #2 (Inertie: 21.82%) ——— Vertical: Axe #1 (Inertie: 57.96%) | Largeur: ; Hauteur: ; Nombre de points : 14 o1 ---F | | | 00 | A | o | 00 | | | 10 O | | 00 o | | 00 | E | | 00 | o | | 00 | D | | 00 | o8 | | 00 | | B | 00 | | o | 00 | | C | 00 | | o | 00 TABLEAU INITIAL A B C D E F o o o o o o o o Forme parabolique: « Effet Guttman » (sériation)

25 AFC : exemple 3 - Sériation
Classification Ascendante Hiérarchique sur les coordonnées factorielles REPRESENTATION DE LA CLASSIFICATION HIERARCHIQUE o * * ** o * * * o * * * o * * o *------*------* * o * * * o * * o * A * ** F * * B * * * D * * C * * E *

26 AFC : exemple 3 - Sériation
CAH sur AFC • Les objets o1 et o6 sont liés aux propriétés F et A. • Les objets o2 et o4 sont liés à la propriété E • Les objets o8, o5, o3 et o7 sont liés aux propriétés D, B, C PROJECTION DANS LE PLAN FACTORIEL [1,2] | Horizontal: Axe #2 (Inertie: 21.82%) ——— Vertical: Axe #1 (Inertie: 57.96%) | Largeur: ; Hauteur: ; Nombre de points : 14 o1 ---F | | | 00 | A | o | 00 | | | 10 O | | 00 o | | 00 | E | | 00 | o | | 00 | D | | 00 | o8 | | 00 | | B | 00 | | o | 00 | | C | 00 | | o | 00

27 Analyse Factorielle (AFC) et Analyse en Concepts Formels (FCA) (concerne uniquement les “one-valued contexts”) Un concept formel est une paire (A,B) où A est un ensemble d’objets (extent) et B un ensemble d’attributs (intent) C1 {},{female,juvenile,adult,male} C2 {man},{adult,male} C3 {boy},{juvenile,male} C4 {boy,man},{male} C5 {woman},{female,adult} C6 {woman,man},{adult} C7 {girl},{female,juvenile} C8 {girl,boy},{juvenile} C9 {girl,woman},{female} C10 {girl,woman,boy,man},{} Toutes les propriétés Tous les objets Chaque nœud est un concept formel Ces concepts forment une structure hiérarchique que l’on peut représenter par un treillis de Galois.

28 FCA et AFC Formal Concept Analysis
Analyse Factorielle des Correspondances Lecture de bas en haut: • a girl is a female juvenile, • a woman is a female adult, etc.

29 FCA et AFC Formal Concept Analysis
Analyse Factorielle des Correspondances female | | | | GIRL | WOMAN | adult+ juvenile | | | BOY | MAN | | male | Axe 1 Axe 2 Lecture de bas en haut: • a girl is a female juvenile, • a woman is a female adult, etc. L’axe 1 définit une propriété « sexe » (male vs female), L’axe 2 définit une propriété « âge » (juvenile vs adult). Lecture de haut en bas: • “female” characterizes girls and women, • “juvenile” characterizes girls and boys, etc.

30 FCA et AFC Formal Concept Analysis
Analyse Factorielle des Correspondances female | | | | GIRL | WOMAN | adult+ juvenile | | | BOY | MAN | | male | Axe 1 Axe 2 Lecture de bas en haut: • a girl is a female juvenile, • a woman is a female adult, etc. D’après les proximités spatiales : • a girl is female and juvenile, • a woman is female and adult, etc Lecture de haut en bas: • “female” characterizes girls and women, • “juvenile” characterizes girls and boys, etc. • female characterizes girls and women, • juvenile characterizes girls and boys, etc

31 FCA et AFC C A B D E F G A B D E F G C Treillis de Galois Axe 2 (25%)
TABLEAU INITIAL A B C D E F G ob ob ob ob C A B D E F G A B D E F G C Treillis de Galois


Télécharger ppt "Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse)"

Présentations similaires


Annonces Google