La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES.

Présentations similaires


Présentation au sujet: "Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES."— Transcription de la présentation:

1 Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES

2 Donn é es brutes Les attributs (ou propri é t é s) qui d é finissent les objets peuvent être : des variables qualitatives (discr è tes) des variables quantitatives (continues) un m é lange des deux objetattribut Aattribut Battribut C … 1A1B3C2 … 2A3B2C1 … 3A4B2C1 … 4A2B1C2 … 5A1B2C1 … 6A4B3C1 … …………… N …………

3 Codage: des donn é es brutes au tableau disjonctif complet Tableau attributs-valeurs ( « multi-valued context » ) NB: cette op é ration est impl é ment é e dans Semana Tableau disjonctif complet ( « one-valued context » = formal context) Rough Set Analysis Formal Concept Analysis Correspondance Factor Analysis

4 Codage: du tableau disjonctif complet au tableau de Burt Tableau disjonctif complet Les relations entre attributs sont renforcées Table de Burt (co-occurrence des variables) NB: cette op é ration est impl é ment é e dans Semana Linformation relative aux individus est perdue

5 Autres op é rations de codage Exemple: Passage d une note sur 20 à une appr é ciation A,B,C,D >16/20 = A; = B; = C; etc. NB: ces proc é dures sont impl é ment é es dans Semana « Discr é tisation » : remplacement des variables quantitatives par des variables nominales « Logical scaling » : remplacement d attributs par d autres en application de r è gles

6 Discr é tisation Courbe cumulative N i /N t = f(X i ) Modalit é 1 (Xi<31.5) : « petit » Modalit é 2 (31.5Xi<37.5) : « moyen » Modalit é 3 (Xi37.5) : « grand » 1/3 2/3 Exemple d une partition en 3 classes d effectifs é gaux

7 Discr é tisation 21 sacs de couchage caractérisés par trois variables quantitatives (température, poids et prix) et un attribut nominal (matériau synthétique ou natural) (daprès S. Prediger,Symbolic objects in FCA, 1997) Discrétisation de la température (4 mod.): {+7, +3} => T1 {0, -3} => T2 {-7, -10} => T3 {-15} => T4 Discrétisation du poids (5 modalités): 1000 => W1 { } => W2 { } => W3 { } => W => W5 Discrétisation du prix (3 modalités): 250 => cheap { } => notexp 400 => expensive daprès Susanne Prediger (1997). Symbolic objects in Formal concept Analysis, Vancouver

8 Discr é tisation et « logical scaling » Poids discr é tis é in 5 modalit é sTemp é rature minimale discr é tis é e en 4 modalit é s Prix discr é tis é in 3 modalit é s Discrétisation de la température: {+7, +3} => T1 {0, -3} => T2 {-7, -10} => T3 {-15} => T4 Discrétisation du poids: 1000 => W1 { } => W2 { } => W3 { } => W => W5 Discrétisation du prix: 250 => cheap { } => notexp 400 => expensive Etape 1: discrétisation des variables quantitatives température, poids et prix

9 Discr é tisation et « logical scaling » Etalement des 4 modalit é s de temp é rature É talement des 5 modalit é s de poids É talement des 3 modalit é s de prix Etape 2: transformation du « multi-valued context » (AV) en « one-valued context » (FCA)

10 Discr é tisation et « logical scaling » Etalement des 4 modalit é s de temp é rature É talement des 5 modalit é s de poids É talement des 3 modalit é s de prix Etape 3 : Logical scaling {T1 and W1} or {T2 and (W1 or W2)} or {T3 and (W1 or W2 or W3)} or {T4 and (W1 or W2 or W3 or W4)} => good {T1 and (W1 or W2)} or {T2 and (W1 or W2 or W3)} or {T3 and (W1 or W2 or W3 or W4)} or {T4} => acceptable {T1 and (W3 or W4 or W5)} or {T2 and (W4 or W5)} or {T3 and W5} => bad

11 Discr é tisation et « logical scaling » 3 attributs qualitatifs remplacent 9 modalit é s de 2 variables quantitatives (temp é rature et poids)

12 Les techniques de l Analyse Statistique des Donn é es Classification Ascendante Hi é rarchique (CAH) une combinaison des deux: CAH sur l AFC L Analyse Factorielle des Correspondances (AFC) NB: ces op é rations sont impl é ment é es dans Semana (STAT 3) Programmes Fortran de léquipe du Professeur J.-P. Benzécri (Université Paris-VI) adaptés en langage Transcript de Revolution®

13 Classification Ascendante Hi é rarchique (CAH) Objet de la CAH : agr é ger successivement les é l é ments d une table de contingence (ou d une table de Burt) en classes en utilisant une mesure de la distance entre classes et d un crit è re d agr é gation. (3) (2) (1) (5) (4) Distance enclidienne (m é trique du 2) crit è re d agr é gation : moment centr é d ordre 2 d une partition maximum Les é lements qui ont des profils voisins s agr è gent tr è s tôt. Ils forment des classes (ou « clusters » ) utiles pour l interpr é tation.

14 Analyse Factorielle des Correspondances (AFC) y x y = ax + b Deux dimensions (deux variables x,y) r é gression lin é aire, mesure du 2 z x y Trois dimensions (3 variables x,y,z) Projections dans les plans [x,y], [x,z] et [y,z] => vues d é form é es (difficiles à interpr é ter) F1 F2 F3 AFC => changements d axes F1, F2, F3 : axes d inertie du nuages de points projections sur les plans [F1,F2], [F1,F3], etc.

15 Analyse Factorielle des Correspondances (AFC) exemple: le champ s é mantique des couleurs 11 couleurs décrites par 89 adjectifs

16 Analyse Factorielle des Correspondances (AFC) exemple: le champ s é mantique des couleurs 11 couleurs décrites par 89 adjectifs F1 F2 ROUGE ORANGE BLEU VERT ROSE NOIR GRIS MARRON BLANC silencieux sévèreprofond religieuxsobresinistre mystérieux triste vieux discret mort rafffinébrumeux sombre lisse hivernal vide sale immaculé neigeux pur automnal glacé masculin dur doux parfumé VIOLET bête propre limpide pâle laid clair froid enfantin naturel léger franc calme champêtre printanier reposant patriotique vivant sucré romantique harmonieux sournois sonore ensoleillé acide JAUNE brûlant révolutionnaire passionné sanguin dynamique fruité féminin juteux agressif violent maladifvif cru rond comique énervant chaud angoissant décoratif attirant éclatant joyeux lumineux Avantages de l AFC : Les objets et les propri é t é s sont repr é sent é s sur le même graphe leurs relations sont significatives

17 Analyse Factorielle des Correspondances (AFC) exemple: le champ s é mantique des couleurs F1 F2 ROUGE ORANGE BLEU VERT ROSE NOIR GRIS MARRON BLANC silencieux sévèreprofond religieuxsobresinistre mystérieux triste vieux discret mort rafffinébrumeux sombre lisse hivernal vide sale immaculé neigeux pur automnal glacé masculin dur doux parfumé VIOLET bête propre limpide pâle laid clair froid enfantin naturel léger franc calme champêtre printanier reposant patriotique vivant sucré romatique harmonieux sournois sonore ensoleillé acide JAUNE brûlant révolutionnaire passionné sanguin dynamique fruité féminin juteux agressif violent maladifvif cru rond comique énervant chaud angoissant décoratif attirant éclatant class 158 class 118 class 153 joyeux lumineux class 156 class 163 class 159 class couleurs décrites par 89 adjectifs

18 Trois exemples typiques de structures mises en é vidence par AFC Dichotomie (deux classes oppos é es) Hi é rarchies (structures arborescentes) S é riation (classes ordonn é es)

19 AFC : exemple 1 - Dichotomie A | | 00 | | | 00 | Ob1 | | 00 | Ob4D | 00 | | | 00 | | G B Ob2| 00 | Ob7 | 00 | | | | | | 00 | | C | 00 | Ob3 | 00 | | Ob5 | 00 | | | 00 | F E | | 00 | | | 00 | Ob6 | | Axe 1 Axe 2 TABLEAU INITIAL A B C D E F G Ob Ob Ob Ob Ob Ob Ob

20 A | | 00 | | | 00 | Ob1 | | 00 | Ob4D | 00 | | | 00 | | G B Ob2| 00 | Ob7 | 00 | | | | | | 00 | | C | 00 | Ob3 | 00 | | Ob5 | 00 | | | 00 | F E | | 00 | | | 00 | Ob6 | | Axe 1 Axe 2 AFC : exemple 1 - Dichotomie TABLEAU INITIAL A B C D E F G Ob Ob Ob Ob Ob Ob Ob REPRESENTATION DE LA CLASSIFICATION HIERARCHIQUE Ob *--* ** Ob4 --*-----* * * Ob7 --* * * Ob * * Ob3 ----*--* * Ob5 ----* * Ob * REPRESENTATION DE LA CLASSIFICATION HIERARCHIQUE A *----* ** D --*---* * * G --* * * B * * C ----*----* * E ----* * F * Classification (AHC) sur les coordonnées:

21 REPRESENTATION DE LA CLASSIFICATION HIERARCHIQUE Ob *--* ** Ob4 --*-----* * * Ob7 --* * * Ob * * Ob3 ----*--* * Ob5 ----* * Ob * A *----* ** D --*---* * * G --* * * B * * C ----*----* * E ----* * F * A | | 00 | | | 00 | Ob1 | | 00 | Ob4D | 00 | | | 00 | | G B Ob2| 00 | Ob7 | 00 | | | | | | 00 | | C | 00 | Ob3 | 00 | | Ob5 | 00 | | | 00 | F E | | 00 | | | 00 | Ob6 | | Axe 1 Axe 2 AFC : exemple 1 - Dichotomie Les objets 1, 4, 7, 2 appartiennent à une classe caract é ris é e par les propri é t é s A, B, D, G Les objets 3, 5, 6 appartiennent à une classe caract é ris é e par les propri é t é s C, E, F Les deux classes sont clairement oppos é es TABLEAU INITIAL A B C D E F G Ob Ob Ob Ob Ob Ob Ob

22 AFC : exemple 2 - Hi é rarchies TABLEAU INITIAL A B C D E F G ob ob ob ob E | | | 00 | | ob2 | 00 | | | ob A B F ob4 | | 10 G | | 00 | | | 00 | | ob1 | 00 | | | 00 | | D | G | | 00 | | | 00 | ob4 | | 00 | | | A ob1---B C | ob2 D | 10 | | E | 00 | | | 00 | ob3 | | 00 | | | 00 F | | A B D ob3 ob4 E FCGFCG A BDEBDE C F G ob2 ob1 ob2 ob4 ob3 Axe 1 Axe 2 Axe 1 Axe 3

23 AFC : exemple 2 - Hi é rarchies TABLEAU INITIAL A B C D E F G ob ob ob ob FJ Axe 1 (50%) Axe 2 (25%) Axe 3 (25%) o1 o2 o3 o4 C A B D E F G A B DEFG C A, attribut commun à tous les objets, a le poids le plus fort. Il est au centre du nuage et la racine de larbre.

24 PROJECTION DANS LE PLAN FACTORIEL [1,2] | Horizontal: Axe #2 (Inertie: 21.82%) Vertical: Axe #1 (Inertie: 57.96%) | Largeur: ; Hauteur: ; Nombre de points : o1 ---F | | | 00 | A | o6 | 00 | | | 00 | | | 10 O2 | | 00 | | | 00 o4 | | 00 | E | | 00 | | | | | | 00 | o5 | | 00 | | | 00 | D | | 00 | | | 00 | o8 | | 00 | | | 00 | | B | 00 | | o3 | 00 | | | 00 | | C | 00 | | o7 | AFC : exemple 3 - S é riation TABLEAU INITIAL A B C D E F o o o o o o o o Forme parabolique: « Effet Guttman » (s é riation)

25 AFC : exemple 3 - S é riation REPRESENTATION DE LA CLASSIFICATION HIERARCHIQUE o * * ** o * * * o * * * o * * o3 ---*------*------* * o8 ---* * * o * * o * REPRESENTATION DE LA CLASSIFICATION HIERARCHIQUE A * ** F * * B * * * D * * C * * E * Classification Ascendante Hi é rarchique sur les coordonn é es factorielles

26 AFC : exemple 3 - S é riation PROJECTION DANS LE PLAN FACTORIEL [1,2] | Horizontal: Axe #2 (Inertie: 21.82%) Vertical: Axe #1 (Inertie: 57.96%) | Largeur: ; Hauteur: ; Nombre de points : o1 ---F | | | 00 | A | o6 | 00 | | | 00 | | | 10 O2 | | 00 | | | 00 o4 | | 00 | E | | 00 | | | | | | 00 | o5 | | 00 | | | 00 | D | | 00 | | | 00 | o8 | | 00 | | | 00 | | B | 00 | | o3 | 00 | | | 00 | | C | 00 | | o7 | Les objets o1 et o6 sont li é s aux propri é t é s F et A. Les objets o2 et o4 sont li é s à la propri é t é E Les objets o8, o5, o3 et o7 sont li é s aux propri é t é s D, B, C CAH sur AFC

27 Analyse Factorielle (AFC) et Analyse en Concepts Formels (FCA) (concerne uniquement les one-valued contexts ) Un concept formel est une paire (A,B) où A est un ensemble dobjets (extent) et B un ensemble dattributs (intent) Toutes les propriétés Tous les objets Chaque nœud est un concept formel C1 {},{female,juvenile,adult,male} C2 {man},{adult,male} C3 {boy},{juvenile,male} C4 {boy,man},{male} C5 {woman},{female,adult} C6 {woman,man},{adult} C7 {girl},{female,juvenile} C8 {girl,boy},{juvenile} C9 {girl,woman},{female} C10 {girl,woman,boy,man},{} Ces concepts forment une structure hiérarchique que lon peut représenter par un treillis de Galois.

28 FCA et AFC Formal Concept AnalysisAnalyse Factorielle des Correspondances Lecture de bas en haut: a girl is a female juvenile, a woman is a female adult, etc.

29 FCA et AFC female | | | | GIRL | WOMAN | | | | adult+ juvenile | | | | | | BOY | MAN | | | | | male | Formal Concept Analysis Lecture de haut en bas: female characterizes girls and women, juvenile characterizes girls and boys, etc. L axe 1 d é finit une propri é t é « sexe » (male vs female), Analyse Factorielle des Correspondances Axe 1 Axe 2 L axe 2 d é finit une propri é t é « âge » (juvenile vs adult). Lecture de bas en haut: a girl is a female juvenile, a woman is a female adult, etc.

30 female | | | | GIRL | WOMAN | | | | adult+ juvenile | | | | | | BOY | MAN | | | | | male | Axe 1 Axe 2 FCA et AFC Formal Concept AnalysisAnalyse Factorielle des Correspondances D apr è s les proximit é s spatiales : a girl is female and juvenile, a woman is female and adult, etc female characterizes girls and women, juvenile characterizes girls and boys, etc Lecture de haut en bas: female characterizes girls and women, juvenile characterizes girls and boys, etc. Lecture de bas en haut: a girl is a female juvenile, a woman is a female adult, etc.

31 FCA et AFC Axe 1 (50%) Axe 2 (25%) Axe 3 (25%) o1 o2 o3 o4 C A B D E F G A B DEFG C TABLEAU INITIAL A B C D E F G ob ob ob ob Treillis de Galois


Télécharger ppt "Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES."

Présentations similaires


Annonces Google