La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

EGC-03. Apprentissage supervisé et non supervisé sur les données INDANA A. Cornuéjols (LRI) Éric Bréchemier, Claire Lequeux Matthieu Manceny & Natanel.

Présentations similaires


Présentation au sujet: "EGC-03. Apprentissage supervisé et non supervisé sur les données INDANA A. Cornuéjols (LRI) Éric Bréchemier, Claire Lequeux Matthieu Manceny & Natanel."— Transcription de la présentation:

1 EGC-03. Apprentissage supervisé et non supervisé sur les données INDANA A. Cornuéjols (LRI) Éric Bréchemier, Claire Lequeux Matthieu Manceny & Natanel Sadres (CNAM-IIE)

2 2/34 © Antoine Cornuéjols INDANA (rapport AC) 10/03/03 Apprentissage supervisé avec ré-équilibrage Utilisation de différents algorithmes dapprentissage supervisé disponibles sur Weka J48.48 (arbre de décision) PMC (Perceptron Multi-Couche) SVM Boosting (sauf sur PMC) Avec techniques de ré-équilibrage des classes event / ¬event Par matrice de coûts Par bruitage des données event

3 3/34 © Antoine Cornuéjols INDANA (rapport AC) 10/03/03 Résultats (avec matrice de coûts) Utilisation de matrices de coût Option minimizeExpectedCost=False de weka Courbe ROC-like (0,834 %)

4 4/34 © Antoine Cornuéjols INDANA (rapport AC) 10/03/03 Résultats (avec matrice de coûts)

5 5/34 © Antoine Cornuéjols INDANA (rapport AC) 10/03/03 Résultats (avec bruitage) 1ère méthode : event ¬event bruitage, x10 base dapprentissage Validation croisée (10 x) Bruitage : Un seul attribut numérique ± 10 %

6 6/34 © Antoine Cornuéjols INDANA (rapport AC) 10/03/03 Résultats (avec bruitage)

7 7/34 © Antoine Cornuéjols INDANA (rapport AC) 10/03/03 Résultats (avec bruitage) (2) Même bruit 2ème méthode : 2/3 event (71) 1/2 ¬event (1062) bruitage, x15 base dapprentissage Test sur les (1/3 event / 1/2 ¬ event) restants

8 8/34 © Antoine Cornuéjols INDANA (rapport AC) 10/03/03 Résultats (avec bruitage) (2)

9 9/34 © Antoine Cornuéjols INDANA (rapport AC) 10/03/03 Perspectives Améliorer le bruitage Bruit gaussien Simultanément sur plusieurs attributs Y compris sur attributs symboliques Avec dépendance sur la nature des attributs Modifier le protocole …

10 10/34 © Antoine Cornuéjols INDANA (rapport AC) 10/03/03 EM sur les données INDANA Motivation Essayer de faire de la régression malgré labsence détiquette temporelle (deathcv) après délai seuil (~ 6 ans) Démarche Sappuyer sur une méthode dapprentissage semi-supervisée : EM La développer pour le cas de la régression sans étiquette temporelle

11 11/34 © Antoine Cornuéjols INDANA (rapport AC) 10/03/03 EM sur les données INDANA Résultats Lextension de EM à la régression est conçue Mais lobtention de résultats requiert : avoir lenveloppe temporelle des dates de décès pour la population générale que des classes de patients se dégagent suffisamment clairement dans les données étiquetées Étapes 1.Développer EM standard et chercher des groupes de données dans les données étiquetées 2.Tester le nouvel algorithme sur des données artificielles 3.Lessayer sur les données INDANA

12 12/34 © Antoine Cornuéjols INDANA (rapport AC) 10/03/03 Rappels sur EM Expectation/Maximization Algorithme destimation de maximum de vraisemblance par itération successive de deux étapes Introduit par Dempster, Laird et Rubin en 1978

13 13/34 © Antoine Cornuéjols INDANA (rapport AC) 10/03/03 Le principe du maximum de vraisemblance Soit S = {x 1,x 2, …, x m } un échantillon de données gouverné par une distribution p X (x| ) Alors par hypothèse i.i.d. : On cherche : ou encore :

14 14/34 © Antoine Cornuéjols INDANA (rapport AC) 10/03/03 Le principe du maximum de vraisemblance Parfois facile à résoudre E.g. estimation dune seule gaussienne : (, 2 ) Parfois difficile å Augmentation de données

15 15/34 © Antoine Cornuéjols INDANA (rapport AC) 10/03/03 ML par EM On suppose : données observées S obs = {x obs 1,x obs 2,…,x obs m } un échantillon de données observées données cachées S c = {x c 1,x c 2,…,x c m } un échantillon correspondant de données cachées données totales S t = (S obs, S c ) = {(x obs 1, x c 1 ), (x obs 2, x c 2 ),…,(x obs m, x c m )} : les données totales Fonction de vraisemblance des données totales Fonction de vraisemblance des données totales : Variable aléatoire car S c est inconnue et gouvernée par une distribution cachée

16 16/34 © Antoine Cornuéjols INDANA (rapport AC) 10/03/03 ML par EM On cherche donc : Mais L ( |S obs,S c ) est une variable aléatoire en S c On va donc éliminer ce caractère aléatoire en passant par lespérance de L ( |S obs,S c ) (ou de son logarithme) par rapport aux données cachées Ed. les données observées et lestimation courante du paramètre

17 17/34 © Antoine Cornuéjols INDANA (rapport AC) 10/03/03 Lalgorithme EM expectation Étape dexpectation (E_étape) : maximisation Étape de maximisation (M_étape) : k := k+1 ; jusquà convergence Initialisation de 0 et de S c

18 18/34 © Antoine Cornuéjols INDANA (rapport AC) 10/03/03 Lalgorithme EM EM intéressant seulement si Q( ) est plus facile à calculer que L ( |S) Les étapes E et M Ne sont pas toujours faciles à calculer (mais généralement plus faciles que L ( |S) ) Mais ont une solution analytique pour une grande famille de fonctions paramétrées (e.g. les distributions exponentielles) Mélanges de gaussiennes H MM s …

19 19/34 © Antoine Cornuéjols INDANA (rapport AC) 10/03/03 EM : l « intuition » Étape_E Étape_M E E M Paramètres des données complètes Paramètres des modèles Contours de la log-vraisemblance de la probabilité jointe p(,S c )

20 20/34 © Antoine Cornuéjols INDANA (rapport AC) 10/03/03 EM : Cas des mélanges de gaussiennes On suppose un mélange de N gaussiennes : La log-vraisemblance des données incomplètes est alors : … qui est très difficile à optimiser

21 21/34 © Antoine Cornuéjols INDANA (rapport AC) 10/03/03 EM : Cas des mélanges de gaussiennes On augmente les données en ajoutant un ensemble de variables latentes Chaque x c i correspond à la responsabilité présumée de la gaussienne x c i {1,…,N} pour la donnée

22 22/34 © Antoine Cornuéjols INDANA (rapport AC) 10/03/03 EM : Cas des mélanges de gaussiennes Après calculs (…) :

23 23/34 © Antoine Cornuéjols INDANA (rapport AC) 10/03/03 Application de EM aux mélanges de Gaussiennes Soit le relevé des tailles dun échantillon de personnes Sexplique-t-il par un mélange de gaussiennes ?

24 24/34 © Antoine Cornuéjols INDANA (rapport AC) 10/03/03 Application de EM aux mélanges de Gaussiennes Résultat de EM après 10 itérations

25 25/34 © Antoine Cornuéjols INDANA (rapport AC) 10/03/03 Application de EM aux données INDANA Problèmes Données en dimension > 2 Nécessite des calculs de vecteurs moyenne de variance (matrice de variance-covariance) décart-type (racine carrée de matrice : décomposition par méthode de Cholesky) Malédiction de la dimensionnalité : croissance exponentielle du nombre de données requis en fct du nb de dimensions Des attributs numériques et symboliques å on traite les attributs symboliques comme des attributs numériques Des problèmes de calcul dues aux probabilités très faibles å Organiser les calculs å Beaucoup de tests en cours déxécution

26 26/34 © Antoine Cornuéjols INDANA (rapport AC) 10/03/03 Application de EM aux données INDANA Problèmes généraux Initialisation des gaussiennes Initialisation centrée, puis … Placement itératif des N gaussiennes Choix du nombre de Gaussiennes Méthode par dichotomie successive Mesure de la qualité du mélange obtenu (pour arrêter lalgorithme) Mesure de précision de Gaussienne La max des écart-types de G1 max des écart-types de G2 Mieux vaut des Gaussiennes précises Mais plus de Gaussiennes => plus de précision Mesure de proximité entre Gaussiennes On mesure d(i,j)= max[p(centre Gi|Gj), p(centre Gi|Gj)] Les Gaussiennes sont dautant plus éloignées que cette mesure est faible On estime que les Gaussiennes Gi et Gj sont légitimes si d(i,j) 0

27 27/34 © Antoine Cornuéjols INDANA (rapport AC) 10/03/03 Application de EM aux données INDANA Initialisation des Gaussiennes

28 28/34 © Antoine Cornuéjols INDANA (rapport AC) 10/03/03 Application de EM aux données INDANA Initialisation des Gaussiennes

29 29/34 © Antoine Cornuéjols INDANA (rapport AC) 10/03/03 Expériences réalisées Sur la 1ère base : 2230 patients Chaque variable a été bruitée avec une loi normale décart-type 0.1 Expériences répétées 5 fois (pour vérifier la stabilité) Pour 2, 3, 5 et 10 gaussiennes Mise en œuvre Initialisation telle que décrit plus haut Attribution stochastique des classes dans létape E

30 30/34 © Antoine Cornuéjols INDANA (rapport AC) 10/03/03 EM sur INDANA : résultats (2 classes) Deux Gaussiennes :

31 31/34 © Antoine Cornuéjols INDANA (rapport AC) 10/03/03 EM sur INDANA : résultats (3 classes)

32 32/34 © Antoine Cornuéjols INDANA (rapport AC) 10/03/03 EM sur INDANA : résultats (5 classes)

33 33/34 © Antoine Cornuéjols INDANA (rapport AC) 10/03/03 EM sur INDANA : résultats (10 classes)

34 34/34 © Antoine Cornuéjols INDANA (rapport AC) 10/03/03 EM sur INDANA : bilan Précautions Résultats à confirmer Il faudrait répéter davantage les expériences Tester sur le reste des données INDANA Perspectives Les classes « aberrantes » correspondent-elles à un phénomène intéressant? de protection naturelle (origine génétique) contre AVC ? … ? EM pour la régression Espoir très faible (avec ce type de données)


Télécharger ppt "EGC-03. Apprentissage supervisé et non supervisé sur les données INDANA A. Cornuéjols (LRI) Éric Bréchemier, Claire Lequeux Matthieu Manceny & Natanel."

Présentations similaires


Annonces Google