Apprentissage supervisé et non supervisé sur les données INDANA A. Cornuéjols (LRI) Éric Bréchemier, Claire Lequeux Matthieu Manceny & Natanel Sadres (CNAM-IIE) EGC-03.
Apprentissage supervisé avec ré-équilibrage Utilisation de différents algorithmes d’apprentissage supervisé disponibles sur Weka J48.48 (arbre de décision) PMC (Perceptron Multi-Couche) SVM Boosting (sauf sur PMC) Avec techniques de ré-équilibrage des classes event / ¬event Par matrice de coûts Par bruitage des données event INDANA (rapport AC) 10/03/03
Résultats (avec matrice de coûts) Utilisation de matrices de coût Option minimizeExpectedCost=False de weka Courbe ROC-like (0,834 %) INDANA (rapport AC) 10/03/03
Résultats (avec matrice de coûts) INDANA (rapport AC) 10/03/03
Résultats (avec bruitage) 1ère méthode : bruitage, x10 event ¬event base d’apprentissage Validation croisée (10 x) Bruitage : Un seul attribut numérique ± 10 % INDANA (rapport AC) 10/03/03
Résultats (avec bruitage) INDANA (rapport AC) 10/03/03
Résultats (avec bruitage) (2) 2ème méthode : bruitage, x15 2/3 event (71) 1/2 ¬event (1062) base d’apprentissage Test sur les (1/3 event / 1/2 ¬ event) restants Même bruit INDANA (rapport AC) 10/03/03
Résultats (avec bruitage) (2) INDANA (rapport AC) 10/03/03
Perspectives Améliorer le bruitage Modifier le protocole … Bruit gaussien Simultanément sur plusieurs attributs Y compris sur attributs symboliques Avec dépendance sur la nature des attributs Modifier le protocole … INDANA (rapport AC) 10/03/03
EM sur les données INDANA Motivation Essayer de faire de la régression malgré l’absence d’étiquette temporelle (deathcv) après délai seuil (~ 6 ans) Démarche S’appuyer sur une méthode d’apprentissage semi-supervisée : EM La développer pour le cas de la régression sans étiquette temporelle En grande dimension : • le volume des hypercubes tend à se concentrer dans les coins • Le volume d’une hyperellipsoïde tend à se concentrer dans la « peau » Donc les données multivariables ont tendance à se concentrer sur des structures de dimension plus faible. Bases d’images de scènes naturelles : Car encore mal maîtrisées Statistique différente de la statistique des images en milieu artificiel INDANA (rapport AC) 10/03/03
EM sur les données INDANA Résultats L’extension de EM à la régression est conçue Mais l’obtention de résultats requiert : avoir l’enveloppe temporelle des dates de décès pour la population générale que des classes de patients se dégagent suffisamment clairement dans les données étiquetées Étapes Développer EM standard et chercher des groupes de données dans les données étiquetées Tester le nouvel algorithme sur des données artificielles L’essayer sur les données INDANA INDANA (rapport AC) 10/03/03
Rappels sur EM Expectation/Maximization Algorithme d’estimation de maximum de vraisemblance par itération successive de deux étapes Introduit par Dempster, Laird et Rubin en 1978 INDANA (rapport AC) 10/03/03
Le principe du maximum de vraisemblance Soit S = {x1,x2, …, xm} un échantillon de données gouverné par une distribution pX(x|q) Alors par hypothèse i.i.d. : On cherche : ou encore : INDANA (rapport AC) 10/03/03
Le principe du maximum de vraisemblance Parfois facile à résoudre E.g. estimation d’une seule gaussienne : (, s2) Parfois difficile Augmentation de données INDANA (rapport AC) 10/03/03
ML par EM On suppose : Sobs = {xobs1,xobs2,…,xobsm} un échantillon de données observées Sc = {xc1,xc2,…,xcm} un échantillon correspondant de données cachées St = (Sobs, Sc) = {(xobs1, xc1), (xobs2, xc2),…,(xobsm, xcm)} : les données totales Fonction de vraisemblance des données totales : Variable aléatoire car Sc est inconnue et gouvernée par une distribution cachée INDANA (rapport AC) 10/03/03
ML par EM On cherche donc : Mais L(q|Sobs,Sc) est une variable aléatoire en Sc On va donc éliminer ce caractère aléatoire en passant par l’espérance de L(q|Sobs,Sc) (ou de son logarithme) par rapport aux données cachées Ed. les données observées et l’estimation courante du paramètre q INDANA (rapport AC) 10/03/03
L’algorithme EM Initialisation de q0 et de Sc Étape d’expectation (E_étape) : Étape de maximisation (M_étape) : [Seeger : « Learning with labeled and unlabeled data »] p.17 Étape-E : On calcule la distribution conditionnelle des variables latentes, Ed. les données observées et l’estimation courante de q. Étape-M : On calcule l’espérance de la fonction de log vraisemblance complète sous la distribution conditionnelle calculée à l’étape_E, Puis on choisit le nouveau modèle q qui maximise ce critère. k := k+1 ; jusqu’à convergence INDANA (rapport AC) 10/03/03
L’algorithme EM EM intéressant seulement si Q(q,q’) est plus facile à calculer que L(q|S) Les étapes E et M Ne sont pas toujours faciles à calculer (mais généralement plus faciles que L(q|S) ) Mais ont une solution analytique pour une grande famille de fonctions paramétrées (e.g. les distributions exponentielles) Mélanges de gaussiennes HMMs … INDANA (rapport AC) 10/03/03
EM : l’ « intuition » E E M Étape_M Étape_E Paramètres des modèles 0.1 0.3 0.5 0.7 0.9 E E M Paramètres des modèles Étape_M Contours de la log-vraisemblance de la probabilité jointe p(q,Sc) Étape_E Paramètres des données complètes INDANA (rapport AC) 10/03/03
EM : Cas des mélanges de gaussiennes On suppose un mélange de N gaussiennes : La log-vraisemblance des données incomplètes est alors : … qui est très difficile à optimiser INDANA (rapport AC) 10/03/03
EM : Cas des mélanges de gaussiennes On augmente les données en ajoutant un ensemble de variables latentes Chaque xci correspond à la responsabilité présumée de la gaussienne xci {1,…,N} pour la donnée INDANA (rapport AC) 10/03/03
EM : Cas des mélanges de gaussiennes Après calculs (…) : INDANA (rapport AC) 10/03/03
Application de EM aux mélanges de Gaussiennes Soit le relevé des tailles d’un échantillon de personnes S’explique-t-il par un mélange de gaussiennes ? INDANA (rapport AC) 10/03/03
Application de EM aux mélanges de Gaussiennes Résultat de EM après 10 itérations INDANA (rapport AC) 10/03/03
Application de EM aux données INDANA Problèmes Données en dimension > 2 Nécessite des calculs de vecteurs moyenne de variance (matrice de variance-covariance) d’écart-type (racine carrée de matrice : décomposition par méthode de Cholesky) Malédiction de la dimensionnalité : croissance exponentielle du nombre de données requis en fct du nb de dimensions Des attributs numériques et symboliques on traite les attributs symboliques comme des attributs numériques Des problèmes de calcul dues aux probabilités très faibles Organiser les calculs Beaucoup de tests en cours d’éxécution INDANA (rapport AC) 10/03/03
Application de EM aux données INDANA Problèmes généraux Initialisation des gaussiennes Initialisation centrée, puis … Placement itératif des N gaussiennes Choix du nombre de Gaussiennes Méthode par dichotomie successive Mesure de la qualité du mélange obtenu (pour arrêter l’algorithme) Mesure de précision de Gaussienne La max des écart-types de G1 ≤ max des écart-types de G2 Mieux vaut des Gaussiennes précises Mais plus de Gaussiennes => plus de précision Mesure de proximité entre Gaussiennes On mesure d(i,j)= max[p(centre Gi|Gj), p(centre Gi|Gj)] Les Gaussiennes sont d’autant plus éloignées que cette mesure est faible On estime que les Gaussiennes Gi et Gj sont légitimes si d(i,j) ≈ 0 INDANA (rapport AC) 10/03/03
Application de EM aux données INDANA Initialisation des Gaussiennes INDANA (rapport AC) 10/03/03
Application de EM aux données INDANA Initialisation des Gaussiennes INDANA (rapport AC) 10/03/03
Expériences réalisées Sur la 1ère base : 2230 patients Chaque variable a été bruitée avec une loi normale d’écart-type 0.1 Expériences répétées 5 fois (pour vérifier la stabilité) Pour 2, 3, 5 et 10 gaussiennes Mise en œuvre Initialisation telle que décrit plus haut Attribution stochastique des classes dans l’étape E INDANA (rapport AC) 10/03/03
EM sur INDANA : résultats (2 classes) Deux Gaussiennes : INDANA (rapport AC) 10/03/03
EM sur INDANA : résultats (3 classes) INDANA (rapport AC) 10/03/03
EM sur INDANA : résultats (5 classes) INDANA (rapport AC) 10/03/03
EM sur INDANA : résultats (10 classes) INDANA (rapport AC) 10/03/03
EM sur INDANA : bilan Précautions Perspectives EM pour la régression Résultats à confirmer Il faudrait répéter davantage les expériences Tester sur le reste des données INDANA Perspectives Les classes « aberrantes » correspondent-elles à un phénomène intéressant? de protection naturelle (origine génétique) contre AVC ? … ? EM pour la régression Espoir très faible (avec ce type de données) INDANA (rapport AC) 10/03/03