Apprentissage supervisé et non supervisé sur les données INDANA

Slides:



Advertisements
Présentations similaires
Qualité du Premier Billot. 2 3 Défauts reliés à labattage.
Advertisements

1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Licence pro MPCQ : Cours
Distance inter-locuteur
M1 MASTER GESTION Séance 3 Pilotage coûts- délais
STATISTIQUE INFERENTIELLE L ’ESTIMATION
A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting.
Fonctions & procédures
LIRMM 1 Journée Deuxièmes années Département Microélectronique LIRMM.
Est Ouest Sud 11 1 Nord 1 Laval Du Breuil, Adstock, Québec I-17-17ACBLScore S0417 Allez à 1 Est Allez à 4 Sud Allez à 3 Est Allez à 2 Ouest RndNE
Les Prepositions.
Inférence statistique
Nombre de sujets nécessaires en recherche clinique
3. Analyse et estimation du mouvement dans la vidéo
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
La diapo suivante pour faire des algorithmes (colorier les ampoules …à varier pour éviter le « copiage ») et dénombrer (Entoure dans la bande numérique.
Analyse de la variance à un facteur
Améliorer les performances du chiffrage à flot SYND
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
DEA instrumentation et commande
Application des algorithmes génétiques
Classification Multi Source En Intégrant La Texture
Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,
Nombre de sujets nécessaires en recherche clinique
SUJET D’ENTRAINEMENT n°2
Régression linéaire simple
1 Conduite du changement LA CONDUITE DU CHANGEMENT.
Construction de modèles visuels
Plan d’expérience dynamique pour la maximisation
LES NOMBRES PREMIERS ET COMPOSÉS
La Saint-Valentin Par Matt Maxwell.
Méthodes de prévision (STT-3220)
1 Enseigner les mathématiques grâce à lenvironnement Cabri UREM UNIVERSITE LIBRE DE BRUXELLES 18 Avril 2007 Enseigner les mathématiques grâce à lenvironnement.
Représentation des systèmes dynamiques dans l’espace d’état
Représentation des systèmes dynamiques dans l’espace d’état
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
Modélisation de la topologie avec le Graphe Génératif Gaussien
Prédiction multi-step de la volatilité : le modèle ARIMA-GARCH appliqué aux séries temporelles d’affaiblissement par la pluie sur les liaisons Terre-Satellite.
Notre calendrier français MARS 2014
Les changements de numéraire dans la tarification d’options
3ème partie: les filtres
C'est pour bientôt.....
Veuillez trouver ci-joint
Ordonnancement de tâches
SUJET D’ENTRAINEMENT n°4
Filtrage de Kalman et aperçu probabiliste
Programmation linéaire en nombres entiers : les méthodes de troncature
ASI 3 Méthodes numériques pour l’ingénieur
LUNDI – MARDI – MERCREDI – JEUDI – VENDREDI – SAMEDI – DIMANCHE
SUJET D’ENTRAINEMENT n°1
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
1 - Programme de Seconde (juin 2009) Statistique et probabilités
DESIGN D’UN CODEUR- DÉCODEUR CHAOTIQUE AUTO-SYNCHRONISANT EN TEMPS RÉEL ET EN PRÉSENCE DE BRUIT Laboratoire d’Automatique et d’Informatique Industrielle-POITIERS.
CALENDRIER-PLAYBOY 2020.
1. Présentation générale du système
1 Introduction à la théorie des tests. 2 Plan I- choix entre 2 paramètres de tendance centrale Choix entre 2 proportions pour un caractère qualitatif.
1 Nestlé – Optifibre Zones administrables via le back-office.
Chimiometrie (Chemometrics)
Les Chiffres Prêts?
Médiathèque de Chauffailles du 3 au 28 mars 2009.
ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage
Rappels de statistiques descriptives
Méthode des moindres carrés (1)
Evaluation des performances des tests diagnostiques en absence de Gold Standard Christophe Combescure Laboratoire de Biostatistique, IURC.
L’algorithme EM pour des données manquantes Molière Nguile makao INSERM U823/équipe 11.
Transcription de la présentation:

Apprentissage supervisé et non supervisé sur les données INDANA A. Cornuéjols (LRI) Éric Bréchemier, Claire Lequeux Matthieu Manceny & Natanel Sadres (CNAM-IIE) EGC-03.

Apprentissage supervisé avec ré-équilibrage Utilisation de différents algorithmes d’apprentissage supervisé disponibles sur Weka J48.48 (arbre de décision) PMC (Perceptron Multi-Couche) SVM Boosting (sauf sur PMC) Avec techniques de ré-équilibrage des classes event / ¬event Par matrice de coûts Par bruitage des données event INDANA (rapport AC) 10/03/03

Résultats (avec matrice de coûts) Utilisation de matrices de coût Option minimizeExpectedCost=False de weka Courbe ROC-like (0,834 %) INDANA (rapport AC) 10/03/03

Résultats (avec matrice de coûts) INDANA (rapport AC) 10/03/03

Résultats (avec bruitage) 1ère méthode : bruitage, x10 event ¬event base d’apprentissage Validation croisée (10 x) Bruitage : Un seul attribut numérique ± 10 % INDANA (rapport AC) 10/03/03

Résultats (avec bruitage) INDANA (rapport AC) 10/03/03

Résultats (avec bruitage) (2) 2ème méthode : bruitage, x15 2/3 event (71) 1/2 ¬event (1062) base d’apprentissage Test sur les (1/3 event / 1/2 ¬ event) restants Même bruit INDANA (rapport AC) 10/03/03

Résultats (avec bruitage) (2) INDANA (rapport AC) 10/03/03

Perspectives Améliorer le bruitage Modifier le protocole … Bruit gaussien Simultanément sur plusieurs attributs Y compris sur attributs symboliques Avec dépendance sur la nature des attributs Modifier le protocole … INDANA (rapport AC) 10/03/03

EM sur les données INDANA Motivation Essayer de faire de la régression malgré l’absence d’étiquette temporelle (deathcv) après délai seuil (~ 6 ans) Démarche S’appuyer sur une méthode d’apprentissage semi-supervisée : EM La développer pour le cas de la régression sans étiquette temporelle En grande dimension : • le volume des hypercubes tend à se concentrer dans les coins • Le volume d’une hyperellipsoïde tend à se concentrer dans la « peau » Donc les données multivariables ont tendance à se concentrer sur des structures de dimension plus faible. Bases d’images de scènes naturelles : Car encore mal maîtrisées Statistique différente de la statistique des images en milieu artificiel INDANA (rapport AC) 10/03/03

EM sur les données INDANA Résultats L’extension de EM à la régression est conçue Mais l’obtention de résultats requiert : avoir l’enveloppe temporelle des dates de décès pour la population générale que des classes de patients se dégagent suffisamment clairement dans les données étiquetées Étapes Développer EM standard et chercher des groupes de données dans les données étiquetées Tester le nouvel algorithme sur des données artificielles L’essayer sur les données INDANA INDANA (rapport AC) 10/03/03

Rappels sur EM Expectation/Maximization Algorithme d’estimation de maximum de vraisemblance par itération successive de deux étapes Introduit par Dempster, Laird et Rubin en 1978 INDANA (rapport AC) 10/03/03

Le principe du maximum de vraisemblance Soit S = {x1,x2, …, xm} un échantillon de données gouverné par une distribution pX(x|q) Alors par hypothèse i.i.d. : On cherche : ou encore : INDANA (rapport AC) 10/03/03

Le principe du maximum de vraisemblance Parfois facile à résoudre E.g. estimation d’une seule gaussienne : (, s2) Parfois difficile Augmentation de données INDANA (rapport AC) 10/03/03

ML par EM On suppose : Sobs = {xobs1,xobs2,…,xobsm} un échantillon de données observées Sc = {xc1,xc2,…,xcm} un échantillon correspondant de données cachées St = (Sobs, Sc) = {(xobs1, xc1), (xobs2, xc2),…,(xobsm, xcm)} : les données totales  Fonction de vraisemblance des données totales : Variable aléatoire car Sc est inconnue et gouvernée par une distribution cachée INDANA (rapport AC) 10/03/03

ML par EM On cherche donc : Mais L(q|Sobs,Sc) est une variable aléatoire en Sc On va donc éliminer ce caractère aléatoire en passant par l’espérance de L(q|Sobs,Sc) (ou de son logarithme) par rapport aux données cachées Ed. les données observées et l’estimation courante du paramètre q INDANA (rapport AC) 10/03/03

L’algorithme EM Initialisation de q0 et de Sc Étape d’expectation (E_étape) : Étape de maximisation (M_étape) : [Seeger : « Learning with labeled and unlabeled data »] p.17 Étape-E : On calcule la distribution conditionnelle des variables latentes, Ed. les données observées et l’estimation courante de q. Étape-M : On calcule l’espérance de la fonction de log vraisemblance complète sous la distribution conditionnelle calculée à l’étape_E, Puis on choisit le nouveau modèle q qui maximise ce critère. k := k+1 ; jusqu’à convergence INDANA (rapport AC) 10/03/03

L’algorithme EM EM intéressant seulement si Q(q,q’) est plus facile à calculer que L(q|S) Les étapes E et M Ne sont pas toujours faciles à calculer (mais généralement plus faciles que L(q|S) ) Mais ont une solution analytique pour une grande famille de fonctions paramétrées (e.g. les distributions exponentielles) Mélanges de gaussiennes HMMs … INDANA (rapport AC) 10/03/03

EM : l’ « intuition » E E M Étape_M Étape_E Paramètres des modèles 0.1 0.3 0.5 0.7 0.9 E E M Paramètres des modèles Étape_M Contours de la log-vraisemblance de la probabilité jointe p(q,Sc) Étape_E Paramètres des données complètes INDANA (rapport AC) 10/03/03

EM : Cas des mélanges de gaussiennes On suppose un mélange de N gaussiennes : La log-vraisemblance des données incomplètes est alors : … qui est très difficile à optimiser INDANA (rapport AC) 10/03/03

EM : Cas des mélanges de gaussiennes On augmente les données en ajoutant un ensemble de variables latentes Chaque xci correspond à la responsabilité présumée de la gaussienne xci  {1,…,N} pour la donnée INDANA (rapport AC) 10/03/03

EM : Cas des mélanges de gaussiennes Après calculs (…) : INDANA (rapport AC) 10/03/03

Application de EM aux mélanges de Gaussiennes Soit le relevé des tailles d’un échantillon de personnes S’explique-t-il par un mélange de gaussiennes ? INDANA (rapport AC) 10/03/03

Application de EM aux mélanges de Gaussiennes Résultat de EM après 10 itérations INDANA (rapport AC) 10/03/03

Application de EM aux données INDANA Problèmes Données en dimension > 2 Nécessite des calculs de vecteurs moyenne de variance (matrice de variance-covariance) d’écart-type (racine carrée de matrice : décomposition par méthode de Cholesky) Malédiction de la dimensionnalité : croissance exponentielle du nombre de données requis en fct du nb de dimensions Des attributs numériques et symboliques on traite les attributs symboliques comme des attributs numériques Des problèmes de calcul dues aux probabilités très faibles Organiser les calculs Beaucoup de tests en cours d’éxécution INDANA (rapport AC) 10/03/03

Application de EM aux données INDANA Problèmes généraux Initialisation des gaussiennes Initialisation centrée, puis … Placement itératif des N gaussiennes Choix du nombre de Gaussiennes Méthode par dichotomie successive Mesure de la qualité du mélange obtenu (pour arrêter l’algorithme) Mesure de précision de Gaussienne La max des écart-types de G1 ≤ max des écart-types de G2 Mieux vaut des Gaussiennes précises Mais plus de Gaussiennes => plus de précision Mesure de proximité entre Gaussiennes On mesure d(i,j)= max[p(centre Gi|Gj), p(centre Gi|Gj)] Les Gaussiennes sont d’autant plus éloignées que cette mesure est faible On estime que les Gaussiennes Gi et Gj sont légitimes si d(i,j) ≈ 0 INDANA (rapport AC) 10/03/03

Application de EM aux données INDANA Initialisation des Gaussiennes INDANA (rapport AC) 10/03/03

Application de EM aux données INDANA Initialisation des Gaussiennes INDANA (rapport AC) 10/03/03

Expériences réalisées Sur la 1ère base : 2230 patients Chaque variable a été bruitée avec une loi normale d’écart-type 0.1 Expériences répétées 5 fois (pour vérifier la stabilité) Pour 2, 3, 5 et 10 gaussiennes Mise en œuvre Initialisation telle que décrit plus haut Attribution stochastique des classes dans l’étape E INDANA (rapport AC) 10/03/03

EM sur INDANA : résultats (2 classes) Deux Gaussiennes : INDANA (rapport AC) 10/03/03

EM sur INDANA : résultats (3 classes) INDANA (rapport AC) 10/03/03

EM sur INDANA : résultats (5 classes) INDANA (rapport AC) 10/03/03

EM sur INDANA : résultats (10 classes) INDANA (rapport AC) 10/03/03

EM sur INDANA : bilan Précautions Perspectives EM pour la régression Résultats à confirmer Il faudrait répéter davantage les expériences Tester sur le reste des données INDANA Perspectives Les classes « aberrantes » correspondent-elles à un phénomène intéressant? de protection naturelle (origine génétique) contre AVC ? … ? EM pour la régression Espoir très faible (avec ce type de données) INDANA (rapport AC) 10/03/03