Application des réseaux de neurones aux données censurées

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Introduction à l’analyse
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
LES NOMBRES PREMIERS ET COMPOSÉS
1. 2 Évaluer des cours en ligne cest évaluer lensemble du processus denseignement et dapprentissage. La qualité des savoirs.
Fabrice Lauri, François Charpillet, Daniel Szer
Licence pro MPCQ : Cours
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
Les numéros 70 –
Les numéros
ACTIVITES Les fractions (10).
Les identités remarquables
ACTIVITES Le calcul littéral (3).
1. Les caractéristiques de dispersion. 11. Utilité.
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
La diapo suivante pour faire des algorithmes (colorier les ampoules …à varier pour éviter le « copiage ») et dénombrer (Entoure dans la bande numérique.
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
Estimation de la survie comparaison des courbes de survie FRT C3.
1 Efficient Data and Program Integration Using Binding Patterns Ioana Manolescu, Luc Bouganim, Francoise Fabret, Eric Simon INRIA.
Laboratoire Inter-universitaire de Psychologie Cours 6
Analyse de la variance à un facteur
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
Application des algorithmes génétiques
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
Classification Multi Source En Intégrant La Texture
Présentation générale
Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
Titre : Implémentation des éléments finis sous Matlab
LES NOMBRES PREMIERS ET COMPOSÉS
Les chiffres & les nombres
Réseaux de neurones.
II- L’algorithme du recuit simulé (pseudo-code)
Les réseaux de neurones
GPA-779 Perceptron multicouche
Synthèse Applications des réseaux de neurones en reconnaissance de formes et en vision par ordinateur.
Représentation des systèmes dynamiques dans l’espace d’état
Systèmes mécaniques et électriques
Représentation des systèmes dynamiques dans l’espace d’état
Représentation des systèmes dynamiques dans l’espace d’état
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
La Distribution des Données
Tournoi de Flyball Bouin-Plumoison 2008 Tournoi de Flyball
Notre calendrier français MARS 2014
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
Le comportement des coûts Chapitre 3
Titre : Implémentation des éléments finis en Matlab
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Les Nombres 0 – 100 en français.
Résoudre une équation du 1er degré à une inconnue
Programmation dynamique
SUJET D’ENTRAINEMENT n°4
Aire d’une figure par encadrement
Échantillonnage (STT-2000) Section 2 Tirage de Bernoulli (plan BE). Version: 4 septembre 2003.
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
Chapitre 5 Prévisions.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
CALENDRIER-PLAYBOY 2020.
Les Chiffres Prêts?
Rappels de statistiques descriptives
Partie II: Temps et évolution Energie et mouvements des particules
Christelle Scharff IFI 2004
Transcription de la présentation:

Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier INRIA, France

Problème (1/2) Construire un modèle de prédiction du temps de survie à partir d’un ensemble de descripteurs ou variables Ingénierie: Brown, S.F., Branford, A.J., Moran, (1997) ‘On the use of Artificial Neural networks for the Analysis of Survival Data’, IEEE Transacions on Neural Networks, 8, 1071-1077 Médecine: - Faraggi, D., Simon, R. (1995) ‘A Neural Network Model for Survival Data’, Statistics in Medicine, 14, p73-82 - Biganzoli, E., Boracchi, P., Mariani, L., Marubini, E. (1998) ‘Feed Forward Neural Networks for he analysis of censored survival data : a partial logistic regression approach’ Statistics in Medicine, 17, 1169-1186

Problème (2/2) Difficultés: Comment introduire la notion de censure dans un réseau de neurones? Comment entraîner un réseau afin d’obtenir des bonnes prédictions sur des nouvelles données?

Organisation de la présentation Notion de base de l’analyse de survie Utilisation du Perceptron multi-couches Architecture, apprentissage, évaluation Un exemple

Analyse de Survie L’approche statistique est de construire un modèle de régression approprié à partir du tableau de données Données de survie avec une censure à droite

Données de survie Un échantillon de taille N (z(i), t(i),(i)), i = 1,…,N Pour chaque observation i nous avons : z(i) son vecteur de description t(i) son temps de survie (i) l’indicateur de censure (1 = observé, 0 = censuré)

La fonction de survie Les variables prédictives servent à estimer le paramètre de la distribution de la fonction de survie La fonction h(t;z) est définie à partir de la fonction de survie par: C’est le taux de décroissance de la survie en fonction de z

Hypothèses sur la fonction h(t;z) h peut être décomposée comme un produit de deux fonctions. L’une dépend de t, l’autre est liée à z. avec j(0)=0 On suppose que les variables prédictives sont centrées et normées.

la vraisemblance Pour une observation (z(i), t(i),(i)) le log de la vraisemblance est égal à : Voir Cox et Oakes, 1984 Il faut estimer les fonctions h0 et j à partir des données

Modèle exponentiel On suppose que le fonction j est linéaire (z) = w’z et que h0(t) = l0=constant d’où l’équation du log de la vraisemblance redéfinir

Régression (z;w) = w’z

Architecture du Perceptron Multi-Couches Sortie calculée Out(z;w) Sortie désirée (t,d) Couche cachée H neurones Entrée p+1 valeurs

La fonction de transfert les variables prédictives sont associées aux cellules de la couche d’entrée Le couple (t,d) est associé au neurone de la couche de sortie W est un vecteur de matrices L’apprentissage de ce réseau est supervisé. Il utilise un algorithme de rétropropagation du gradient de l’erreur

Algorithme du gradient stochastique On choisit un w0 dans l'espace des solutions. à l'étape t on effectue un tirage aléatoire. On obtient une réalisation zt on procède à la mise à jour par la formule suivante : la suite de termes at positifs doit vérifier :

La mise à jour des pondérations Mesure de l’erreur le processus d’apprentissage du réseau consiste à présenter successivement les exemples de l’ensemble d’apprentissage de façon à estimer les poids W. On utilise l’erreur quadratique moyenne Algorithme de minimisation de l’erreur On peut écrire qu’à l’étape t, le vecteur des matrices des pondérations W dépendent de l’étape t-1 par la formule suivante:

Calcul des pondérations De manière générale nous avons : Pour le neurone i de la couche de sortie NC il faut calculer: Cette partie est dépendante de la fonction de coût J.

Calcul des pondérations car D’où Ce calcul est indépendant de la fonction de coût J.

Perceptron multi-couches Fonction de coût : Avec le modèle exponentiel nous avons: la fonction Out de sortie du réseau représente la fonction j du modèle de survie

Architecture Le choix le plus simple est d’utiliser un réseau de neurones ayant une couche cachée. Dans ce cas il faut spécifier le nombre de neurones dans cette couche. 1 p z w k ( ) 2 Out ; = j z; ij

Apprentissage, évaluation Apprentissage :L’objectif est de déterminer, à partir des données, le vecteur de pondération w qui minimise la fonction coût Évaluation : on se propose de comparer la performance de notre prédiction avec les approches « classiques »

Généralisation On veut estimer l’efficacité de notre prédiction par rapport à des situations futures. Cette prédiction a été construite à partir d’un ensemble d’apprentissage. Cependant cette prédiction dépend de l’architecture du réseau et donc à chaque modification de l’architecture nous avons une autre fonction de prédiction. Un troisième ensemble des données (ensemble de validation) est donc nécessaire pour pouvoir comparer deux prédictions issues d’architectures différentes mais construites sur le même ensemble « d’apprentissage ».

« Early Stopping » Dans Bishop (1995) « Neural Networks for Pattern Recognition » de nombreuses solutions sont proposées pour comparer et évaluer différents fonctions de prédiction issues d’architectures neuronales différentes. Dans cette stratégie on divise l’ensemble d’apprentissage Le en deux ensembles: l’ensemble d’entraînement Tr qui permet de calculer les pondérations w de réseau, l’ensemble de validation Vl qui permet d’arrêter le processus d’apprentissage. La convergence est déclarée quand la fonction de coût, évaluée sur Tr croit sur Vl. L’ensemble test Ts mesure la qualité de la prédiction choisie.

Choix de l’architecture C(wH(A) ;B) coût global d’une architecture avec H neurones dans la couche cachée, évalué sur l’ensemble B mais estimé sur l’ensemble A. wH(A, i, r)  pondérations wH à l'itération i de l’essai r (initialisation au hasard) calculées avec A H nombre de neurones fixé, choisir l’itération i et l’essai r par (iV(H), rV(H)) =argmin { C(wH(Tr, i, r)) ;Vl) pour  i = 1,2,....., et r = 1, 2,...R} et déterminer le bon choix du nombre de neurones H* par  H* = argmin {C(wH(Tr, iV(H), rV(H);Vl) ; h = 1,2,...}

Un exemple Treize variables décrivent des rythmes cardiaques ont été utilisées pour construire une prédiction de la fonction de survie à partir d’un ensemble de 1550 malades ayant une maladie cardiaque. L’ensemble de données a été divisé en trois parties: l’ensemble d’apprentissage Le (1000 malades) et l’ensemble test Ts (550 malades). L‘ensemble d’apprentissage a été divisé en deux : l’ensemble d’entraînement Tr ( 700 malades) et l’ensemble de validation Vl (300 malades)

Courbes d’évaluation sur Vl H=1 H=2

Courbes d’évaluation sur Vl H=8 H=10

Fonction coût sur Tr, Vl et Ts   Fonction coût sur Tr, Vl et Ts H 1 275 426.38 152.68 298.16 0.16 0.20 2 185 420.05 151.15 296.40 1.55 1.32 3 57 423.18 296.16 1.21 1.08 4 143 407.46 152.35 307.56 1.42 2.39 5 67 415.38 150.77 299.34 1.10 1.43 6 50 420.20 150.60 298.54 1.36 7 39 420.00 152.67 302.68 0.86 0.68 8 79 410.60 149.19 299.82 1.40 1.03 9 22 423.31 153.58 294.50 0.82 0.92 10 73 409.12 303.51 1.87 1.97 H=4 H=8 H=3  

Intérêt de l’utilisation de Vl (iTs(H), rTs(H)) =argmin { C(wH(Le, i, r)) ;Ts) ; pour i = 1,2,....., r = 1, 2,...R}  H = argmin {C(wH(Le, iTs(H), rTs(H)) ; h = 1,2,.. Biais lié à l’utilisation de l’ensemble Ts:

Biais associé à Ts iVl C(wH(Tr,r(H),iVl(H)) ;Vl) bH SE(bH) H 1 275   Biais associé à Ts H   iVl C(wH(Tr,r(H),iVl(H)) ;Vl) bH SE(bH) 1 275 152.68 3.73 1.82 2 185 151.15 6.69 3.05 3 57 8.36 4.53 4 143 152.35 5.84 2.29 5 67 150.77 5.57 6 50 150.60 5.08 2.08 7 39 152.67 6.63 4.06 8 79 149.19 4.12 1.88 9 22 153.58 3.69 2.62 10 73 5.23 4.07  

Mesures pour l’évaluation i) Le coût global ii) Moyenne quadratique de l’erreur de prédiction (c'est calculé après avoir complété la valeur censurée du temps en ajoutant la survie résiduelle attendue); iii) l'adaptation du C-index de Harrel (Harrel et al.,1984).

Évaluation et comparaison de deux réseaux avec la régression  Régression ANN Ens Apprentissage 8 AN 2 AN Coût = 573.73 563.14 563.50 EMS = 169.46 137.87 106.13 C-index = 0.68 0.70 0.68 Ens test Coût = 327.98 294.28 298.29 EMS = 178.11 180.28 116.98 C-index =0.69 0.70 0.70

Conclusion L’approche neuronale peut être appliquée avec succès à l'analyse de données de la survie Notre approche évite la discretisation de la variable temps mais suppose un modèle paramétrique qui est un compromis entre l'approche semi-paramétrique de Faraggi et Simon et celle de Biganzoli. Nous avons aussi utilisé une nouvelle approche qui permet d’arrêter le processus d’apprentissage et semble bien fonctionner avec un temps de calcul raisonnable. La limitation majeure de ce travail peut être vaincue par le développement de modèles plus réalistes, par exemples des mélanges de distributions exponentielles.