La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier.

Présentations similaires


Présentation au sujet: "1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier."— Transcription de la présentation:

1 1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier INRIA, France

2 2Club SAS Stat 12 Décembre 2002 Problème (1/2) Construire un modèle de prédiction du temps de survie à partir dun ensemble de descripteurs ou variables Ingénierie: –Brown, S.F., Branford, A.J., Moran, (1997) On the use of Artificial Neural networks for the Analysis of Survival Data, IEEE Transacions on Neural Networks, 8, Médecine: - Faraggi, D., Simon, R. (1995) A Neural Network Model for Survival Data, Statistics in Medicine, 14, p Biganzoli, E., Boracchi, P., Mariani, L., Marubini, E. (1998) Feed Forward Neural Networks for he analysis of censored survival data : a partial logistic regression approach Statistics in Medicine, 17,

3 3Club SAS Stat 12 Décembre 2002 Problème (2/2) Difficultés: Comment introduire la notion de censure dans un réseau de neurones? Comment entraîner un réseau afin dobtenir des bonnes prédictions sur des nouvelles données?

4 4Club SAS Stat 12 Décembre 2002 Organisation de la présentation Notion de base de lanalyse de survie Utilisation du Perceptron multi-couches Architecture, apprentissage, évaluation Un exemple

5 5Club SAS Stat 12 Décembre 2002 Analyse de Survie Données de survie avec une censure à droite Lapproche statistique est de construire un modèle de régression approprié à partir du tableau de données

6 6Club SAS Stat 12 Décembre 2002 Données de survie (z (i), t (i), (i) ), i = 1,…,N z (i) son vecteur de description t (i) son temps de survie (i) lindicateur de censure (1 = observé, 0 = censuré) Pour chaque observation i nous avons : Un échantillon de taille N

7 7Club SAS Stat 12 Décembre 2002 La fonction de survie Les variables prédictives servent à estimer le paramètre de la distribution de la fonction de survie La fonction h(t;z) est définie à partir de la fonction de survie par: Cest le taux de décroissance de la survie en fonction de z

8 8Club SAS Stat 12 Décembre 2002 Hypothèses sur la fonction h(t;z) h peut être décomposée comme un produit de deux fonctions. Lune dépend de t, lautre est liée à z. avec (0)=0 On suppose que les variables prédictives sont centrées et normées.

9 9Club SAS Stat 12 Décembre 2002 la vraisemblance Pour une observation (z (i), t (i), (i) ) le log de la vraisemblance est égal à : Voir Cox et Oakes, 1984 Il faut estimer les fonctions h 0 et à partir des données

10 10Club SAS Stat 12 Décembre 2002 Modèle exponentiel (z) = wz On suppose que le fonction est linéaire et que h 0 (t) = 0 =constant doù léquation du log de la vraisemblance redéfinir

11 11Club SAS Stat 12 Décembre 2002 Régression (z;w) = wz

12 12Club SAS Stat 12 Décembre 2002 Architecture du Perceptron Multi-Couches Entrée p+1 valeurs Couche cachée H neurones Sortie calculée Out(z;w) Sortie désirée (t, )

13 13Club SAS Stat 12 Décembre 2002 La fonction de transfert les variables prédictives sont associées aux cellules de la couche dentrée Le couple (t, ) est associé au neurone de la couche de sortie Lapprentissage de ce réseau est supervisé. Il utilise un algorithme de rétropropagation du gradient de lerreur W est un vecteur de matrices

14 14Club SAS Stat 12 Décembre 2002 Algorithme du gradient stochastique On choisit un w 0 dans l'espace des solutions. à l'étape t on effectue un tirage aléatoire. On obtient une réalisation z t on procède à la mise à jour par la formule suivante : la suite de termes t positifs doit vérifier :

15 15Club SAS Stat 12 Décembre 2002 La mise à jour des pondérations Mesure de lerreur le processus dapprentissage du réseau consiste à présenter successivement les exemples de lensemble dapprentissage de façon à estimer les poids W. On utilise lerreur quadratique moyenne Algorithme de minimisation de lerreur On peut écrire quà létape t, le vecteur des matrices des pondérations W dépendent de létape t-1 par la formule suivante:

16 16Club SAS Stat 12 Décembre 2002 Calcul des pondérations Pour le neurone i de la couche de sortie NC il faut calculer: De manière générale nous avons : Cette partie est dépendante de la fonction de coût J.

17 17Club SAS Stat 12 Décembre 2002 Calcul des pondérations car Doù Ce calcul est indépendant de la fonction de coût J.

18 18Club SAS Stat 12 Décembre 2002 Perceptron multi-couches Fonction de coût : Avec le modèle exponentiel nous avons: la fonction Out de sortie du réseau représente la fonction du modèle de survie

19 19Club SAS Stat 12 Décembre 2002 Architecture Le choix le plus simple est dutiliser un réseau de neurones ayant une couche cachée. Dans ce cas il faut spécifier le nombre de neurones dans cette couche. 1 1 p z z w k ()2 Out(;)(zw z;w) w ij ()1

20 20Club SAS Stat 12 Décembre 2002 Apprentissage, évaluation Apprentissage :Lobjectif est de déterminer, à partir des données, le vecteur de pondération w qui minimise la fonction coût Évaluation : on se propose de comparer la performance de notre prédiction avec les approches « classiques »

21 21Club SAS Stat 12 Décembre 2002 Généralisation On veut estimer lefficacité de notre prédiction par rapport à des situations futures. Cette prédiction a été construite à partir dun ensemble dapprentissage. Cependant cette prédiction dépend de larchitecture du réseau et donc à chaque modification de larchitecture nous avons une autre fonction de prédiction. Un troisième ensemble des données (ensemble de validation) est donc nécessaire pour pouvoir comparer deux prédictions issues darchitectures différentes mais construites sur le même ensemble « dapprentissage ».

22 22Club SAS Stat 12 Décembre 2002 « Early Stopping » Dans Bishop (1995) « Neural Networks for Pattern Recognition » de nombreuses solutions sont proposées pour comparer et évaluer différents fonctions de prédiction issues darchitectures neuronales différentes. Dans cette stratégie on divise lensemble dapprentissage Le en deux ensembles: lensemble dentraînement Tr qui permet de calculer les pondérations w de réseau, lensemble de validation Vl qui permet darrêter le processus dapprentissage. La convergence est déclarée quand la fonction de coût, évaluée sur Tr croit sur Vl. Lensemble test Ts mesure la qualité de la prédiction choisie.

23 23Club SAS Stat 12 Décembre 2002 Choix de larchitecture C(w H (A) ;B) coût global dune architecture avec H neurones dans la couche cachée, évalué sur lensemble B mais estimé sur lensemble A. w H (A, i, r) pondérations w H à l'itération i de lessai r (initialisation au hasard) calculées avec A H nombre de neurones fixé, choisir litération i et lessai r par (i V (H), r V (H)) =argmin { C(w H (Tr, i, r)) ;Vl) pour i = 1,2,....., et r = 1, 2,...R} et déterminer le bon choix du nombre de neurones H* par H* = argmin {C(w H (Tr, i V (H), r V (H);Vl) ; h = 1,2,...}

24 24Club SAS Stat 12 Décembre 2002 Un exemple Treize variables décrivent des rythmes cardiaques ont été utilisées pour construire une prédiction de la fonction de survie à partir dun ensemble de 1550 malades ayant une maladie cardiaque. Lensemble de données a été divisé en trois parties: lensemble dapprentissage Le (1000 malades) et lensemble test Ts (550 malades). Lensemble dapprentissage a été divisé en deux : lensemble dentraînement Tr ( 700 malades) et lensemble de validation Vl (300 malades)

25 25Club SAS Stat 12 Décembre 2002 Courbes dévaluation sur Vl H=1H=2

26 26Club SAS Stat 12 Décembre 2002 Courbes dévaluation sur Vl H=8H=10

27 27Club SAS Stat 12 Décembre 2002 Fonction coût sur Tr, Vl et Ts H H=4 H=8 H=3

28 28Club SAS Stat 12 Décembre 2002 (i Ts (H), r Ts (H)) =argmin { C(w H (Le, i, r)) ;Ts) ; pour i = 1,2,....., r = 1, 2,...R} H = argmin {C(w H (Le, i Ts (H), r Ts (H)) ; h = 1,2,.. Biais lié à lutilisation de lensemble Ts: Intérêt de lutilisation de Vl

29 29Club SAS Stat 12 Décembre 2002 Biais associé à Ts H i Vl C(w H (Tr,r(H),i Vl (H)) ;Vl) bH bH SE(b H )

30 30Club SAS Stat 12 Décembre 2002 Mesures pour lévaluation i) Le coût global ii) Moyenne quadratique de lerreur de prédiction (c'est calculé après avoir complété la valeur censurée du temps en ajoutant la survie résiduelle attendue); iii) l'adaptation du C-index de Harrel (Harrel et al.,1984).

31 31Club SAS Stat 12 Décembre 2002 Évaluation et comparaison de deux réseaux avec la régression Régression ANN Ens Apprentissage8 AN 2 AN Coût = EMS = C-index = Ens test Coût = EMS = C-index =

32 32Club SAS Stat 12 Décembre 2002 Conclusion Lapproche neuronale peut être appliquée avec succès à l'analyse de données de la survie Notre approche évite la discretisation de la variable temps mais suppose un modèle paramétrique qui est un compromis entre l'approche semi-paramétrique de Faraggi et Simon et celle de Biganzoli. Nous avons aussi utilisé une nouvelle approche qui permet darrêter le processus dapprentissage et semble bien fonctionner avec un temps de calcul raisonnable. La limitation majeure de ce travail peut être vaincue par le développement de modèles plus réalistes, par exemples des mélanges de distributions exponentielles.


Télécharger ppt "1Club SAS Stat 12 Décembre 2002 Application des réseaux de neurones aux données censurées Antonio Ciampi Mac Gill University, Canada Yves Lechevallier."

Présentations similaires


Annonces Google