Analyse discriminante sur données fonctionnelles

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

Cours 8 Problèmes de dynamiques : techniques de résolution pas-à-pas
Regroupement (clustering)
Colloque Inspection Générale Où se cachent les mathématiques? APMEP 26 et 27 novembre 2008 APMEP le 26 novembre
Évaluation de la qualité d'une clusterisation
Aide méthodologique à la recherche des données validées sur des sites Internet référencés (mise à jour 2008) Un lien peut être activé lorsque le curseur.
C1 Bio-statistiques F. KOHLER
Tests non paramétriques
Régression ou corrélation
Scoring Séance II.
A Pyramid Approach to Subpixel Registration Based on Intensity
Optimisation du portefeuille clients d’EDF suivant des modèles de type Markowitz DALLAGI Anes.
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
Discrimination Validation
Régression -corrélation
présentation FLTV 5 décembre 2008
Laboratoire Inter-universitaire de Psychologie
Application à la méthode des
Christelle Scharff IFI 2004
Traitement de données socio-économiques et techniques d’analyse :
Chapitre 2 Les indices.
Application des algorithmes génétiques
Architecture logicielle pour la gestion de la qualité de service en environnement contraint Equipe-projet ALCooL Christine Louberry, Marc Dalmau, Philippe.
ASI 3 Méthodes numériques pour l’ingénieur
La Régression Multiple
Résolution des Équations Différentielles
Concepts avancés en mathématiques et informatique appliquées
Etude longitudinale d’essais multilocaux: apports du modèle mixte
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Régression linéaire simple
Champs de Markov cachés pour la classification de gènes..
Prise en charge TCC en médecine générale
Corrélation et régression linéaire simple
Méthodes de prévision (STT-3220)
Modeles Lineaires.
La corrélation et la régression
La régression logistique
La corrélation et la régression
Le comportement des coûts Chapitre 3
Structure discriminante (analyse discriminante)
Elections des représentants du personnel aux C.A.P. – Janvier 2008
Analyse discriminante sur données fonctionnelles
Approches non intrusives des éléments finis stochastiques
STT-3220 Méthodes de prévision
Apprentissage des mathématiques Résolution de problèmes
La régression multiple
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Régression linéaire multiple : hypothèses & interprétation
Régression linéaire multiple : hypothèses & tests. Partie 3.
La décomposition en valeurs singulières: un outil fort utile
12 septembre
Formation utilisateurs CMS. 16/01/20082 Plan 1)Présentation 2)Espace contributeur 3)Plan du site 4)Créer des pages 5)Edition en ligne 6)Les ressources.
Introduction à l’Intégration Numérique Application aux éphémérides
La régression simple Michel Tenenhaus
Probabilités et cannabis
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
Présentation du marché obligataire
GTS813: cours #6 Évaluation d’une mesure (Validité, Répétabilité, Fiabilité, précision) Activité. Études de cas #2: Qui pose la question? La question est-elle.
Approximation d’un contrôle optimal par un circuit électronique
Chapitre 1 - Introduction.
TNS et Analyse Spectrale
Outils d’analyse: la méthode des moindres carrées
Méthode des moindres carrés (1)
Régression linéaire (STT-2400)
Statistiques à 2 variables
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
Couche limite atmosphérique Micrométéorologie. Équations de Reynolds 7 équations et 16 inconnues...
Corrélation et régression linéaire Mars Modèles de régression  Réponses aux questions du type: ‘Quelle est la nature de la relation entre les variables?’
Jean Gaudart1 Détection de clusters spatiaux d'évènements Jean Gaudart Labo. Biostatistiques Faculté de Médecine de Marseille.
Transcription de la présentation:

Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292 rue Saint Martin F 75141 Paris Cedex 03 saporta@cnam.fr http://cedric.cnam.fr/~saporta

Plan 1. Introduction 2. Régression MCO sur données fonctionnelles 3. Régression PLS fonctionnelle 4. Méthodes linéaires de discrimination 5. Régression typologique 6. Prédiction anticipée 7. Conclusion et perspectives Travaux réalisés en collaboration avec C.Preda(Univ. Lille2) et D.Costanzo (Univ.Calabria) Grenoble, 17 janvier 2008

1. Introduction Données fonctionnelles: courbes ou trajectoires d’un processus stochastique Xt Réponse Y Y numérique: régression Y catégorielle: classification supervisée, discrimination Intervalle de temps commun [0;T], variables centrées Grenoble, 17 janvier 2008

Régression sur données fonctionnelles Exemple 1: Y= récolte Xt = température p=  R.A.Fisher (1924) Grenoble, 17 janvier 2008

Données de très grande dimension: infinité non dénombrable (en principe..) de prédicteurs Combinaison linéaire « Integral regression » Au lieu d’une somme finie Grenoble, 17 janvier 2008

R.A.Fisher « The Influence of Rainfall on the Yield of Wheat at Rothamsted » Philosophical Transactions of the Royal Society, B, 213, 89-142 (1924) Grenoble, 17 janvier 2008

Discrimination sur données fonctionnelles Exemple 2: courbes de pétrissage pour biscuits (Danone Vitapole) Grenoble, 17 janvier 2008

Après lissage par B-splines cubiques (Lévéder & al, 2004) Comment prédire la qualité des biscuits? Grenoble, 17 janvier 2008

Discrimination sur données fonctionnelles Cas particulier de la régression sur données fonctionnelles pour deux classes Anticipation déterminer t*<T tel que l’analyse sur [0;t*] donne des prédictions semblables à l’analyse sur [0;T] Grenoble, 17 janvier 2008

2. Régression sur données fonctionnelles Y ; Xt (E(Y)=E(Xt) =0 ) 2.1 Les mco Equations normales ou de Wiener-Hopf: C(t,s)= cov(Xt, Xs)=E(XtXs) Grenoble, 17 janvier 2008

2.2 décomposition de Karhunen-Loeve facteurs: Composantes principales: Covariance avec une composante principale: Grenoble, 17 janvier 2008

Theorème de Picard:  unique si et seulement si: Géneralement faux ... Surtout quand n est fini car p >n. Ajustement parfait en minimisant: Grenoble, 17 janvier 2008

Même quand  est unique, « L’équation de Wiener-Hopf n’est pas une équation intégrale ordinaire mais un accouplement entre fonction et distribution dont la solution est plus souvent une distribution qu’une fonction » Paul Kree, 1972 Nécessité de contraintes. (cf Green & Silverman 1994, Ramsay & Silverman 1997). Grenoble, 17 janvier 2008

Approximation de rang q: 2.3 Régression sur composantes principales Approximation de rang q: Grenoble, 17 janvier 2008

Résolution numérique: Equations intégrales non explicites dans le cas général: C(t,s) connu point par point Fonctions en escalier: nombre fini de variables et d’individus: opérateurs matriciels mais de grande taille Approximations par discrétisation du temps Grenoble, 17 janvier 2008

Quelles composantes? Les q premières? Les q plus corrélées? Les composantes principales sont calculées sans tenir compte de la réponse Y Grenoble, 17 janvier 2008

3. Régression PLS fonctionnelle Utiliser les composantes PLS au lieu des composantes principales Première composante PLS : Puis itération sur les résidus Grenoble, 17 janvier 2008

Approximation de Y par Xt d’ordre q: Convergence : Mais q doit être fini pour avoir une formule! q déterminé par validation croisée (Preda & Saporta, 2005) Grenoble, 17 janvier 2008

Pas d’équation intégrale Meilleur ajustement par PLS que par ACP: Première composante PLS facilement interprétable: coefficients du même signe que r(y;xt) Pas d’équation intégrale Meilleur ajustement par PLS que par ACP: (De Jong 1993) Grenoble, 17 janvier 2008

4. Discrimination linéaire 4.1 ADL fonctionnelle ADL : combinaison linéaire maximisant le rapport variance inter/variance intra Pour 2 groupes la FLD de Fisher s’obtient en régressant Y codé sur Xt eg (Preda & Saporta, 2005a) Grenoble, 17 janvier 2008

La régression PLS avec q composantes donne une approximation de β(t) et du score: Pour plus de 2 groupes: régression PLS2 entre k-1 indicatrices de Y et Xt Grenoble, 17 janvier 2008

Régression PLS2 Y multiple: (Y1, Y2, …,Yp) Citère de Tucker: Composantes PLS : Grenoble, 17 janvier 2008

Première composante PLS: premier vecteur propre du produit des opérateurs d’Escoufier WxWY Preda & Saporta, 2002 & 2005a ; Barker & Rayens , 2003 Grenoble, 17 janvier 2008

Généralisation du critère de Tucker au cas fonctionnel: Prévision: Grenoble, 17 janvier 2008

4.2 Régression logistique fonctionnelle Hypothèse: β(t) et les trajectoires sont dans le même espace de dimension fini (Ramsay et al., 1997) Grenoble, 17 janvier 2008

D’où une régression logistique classique: avec Leng and Müller (2006) , Escabias et al. (2004), Aguilera et al. (2006) utilisent les composantes principales de Xt comme base Grenoble, 17 janvier 2008

4.3 Mesures de qualité Pour k=2 : courbe ROC et AUC Pour un seuil s , x est classé en 1 si dT(x)>s Sensibilité ou taux de vrais positifs: P(dT(x)>s/Y=1)=1-β 1- Spécificité ou 1-taux de vrais négatifs: P(dT(x)>s/Y=0)= Grenoble, 17 janvier 2008

Courbe ROC En cas de discrimination parfaite : courbe confondue avec les côtés du carré Si distribution conditionnelles identiques, courbe confondue avec la diagonale Grenoble, 17 janvier 2008

Courbe ROC invariante pour toute transformation monotone croissante Surface sous la courbe: mesure de performance permettant de comparer (partiellement) des modèles On tire une obs de G1 et une de G2 AUC estimée par la proportion de paires concordantes nc statistique de Wilcoxon-Mann-Whitney U+W= n1n2+0.5n1(n1+1) AUC=U/n1n2 Grenoble, 17 janvier 2008

5. Régression typologique Un mélange de régression et de classification Grenoble, 17 janvier 2008

5.1 Modèle G , variable à K catégories (sousb-populations) Grenoble, 17 janvier 2008

5.2 MCO et régression typologique Variances résiduelle de la régression globale= varaince résiduelle intra cluster + variance due à la différence entre la régression locale et la régression globale (MCO) Grenoble, 17 janvier 2008

5.3 Estimation (Charles, 1977) 5.4 Choix de k k fixé Moindres carrés alternés Partition connue: régressions linéaires dans chaque cluster Affecter chaque observation à la droite ou surface de régression la plus proche Equivalent au MV pour des régresseurs fixes (Hennig, 2000) 5.4 Choix de k AIC, BIC,validation croisée Grenoble, 17 janvier 2008

5.5 Régression typologique fonctionnelle PLS Régression MCO fonctionnelle inadéquate pour des estimations par groupe Modèles locaux estimés par PLS fonctionnel L’algorithme est-il consistent? Proof in Preda & Saporta, 2005b Grenoble, 17 janvier 2008

Se généralise si Y est un vecteur aléatoire: Prédiction: Affectation à un groupe (plus proche voisin ou autre) Aplication du modèle local Se généralise si Y est un vecteur aléatoire: Grenoble, 17 janvier 2008

5.6 Application à des données boursières Taux de croissance pendant 1 heure (de 10h à 11h) de 84 actions à la Bourse de Paris Grenoble, 17 janvier 2008

Prédire le comportement de i85 entre 10h55 et 11h en utilisant les données relevées entre 10h et 10h55? Grenoble, 17 janvier 2008

Discrétisation en 60 intervalles. Comparaison between RCP et PLS: Calcul exact: 1366 variables (nombre d’intervalles où les courbes restent constantes) Discrétisation en 60 intervalles. Comparaison between RCP et PLS: Grenoble, 17 janvier 2008

Crash de i85 non détecté! Grenoble, 17 janvier 2008

PLS typologique Quatre clusters (17;32;10;25) Nombre de comosantes PLS component par cluster: 1; 3; 2 ; 2 (cross-validation) Grenoble, 17 janvier 2008

i85 classée dans le cluster 1 Grenoble, 17 janvier 2008

4. Prédiction anticipée Chercher t*<T tel que l’analyse sur [0;t*]donne des prédictions semblables à l’analyse sur [0;T] Solution: En augmentant s depuis 0 , chercher la première valeur telle que AUC(s) ne diffère pas significativement de AUC(T) Grenoble, 17 janvier 2008

Test d’égalité via une procédure bootstrap Rééchantillonnage des données, stratifié pour conserver les proportions des classes A chaque réplication b on calcule AUCb(s) et AUCb(T) Test basé sur les différences (Student ou Wilcoxon pour données appariées) b=AUCb(s)- AUCb(T) Grenoble, 17 janvier 2008

5.Applications 5.1 Données simulées Deux classes équiprobables W(t) brownien standard Grenoble, 17 janvier 2008

Grenoble, 17 janvier 2008

Avec B=50 Grenoble, 17 janvier 2008

5.2 Courbes de pétrissage Après un temps T= 480 de pétrissage on fabrique des biscuits de qualité Y 115 observations dont 50 « bonnes », 40 «mauvaises » et 25 « ajustables » 241 points de mesure équidistants Lissage avec B-splines cubiques , 16 nœuds Grenoble, 17 janvier 2008

Performances pour Y={bon,mauvais} 100 séparations apprentissage test (60, 30) Taux d’erreur moyen 0.142 avec composantes principales 0.112 avec composantes PLS AUC moyen 0.746 Fonction β(t) Grenoble, 17 janvier 2008

Il est donc possible de réduire de plus de moitié la durée d’étude. Prédiction anticipée Avec B=50 t*=186 Il est donc possible de réduire de plus de moitié la durée d’étude. Grenoble, 17 janvier 2008

6.Conclusions et perspectives La régression PLS permet d’effectuer une prédiction linéaire de manière simple et efficace Nécessité de prétraitements pour données bruitées Prédiction anticipée via une procédure simple Grenoble, 17 janvier 2008

En cours: Recherche de prédiction « on-line »: adapter t* pour chaque nouvelle courbe Comparaison avec régression logistique PLS fonctionnelle et autres approches Grenoble, 17 janvier 2008

Références Aguilera A.M., Escabias, M. ,Valderrama M.J. (2006) Using principal components for estimating logistic regression with high-dimensional multicollinear data, Computational Statistics & Data Analysis, 50, 1905-1924 Barker M., Rayens W. (2003) Partial least squares for discrimination. J. of Chemometrics 17:166–173 Charles, C., (1977) Régression typologique et reconnaissance des formes. Ph.D., Université Paris IX. D. Costanzo, C. Preda , G. Saporta (2006) Anticipated prediction in discriminant analysis on functional data for binary response . In COMPSTAT2006, p. 821-828, Physica-Verlag Hennig, C., (2000) Identifiability of models for clusterwise linear regression. J. Classification 17, 273–296. Lévéder C., Abraham C., Cornillon P. A., Matzner-Lober E., Molinari N. (2004) Discrimination de courbes de pétrissage. Chimiometrie 2004, 37–43. Preda C. , Saporta G. (2005a) PLS regression on a stochastic process, Computational Statistics and Data Analysis, 48, 149-158. Preda C. , Saporta G. (2005b) Clusterwise PLS regression on a stochastic process, Computational Statistics and Data Analysis, 49, 99-108. Preda C., Saporta G., Lévéder C., (2007) PLS classification of functional data, Computational Statistics, 22(2), 223-235 Ramsay J.O. , Silverman (1997) Functional data analysis, Springer Grenoble, 17 janvier 2008