Présenté par : MOHSEN BEN HASSINE ESTIMATION ROBUSTE LES ALGORITHMES MVE ET MCD ET FAST MCD PETER J. ROUSSEEUW Présenté par : MOHSEN BEN HASSINE Janvier 2011
MINIMUM VOLUME ELLIPSOID ESTIMATOR Rousseeuw (1983, 1984) a introduit un estimateur equivariant avec un breakdown maximal de (n/2 –p + 1) /n , qui converge vers 50 % quand n ∞ Principe : Trouver l’ellipsoide qui couvre au moins n /2 des points
MVE : illustration Hertzsprung-Russell data (star cluster cygnus) 47 points 2 variables ( température , light) 97.5% tolerance ellipse 6 outliers
MVE : Etapes et algorithme On commence par un échantillon de ( p + 1) observations, indexé par J = {i1, . . . , ip+1}, P: nombre de paramètres On calcule la moyenne arithmétique et la matrice de covariance, comme suit :
MVE : Etapes et algorithme Pour chaque observation on calcule la distance : Dji= Trouver la médiane Le volume de l’ellipsoide est proportionnel à : Vj ~
MVE : Etapes et algorithme Le volume calculé Vj correspond à un seul échantillon, on doit répéter le calcul précédent pour m échantillons Retenir L’échantillon dont la valeur Vj est minimale Les valeurs de la moyenne et de la matrice de covariance seront donc : : facteur de correction
MVE : Etapes et algorithme Calculer les distances robustes : Les outliers : RDi > C= Pondération: Valeurs pondérées:
MINIMUM COVARIANCE DETERMINANT ESTIMATOR Idée: Chercher h observations parmi n , dont le déterminant de la matrice de covariance est minimum Estimateur avec un breakdown maximal de (n/2 –p + 1) /n , qui converge vers 50 % quand n ∞
MINIMUM COVARIANCE DETERMINANT ESTIMATOR Idée: Chercher h observations parmi n , dont le déterminant de la matrice de covariance est minimum Estimateur avec un breakdown maximal de (n/2 –p + 1) /n , qui converge vers 50 % quand n ∞
MCD : ILLUSTRATION
MCD: LES ETAPES Choisir une taille d’échantillon : h entre (n+p+1)/2 et n Choisir m échantillons de taille (p+1) ou h ? Pour chaque échantillon J , si det (cov(J)) =0 , étendre la taille de l’échantillon Calculer : T0= moyenne(J), S0=cov(J) Calculer : D02 (i)= Trier ces distances par ordre croissant Recalculer T0 et S0 pour l’échantillon J1 de h nouveaux points Cette procédure est appelée C-step (1:5), est répétée n fois
MCD: LES ETAPES Pour les 10 meilleurs échantillons parmi m (min(det(cov(J))) , Répéter les C-steps jusqu’à convergence det(Si+1)= det(Si) Reporter T et S / Min [ det(Sj)] Calculer les distances robustes et déduire les outliers
FAST MCD Motivations : Si n devient plus grand >600 (nested extension) Optimiser le nombre de c-steps Temps de réponse nettement amélioré
BIBLIOGRAPHIE Rousseeuw, P.J. and Leroy, A.M. (1987), Robust Regression and Outlier Detection, New York: John Wiley & Sons, Inc. Rousseeuw, P.J. and van Driessen, K. (1999), A fast algorithm for the minimum covariance determinant estimator, Technometrics, 41, 212–223. Rousseeuw, P.J. and Bert van zomeren, Robust distances : simulations and cutoff values, The IMA volumes in mathematics and its applications, vol 34, new york 1991