Présenté par : MOHSEN BEN HASSINE

Slides:



Advertisements
Présentations similaires
Application au suivi des paramètres de problèmes de vision
Advertisements

A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting.
Fonctions & procédures
Un exemple de système EDA d'index supérieur distillation réactive avec réactions chimiques instantanément équilibrées Dr. Karim Alloula (ingénieur informatique.
Estimation ponctuelle Estimation par intervalle de confiance
Collecte de données F. Kohler.
Tests non paramétriques
Département Signal & Communication
1. Les caractéristiques de dispersion. 11. Utilité.
Statistique et probabilités au collège
Utilisation des tableaux
Chapitre VII :Commande par retour d’état
PROGRAMMATION SCIENTIFIQUE EN C
Méthodes d‘optimisation en finance
DEA instrumentation et commande
Christelle Scharff IFI 2004
Plus courts chemins On présente dans ce chapitre un problème typique de cheminement dans les graphes : la recherche d'un plus court chemin entre deux sommets.
MODULE 6 Optimisation de GRAPHES
Concepts avancés en mathématiques et informatique appliquées
Méthode des k plus proches voisins
Inversion / Res2dinv Thème 2 = « Organisation et fonctionnement hydrique des couvertures d’altération, des dépôts alluviaux et des sols » devient dans.
Échantillonnage (STT-2000)
RECONNAISSANCE DE FORMES
Plan d’expérience dynamique pour la maximisation
Opération et systèmes de décision Faculté des Sciences de l administration MQT Probabilités et statistique Mesures caractéristiques.
Tableaux de distributions
4. Algorithme de Recuit Simulé
STATISTIQUES – PROBABILITÉS
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
Algorithme de Bellman-Ford
Méthodes de prévision (STT-3220)
Ajustements c2 non-linéaires
Modeles Lineaires.
Modeles non-lineaires
La corrélation et la régression multiple
Gestion de Fichiers Tri Interne Efficace et Tri Externe.
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
Algorithmes d ’approximation
Optimisation de GRAPHES
Parallel Programming in C with MPI and OpenMP
Les Algorithmes de Tri Introduction Tri par Sélection
AIP PRIMECA des Pays de La Loire – 9 novembre 2006
Échantillonnage (STT-2000) Section 2 Tirage aléatoire simple (plan SI). Version: 22 août 2003.
Programmation dynamique
La régression multiple
Filtre de Kalman – Préliminaires (1)
Pour le chemin le plus court pour tous les couples
Régression linéaire.
Heuristiques C. Recherche de la meilleure branche . Branch And Bound
Question 1 Une série d'échantillons sont analysés dans un laboratoire. On constate que la teneur en carbone des différents échantillons varie d'un échantillon.
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Probabilités et Statistiques
Monitoring Détection de séquences vidéo en temps réel dans une grande base de données Julien Law-to 23/07/2004.
ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage
Calcul parallèle => partitionner les données en sous-groupes associés aux processeurs. P0 P2 P1.
STATISTIQUES – PROBABILITÉS
Probabilités et Statistiques Année 2010/2011
Concepts fondamentaux: statistiques et distributions
L’erreur standard et les principes fondamentaux du test de t
Structures de données avancées : Arbres B+ avec expansion partielle D. E ZEGOUR Institut National d ’Informatique.
Cours 5 - Trois algorithmes de tri d'un tableau
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM Bootstrap et permutations.
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
Recuit simulé Une métaheuristique venue de la métallurgie.
Statistique Descriptive Les Paramètres de Tendance Centrale
Scénario Quatre hipsters entrent en collision un dans l'autre dans un ascenseur plein de personnes. En conséquence ils laissent tomber leurs téléphones.
Les mesures de tendance centrale
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Transcription de la présentation:

Présenté par : MOHSEN BEN HASSINE ESTIMATION ROBUSTE LES ALGORITHMES MVE ET MCD ET FAST MCD PETER J. ROUSSEEUW Présenté par : MOHSEN BEN HASSINE Janvier 2011

MINIMUM VOLUME ELLIPSOID ESTIMATOR Rousseeuw (1983, 1984) a introduit un estimateur equivariant avec un breakdown maximal de (n/2 –p + 1) /n , qui converge vers 50 % quand n ∞ Principe : Trouver l’ellipsoide qui couvre au moins n /2 des points

MVE : illustration Hertzsprung-Russell data (star cluster cygnus) 47 points 2 variables ( température , light) 97.5% tolerance ellipse 6 outliers

MVE : Etapes et algorithme On commence par un échantillon de ( p + 1) observations, indexé par J = {i1, . . . , ip+1}, P: nombre de paramètres On calcule la moyenne arithmétique et la matrice de covariance, comme suit :

MVE : Etapes et algorithme Pour chaque observation on calcule la distance : Dji= Trouver la médiane Le volume de l’ellipsoide est proportionnel à : Vj ~

MVE : Etapes et algorithme Le volume calculé Vj correspond à un seul échantillon, on doit répéter le calcul précédent pour m échantillons Retenir L’échantillon dont la valeur Vj est minimale Les valeurs de la moyenne et de la matrice de covariance seront donc : : facteur de correction

MVE : Etapes et algorithme Calculer les distances robustes : Les outliers : RDi > C= Pondération: Valeurs pondérées:

MINIMUM COVARIANCE DETERMINANT ESTIMATOR Idée: Chercher h observations parmi n , dont le déterminant de la matrice de covariance est minimum Estimateur avec un breakdown maximal de (n/2 –p + 1) /n , qui converge vers 50 % quand n ∞

MINIMUM COVARIANCE DETERMINANT ESTIMATOR Idée: Chercher h observations parmi n , dont le déterminant de la matrice de covariance est minimum Estimateur avec un breakdown maximal de (n/2 –p + 1) /n , qui converge vers 50 % quand n ∞

MCD : ILLUSTRATION

MCD: LES ETAPES Choisir une taille d’échantillon : h entre (n+p+1)/2 et n Choisir m échantillons de taille (p+1) ou h ? Pour chaque échantillon J , si det (cov(J)) =0 , étendre la taille de l’échantillon Calculer : T0= moyenne(J), S0=cov(J) Calculer : D02 (i)= Trier ces distances par ordre croissant Recalculer T0 et S0 pour l’échantillon J1 de h nouveaux points Cette procédure est appelée C-step (1:5), est répétée n fois

MCD: LES ETAPES Pour les 10 meilleurs échantillons parmi m (min(det(cov(J))) , Répéter les C-steps jusqu’à convergence  det(Si+1)= det(Si) Reporter T et S / Min [ det(Sj)] Calculer les distances robustes et déduire les outliers

FAST MCD Motivations : Si n devient plus grand >600 (nested extension) Optimiser le nombre de c-steps Temps de réponse nettement amélioré

BIBLIOGRAPHIE Rousseeuw, P.J. and Leroy, A.M. (1987), Robust Regression and Outlier Detection, New York: John Wiley & Sons, Inc. Rousseeuw, P.J. and van Driessen, K. (1999), A fast algorithm for the minimum covariance determinant estimator, Technometrics, 41, 212–223. Rousseeuw, P.J. and Bert van zomeren, Robust distances : simulations and cutoff values, The IMA volumes in mathematics and its applications, vol 34, new york 1991