Robustesse......en Analyse Spatiale Didier JOSSELIN ESPACE, UMR 6012, CNRS, Avignon, France Tél.: 04 90 16 26 93.

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

Probabilités et statistiques au lycée
Traitement d’images : concepts avancés
Gestion de portefeuille
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Champs de Markov en Vision par Ordinateur
C1 Bio-statistiques F. KOHLER
Inférence statistique
Comparaison de deux pourcentages observés
Les TESTS STATISTIQUES
Régression ou corrélation
Nombre de sujets nécessaires en recherche clinique
Les TESTS STATISTIQUES
Les tests d’hypothèses
Continuité des apprentissages Ecole-Collège mars 2008 J Borréani IA-IPR mathématiques.
La prise en compte de la dimension spatiale en prospective :
Régression -corrélation
Analyse de la variance à un facteur
Traitement de données socio-économiques et techniques d’analyse :
Chapitre 2 Les indices.
Eric Guilbert, Marc Daniel *, Eric Saux
Les principaux résumés de la statistique

Objectif général Les compétences à développer : mettre en œuvre une recherche de façon autonome ; mener des raisonnements ; avoir une attitude critique.
Etude longitudinale d’essais multilocaux: apports du modèle mixte
Séminaire de lobjectif « forage et production » Beaune, les 26,27 et 28 Avril 2000 Outils danalyse statistiques « programmation par lexemple » S. Canu,
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Nombre de sujets nécessaires en recherche clinique
Méthode des k plus proches voisins
Inversion / Res2dinv Thème 2 = « Organisation et fonctionnement hydrique des couvertures d’altération, des dépôts alluviaux et des sols » devient dans.
Régression linéaire simple
Groupe 1: Classes de même intervalle
DEA Perception et Traitement de l’Information
Comprendre la variation dans les données: Notions de base
Corrélation et régression linéaire simple
L’Analyse de Variance 1 Généralités Le modèle Calculs pratiques
ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD.
Modeles Lineaires.
Commentaires sur les biais écologiques et les échelles non emboîtées
Toutes les variables étaient mesurées au niveau intervalle et sans erreur Toutes les variables étaient mesurées au niveau intervalle et sans erreur ->
La corrélation et la régression
La corrélation et la régression
Le comportement des coûts Chapitre 3
RECHERCHE COMMERCIALE
TRAITEMENT D’IMAGE SIF-1033.
TRAITEMENT D’IMAGE SIF-1033.
Les analyses multivariées
Objectifs du chapitre 2 d’Howell sur les statistiques descriptives
La régression multiple
Filtrage de Kalman et aperçu probabiliste
Présentation de la méthode des Eléments Finis
Jean Dubé CRDT, Université du Québec à Rimouski Mars 2012
Méthodes de Biostatistique
La régression simple Michel Tenenhaus
Présentation du marché obligataire
STATISTIQUES – PROBABILITÉS
Les Techniques d’enquête quantitative
Probabilités et Statistiques Année 2010/2011
Outils d’analyse: la méthode des moindres carrées
Méthode des moindres carrés (1)
ETUDE DE 2 VARIABLES QUANTITATIVES
Régression linéaire (STT-2400)
STATISTIQUES.
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
Comparaison multi-échelle des précipitations du modèle Méso-NH et des données radar Colloque CNFSH – Ecole des Ponts ParisTech – 11/12 juin 2009 A., Gires.
Analyse des semis de point
CHAPITRE 2 LES SITUATIONS FONCTIONNELLES
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
Comparaison de plusieurs moyennes observées
Jean Gaudart1 Détection de clusters spatiaux d'évènements Jean Gaudart Labo. Biostatistiques Faculté de Médecine de Marseille.
Transcription de la présentation:

Robustesse......en Analyse Spatiale Didier JOSSELIN ESPACE, UMR 6012, CNRS, Avignon, France Tél.:

PLAN -Quest-ce que la robustesse ? -La qualité dans les données -La robustesse des méthodes statistiques : appréhension empirique avec la Médienne -La robustesse de la décision -Conclusions à travers quelques applications

Le processus danalyse (spatiale) EXPERT OUTILS STATISTIQUES Données (Spatiales) Décision, Règles Connaissance... Approche Analyse

Quest-ce que la robustesse (au sens large) ? Tronc Racine Branches Feuilles La robustesse augmente... Avoir ou montrer une force, une vigueur Etre résistant aux maladies et aux perturbations

Besoin de robustesse ?...à différents niveaux du processus danalyse : 1- Données : « Qualité » 2- Méthodes statistiques : « Robustesse, résistance » 3- Aide à la décision « ? » Plus dintervention De lexpert ZAPPER

1 – Robustesse des données : qualité (Goodchild, Gopal, 1989, Goodchild, Jeansoulin, 1998) Structure de données Base de données Métadonnées Données Complétude Précision Fiabilité Adéquation etc. Bruit ?

Qualité des données : notre proposition Fournir à lexpert des indicateurs et des cartes duals pour évaluer la qualité de linformation

Question : la moyenne est-elle robuste ?

Question : la médiane est-elle robuste ?

Manipulation de la robustesse, de la moyenne, de la médiane…

2 – Robustesse des outils statistiques Fouille de données : Capacité de généralisation Détection des dépendances statistiques Conservation de toutes les données Elimination du bruit Outils statistiques : Résistance aux outliers Adéquation Justesse Hypothèses...

Robustesse dun outil statistique / estimateur : définition (Andrews et al., 1972, Huber, 1981, Hoaglin, Mosteller, Tukey, 1983, Hampel et al., 1986, Lecoutre et Tassi, 1987) Un estimateur est dit resistant sil est peu affecté par un petit nombre de grosses erreurs ou par un grand nombre de petites erreurs Un estimateur est dit robuste sil est peu affecté par un écart aux hypothèses sous-jacentes du modèle

Exemple dindice robuste : construction empirique de la médienne

Un problème concret posé : Conserver les zones homogènes et les zones hétérogènes ou de gradients (écotones) ….

Différentes distributions de groupes de pixels Données : vignes en Languedoc-Roussillon, France, INRA, Jean-Marc Robbez-Masson ZAPPER

Quels filtres sont couramment utilisés ? Données brutes Filtre médian Filtre moyen Filtre moyen pondéré Données : pullulation des campagnols, DRAF-SRPV Franche-Comté

: un échantillon de données ordonnées : sa médiane : sa moyenne Associer la moyenne et la médiane pour définir la médienne...

Comportement de la moyenne et de la médiane face aux outliers et « inliers » Outlier « Inlier »

Définition de la médienne

Une mesure de centralité qui s'adapte aux distributions locales Une combinaison linéaire des normes L1 et L2 (Dodge, 1987, 2000)... combinaison liée aux résistances de la moyenne et la médiane Les résistances étant estimées par un bootstrap But et principe de la médienne ( Josselin, 2000, Josselin et Ladiray, 2001)

Calcul de la médienne (simple) Quand la médiane est plus résistante que la moyenne la médienne tend vers la médiane vers la moyenne dans le cas inverse Mesure la résistance d'un estimateur with Lidée : une métrique qui sadapte à la distribution locale en combinant les normes L1 et L2

Formulation de la médienne de Laplace ( Laplace 1818, Stigler, 1973, 1986, Josselin et Ladiray, 2001, 2002) avec

Comment estimer les variances de la moyenne et de la médiane ? la voie du bootstrap (Efron, Tibshirani, 1993, Shao, Tu, 1995)

Le Bootstrap pour estimer la résistance X=(x 1,x 2,…,x N ) X* 1 X* 2 X* b … Soit un échantillon de données Un ensemble de B échantillons « bootstrappés » (tirage avec remise) F (X* 1 )F (X* 2 )F (X* b )… Un ensemble de B estimateurs pour chaque « fonction F » appliquée (moyenne, médiane…) Estimation de la variance de chaque estimateur F

Bootstrap : application à la médienne Estimateur : Variance de lestimateur :avec : Et covariance moyenne-médiane (pour médienne de Laplace) :

Application de la médienne au filtrage spatial : le cas de la pullulation du campagnol (Josselin, Ladiray, 2002) Degré de Contiguïté 1

Application de la médienne au filtrage spatial : le cas de la pullulation du campagnol Degré de Contiguïté 2

Application de la médienne au filtrage spatial : comparaison aux M estimateurs ZAPPE 2 ZAPPE 1

Propriétés de la médienne

La médienne confrontée à 4 distributions typiques Panel 1: Moyenne, médiane et médienne sont presque identiques Panel 2: Médiane et médienne sont plus résistantes aux outliers Panel 3: Distribution asymétrique où la médienne est proche de la médiane Panel 4: Distribution bimodale où moyenne et médienne sont plus robustes Mean Meadians Median

Comportement spécifique de la médienne de Laplace

Résultats : simulations et filtrage spatial

u on choisit un ensemble de lois statistiques u pour chaque distribution, on calcule son Efficacité Relative : le rapport entre la variance du meilleur estimateur testé et la variance de l'estimateur considéré (permutations de type Monte- Carlo) u le meilleur estimateur est celui qui possède : Le plus petit Ecart-type d'efficacité relative pour les diverses distributions Le plus grand Minimum d'efficacité relative (Robustesse) Evaluation de l'efficacité de la médienne (Hoaglin, Tukey, Mosteller, 1983 )

Efficacité relative et robustesse de la moyenne, la médiane et des médiennes selon différentes lois et l'effectif de la distribution.

Réflexions autour de la médienne et des normes Lp

Les normes Lp et leurs méthodes de minimisation découlent du modèle général de régression : (Dodge and Jurecková, 2000) Modèle de régression Où Y est une variable à expliquer par X 1, X 2,...,X j,..., X k variables explicatives Pour n données observées (i=1,2,...,n), le modèle est : Où les coefficients sont inconnus, Z un terme d'erreur avec z1, z2,..., zn les résidus.

Norme L 1 : p=1 ; objectif : minimiser les écarts absolus Métrique de Minkowsky ou Norme L p Avec Norme L 2 : p=2 ; méthodes des moindres carrés Norme L : p= ; minimiser le résidu absolu maximum (minmax)

Transcription graphique Norme L 1 : distance de Manhattan : H 1 +H 3 Norme L 2 : distance euclidienne : H 2 = (H H 3 2 ) 1/2 Norme L : H 1 = max ( H 1 ; H 3 ) A B C H 1H 1 H 2 H 3 La médiane minimise la norme L 1 La moyenne minimise la norme L 2 La moyenne des deux valeurs extrêmes minimise la norme L ZAPPER

Y aurait-il un couple robuste (p, valeur centrale) ? Et pourrait-il correspondre à la médienne ? Médiane Moyenne Exposant p Médiennes ? Valeur centrale Norme Lp Distribution gaussienne

Cas où médiane < médienne < moyenne et 1 < p médienne < 2 Médiane (p=1) Moyenne (p=2) Valeur de P de la norme Lp Médienne ( p 1,8 ) Valeur centrale minimisant la norme Lp

Cas où médienne > moyenne et p médienne > 2 Valeur de P de la norme Lp Valeur centrale minimisant la norme Lp Médienne ( p ) La médienne est très proche du couple (p,valeur centrale) le plus robuste

Cas où médienne < médiane et p médienne ?? Valeur de P de la norme Lp Valeur centrale minimisant la norme Lp Médienne (p ?) La médienne est différente du couple (p,valeur centrale) le plus robuste : p=6

Robustesse des outils statistiques : notre proposition exploratoire Ne jamais accepter par défaut la méthode la plus utilisée, mais rechercher la plus pertinente. Trouver des méthodes robustes capables de généraliser et qui sadaptent aux configurations locales des distributions statistiques et spatiales, tout conservant tous les individus...

3 – Robustesse dans laide à la décision Objectivité : La part de la connaissance qui est indépendante de lexpert ? Subjectivité : La pensée et la vision de lexpert ? Efficience Pertinence Durabilité « Incontestabilité » « Consensualité » « Généricité » Transposabilité ….. ? « Emergenciabilité » « Adaptabilité » dans le temps « Souplesse »

Aide à la décision et modélisation : quelques mots-clés et quelques pistes... Déductive Inductive Abductive Individus Résidus La tendance Micro- modèles Hypothético déductif Exploratoire Confirmatoire

Aide à la décision, notre proposition : Une modélisation locale instruite insérée dans une analyse globale Avec lE(S)DA

CONCLUSION et exemples dapplication

Quand on a des objectifs à atteindre et des données à traiter...

... à laide doutils et de méthodes statistiques plus ou moins appropriés...

La voie de lEDA...

On porte un regard critique sur les outils et les méthodes...

… que nous choisissons les plus robustes possible pour analyser les données...

... sur lesquelles nous formulons des hypothèses sans a priori.

On souhaite maîtriser le temps de lanalyse spatiale et faire partie intégrante du processus...

Le Distogramme Double Distributions et Discontinuités statistiques et spatiales Dynamique Distorsion de Données

… tout en restant en permanence proche des données... en considérant que les individus ne sont pas interchangeables...

... que nous éclairons par des représentations multiples...

Lavstat (Josselin, Chatonnay, Guerre, Dancuo, 1999)

... grâce aux liens dynamiques et à linteractivité.

On recherche la tendance comme la marge … et lon regarde de plus près les écarts au modèle, les résidus

Modèle gravitaire des échanges commerciaux (Josselin, Nicot, 2001)

… et les relations entre les objets géographiques.

ARPEGE (Josselin, 2000)

Lanalyse doit être globale et locale...à travers les échelles.

Analyse exploratoire multiscalaire (Foltête, Josselin, 2001)

… la validation des résultats mathématique et empirique.

On cherche aussi à appréhender le qualitatif et le quantitatif en même temps... Q Q Q

… la sémantique, la géométrie et la topologie...

… en considérant bien que la densité de la mesure nest pas constante.

…Si vous faites de lexplo, attention à … sion l explo toirera combina