La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Modélisation statistique de la topologie d’un nuage de points

Présentations similaires


Présentation au sujet: "Modélisation statistique de la topologie d’un nuage de points"— Transcription de la présentation:

1 Modélisation statistique de la topologie d’un nuage de points
Michaël Aupetit – Ingénieur Chercheur Pierre Gaillard – Doctorant CEA-DAM – Bruyères-le-Châtel Département Analyse Surveillance Environnement Laboratoire Détection et Sismologie Opérationnelle Présentation aux Journées de Géométrie Algorithmique 12-16 mars 2007

2 Un point de vue statistique
Etant donné un nuage de points de RD, échantillon d’une population (sous-variétés de RD) inconnue, si l’on connaît la densité de probabilité de la population (estimée à partir de l’échantillon), on peut apporter une solution à de nombreux problèmes usuels: classification, discrimination, régression… L’essentiel de la difficulté se porte sur la qualité de l’estimation en présence d’un faible nombre de données, la présence de valeurs manquantes… Il reste pourtant une information peu exploitée car difficile à extraire… CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

3 Une question en attente de réponse…
Les modèles statistiques de densité existant ne permettent pas de répondre à la question suivante : Quelle est la forme de ce nuage de points ? L’étude des « formes » en mathématiques, c’est la Topologie. La topologie décrit les propriétés des variétés CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

4 Une réponse subjective…
La réponse attendue serait : 1 point et 1 courbe Topologie : 1 variété de type point, 1 variété de type segment Non connectées l’une à l’autre Géométrie : Leur position absolue, leur position relative, la courbure du segment, sa longueur, l’importance du bruit… CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

5 Pourquoi modéliser la topologie in situ?
Reconnaissance de formes Ajout de caractéristiques topologiques au caractéristiques statistiques et géométriques Classification via composantes connexes; dimension intrinsèque… Apprentissage semi-supervisé CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

6 Pourquoi modéliser la topologie in situ?
Reconnaissance de formes Ajout de caractéristiques topologiques au caractéristiques statistiques et géométriques Classification via composantes connexes; dimension intrinsèque… Apprentissage semi-supervisé Analyse exploratoire Mesure des caractéristiques topologiques d’un nuage de point en dimensions >3 Plus court chemin le long des variétés (projection non linéaire) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

7 Pourquoi modéliser la topologie in situ?
Reconnaissance de formes Ajout de caractéristiques topologiques au caractéristiques statistiques et géométriques Classification via composantes connexes; dimension intrinsèque… Apprentissage semi-supervisé Analyse exploratoire Mesure des caractéristiques topologiques d’un nuage de point en dimensions >3 Plus court chemin le long des variétés (projection non linéaire) Robotique, commande de processus Trajectoire optimale Cinématique inverse [Zeller, Schulten - IEEE ISIC1996] CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

8 Etat de l’art (Machine Learning): topologie fixée a priori
Approches descriptives (critère MSE) Approches génératives (critère ML) Gauss. Mixt. QV [Gray] OD Codage,prédiction, compression Prédiction , correction d’erreurs CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

9 Etat de l’art (Machine Learning): topologie fixée a priori
Approches descriptives (critère MSE) Approches génératives (critère ML) Gauss. Mixt. QV [Gray] OD Codage,prédiction, compression Prédiction , correction d’erreurs SOM [Kohonen] GTM [Bishop] Projection, clustering, compression Projection 1D-2D… Modèle de topologie CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

10 Etat de l’art (Machine Learning): topologie fixée a priori
Approches descriptives (critère MSE) Approches génératives (critère ML) Gauss. Mixt. QV [Gray] OD Codage,prédiction, compression Prédiction , correction d’erreurs SOM [Kohonen] GTM [Bishop] Projection, clustering, compression Projection 1D-2D… Modèle de topologie Prin. Curv. [Kegl] PSOM [Walter] Prin. Curv. [Hastie,Stuetzle] LPCA [Bishop] Prédiction , correction d’erreurs Prédiction, correction d’erreurs Projection 1D-2D… Modèle de variétés CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

11 Etat de l’art (Machine Learning): topologie fixée a priori
Approches descriptives (critère MSE) Approches génératives (critère ML) Gauss. Mixt. QV [Gray] OD Codage,prédiction, compression Prédiction , correction d’erreurs SOM [Kohonen] GTM [Bishop] Projection, clustering, compression Projection 1D-2D… Modèle de topologie Prin. Curv. [Kegl] PSOM [Walter] Prin. Curv. [Hastie,Stuetzle] LPCA [Bishop] Prédiction , correction d’erreurs Prédiction, correction d’erreurs Projection 1D-2D… Modèle de variétés Problèmes : topologie imposée ou incomplète CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

12 Etat de l’art : topologie apprise des données
Information parcellaire sur la topologie Calcul de la dimension intrinsèque locale CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

13 Etat de l’art : topologie apprise des données
Information parcellaire sur la topologie Calcul de la dimension intrinsèque locale Modélisation sous forme de graphes à partir des données seules Gabriel Graph, Sphere of Influence Graph, Relative Neighborhood Graph, KNN Graph, beta-squelette… CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

14 Etat de l’art : topologie apprise des données
Information parcellaire sur la topologie Calcul de la dimension intrinsèque locale Modélisation sous forme de graphes à partir des données seules Gabriel Graph, Sphere of Influence Graph, Relative Neighborhood Graph, KNN Graph, beta-squelette… Modélisation sous forme de complexes simpliciaux à partir des données seules Crust [Amenta98] (k<4) a-shapes [Edelsbrunner94] Intérêt : certaines garanties topologiques / échantillonnage Problème : sensibilité au bruit moyen à fort, conditions d’échantillonnage invérifiables dans notre cas, absence de critère de sélection des paramètres (une piste : persistence topologique) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

15 Etat de l’art : topologie apprise des données
Approches géométriques basées sur des prototypes représentant les données (Quantification Vectorielle) Topology Representing Networks [Martinetz94] Witness Complexes [De Silva03] CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

16 Complexe restreint de Delaunay
Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

17 Complexe restreint de Delaunay
Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

18 Complexe restreint de Delaunay
Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] Les arcs de Delaunay sont retenus si la variété coupe la frontière de Voronoï commune à leurs extrémités M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

19 Complexe restreint de Delaunay
Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] Les arcs de Delaunay sont retenus si la variété coupe la frontière de Voronoï commune à leurs extrémités M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

20 Complexe restreint de Delaunay
Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] Les arcs de Delaunay sont retenus si la variété coupe la frontière de Voronoï commune à leurs extrémités M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

21 Complexe restreint de Delaunay
Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] Les arcs de Delaunay sont retenus si la variété coupe la frontière de Voronoï commune à leurs extrémités M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

22 Complexe restreint de Delaunay
Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] Les arcs de Delaunay sont retenus si la variété coupe la frontière de Voronoï commune à leurs extrémités M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

23 Complexe restreint de Delaunay
Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] Les triangles de Delaunay sont retenus si la variété coupe la frontière de Voronoï commune à leurs sommets M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

24 Complexe restreint de Delaunay
Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] Les triangles de Delaunay sont retenus si la variété coupe la frontière de Voronoï commune à leurs sommets M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

25 Complexe restreint de Delaunay
Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] Valable pour tous les k-simplexes (k<=d) M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

26 Complexe restreint de Delaunay
Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] Propriétés: - type d’homotopie homéomorphisme sous certaines conditions vérifiables uniquement si on connaît les Mk M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

27 Complexe restreint de Delaunay
Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] Propriétés: - type d’homotopie homéomorphisme sous certaines conditions vérifiables uniquement si on connaît les Mk Problème : il faut connaître les variétés Mk M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

28 Applications : cas où les variétés sont connues
Topologie de molécules avec les alpha-shapes [Edelsbrunner1994] Variété M = union des sphères centrées sur les points (alpha règle le rayon des sphères) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

29 Applications : cas où les variétés sont connues
Topologie de molécules avec les alpha-shapes [Edelsbrunner1994] Analyse exploratoire par élagage du graphe de Delaunay de données étiquetées [Aupetit2005] Variété M = union des sphères centrées sur les points (alpha règle le rayon des sphères) Variété M = union des cellules de Voronoï des points d’une même classe CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

30 Approximation : cas où les variétés sont inconnues
Topology Representing Network [Martinetz, Schulten 1994] La variété M est remplacée par un échantillon fini Le test d’intersection entre M et les frontières de Voronoï est remplacé par l’appartenance de l’échantillon à des régions d’influence qui contiennent ces frontières CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

31 Approximation : cas où les variétés sont inconnues
Topology Representing Network [Martinetz, Schulten 1994] La variété M est remplacée par un échantillon fini Le test d’intersection entre M et les frontières de Voronoï est remplacé par l’appartenance de l’échantillon à des régions d’influence qui contiennent ces frontières Connecter 1er and 2nd PPV de chaque donnée : Competitive Hebbian Learning (CHL) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

32 Approximation : cas où les variétés sont inconnues
Topology Representing Network [Martinetz, Schulten 1994] La variété M est remplacée par un échantillon fini Le test d’intersection entre M et les frontières de Voronoï est remplacé par l’appartenance de l’échantillon à des régions d’influence qui contiennent ces frontières 2nd 1er Connecter 1er and 2nd PPV de chaque donnée : Competitive Hebbian Learning (CHL) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

33 Approximation : cas où les variétés sont inconnues
Topology Representing Network [Martinetz, Schulten 1994] La variété M est remplacée par un échantillon fini Le test d’intersection entre M et les frontières de Voronoï est remplacé par l’appartenance de l’échantillon à des régions d’influence qui contiennent ces frontières 2nd 1er Connecter 1er and 2nd PPV de chaque donnée : Competitive Hebbian Learning (CHL) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

34 Approximation : cas où les variétés sont inconnues
Topology Representing Network [Martinetz, Schulten 1994] La variété M est remplacée par un échantillon fini Le test d’intersection entre M et les frontières de Voronoï est remplacé par l’appartenance de l’échantillon à des régions d’influence qui contiennent ces frontières 2nd 1er Connecter 1er and 2nd PPV de chaque donnée : Competitive Hebbian Learning (CHL) ROI = cellule de Voronoï d’ordre 2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

35 Approximation : cas où les variétés sont inconnues
Topology Representing Network [Martinetz, Schulten 1994] La variété M est remplacée par un échantillon fini Le test d’intersection entre M et les frontières de Voronoï est remplacé par l’appartenance de l’échantillon à des régions d’influence qui contiennent ces frontières 2nd 1er Connecter 1er and 2nd PPV de chaque donnée : Competitive Hebbian Learning (CHL) ROI = cellule de Voronoï d’ordre 2 1 arc du graphe de Delaunay = 1 cellule de Voronoï d’ordre 2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

36 Approximation : cas où les variétés sont inconnues
Topology Representing Network [Martinetz, Schulten 1994] La variété M est remplacée par un échantillon fini Le test d’intersection entre M et les frontières de Voronoï est remplacé par l’appartenance de l’échantillon à des régions d’influence qui contiennent ces frontières 2nd 1er Connecter 1er and 2nd PPV de chaque donnée : Competitive Hebbian Learning (CHL) ROI = cellule de Voronoï d’ordre 2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

37 Approximation : cas où les variétés sont inconnues
Topology Representing Network [Martinetz, Schulten 1994] La variété M est remplacée par un échantillon fini Le test d’intersection entre M et les frontières de Voronoï est remplacé par l’appartenance de l’échantillon à des régions d’influence qui contiennent ces frontières 2nd 1er Connecter 1er and 2nd PPV de chaque donnée : Competitive Hebbian Learning (CHL) ROI = cellule de Voronoï d’ordre 2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

38 Approximation : cas où les variétés sont inconnues
Topology Representing Network [Martinetz, Schulten 1994] La variété M est remplacée par un échantillon fini Le test d’intersection entre M et les frontières de Voronoï est remplacé par l’appartenance de l’échantillon à des régions d’influence qui contiennent ces frontières 2nd 1er Connecter 1er and 2nd PPV de chaque donnée : Competitive Hebbian Learning (CHL) ROI = cellule de Voronoï d’ordre 2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

39 Exemple du Topology Representing Network
Sans bruit Cellules de Voronoï d’ordre 2 = région d’influence d’un arc du graphe de Delaunay Avec bruit CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

40 Witness Complexes [deSilva,Carlsson 2003]
A chaque (D+1-K)-facette d’une cellule de Voronoï correspond une cellule de Voronoï d’ordre K (réciproque fausse pour K>2) Zones mortes (3 ppv non sommets de Delaunay) Voronoï d’ordre 2 Voronoï d’ordre 3 Sommets candidats pour les triangles CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

41 TRN et Witness Complexes : les qualités
Intérêt On construit un sous-complexe de Delaunay avec peu de calculs O(DNG) Si les sommets sont « bien » placés et en nombre « suffisant mais pas trop », Alors le complexe simplicial obtenu est « satisfaisant » CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

42 TRN et Witness Complexes : les qualités
Intérêt On construit un sous-complexe de Delaunay avec peu de calculs O(DNG) Si les sommets sont « bien » placés et en nombre « suffisant mais pas trop », Alors le graphe obtenu est « satisfaisant » Passons aux « défauts » de mon point de vue (ML) : Le choix de ces ROI est-il « pertinent » pour résoudre le problème posé? CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

43 TRN et Witness Complexes : les défauts
1) Existence de zones mortes (K>2) donc sous-utilisation des G échantillons (G>>N) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

44 TRN et Witness Complexes : les défauts
2) Pas de préservation des 0-simplexes générateurs car tout point à toujours deux prototypes 1er et 2nd plus proches voisins qui seront donc connectés Avec bruit Sans bruit CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

45 TRN et Witness Complexes : les défauts
3) Sensibilité au bruit car modèle basé sur des ROI « binaires »: il suffit d’un seul point dans la région pour créer le lien. CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

46 TRN et Witness Complexes : les défauts
4) Modèle de variétés abstrait : les k-simplexes (k>0) sont plongeables, mais ne sont pas plongés géométriquement dans l’espace du nuage de point. Ce n’est pas un modèle des variétés génératrices au sens où on l’entend en ML modèle « proche » des données au sens des moindres carrés (e.g. K-means), mais « seulement » un modèle de leur connexité. CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

47 TRN et Witness Complexes : les défauts
4) Modèle de variétés abstrait : les k-simplexes (k>0) sont plongeables, mais ne sont pas plongés géométriquement dans l’espace du nuage de point. Ce n’est pas un modèle des variétés génératrices au sens où on l’entend en ML modèle « proche » des données au sens des moindres carrés (e.g. K-means), mais « seulement » un modèle de leur connexité. CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

48 TRN et Witness Complexes : les défauts
4) Modèle de variétés abstrait : les k-simplexes (k>0) sont plongeables, mais ne sont pas plongés géométriquement dans l’espace du nuage de point. Ce n’est pas un modèle des variétés génératrices au sens où on l’entend en ML modèle « proche » des données au sens des moindres carrés (e.g. K-means), mais « seulement » un modèle de leur connexité. Toutes les mesures de proximité sont effectuées par rapport aux seuls sommets Le complexe simplicial est abstrait CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

49 TRN et Witness Complexes : les défauts
4.1) Conséquence 1 : ROI de formes pas toujours adaptées Les « witness » sont loin de l’arc qu’ils génèrent (contre-intuitif en ML: moyenne, centre de gravité) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

50 TRN et Witness Complexes : les défauts
4.2) Conséquence 2 : Pas de self-consistance (définie par Hastie et Stuetzle avec les Variétés Principales), on peut avoir une intersection vide entre un segment et sa ROI (les points échantillons d’un segment peuvent ne pas générer ce segment) Pas d’intersection entre la ROI et le segment qu’elle génère CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

51 TRN et Witness Complexes : les défauts
4.3) Conséquence 3 : Volume des ROI non pertinent car lié à la « légitimité » que le simplexe associé appartienne ou non au complexe de Delaunay Volume minuscule = arête de Delaunay peu robuste à un léger déplacement des sommets - Risque qu’aucune donnée n’active cette région - Volume de cette région sans rapport avec la légitimité d’existence de l’arête : la densité uniforme de données générées dans le carré, devrait impliquer une « légitimité » similaire des arêtes retenues (4 côtés + 1 diagonale qu’importe laquelle). CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

52 TRN et Witness Complexes : les défauts
5) Pas de mesure objective de la qualité du modèle Comment mesurer la qualité du modèle sur des données de grande dimension (>3) dont on ne connaît rien a priori? (visualisation impossible) Comment comparer les modèles en l’absence de vérité terrain? CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

53 Approximation : TRN et Witness Complexes
Bilan : Une approche peu satisfaisante (point de vue ML) pour résoudre notre problème Vers une autre solution : formuler le problème avec une approche statistique CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

54 Tabula rasa CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

55 Des variétés génératrices
Hypothèses générales sur le processus statistique de génération des données Des variétés génératrices inconnues… CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

56 Hypothèses générales sur le processus statistique de génération des données
Des variétés génératrices inconnues… …desquelles sont tirés des individus avec une densité de probabilité inconnue… CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

57 menant aux observations
Hypothèses générales sur le processus statistique de génération des données Des variétés génératrices inconnues… …corrompus par un bruit de nature inconnue menant aux observations …desquelles sont tirés des individus avec une densité de probabilité inconnue… CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

58 menant aux observations
Hypothèses générales sur le processus statistique de génération des données Ce que l’on veut… Des variétés génératrices inconnues… …desquelles sont tirés des individus avec une densité de probabilité inconnue… …corrompus par un bruit de nature inconnue menant aux observations CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

59 Extraire la topologie à partir d’un modèle de densité
La clef du problème : Un moyen d’extraire la topologie / la structure des données est de modéliser la distribution p(x) c’est-à-dire le processus statistique de génération des données Modèle génératif CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

60 Extraire la topologie à partir d’un modèle de densité
La clef du problème : Un moyen d’extraire la topologie / la structure des données est de modéliser la distribution p(x) c’est-à-dire le processus statistique de génération des données à l’aide d’une collection de variétés génératrices dont on puisse extraire la topologie Modèle génératif Topologie CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

61 Modéliser des variétés génératrices par des variétés
Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

62 Modéliser des variétés génératrices par des variétés
Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

63 Modéliser des variétés génératrices par des variétés
Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? . ... k-boules k=0 k=1 k=2 k=3 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

64 Modéliser des variétés génératrices par des variétés
Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? . ... k-boules k=0 k=1 k=2 k=3 Pas de connexité structurelle entre éléments CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

65 Modéliser des variétés génératrices par des variétés
Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? . ... k-boules k=0 k=1 k=2 k=3 Pas de connexité structurelle entre éléments . ... k-pavés CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

66 Modéliser des variétés génératrices par des variétés
Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? . ... k-boules k=0 k=1 k=2 k=3 Pas de connexité structurelle entre éléments Nécessite 2k paramètres pour un k-pavé . ... k-pavés CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

67 Modéliser des variétés génératrices par des variétés
Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? . ... k-boules k=0 k=1 k=2 k=3 Pas de connexité structurelle entre éléments Nécessite 2k paramètres pour un k-pavé . ... k-pavés . ... k-simplexes CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

68 Modéliser des variétés génératrices par des variétés
Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? . ... k-boules k=0 k=1 k=2 k=3 Pas de connexité structurelle entre éléments Nécessite 2k paramètres pour un k-pavé . ... k-pavés Enveloppe convexe de k+1 points dans IRD (D>=k) . ... k-simplexes CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

69 Modéliser des variétés génératrices par des variétés
Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? . ... k-boules k=0 k=1 k=2 k=3 Pas de connexité structurelle entre éléments Nécessite 2k paramètres pour un k-pavé . ... k-pavés Enveloppe convexe de k+1 points dans IRD (D>=k) . ... k-simplexes Complexe simplicial CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

70 Modéliser des variétés génératrices par des variétés
Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? . ... k-boules k=0 k=1 k=2 k=3 Pas de connexité structurelle entre éléments Nécessite 2k paramètres pour un k-pavé . ... k-pavés Enveloppe convexe de k+1 points dans IRD (D>=k) . ... k-simplexes Pourquoi? CS = ensemble de variétés : parcimonieux (k+1 points / éléments) flexible (vers approx. universelle) topologie extractible (calculable, exacte car structure discrète + algo Betti) interpolation (linéaire,B-splines…) Complexe simplicial CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

71 Modéliser des variétés génératrices par des variétés
Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? Quel complexe simplicial? . ... k-simplexes CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

72 Modéliser des variétés génératrices par des variétés
Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? Quel complexe simplicial? Un que l’on sache construire : le complexe de Delaunay . ... k-simplexes CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

73 Modèle proposé 15/03/2007 … desquelles sont tirés
des individus avec une densité de probabilité inconnue… Des variétés génératrices inconnues… …corrompus par un bruit de nature inconnue menant aux observations. CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

74 Modèle proposé Supposons une variété composite linéaire
… desquelles sont tirés des individus avec une densité de probabilité inconnue… Des variétés génératrices inconnues… …corrompus par un bruit de nature inconnue menant aux observations. Supposons une variété composite linéaire par morceaux sous-complexe du CS Delaunay… CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

75 Modèle proposé Supposons une …à chaque composant
… desquelles sont tirés des individus avec une densité de probabilité inconnue… Des variétés génératrices inconnues… …corrompus par un bruit de nature inconnue menant aux observations. Supposons une variété composite linéaire par morceaux sous-complexe du CS Delaunay… …à chaque composant de laquelle est associé une fdp uniforme… CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

76 Modèle proposé Supposons une …à chaque composant
… desquelles sont tirés des individus avec une densité de probabilité inconnue… Des variétés génératrices inconnues… …corrompus par un bruit de nature inconnue menant aux observations. Supposons une variété composite linéaire par morceaux sous-complexe du CS Delaunay… …convoluée à un bruit Gaussien centré isovarié. …à chaque composant de laquelle est associé une fdp uniforme… CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

77 Modèle proposé Un complexe simplicial génératif gaussien Supposons une
… desquelles sont tirés des individus avec une densité de probabilité inconnue… Des variétés génératrices inconnues… …corrompus par un bruit de nature inconnue menant aux observations. Supposons une variété composite linéaire par morceaux sous-complexe du CS Delaunay… …convoluée à un bruit Gaussien centré isovarié. …à chaque composant de laquelle est associé une fdp uniforme… Un complexe simplicial génératif gaussien CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

78 Générer les k-simplexes gaussiens
Comment définir un modèle génératif basé sur un complexe simplicial? A Point-gaussien B Segment-gaussien A Expression analytique Approximation (quasi Monte Carlo) Triangle-gaussien A B C k-simplexe gaussien CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

79 Le Complexe Simplicial Génératif Gaussien
Un modèle de mélange gaussien étendu aux k-simplexes d’un complexe simplicial initial Réglage des paramètres Positionnement des sommets du complexe simplicial Probabilité a priori des k-simplexes Variance du bruit gaussien Critères Maximisation de la vraisemblance du modèle sachant les données Pénalisation par le critère BIC gestion automatique de la complexité du modèle liée au nombre de prototypes Méthode d’optimisation GEM CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

80 Principe du Graphe Génératif Gaussien (GGG)
Initialisation Positionnement de prototypes par Modèle de mélange gaussien puis construction du graphe de Delaunay (variété composite) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

81 Principe du Graphe Génératif Gaussien (GGG)
Initialisation Positionnement de prototypes par Modèle de mélange gaussien puis construction du graphe de Delaunay (variété composite) Modèle statistique de densité généré par la variété composite (équiprobabilité des composants) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

82 Principe du Graphe Génératif Gaussien (GGG)
Après apprentissage Certaines composantes ont une probabilité associée (quasi-)nulle: elle ne servent pas à expliquer les données. CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

83 Principe du Graphe Génératif Gaussien (GGG)
Après apprentissage Certaines composantes ont une probabilité associée (quasi-)nulle: elle ne servent pas à expliquer les données. On peut les supprimer : élagage du graphe CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

84 Principe du Graphe Génératif Gaussien (GGG)
Après apprentissage Certaines composantes ont une probabilité associée (quasi-)nulle: elle ne servent pas à expliquer les données. On peut les supprimer : élagage du graphe Complexe simplicial dont la topologie est supposée proche de celle des variétés génératrices des données CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

85 Expérience : CHL vs GGG données bruitées
Seuillage sur le nombre de witness CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

86 Expérience : CHL vs GGG données bruitées
Seuillage sur le nombre de witness CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

87 Expérience : CHL vs GGG données bruitées
Seuillage sur le nombre de witness CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

88 Algorithme proposé : « algorithme incrémental »
Dimension 0 Placer les simplexes de dimension 0 a l’aide d’un modèle de mélange gaussien isovarié Ajouter la dimension 1 Construire le Graphe de Delaunay, Initialiser le poids des segments, Modifier le poids des différents simplexes (dim 0 et 1) et la variance du bruit, Modifier les sommets en plus des autres paramètres Élagage 3. Ajouter la dimension k Ajouter les simplexes de dimensions où c’est possible, Initialiser le poids des simplexes, Modifier le poids des différents simplexes (dim 0 à k) et la variance du bruit, Modifier les sommets en plus des autres paramètres Élagage CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

89 Exemple CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

90 Application sur données hydro-acoustiques
Chant des baleines (F. Samaran, C. Guinet, Centre d’étude biologique de Chizé – CNRS) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

91 Application sur données hydro-acoustiques
Chant des baleines (F. Samaran, C. Guinet, Centre d’étude biologique de Chizé – CNRS) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

92 Application sur données hydro-acoustiques
Chant des baleines (F. Samaran, C. Guinet, Centre d’étude biologique de Chizé – CNRS) échantillonnage CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

93 Application sur données hydro-acoustiques
Chant des baleines (F. Samaran, C. Guinet, Centre d’étude biologique de Chizé – CNRS) Filtrage statistique du bruit de fond par ajout d’une composante dédiée dans le GGG échantillonnage CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

94 Application sur données hydro-acoustiques
Chant des baleines (F. Samaran, C. Guinet, Centre d’étude biologique de Chizé – CNRS) Puis filtrage topologique des 0-simplexes avant extraction de caractéristiques géométriques de la composante connexe 1D candidate pour comparaison à une base de référence (discrimination) Filtrage statistique du bruit de fond par ajout d’une composante dédiée dans le GGG échantillonnage CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

95 Points positifs 1) Pas de zones mortes : toutes les données sont exploitées 2) 0-variétés génératrices isolées préservées 3) Moindre sensibilité au bruit : on introduit un modèle de bruit (gaussien) et les ROI sont « floues » (gaussiennes) 4) Modèle de variétés « complet » : plongement géométrique de tous les k-simplexes 4.1) ROI englobant les k-simplexes (convolution) 4.2) Self-consistance : modèle génératif l’est par définition 4.3) Pertinence des k-simplexes mesurée par une probabilité 5) Mesure objective de la qualité : la vraisemblance pénalisée CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

96 Points durs « No free lunch »
Complexité de calcul en O(DN3) (graphe de Delaunay initial) Convergence lente (EM) Approximation numérique pour le calcul des k-simplexes gaussiens Multiples optima locaux de la fonction de vraisemblance CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

97 Points clefs Estimateur statistique de la topologie
Idée principale : Même géométrie implique même topologie Donc en imposant une proximité géométrique modèle/données (modulo le bruit gaussien) avec une gestion de la complexité du modèle, on suppose que la topologie du modèle sera proche de celle des variétés génératrices (d’où l’importance du plongement « complet » du modèle) D’où la conjecture suivante : La topologie des variétés modèles estime celle des variétés génératrices du nuage de points d’autant mieux que le modèle de densité associé est vraisemblable à complexité donnée Modèle de mélange particulier Topologie des variétés extractible et flexible Généralisant les modèles de mélange classiques (0-simplexes) Estimation de densités particulières localement uniformes (voire linéaire ou non-linéaire par interpolation) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

98 Questions ouvertes Validité de la conjecture
« bonne » vraisemblance pénalisée  = « bonne » topologie - liens avec la persistence topologique? - lien entre préservation de la topologie et densité de l’échantillonnage (au sens probabiliste)? Théorème d’approximation universelle de variété? Complexité (nb. d’optima) de la fonction de vraisemblance? Algorithmes efficaces pour Optimiser la vraisemblance? Construire le graphe de Delaunay en dimension D ? Estimer les k-simplexes gaussiens? CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

99 Travaux et collaborations
Collaboration avec F. Chazal (INRIA Futurs) et D. Cohen-Steiner (INRIA Sophia) Collaboration avec S. Canu, G.Gasso et K. Zapien (INSA-Rouen) Thèse Pierre Gaillard (CEA-UTC, G. Govaert) : adaptation du modèle dans le cas de données étiquetées pour l’analyse de données et l’apprentissage semi-supervisé Thèse à venir (CEA-UTC, G. Govaert) : utilisation du modèle pour la visualisation de systèmes d’inférence floue Publications NIPS 2005 et ESANN 2007 Proposition d’un Workshop sur ce thème à NIPS en décembre 2007 (Communauté Machine Learning) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

100 Merci de votre attention

101 Perspectives pour les Witness Complex
Comment positionner les prototypes pour que les ROI soient mieux placées… CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

102 Voronoï et Delaunay Du diagramme de Voronoï
au complexe simplicial de Delaunay d-cellule Cellules de Voronoï Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

103 Voronoï et Delaunay Du diagramme de Voronoï
au complexe simplicial de Delaunay (d-1)-cellule Cellules de Voronoï Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

104 Voronoï et Delaunay Du diagramme de Voronoï
au complexe simplicial de Delaunay (d-2)-cellule Cellules de Voronoï Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

105 Voronoï et Delaunay Du diagramme de Voronoï
au complexe simplicial de Delaunay À chaque d-cellule un 0-simplexe Régions de Voronoï Graphe de Delaunay Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

106 Voronoï et Delaunay Du diagramme de Voronoï
au complexe simplicial de Delaunay Régions de Voronoï Graphe de Delaunay Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

107 Voronoï et Delaunay Du diagramme de Voronoï
au complexe simplicial de Delaunay À chaque (d-1)-cellule un 1-simplexe Régions de Voronoï Graphe de Delaunay Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

108 Voronoï et Delaunay Du diagramme de Voronoï
au complexe simplicial de Delaunay À chaque (d-1)-cellule un 1-simplexe Régions de Voronoï Graphe de Delaunay Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

109 Voronoï et Delaunay Du diagramme de Voronoï
au complexe simplicial de Delaunay À chaque (d-1)-cellule un 1-simplexe Régions de Voronoï Graphe de Delaunay Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

110 Voronoï et Delaunay Du diagramme de Voronoï
au complexe simplicial de Delaunay À chaque (d-1)-cellule un 1-simplexe Régions de Voronoï Graphe de Delaunay Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

111 Voronoï et Delaunay Du diagramme de Voronoï
au complexe simplicial de Delaunay À chaque (d-1)-cellule un 1-simplexe Régions de Voronoï Graphe de Delaunay Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

112 Voronoï et Delaunay Du diagramme de Voronoï
au complexe simplicial de Delaunay À chaque (d-1)-cellule un 1-simplexe Régions de Voronoï Graphe de Delaunay Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

113 Voronoï et Delaunay Du diagramme de Voronoï
au complexe simplicial de Delaunay À chaque (d-2)-cellule un 2-simplexe Régions de Voronoï Complexe simplicial de Delaunay Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007

114 À chaque (d-k)-cellule
Voronoï et Delaunay Du diagramme de Voronoï au complexe simplicial de Delaunay À chaque (d-k)-cellule un k-simplexe Régions de Voronoï Complexe simplicial de Delaunay Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007


Télécharger ppt "Modélisation statistique de la topologie d’un nuage de points"

Présentations similaires


Annonces Google