La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Modélisation statistique de la topologie dun nuage de points CEA-DAM – Bruyères-le-Châtel Département Analyse Surveillance Environnement Laboratoire.

Présentations similaires


Présentation au sujet: "1 Modélisation statistique de la topologie dun nuage de points CEA-DAM – Bruyères-le-Châtel Département Analyse Surveillance Environnement Laboratoire."— Transcription de la présentation:

1 1 Modélisation statistique de la topologie dun nuage de points CEA-DAM – Bruyères-le-Châtel Département Analyse Surveillance Environnement Laboratoire Détection et Sismologie Opérationnelle Présentation aux Journées de Géométrie Algorithmique mars 2007 Michaël Aupetit – Ingénieur Chercheur Pierre Gaillard – Doctorant

2 2 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Un point de vue statistique Etant donné un nuage de points de R D, échantillon dune population (sous-variétés de R D ) inconnue, si lon connaît la densité de probabilité de la population (estimée à partir de léchantillon), on peut apporter une solution à de nombreux problèmes usuels: classification, discrimination, régression… Il reste pourtant une information peu exploitée car difficile à extraire…

3 3 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Une question en attente de réponse… Les modèles statistiques de densité existant ne permettent pas de répondre à la question suivante : Quelle est la forme de ce nuage de points ?

4 4 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Une réponse subjective… 1 point et 1 courbe La réponse attendue serait : Topologie : 1 variété de type point, 1 variété de type segment Non connectées lune à lautre Géométrie : Leur position absolue, leur position relative, la courbure du segment, sa longueur, limportance du bruit…

5 5 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Pourquoi modéliser la topologie in situ? Reconnaissance de formes –Ajout de caractéristiques topologiques au caractéristiques statistiques et géométriques –Classification via composantes connexes; dimension intrinsèque… –Apprentissage semi-supervisé

6 6 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Pourquoi modéliser la topologie in situ? Reconnaissance de formes –Ajout de caractéristiques topologiques au caractéristiques statistiques et géométriques –Classification via composantes connexes; dimension intrinsèque… –Apprentissage semi-supervisé Analyse exploratoire –Mesure des caractéristiques topologiques dun nuage de point en dimensions >3 –Plus court chemin le long des variétés (projection non linéaire)

7 7 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Pourquoi modéliser la topologie in situ? Reconnaissance de formes –Ajout de caractéristiques topologiques au caractéristiques statistiques et géométriques –Classification via composantes connexes; dimension intrinsèque… –Apprentissage semi-supervisé Analyse exploratoire –Mesure des caractéristiques topologiques dun nuage de point en dimensions >3 –Plus court chemin le long des variétés (projection non linéaire) Robotique, commande de processus –Trajectoire optimale –Cinématique inverse [Zeller, Schulten - IEEE ISIC1996]

8 8 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille QV [Gray] Approches descriptives (critère MSE) Approches génératives (critère ML) Gauss. Mixt. Etat de lart (Machine Learning): topologie fixée a priori Codage,prédiction, compression Prédiction, correction derreurs OD

9 9 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille QV [Gray] Approches descriptives (critère MSE) Approches génératives (critère ML) Gauss. Mixt. Etat de lart (Machine Learning): topologie fixée a priori Codage,prédiction, compression Prédiction, correction derreurs OD SOM [Kohonen] GTM [Bishop] Projection, clustering, compression Projection 1D-2D… Modèle de topologie

10 10 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille QV [Gray] Approches descriptives (critère MSE) Approches génératives (critère ML) Gauss. Mixt. Etat de lart (Machine Learning): topologie fixée a priori Codage,prédiction, compression Prédiction, correction derreurs OD SOM [Kohonen] GTM [Bishop] Projection, clustering, compression Projection 1D-2D… Modèle de topologie Prin. Curv. [Kegl] PSOM [Walter] Prin. Curv. [Hastie,Stuetzle] LPCA [Bishop] Prédiction, correction derreurs Projection 1D-2D… Modèle de variétés

11 11 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille QV [Gray] Approches descriptives (critère MSE) Approches génératives (critère ML) Gauss. Mixt. Etat de lart (Machine Learning): topologie fixée a priori Problèmes : topologie imposée ou incomplète Codage,prédiction, compression Prédiction, correction derreurs OD SOM [Kohonen] GTM [Bishop] Projection, clustering, compression Projection 1D-2D… Modèle de topologie Prin. Curv. [Kegl] PSOM [Walter] Prin. Curv. [Hastie,Stuetzle] LPCA [Bishop] Prédiction, correction derreurs Projection 1D-2D… Modèle de variétés

12 12 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Etat de lart : topologie apprise des données Information parcellaire sur la topologie –Calcul de la dimension intrinsèque locale

13 13 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Etat de lart : topologie apprise des données Information parcellaire sur la topologie –Calcul de la dimension intrinsèque locale Modélisation sous forme de graphes à partir des données seules –Gabriel Graph, Sphere of Influence Graph, Relative Neighborhood Graph, KNN Graph, beta-squelette…

14 14 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Etat de lart : topologie apprise des données Information parcellaire sur la topologie –Calcul de la dimension intrinsèque locale Modélisation sous forme de graphes à partir des données seules –Gabriel Graph, Sphere of Influence Graph, Relative Neighborhood Graph, KNN Graph, beta-squelette… Modélisation sous forme de complexes simpliciaux à partir des données seules –Crust [Amenta98] (k<4) – -shapes [Edelsbrunner94] Intérêt : certaines garanties topologiques / échantillonnage Problème : sensibilité au bruit moyen à fort, conditions déchantillonnage invérifiables dans notre cas, absence de critère de sélection des paramètres (une piste : persistence topologique)

15 15 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Etat de lart : topologie apprise des données Approches géométriques basées sur des prototypes représentant les données (Quantification Vectorielle) –Topology Representing Networks [Martinetz94] –Witness Complexes [De Silva03]

16 16 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Complexe restreint de Delaunay [Edelsbrunner, Shah 1997] M1M1 M2M2 Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés.

17 17 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Complexe restreint de Delaunay [Edelsbrunner, Shah 1997] M1M1 M2M2 Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés.

18 18 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Complexe restreint de Delaunay [Edelsbrunner, Shah 1997] M1M1 M2M2 Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. Les arcs de Delaunay sont retenus si la variété coupe la frontière de Voronoï commune à leurs extrémités

19 19 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Complexe restreint de Delaunay [Edelsbrunner, Shah 1997] M1M1 M2M2 Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. Les arcs de Delaunay sont retenus si la variété coupe la frontière de Voronoï commune à leurs extrémités

20 20 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Complexe restreint de Delaunay [Edelsbrunner, Shah 1997] M1M1 M2M2 Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. Les arcs de Delaunay sont retenus si la variété coupe la frontière de Voronoï commune à leurs extrémités

21 21 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Complexe restreint de Delaunay [Edelsbrunner, Shah 1997] M1M1 M2M2 Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. Les arcs de Delaunay sont retenus si la variété coupe la frontière de Voronoï commune à leurs extrémités

22 22 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Complexe restreint de Delaunay [Edelsbrunner, Shah 1997] M1M1 M2M2 Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. Les arcs de Delaunay sont retenus si la variété coupe la frontière de Voronoï commune à leurs extrémités

23 23 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Complexe restreint de Delaunay [Edelsbrunner, Shah 1997] M1M1 M2M2 Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. Les triangles de Delaunay sont retenus si la variété coupe la frontière de Voronoï commune à leurs sommets

24 24 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Complexe restreint de Delaunay [Edelsbrunner, Shah 1997] M1M1 M2M2 Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. Les triangles de Delaunay sont retenus si la variété coupe la frontière de Voronoï commune à leurs sommets

25 25 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Complexe restreint de Delaunay [Edelsbrunner, Shah 1997] M1M1 M2M2 Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. Valable pour tous les k-simplexes (k<=d)

26 26 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Complexe restreint de Delaunay [Edelsbrunner, Shah 1997] M1M1 M2M2 Propriétés: - type dhomotopie - homéomorphisme sous certaines conditions vérifiables uniquement si on connaît les M k Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés.

27 27 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Complexe restreint de Delaunay [Edelsbrunner, Shah 1997] M1M1 M2M2 Propriétés: - type dhomotopie - homéomorphisme sous certaines conditions vérifiables uniquement si on connaît les M k Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. Problème : il faut connaître les variétés M k

28 28 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Applications : cas où les variétés sont connues Variété M = union des sphères centrées sur les points (alpha règle le rayon des sphères) Topologie de molécules avec les alpha-shapes [Edelsbrunner1994]

29 29 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Applications : cas où les variétés sont connues Analyse exploratoire par élagage du graphe de Delaunay de données étiquetées [Aupetit2005] Topologie de molécules avec les alpha-shapes [Edelsbrunner1994] Variété M = union des sphères centrées sur les points (alpha règle le rayon des sphères) Variété M = union des cellules de Voronoï des points dune même classe

30 30 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Approximation : cas où les variétés sont inconnues Topology Representing Network [Martinetz, Schulten 1994] –La variété M est remplacée par un échantillon fini –Le test dintersection entre M et les frontières de Voronoï est remplacé par lappartenance de léchantillon à des régions dinfluence qui contiennent ces frontières

31 31 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Approximation : cas où les variétés sont inconnues Topology Representing Network [Martinetz, Schulten 1994] –La variété M est remplacée par un échantillon fini –Le test dintersection entre M et les frontières de Voronoï est remplacé par lappartenance de léchantillon à des régions dinfluence qui contiennent ces frontières Connecter 1 er and 2 nd PPV de chaque donnée : Competitive Hebbian Learning (CHL)

32 32 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Approximation : cas où les variétés sont inconnues Topology Representing Network [Martinetz, Schulten 1994] –La variété M est remplacée par un échantillon fini –Le test dintersection entre M et les frontières de Voronoï est remplacé par lappartenance de léchantillon à des régions dinfluence qui contiennent ces frontières 1 er 2 nd Connecter 1 er and 2 nd PPV de chaque donnée : Competitive Hebbian Learning (CHL)

33 33 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Approximation : cas où les variétés sont inconnues Topology Representing Network [Martinetz, Schulten 1994] –La variété M est remplacée par un échantillon fini –Le test dintersection entre M et les frontières de Voronoï est remplacé par lappartenance de léchantillon à des régions dinfluence qui contiennent ces frontières 1 er 2 nd Connecter 1 er and 2 nd PPV de chaque donnée : Competitive Hebbian Learning (CHL)

34 34 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Approximation : cas où les variétés sont inconnues Topology Representing Network [Martinetz, Schulten 1994] –La variété M est remplacée par un échantillon fini –Le test dintersection entre M et les frontières de Voronoï est remplacé par lappartenance de léchantillon à des régions dinfluence qui contiennent ces frontières 1 er 2 nd Connecter 1 er and 2 nd PPV de chaque donnée : Competitive Hebbian Learning (CHL) ROI = cellule de Voronoï dordre 2

35 35 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Approximation : cas où les variétés sont inconnues Topology Representing Network [Martinetz, Schulten 1994] –La variété M est remplacée par un échantillon fini –Le test dintersection entre M et les frontières de Voronoï est remplacé par lappartenance de léchantillon à des régions dinfluence qui contiennent ces frontières 1 er 2 nd Connecter 1 er and 2 nd PPV de chaque donnée : Competitive Hebbian Learning (CHL) ROI = cellule de Voronoï dordre 2 1 arc du graphe de Delaunay = 1 cellule de Voronoï dordre 2

36 36 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Approximation : cas où les variétés sont inconnues Topology Representing Network [Martinetz, Schulten 1994] –La variété M est remplacée par un échantillon fini –Le test dintersection entre M et les frontières de Voronoï est remplacé par lappartenance de léchantillon à des régions dinfluence qui contiennent ces frontières 1 er 2 nd Connecter 1 er and 2 nd PPV de chaque donnée : Competitive Hebbian Learning (CHL) ROI = cellule de Voronoï dordre 2

37 37 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Approximation : cas où les variétés sont inconnues Topology Representing Network [Martinetz, Schulten 1994] –La variété M est remplacée par un échantillon fini –Le test dintersection entre M et les frontières de Voronoï est remplacé par lappartenance de léchantillon à des régions dinfluence qui contiennent ces frontières 1 er 2 nd Connecter 1 er and 2 nd PPV de chaque donnée : Competitive Hebbian Learning (CHL) ROI = cellule de Voronoï dordre 2

38 38 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Approximation : cas où les variétés sont inconnues Topology Representing Network [Martinetz, Schulten 1994] –La variété M est remplacée par un échantillon fini –Le test dintersection entre M et les frontières de Voronoï est remplacé par lappartenance de léchantillon à des régions dinfluence qui contiennent ces frontières 1 er 2 nd Connecter 1 er and 2 nd PPV de chaque donnée : Competitive Hebbian Learning (CHL) ROI = cellule de Voronoï dordre 2

39 39 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Exemple du Topology Representing Network Cellules de Voronoï dordre 2 = région dinfluence dun arc du graphe de Delaunay Sans bruit Avec bruit

40 40 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Witness Complexes [deSilva,Carlsson 2003] Zones mortes (3 ppv non sommets de Delaunay) Voronoï dordre 2 Voronoï dordre 3 A chaque (D+1-K)-facette dune cellule de Voronoï correspond une cellule de Voronoï dordre K (réciproque fausse pour K>2) Sommets candidats pour les triangles

41 41 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille TRN et Witness Complexes : les qualités Intérêt –On construit un sous-complexe de Delaunay avec peu de calculs O(DNG) –Si les sommets sont « bien » placés et en nombre « suffisant mais pas trop », Alors le complexe simplicial obtenu est « satisfaisant »

42 42 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille TRN et Witness Complexes : les qualités Intérêt –On construit un sous-complexe de Delaunay avec peu de calculs O(DNG) –Si les sommets sont « bien » placés et en nombre « suffisant mais pas trop », Alors le graphe obtenu est « satisfaisant » Passons aux « défauts » de mon point de vue (ML) : Le choix de ces ROI est-il « pertinent » pour résoudre le problème posé?

43 43 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille TRN et Witness Complexes : les défauts 1) Existence de zones mortes (K>2) donc sous-utilisation des G échantillons (G>>N)

44 44 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille TRN et Witness Complexes : les défauts 2) Pas de préservation des 0-simplexes générateurs car tout point à toujours deux prototypes 1er et 2nd plus proches voisins qui seront donc connectés Avec bruit Sans bruit

45 45 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille TRN et Witness Complexes : les défauts 3) Sensibilité au bruit car modèle basé sur des ROI « binaires »: il suffit dun seul point dans la région pour créer le lien.

46 46 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille TRN et Witness Complexes : les défauts 4) Modèle de variétés abstrait : les k-simplexes (k>0) sont plongeables, mais ne sont pas plongés géométriquement dans lespace du nuage de point. Ce nest pas un modèle des variétés génératrices au sens où on lentend en ML modèle « proche » des données au sens des moindres carrés (e.g. K-means), mais « seulement » un modèle de leur connexité.

47 47 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille TRN et Witness Complexes : les défauts 4) Modèle de variétés abstrait : les k-simplexes (k>0) sont plongeables, mais ne sont pas plongés géométriquement dans lespace du nuage de point. Ce nest pas un modèle des variétés génératrices au sens où on lentend en ML modèle « proche » des données au sens des moindres carrés (e.g. K-means), mais « seulement » un modèle de leur connexité.

48 48 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille TRN et Witness Complexes : les défauts Toutes les mesures de proximité sont effectuées par rapport aux seuls sommets Le complexe simplicial est abstrait 4) Modèle de variétés abstrait : les k-simplexes (k>0) sont plongeables, mais ne sont pas plongés géométriquement dans lespace du nuage de point. Ce nest pas un modèle des variétés génératrices au sens où on lentend en ML modèle « proche » des données au sens des moindres carrés (e.g. K-means), mais « seulement » un modèle de leur connexité.

49 49 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille TRN et Witness Complexes : les défauts 4.1) Conséquence 1 : ROI de formes pas toujours adaptées Les « witness » sont loin de larc quils génèrent (contre-intuitif en ML: moyenne, centre de gravité)

50 50 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille TRN et Witness Complexes : les défauts 4.2) Conséquence 2 : Pas de self-consistance (définie par Hastie et Stuetzle avec les Variétés Principales), on peut avoir une intersection vide entre un segment et sa ROI (les points échantillons dun segment peuvent ne pas générer ce segment) Pas dintersection entre la ROI et le segment quelle génère

51 51 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille TRN et Witness Complexes : les défauts 4.3) Conséquence 3 : Volume des ROI non pertinent car lié à la « légitimité » que le simplexe associé appartienne ou non au complexe de Delaunay Volume minuscule = arête de Delaunay peu robuste à un léger déplacement des sommets - Risque quaucune donnée nactive cette région - Volume de cette région sans rapport avec la légitimité dexistence de larête : la densité uniforme de données générées dans le carré, devrait impliquer une « légitimité » similaire des arêtes retenues (4 côtés + 1 diagonale quimporte laquelle).

52 52 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille TRN et Witness Complexes : les défauts 5) Pas de mesure objective de la qualité du modèle –Comment mesurer la qualité du modèle sur des données de grande dimension (>3) dont on ne connaît rien a priori? (visualisation impossible) –Comment comparer les modèles en labsence de vérité terrain?

53 53 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Approximation : TRN et Witness Complexes Bilan : Une approche peu satisfaisante (point de vue ML) pour résoudre notre problème Vers une autre solution : formuler le problème avec une approche statistique

54 54 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Tabula rasa

55 55 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Hypothèses générales sur le processus statistique de génération des données Des variétés génératrices inconnues…

56 56 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Des variétés génératrices inconnues… …desquelles sont tirés des individus avec une densité de probabilité inconnue… Hypothèses générales sur le processus statistique de génération des données

57 57 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Des variétés génératrices inconnues… …desquelles sont tirés des individus avec une densité de probabilité inconnue… …corrompus par un bruit de nature inconnue menant aux observations Hypothèses générales sur le processus statistique de génération des données

58 58 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Des variétés génératrices inconnues… …desquelles sont tirés des individus avec une densité de probabilité inconnue… …corrompus par un bruit de nature inconnue menant aux observations Hypothèses générales sur le processus statistique de génération des données Ce que lon veut…

59 59 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Extraire la topologie à partir dun modèle de densité Un moyen dextraire la topologie / la structure des données est de modéliser la distribution p(x) cest-à-dire le processus statistique de génération des données Modèle génératif La clef du problème :

60 60 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Extraire la topologie à partir dun modèle de densité Un moyen dextraire la topologie / la structure des données est de modéliser la distribution p(x) cest-à-dire le processus statistique de génération des données à laide dune collection de variétés génératrices dont on puisse extraire la topologie La clef du problème : Modèle génératif Topologie

61 61 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Modéliser des variétés génératrices par des variétés Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions)

62 62 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Modéliser des variétés génératrices par des variétés Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ?

63 63 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Modéliser des variétés génératrices par des variétés Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ?.... k-boules k=0k=1k=2k=3

64 64 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Modéliser des variétés génératrices par des variétés Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ?.... k-boules k=0k=1k=2k=3 Pas de connexité structurelle entre éléments

65 65 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Modéliser des variétés génératrices par des variétés Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ?.... k-pavés.... k-boules k=0k=1k=2k=3 Pas de connexité structurelle entre éléments

66 66 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Modéliser des variétés génératrices par des variétés Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ?.... k-pavés.... k-boules k=0k=1k=2k=3 Pas de connexité structurelle entre éléments Nécessite 2 k paramètres pour un k-pavé

67 67 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Modéliser des variétés génératrices par des variétés Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ?.... k-pavés.... k-simplexes.... k-boules k=0k=1k=2k=3 Pas de connexité structurelle entre éléments Nécessite 2 k paramètres pour un k-pavé

68 68 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Modéliser des variétés génératrices par des variétés Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ?.... k-pavés.... k-simplexes.... k-boules k=0k=1k=2k=3 Enveloppe convexe de k+1 points dans IR D (D >=k ) Pas de connexité structurelle entre éléments Nécessite 2 k paramètres pour un k-pavé

69 69 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Modéliser des variétés génératrices par des variétés Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ?.... k-pavés.... k-simplexes.... k-boules k=0k=1k=2k=3 Complexe simplicial Enveloppe convexe de k+1 points dans IR D (D >=k ) Pas de connexité structurelle entre éléments Nécessite 2 k paramètres pour un k-pavé

70 70 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Modéliser des variétés génératrices par des variétés Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ?.... k-pavés.... k-simplexes.... k-boules k=0k=1k=2k=3 Complexe simplicial Pourquoi? CS = ensemble de variétés : - parcimonieux (k+1 points / éléments) - flexible (vers approx. universelle) - topologie extractible (calculable, exacte car structure discrète + algo Betti) - interpolation (linéaire,B-splines…) Enveloppe convexe de k+1 points dans IR D (D >=k ) Pas de connexité structurelle entre éléments Nécessite 2 k paramètres pour un k-pavé

71 71 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Modéliser des variétés génératrices par des variétés Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? Quel complexe simplicial?.... k-simplexes

72 72 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Modéliser des variétés génératrices par des variétés Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? Quel complexe simplicial? Un que lon sache construire : le complexe de Delaunay.... k-simplexes

73 73 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Modèle proposé Des variétés génératrices inconnues… … desquelles sont tirés des individus avec une densité de probabilité inconnue… …corrompus par un bruit de nature inconnue menant aux observations.

74 74 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Modèle proposé Des variétés génératrices inconnues… … desquelles sont tirés des individus avec une densité de probabilité inconnue… …corrompus par un bruit de nature inconnue menant aux observations. Supposons une variété composite linéaire par morceaux sous-complexe du CS Delaunay…

75 75 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Modèle proposé Des variétés génératrices inconnues… … desquelles sont tirés des individus avec une densité de probabilité inconnue… …corrompus par un bruit de nature inconnue menant aux observations. …à chaque composant de laquelle est associé une fdp uniforme… Supposons une variété composite linéaire par morceaux sous-complexe du CS Delaunay…

76 76 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Modèle proposé Des variétés génératrices inconnues… … desquelles sont tirés des individus avec une densité de probabilité inconnue… …corrompus par un bruit de nature inconnue menant aux observations. Supposons une variété composite linéaire par morceaux sous-complexe du CS Delaunay… …à chaque composant de laquelle est associé une fdp uniforme… …convoluée à un bruit Gaussien centré isovarié.

77 77 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Modèle proposé Des variétés génératrices inconnues… … desquelles sont tirés des individus avec une densité de probabilité inconnue… …corrompus par un bruit de nature inconnue menant aux observations. Supposons une variété composite linéaire par morceaux sous-complexe du CS Delaunay… …à chaque composant de laquelle est associé une fdp uniforme… …convoluée à un bruit Gaussien centré isovarié. Un complexe simplicial génératif gaussien

78 78 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Générer les k-simplexes gaussiens Comment définir un modèle génératif basé sur un complexe simplicial? Expression analytique Approximation (quasi Monte Carlo) Point-gaussien A Segment-gaussien A B Triangle-gaussien A B C k-simplexe … … gaussien

79 79 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Le Complexe Simplicial Génératif Gaussien Un modèle de mélange gaussien étendu aux k-simplexes dun complexe simplicial initial Réglage des paramètres –Positionnement des sommets du complexe simplicial –Probabilité a priori des k-simplexes –Variance du bruit gaussien Critères –Maximisation de la vraisemblance du modèle sachant les données –Pénalisation par le critère BIC gestion automatique de la complexité du modèle liée au nombre de prototypes Méthode doptimisation –GEM

80 80 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Principe du Graphe Génératif Gaussien (GGG) Positionnement de prototypes par Modèle de mélange gaussien puis construction du graphe de Delaunay (variété composite) Initialisation

81 81 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Principe du Graphe Génératif Gaussien (GGG) Positionnement de prototypes par Modèle de mélange gaussien puis construction du graphe de Delaunay (variété composite) Initialisation Modèle statistique de densité généré par la variété composite (équiprobabilité des composants)

82 82 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Principe du Graphe Génératif Gaussien (GGG) Certaines composantes ont une probabilité associée (quasi-)nulle: elle ne servent pas à expliquer les données. Après apprentissage

83 83 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Principe du Graphe Génératif Gaussien (GGG) Certaines composantes ont une probabilité associée (quasi-)nulle: elle ne servent pas à expliquer les données. On peut les supprimer : élagage du graphe Après apprentissage

84 84 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Principe du Graphe Génératif Gaussien (GGG) Certaines composantes ont une probabilité associée (quasi-)nulle: elle ne servent pas à expliquer les données. On peut les supprimer : élagage du graphe Après apprentissage Complexe simplicial dont la topologie est supposée proche de celle des variétés génératrices des données

85 85 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Expérience : CHL vs GGG données bruitées Seuillage sur le nombre de witness

86 86 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Expérience : CHL vs GGG données bruitées Seuillage sur le nombre de witness

87 87 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Expérience : CHL vs GGG données bruitées Seuillage sur le nombre de witness

88 88 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Algorithme proposé : « algorithme incrémental » 1.Dimension 0 Placer les simplexes de dimension 0 a laide dun modèle de mélange gaussien isovarié 2.Ajouter la dimension 1 i.Construire le Graphe de Delaunay, ii.Initialiser le poids des segments, iii.Modifier le poids des différents simplexes (dim 0 et 1) et la variance du bruit, iv.Modifier les sommets en plus des autres paramètres v.Élagage 3. Ajouter la dimension k i.Ajouter les simplexes de dimensions où cest possible, ii.Initialiser le poids des simplexes, iii.Modifier le poids des différents simplexes (dim 0 à k) et la variance du bruit, iv.Modifier les sommets en plus des autres paramètres v.Élagage

89 89 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Exemple

90 90 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Application sur données hydro-acoustiques Chant des baleines (F. Samaran, C. Guinet, Centre détude biologique de Chizé – CNRS)

91 91 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Application sur données hydro-acoustiques Chant des baleines (F. Samaran, C. Guinet, Centre détude biologique de Chizé – CNRS)

92 92 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Application sur données hydro-acoustiques Chant des baleines (F. Samaran, C. Guinet, Centre détude biologique de Chizé – CNRS) échantillonnage

93 93 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Application sur données hydro-acoustiques Chant des baleines (F. Samaran, C. Guinet, Centre détude biologique de Chizé – CNRS) échantillonnage Filtrage statistique du bruit de fond par ajout dune composante dédiée dans le GGG

94 94 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Application sur données hydro-acoustiques Chant des baleines (F. Samaran, C. Guinet, Centre détude biologique de Chizé – CNRS) échantillonnage Filtrage statistique du bruit de fond par ajout dune composante dédiée dans le GGG Puis filtrage topologique des 0-simplexes avant extraction de caractéristiques géométriques de la composante connexe 1D candidate pour comparaison à une base de référence (discrimination)

95 95 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Points positifs 1) Pas de zones mortes : toutes les données sont exploitées 2) 0-variétés génératrices isolées préservées 3) Moindre sensibilité au bruit : on introduit un modèle de bruit (gaussien) et les ROI sont « floues » (gaussiennes) 4) Modèle de variétés « complet » : plongement géométrique de tous les k-simplexes 4.1) ROI englobant les k-simplexes (convolution) 4.2) Self-consistance : modèle génératif lest par définition 4.3) Pertinence des k-simplexes mesurée par une probabilité 5) Mesure objective de la qualité : la vraisemblance pénalisée

96 96 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Points durs « No free lunch » –Complexité de calcul en O(DN 3 ) (graphe de Delaunay initial) –Convergence lente (EM) –Approximation numérique pour le calcul des k-simplexes gaussiens –Multiples optima locaux de la fonction de vraisemblance

97 97 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Points clefs Estimateur statistique de la topologie –Idée principale : Même géométrie implique même topologie Donc en imposant une proximité géométrique modèle/données (modulo le bruit gaussien) avec une gestion de la complexité du modèle, on suppose que la topologie du modèle sera proche de celle des variétés génératrices (doù limportance du plongement « complet » du modèle) Doù la conjecture suivante : La topologie des variétés modèles estime celle des variétés génératrices du nuage de points dautant mieux que le modèle de densité associé est vraisemblable à complexité donnée Modèle de mélange particulier –Topologie des variétés extractible et flexible –Généralisant les modèles de mélange classiques (0-simplexes) –Estimation de densités particulières localement uniformes (voire linéaire ou non-linéaire par interpolation)

98 98 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Questions ouvertes Validité de la conjecture « bonne » vraisemblance pénalisée = « bonne » topologie - liens avec la persistence topologique? - lien entre préservation de la topologie et densité de léchantillonnage (au sens probabiliste)? Théorème dapproximation universelle de variété? Complexité (nb. doptima) de la fonction de vraisemblance? Algorithmes efficaces pour –Optimiser la vraisemblance? –Construire le graphe de Delaunay en dimension D ? –Estimer les k-simplexes gaussiens?

99 99 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Travaux et collaborations Collaboration avec F. Chazal (INRIA Futurs) et D. Cohen-Steiner (INRIA Sophia) Collaboration avec S. Canu, G.Gasso et K. Zapien (INSA-Rouen) Thèse Pierre Gaillard (CEA-UTC, G. Govaert) : adaptation du modèle dans le cas de données étiquetées pour lanalyse de données et lapprentissage semi-supervisé Thèse à venir (CEA-UTC, G. Govaert) : utilisation du modèle pour la visualisation de systèmes dinférence floue Publications NIPS 2005 et ESANN 2007 Proposition dun Workshop sur ce thème à NIPS en décembre 2007 (Communauté Machine Learning)

100 100 Merci de votre attention

101 101 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Perspectives pour les Witness Complex Comment positionner les prototypes pour que les ROI soient mieux placées…

102 102 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Voronoï et Delaunay Du diagramme de Voronoï au complexe simplicial de Delaunay Ensemble v de points de IR D Cellules de Voronoï d-cellule

103 103 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Voronoï et Delaunay Du diagramme de Voronoï au complexe simplicial de Delaunay Ensemble v de points de IR D Cellules de Voronoï (d-1)-cellule

104 104 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Voronoï et Delaunay Du diagramme de Voronoï au complexe simplicial de Delaunay Ensemble v de points de IR D Cellules de Voronoï (d-2)-cellule

105 105 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Voronoï et Delaunay Du diagramme de Voronoï au complexe simplicial de Delaunay Ensemble v de points de IR D Régions de Voronoï Graphe de Delaunay À chaque d-cellule un 0-simplexe

106 106 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Voronoï et Delaunay Du diagramme de Voronoï au complexe simplicial de Delaunay Ensemble v de points de IR D Régions de Voronoï Graphe de Delaunay

107 107 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Voronoï et Delaunay Du diagramme de Voronoï au complexe simplicial de Delaunay Ensemble v de points de IR D Régions de Voronoï Graphe de Delaunay À chaque (d-1)-cellule un 1-simplexe

108 108 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Voronoï et Delaunay Du diagramme de Voronoï au complexe simplicial de Delaunay Ensemble v de points de IR D Régions de Voronoï Graphe de Delaunay À chaque (d-1)-cellule un 1-simplexe

109 109 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Voronoï et Delaunay Du diagramme de Voronoï au complexe simplicial de Delaunay Ensemble v de points de IR D Régions de Voronoï Graphe de Delaunay À chaque (d-1)-cellule un 1-simplexe

110 110 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Voronoï et Delaunay Du diagramme de Voronoï au complexe simplicial de Delaunay Ensemble v de points de IR D Régions de Voronoï Graphe de Delaunay À chaque (d-1)-cellule un 1-simplexe

111 111 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Voronoï et Delaunay Du diagramme de Voronoï au complexe simplicial de Delaunay Ensemble v de points de IR D Régions de Voronoï Graphe de Delaunay À chaque (d-1)-cellule un 1-simplexe

112 112 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Voronoï et Delaunay Du diagramme de Voronoï au complexe simplicial de Delaunay Ensemble v de points de IR D Régions de Voronoï Graphe de Delaunay À chaque (d-1)-cellule un 1-simplexe

113 113 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Voronoï et Delaunay Du diagramme de Voronoï au complexe simplicial de Delaunay Ensemble v de points de IR D Régions de Voronoï Complexe simplicial de Delaunay À chaque (d-2)-cellule un 2-simplexe

114 114 15/03/2007 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille Voronoï et Delaunay Du diagramme de Voronoï au complexe simplicial de Delaunay Ensemble v de points de IR D Régions de Voronoï Complexe simplicial de Delaunay À chaque (d-k)-cellule un k-simplexe


Télécharger ppt "1 Modélisation statistique de la topologie dun nuage de points CEA-DAM – Bruyères-le-Châtel Département Analyse Surveillance Environnement Laboratoire."

Présentations similaires


Annonces Google