Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parLionel Cadiou Modifié depuis plus de 10 années
1
Modélisation statistique de la topologie d’un nuage de points
Michaël Aupetit – Ingénieur Chercheur Pierre Gaillard – Doctorant CEA-DAM – Bruyères-le-Châtel Département Analyse Surveillance Environnement Laboratoire Détection et Sismologie Opérationnelle Présentation aux Journées de Géométrie Algorithmique 12-16 mars 2007
2
Un point de vue statistique
Etant donné un nuage de points de RD, échantillon d’une population (sous-variétés de RD) inconnue, si l’on connaît la densité de probabilité de la population (estimée à partir de l’échantillon), on peut apporter une solution à de nombreux problèmes usuels: classification, discrimination, régression… L’essentiel de la difficulté se porte sur la qualité de l’estimation en présence d’un faible nombre de données, la présence de valeurs manquantes… Il reste pourtant une information peu exploitée car difficile à extraire… CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
3
Une question en attente de réponse…
Les modèles statistiques de densité existant ne permettent pas de répondre à la question suivante : Quelle est la forme de ce nuage de points ? L’étude des « formes » en mathématiques, c’est la Topologie. La topologie décrit les propriétés des variétés CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
4
Une réponse subjective…
La réponse attendue serait : 1 point et 1 courbe Topologie : 1 variété de type point, 1 variété de type segment Non connectées l’une à l’autre Géométrie : Leur position absolue, leur position relative, la courbure du segment, sa longueur, l’importance du bruit… CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
5
Pourquoi modéliser la topologie in situ?
Reconnaissance de formes Ajout de caractéristiques topologiques au caractéristiques statistiques et géométriques Classification via composantes connexes; dimension intrinsèque… Apprentissage semi-supervisé CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
6
Pourquoi modéliser la topologie in situ?
Reconnaissance de formes Ajout de caractéristiques topologiques au caractéristiques statistiques et géométriques Classification via composantes connexes; dimension intrinsèque… Apprentissage semi-supervisé Analyse exploratoire Mesure des caractéristiques topologiques d’un nuage de point en dimensions >3 Plus court chemin le long des variétés (projection non linéaire) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
7
Pourquoi modéliser la topologie in situ?
Reconnaissance de formes Ajout de caractéristiques topologiques au caractéristiques statistiques et géométriques Classification via composantes connexes; dimension intrinsèque… Apprentissage semi-supervisé Analyse exploratoire Mesure des caractéristiques topologiques d’un nuage de point en dimensions >3 Plus court chemin le long des variétés (projection non linéaire) Robotique, commande de processus Trajectoire optimale Cinématique inverse [Zeller, Schulten - IEEE ISIC1996] CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
8
Etat de l’art (Machine Learning): topologie fixée a priori
Approches descriptives (critère MSE) Approches génératives (critère ML) Gauss. Mixt. QV [Gray] OD Codage,prédiction, compression Prédiction , correction d’erreurs CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
9
Etat de l’art (Machine Learning): topologie fixée a priori
Approches descriptives (critère MSE) Approches génératives (critère ML) Gauss. Mixt. QV [Gray] OD Codage,prédiction, compression Prédiction , correction d’erreurs SOM [Kohonen] GTM [Bishop] Projection, clustering, compression Projection 1D-2D… Modèle de topologie CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
10
Etat de l’art (Machine Learning): topologie fixée a priori
Approches descriptives (critère MSE) Approches génératives (critère ML) Gauss. Mixt. QV [Gray] OD Codage,prédiction, compression Prédiction , correction d’erreurs SOM [Kohonen] GTM [Bishop] Projection, clustering, compression Projection 1D-2D… Modèle de topologie Prin. Curv. [Kegl] PSOM [Walter] Prin. Curv. [Hastie,Stuetzle] LPCA [Bishop] Prédiction , correction d’erreurs Prédiction, correction d’erreurs Projection 1D-2D… Modèle de variétés CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
11
Etat de l’art (Machine Learning): topologie fixée a priori
Approches descriptives (critère MSE) Approches génératives (critère ML) Gauss. Mixt. QV [Gray] OD Codage,prédiction, compression Prédiction , correction d’erreurs SOM [Kohonen] GTM [Bishop] Projection, clustering, compression Projection 1D-2D… Modèle de topologie Prin. Curv. [Kegl] PSOM [Walter] Prin. Curv. [Hastie,Stuetzle] LPCA [Bishop] Prédiction , correction d’erreurs Prédiction, correction d’erreurs Projection 1D-2D… Modèle de variétés Problèmes : topologie imposée ou incomplète CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
12
Etat de l’art : topologie apprise des données
Information parcellaire sur la topologie Calcul de la dimension intrinsèque locale CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
13
Etat de l’art : topologie apprise des données
Information parcellaire sur la topologie Calcul de la dimension intrinsèque locale Modélisation sous forme de graphes à partir des données seules Gabriel Graph, Sphere of Influence Graph, Relative Neighborhood Graph, KNN Graph, beta-squelette… CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
14
Etat de l’art : topologie apprise des données
Information parcellaire sur la topologie Calcul de la dimension intrinsèque locale Modélisation sous forme de graphes à partir des données seules Gabriel Graph, Sphere of Influence Graph, Relative Neighborhood Graph, KNN Graph, beta-squelette… Modélisation sous forme de complexes simpliciaux à partir des données seules Crust [Amenta98] (k<4) a-shapes [Edelsbrunner94] Intérêt : certaines garanties topologiques / échantillonnage Problème : sensibilité au bruit moyen à fort, conditions d’échantillonnage invérifiables dans notre cas, absence de critère de sélection des paramètres (une piste : persistence topologique) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
15
Etat de l’art : topologie apprise des données
Approches géométriques basées sur des prototypes représentant les données (Quantification Vectorielle) Topology Representing Networks [Martinetz94] Witness Complexes [De Silva03] CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
16
Complexe restreint de Delaunay
Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
17
Complexe restreint de Delaunay
Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
18
Complexe restreint de Delaunay
Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] Les arcs de Delaunay sont retenus si la variété coupe la frontière de Voronoï commune à leurs extrémités M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
19
Complexe restreint de Delaunay
Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] Les arcs de Delaunay sont retenus si la variété coupe la frontière de Voronoï commune à leurs extrémités M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
20
Complexe restreint de Delaunay
Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] Les arcs de Delaunay sont retenus si la variété coupe la frontière de Voronoï commune à leurs extrémités M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
21
Complexe restreint de Delaunay
Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] Les arcs de Delaunay sont retenus si la variété coupe la frontière de Voronoï commune à leurs extrémités M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
22
Complexe restreint de Delaunay
Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] Les arcs de Delaunay sont retenus si la variété coupe la frontière de Voronoï commune à leurs extrémités M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
23
Complexe restreint de Delaunay
Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] Les triangles de Delaunay sont retenus si la variété coupe la frontière de Voronoï commune à leurs sommets M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
24
Complexe restreint de Delaunay
Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] Les triangles de Delaunay sont retenus si la variété coupe la frontière de Voronoï commune à leurs sommets M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
25
Complexe restreint de Delaunay
Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] Valable pour tous les k-simplexes (k<=d) M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
26
Complexe restreint de Delaunay
Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] Propriétés: - type d’homotopie homéomorphisme sous certaines conditions vérifiables uniquement si on connaît les Mk M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
27
Complexe restreint de Delaunay
Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] Propriétés: - type d’homotopie homéomorphisme sous certaines conditions vérifiables uniquement si on connaît les Mk Problème : il faut connaître les variétés Mk M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
28
Applications : cas où les variétés sont connues
Topologie de molécules avec les alpha-shapes [Edelsbrunner1994] Variété M = union des sphères centrées sur les points (alpha règle le rayon des sphères) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
29
Applications : cas où les variétés sont connues
Topologie de molécules avec les alpha-shapes [Edelsbrunner1994] Analyse exploratoire par élagage du graphe de Delaunay de données étiquetées [Aupetit2005] Variété M = union des sphères centrées sur les points (alpha règle le rayon des sphères) Variété M = union des cellules de Voronoï des points d’une même classe CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
30
Approximation : cas où les variétés sont inconnues
Topology Representing Network [Martinetz, Schulten 1994] La variété M est remplacée par un échantillon fini Le test d’intersection entre M et les frontières de Voronoï est remplacé par l’appartenance de l’échantillon à des régions d’influence qui contiennent ces frontières CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
31
Approximation : cas où les variétés sont inconnues
Topology Representing Network [Martinetz, Schulten 1994] La variété M est remplacée par un échantillon fini Le test d’intersection entre M et les frontières de Voronoï est remplacé par l’appartenance de l’échantillon à des régions d’influence qui contiennent ces frontières Connecter 1er and 2nd PPV de chaque donnée : Competitive Hebbian Learning (CHL) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
32
Approximation : cas où les variétés sont inconnues
Topology Representing Network [Martinetz, Schulten 1994] La variété M est remplacée par un échantillon fini Le test d’intersection entre M et les frontières de Voronoï est remplacé par l’appartenance de l’échantillon à des régions d’influence qui contiennent ces frontières 2nd 1er Connecter 1er and 2nd PPV de chaque donnée : Competitive Hebbian Learning (CHL) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
33
Approximation : cas où les variétés sont inconnues
Topology Representing Network [Martinetz, Schulten 1994] La variété M est remplacée par un échantillon fini Le test d’intersection entre M et les frontières de Voronoï est remplacé par l’appartenance de l’échantillon à des régions d’influence qui contiennent ces frontières 2nd 1er Connecter 1er and 2nd PPV de chaque donnée : Competitive Hebbian Learning (CHL) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
34
Approximation : cas où les variétés sont inconnues
Topology Representing Network [Martinetz, Schulten 1994] La variété M est remplacée par un échantillon fini Le test d’intersection entre M et les frontières de Voronoï est remplacé par l’appartenance de l’échantillon à des régions d’influence qui contiennent ces frontières 2nd 1er Connecter 1er and 2nd PPV de chaque donnée : Competitive Hebbian Learning (CHL) ROI = cellule de Voronoï d’ordre 2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
35
Approximation : cas où les variétés sont inconnues
Topology Representing Network [Martinetz, Schulten 1994] La variété M est remplacée par un échantillon fini Le test d’intersection entre M et les frontières de Voronoï est remplacé par l’appartenance de l’échantillon à des régions d’influence qui contiennent ces frontières 2nd 1er Connecter 1er and 2nd PPV de chaque donnée : Competitive Hebbian Learning (CHL) ROI = cellule de Voronoï d’ordre 2 1 arc du graphe de Delaunay = 1 cellule de Voronoï d’ordre 2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
36
Approximation : cas où les variétés sont inconnues
Topology Representing Network [Martinetz, Schulten 1994] La variété M est remplacée par un échantillon fini Le test d’intersection entre M et les frontières de Voronoï est remplacé par l’appartenance de l’échantillon à des régions d’influence qui contiennent ces frontières 2nd 1er Connecter 1er and 2nd PPV de chaque donnée : Competitive Hebbian Learning (CHL) ROI = cellule de Voronoï d’ordre 2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
37
Approximation : cas où les variétés sont inconnues
Topology Representing Network [Martinetz, Schulten 1994] La variété M est remplacée par un échantillon fini Le test d’intersection entre M et les frontières de Voronoï est remplacé par l’appartenance de l’échantillon à des régions d’influence qui contiennent ces frontières 2nd 1er Connecter 1er and 2nd PPV de chaque donnée : Competitive Hebbian Learning (CHL) ROI = cellule de Voronoï d’ordre 2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
38
Approximation : cas où les variétés sont inconnues
Topology Representing Network [Martinetz, Schulten 1994] La variété M est remplacée par un échantillon fini Le test d’intersection entre M et les frontières de Voronoï est remplacé par l’appartenance de l’échantillon à des régions d’influence qui contiennent ces frontières 2nd 1er Connecter 1er and 2nd PPV de chaque donnée : Competitive Hebbian Learning (CHL) ROI = cellule de Voronoï d’ordre 2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
39
Exemple du Topology Representing Network
Sans bruit Cellules de Voronoï d’ordre 2 = région d’influence d’un arc du graphe de Delaunay Avec bruit CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
40
Witness Complexes [deSilva,Carlsson 2003]
A chaque (D+1-K)-facette d’une cellule de Voronoï correspond une cellule de Voronoï d’ordre K (réciproque fausse pour K>2) Zones mortes (3 ppv non sommets de Delaunay) Voronoï d’ordre 2 Voronoï d’ordre 3 Sommets candidats pour les triangles CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
41
TRN et Witness Complexes : les qualités
Intérêt On construit un sous-complexe de Delaunay avec peu de calculs O(DNG) Si les sommets sont « bien » placés et en nombre « suffisant mais pas trop », Alors le complexe simplicial obtenu est « satisfaisant » CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
42
TRN et Witness Complexes : les qualités
Intérêt On construit un sous-complexe de Delaunay avec peu de calculs O(DNG) Si les sommets sont « bien » placés et en nombre « suffisant mais pas trop », Alors le graphe obtenu est « satisfaisant » Passons aux « défauts » de mon point de vue (ML) : Le choix de ces ROI est-il « pertinent » pour résoudre le problème posé? CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
43
TRN et Witness Complexes : les défauts
1) Existence de zones mortes (K>2) donc sous-utilisation des G échantillons (G>>N) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
44
TRN et Witness Complexes : les défauts
2) Pas de préservation des 0-simplexes générateurs car tout point à toujours deux prototypes 1er et 2nd plus proches voisins qui seront donc connectés Avec bruit Sans bruit CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
45
TRN et Witness Complexes : les défauts
3) Sensibilité au bruit car modèle basé sur des ROI « binaires »: il suffit d’un seul point dans la région pour créer le lien. CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
46
TRN et Witness Complexes : les défauts
4) Modèle de variétés abstrait : les k-simplexes (k>0) sont plongeables, mais ne sont pas plongés géométriquement dans l’espace du nuage de point. Ce n’est pas un modèle des variétés génératrices au sens où on l’entend en ML modèle « proche » des données au sens des moindres carrés (e.g. K-means), mais « seulement » un modèle de leur connexité. CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
47
TRN et Witness Complexes : les défauts
4) Modèle de variétés abstrait : les k-simplexes (k>0) sont plongeables, mais ne sont pas plongés géométriquement dans l’espace du nuage de point. Ce n’est pas un modèle des variétés génératrices au sens où on l’entend en ML modèle « proche » des données au sens des moindres carrés (e.g. K-means), mais « seulement » un modèle de leur connexité. CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
48
TRN et Witness Complexes : les défauts
4) Modèle de variétés abstrait : les k-simplexes (k>0) sont plongeables, mais ne sont pas plongés géométriquement dans l’espace du nuage de point. Ce n’est pas un modèle des variétés génératrices au sens où on l’entend en ML modèle « proche » des données au sens des moindres carrés (e.g. K-means), mais « seulement » un modèle de leur connexité. Toutes les mesures de proximité sont effectuées par rapport aux seuls sommets Le complexe simplicial est abstrait CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
49
TRN et Witness Complexes : les défauts
4.1) Conséquence 1 : ROI de formes pas toujours adaptées Les « witness » sont loin de l’arc qu’ils génèrent (contre-intuitif en ML: moyenne, centre de gravité) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
50
TRN et Witness Complexes : les défauts
4.2) Conséquence 2 : Pas de self-consistance (définie par Hastie et Stuetzle avec les Variétés Principales), on peut avoir une intersection vide entre un segment et sa ROI (les points échantillons d’un segment peuvent ne pas générer ce segment) Pas d’intersection entre la ROI et le segment qu’elle génère CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
51
TRN et Witness Complexes : les défauts
4.3) Conséquence 3 : Volume des ROI non pertinent car lié à la « légitimité » que le simplexe associé appartienne ou non au complexe de Delaunay Volume minuscule = arête de Delaunay peu robuste à un léger déplacement des sommets - Risque qu’aucune donnée n’active cette région - Volume de cette région sans rapport avec la légitimité d’existence de l’arête : la densité uniforme de données générées dans le carré, devrait impliquer une « légitimité » similaire des arêtes retenues (4 côtés + 1 diagonale qu’importe laquelle). CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
52
TRN et Witness Complexes : les défauts
5) Pas de mesure objective de la qualité du modèle Comment mesurer la qualité du modèle sur des données de grande dimension (>3) dont on ne connaît rien a priori? (visualisation impossible) Comment comparer les modèles en l’absence de vérité terrain? CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
53
Approximation : TRN et Witness Complexes
Bilan : Une approche peu satisfaisante (point de vue ML) pour résoudre notre problème Vers une autre solution : formuler le problème avec une approche statistique CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
54
Tabula rasa CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
55
Des variétés génératrices
Hypothèses générales sur le processus statistique de génération des données Des variétés génératrices inconnues… CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
56
Hypothèses générales sur le processus statistique de génération des données
Des variétés génératrices inconnues… …desquelles sont tirés des individus avec une densité de probabilité inconnue… CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
57
menant aux observations
Hypothèses générales sur le processus statistique de génération des données Des variétés génératrices inconnues… …corrompus par un bruit de nature inconnue menant aux observations …desquelles sont tirés des individus avec une densité de probabilité inconnue… CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
58
menant aux observations
Hypothèses générales sur le processus statistique de génération des données Ce que l’on veut… Des variétés génératrices inconnues… …desquelles sont tirés des individus avec une densité de probabilité inconnue… …corrompus par un bruit de nature inconnue menant aux observations CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
59
Extraire la topologie à partir d’un modèle de densité
La clef du problème : Un moyen d’extraire la topologie / la structure des données est de modéliser la distribution p(x) c’est-à-dire le processus statistique de génération des données Modèle génératif CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
60
Extraire la topologie à partir d’un modèle de densité
La clef du problème : Un moyen d’extraire la topologie / la structure des données est de modéliser la distribution p(x) c’est-à-dire le processus statistique de génération des données à l’aide d’une collection de variétés génératrices dont on puisse extraire la topologie Modèle génératif Topologie CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
61
Modéliser des variétés génératrices par des variétés
Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
62
Modéliser des variétés génératrices par des variétés
Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
63
Modéliser des variétés génératrices par des variétés
Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? . ... k-boules k=0 k=1 k=2 k=3 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
64
Modéliser des variétés génératrices par des variétés
Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? . ... k-boules k=0 k=1 k=2 k=3 Pas de connexité structurelle entre éléments CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
65
Modéliser des variétés génératrices par des variétés
Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? . ... k-boules k=0 k=1 k=2 k=3 Pas de connexité structurelle entre éléments . ... k-pavés CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
66
Modéliser des variétés génératrices par des variétés
Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? . ... k-boules k=0 k=1 k=2 k=3 Pas de connexité structurelle entre éléments Nécessite 2k paramètres pour un k-pavé . ... k-pavés CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
67
Modéliser des variétés génératrices par des variétés
Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? . ... k-boules k=0 k=1 k=2 k=3 Pas de connexité structurelle entre éléments Nécessite 2k paramètres pour un k-pavé . ... k-pavés . ... k-simplexes CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
68
Modéliser des variétés génératrices par des variétés
Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? . ... k-boules k=0 k=1 k=2 k=3 Pas de connexité structurelle entre éléments Nécessite 2k paramètres pour un k-pavé . ... k-pavés Enveloppe convexe de k+1 points dans IRD (D>=k) . ... k-simplexes CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
69
Modéliser des variétés génératrices par des variétés
Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? . ... k-boules k=0 k=1 k=2 k=3 Pas de connexité structurelle entre éléments Nécessite 2k paramètres pour un k-pavé . ... k-pavés Enveloppe convexe de k+1 points dans IRD (D>=k) . ... k-simplexes Complexe simplicial CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
70
Modéliser des variétés génératrices par des variétés
Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? . ... k-boules k=0 k=1 k=2 k=3 Pas de connexité structurelle entre éléments Nécessite 2k paramètres pour un k-pavé . ... k-pavés Enveloppe convexe de k+1 points dans IRD (D>=k) . ... k-simplexes Pourquoi? CS = ensemble de variétés : parcimonieux (k+1 points / éléments) flexible (vers approx. universelle) topologie extractible (calculable, exacte car structure discrète + algo Betti) interpolation (linéaire,B-splines…) Complexe simplicial CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
71
Modéliser des variétés génératrices par des variétés
Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? Quel complexe simplicial? . ... k-simplexes CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
72
Modéliser des variétés génératrices par des variétés
Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? Quel complexe simplicial? Un que l’on sache construire : le complexe de Delaunay . ... k-simplexes CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
73
Modèle proposé 15/03/2007 … desquelles sont tirés
des individus avec une densité de probabilité inconnue… Des variétés génératrices inconnues… …corrompus par un bruit de nature inconnue menant aux observations. CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
74
Modèle proposé Supposons une variété composite linéaire
… desquelles sont tirés des individus avec une densité de probabilité inconnue… Des variétés génératrices inconnues… …corrompus par un bruit de nature inconnue menant aux observations. Supposons une variété composite linéaire par morceaux sous-complexe du CS Delaunay… CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
75
Modèle proposé Supposons une …à chaque composant
… desquelles sont tirés des individus avec une densité de probabilité inconnue… Des variétés génératrices inconnues… …corrompus par un bruit de nature inconnue menant aux observations. Supposons une variété composite linéaire par morceaux sous-complexe du CS Delaunay… …à chaque composant de laquelle est associé une fdp uniforme… CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
76
Modèle proposé Supposons une …à chaque composant
… desquelles sont tirés des individus avec une densité de probabilité inconnue… Des variétés génératrices inconnues… …corrompus par un bruit de nature inconnue menant aux observations. Supposons une variété composite linéaire par morceaux sous-complexe du CS Delaunay… …convoluée à un bruit Gaussien centré isovarié. …à chaque composant de laquelle est associé une fdp uniforme… CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
77
Modèle proposé Un complexe simplicial génératif gaussien Supposons une
… desquelles sont tirés des individus avec une densité de probabilité inconnue… Des variétés génératrices inconnues… …corrompus par un bruit de nature inconnue menant aux observations. Supposons une variété composite linéaire par morceaux sous-complexe du CS Delaunay… …convoluée à un bruit Gaussien centré isovarié. …à chaque composant de laquelle est associé une fdp uniforme… Un complexe simplicial génératif gaussien CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
78
Générer les k-simplexes gaussiens
Comment définir un modèle génératif basé sur un complexe simplicial? A Point-gaussien B Segment-gaussien A Expression analytique Approximation (quasi Monte Carlo) Triangle-gaussien A B C k-simplexe … gaussien CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
79
Le Complexe Simplicial Génératif Gaussien
Un modèle de mélange gaussien étendu aux k-simplexes d’un complexe simplicial initial Réglage des paramètres Positionnement des sommets du complexe simplicial Probabilité a priori des k-simplexes Variance du bruit gaussien Critères Maximisation de la vraisemblance du modèle sachant les données Pénalisation par le critère BIC gestion automatique de la complexité du modèle liée au nombre de prototypes Méthode d’optimisation GEM CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
80
Principe du Graphe Génératif Gaussien (GGG)
Initialisation Positionnement de prototypes par Modèle de mélange gaussien puis construction du graphe de Delaunay (variété composite) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
81
Principe du Graphe Génératif Gaussien (GGG)
Initialisation Positionnement de prototypes par Modèle de mélange gaussien puis construction du graphe de Delaunay (variété composite) Modèle statistique de densité généré par la variété composite (équiprobabilité des composants) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
82
Principe du Graphe Génératif Gaussien (GGG)
Après apprentissage Certaines composantes ont une probabilité associée (quasi-)nulle: elle ne servent pas à expliquer les données. CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
83
Principe du Graphe Génératif Gaussien (GGG)
Après apprentissage Certaines composantes ont une probabilité associée (quasi-)nulle: elle ne servent pas à expliquer les données. On peut les supprimer : élagage du graphe CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
84
Principe du Graphe Génératif Gaussien (GGG)
Après apprentissage Certaines composantes ont une probabilité associée (quasi-)nulle: elle ne servent pas à expliquer les données. On peut les supprimer : élagage du graphe Complexe simplicial dont la topologie est supposée proche de celle des variétés génératrices des données CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
85
Expérience : CHL vs GGG données bruitées
Seuillage sur le nombre de witness CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
86
Expérience : CHL vs GGG données bruitées
Seuillage sur le nombre de witness CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
87
Expérience : CHL vs GGG données bruitées
Seuillage sur le nombre de witness CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
88
Algorithme proposé : « algorithme incrémental »
Dimension 0 Placer les simplexes de dimension 0 a l’aide d’un modèle de mélange gaussien isovarié Ajouter la dimension 1 Construire le Graphe de Delaunay, Initialiser le poids des segments, Modifier le poids des différents simplexes (dim 0 et 1) et la variance du bruit, Modifier les sommets en plus des autres paramètres Élagage 3. Ajouter la dimension k Ajouter les simplexes de dimensions où c’est possible, Initialiser le poids des simplexes, Modifier le poids des différents simplexes (dim 0 à k) et la variance du bruit, Modifier les sommets en plus des autres paramètres Élagage CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
89
Exemple CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
90
Application sur données hydro-acoustiques
Chant des baleines (F. Samaran, C. Guinet, Centre d’étude biologique de Chizé – CNRS) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
91
Application sur données hydro-acoustiques
Chant des baleines (F. Samaran, C. Guinet, Centre d’étude biologique de Chizé – CNRS) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
92
Application sur données hydro-acoustiques
Chant des baleines (F. Samaran, C. Guinet, Centre d’étude biologique de Chizé – CNRS) échantillonnage CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
93
Application sur données hydro-acoustiques
Chant des baleines (F. Samaran, C. Guinet, Centre d’étude biologique de Chizé – CNRS) Filtrage statistique du bruit de fond par ajout d’une composante dédiée dans le GGG échantillonnage CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
94
Application sur données hydro-acoustiques
Chant des baleines (F. Samaran, C. Guinet, Centre d’étude biologique de Chizé – CNRS) Puis filtrage topologique des 0-simplexes avant extraction de caractéristiques géométriques de la composante connexe 1D candidate pour comparaison à une base de référence (discrimination) Filtrage statistique du bruit de fond par ajout d’une composante dédiée dans le GGG échantillonnage CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
95
Points positifs 1) Pas de zones mortes : toutes les données sont exploitées 2) 0-variétés génératrices isolées préservées 3) Moindre sensibilité au bruit : on introduit un modèle de bruit (gaussien) et les ROI sont « floues » (gaussiennes) 4) Modèle de variétés « complet » : plongement géométrique de tous les k-simplexes 4.1) ROI englobant les k-simplexes (convolution) 4.2) Self-consistance : modèle génératif l’est par définition 4.3) Pertinence des k-simplexes mesurée par une probabilité 5) Mesure objective de la qualité : la vraisemblance pénalisée CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
96
Points durs « No free lunch »
Complexité de calcul en O(DN3) (graphe de Delaunay initial) Convergence lente (EM) Approximation numérique pour le calcul des k-simplexes gaussiens Multiples optima locaux de la fonction de vraisemblance CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
97
Points clefs Estimateur statistique de la topologie
Idée principale : Même géométrie implique même topologie Donc en imposant une proximité géométrique modèle/données (modulo le bruit gaussien) avec une gestion de la complexité du modèle, on suppose que la topologie du modèle sera proche de celle des variétés génératrices (d’où l’importance du plongement « complet » du modèle) D’où la conjecture suivante : La topologie des variétés modèles estime celle des variétés génératrices du nuage de points d’autant mieux que le modèle de densité associé est vraisemblable à complexité donnée Modèle de mélange particulier Topologie des variétés extractible et flexible Généralisant les modèles de mélange classiques (0-simplexes) Estimation de densités particulières localement uniformes (voire linéaire ou non-linéaire par interpolation) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
98
Questions ouvertes Validité de la conjecture
« bonne » vraisemblance pénalisée = « bonne » topologie - liens avec la persistence topologique? - lien entre préservation de la topologie et densité de l’échantillonnage (au sens probabiliste)? Théorème d’approximation universelle de variété? Complexité (nb. d’optima) de la fonction de vraisemblance? Algorithmes efficaces pour Optimiser la vraisemblance? Construire le graphe de Delaunay en dimension D ? Estimer les k-simplexes gaussiens? CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
99
Travaux et collaborations
Collaboration avec F. Chazal (INRIA Futurs) et D. Cohen-Steiner (INRIA Sophia) Collaboration avec S. Canu, G.Gasso et K. Zapien (INSA-Rouen) Thèse Pierre Gaillard (CEA-UTC, G. Govaert) : adaptation du modèle dans le cas de données étiquetées pour l’analyse de données et l’apprentissage semi-supervisé Thèse à venir (CEA-UTC, G. Govaert) : utilisation du modèle pour la visualisation de systèmes d’inférence floue Publications NIPS 2005 et ESANN 2007 Proposition d’un Workshop sur ce thème à NIPS en décembre 2007 (Communauté Machine Learning) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
100
Merci de votre attention
101
Perspectives pour les Witness Complex
Comment positionner les prototypes pour que les ROI soient mieux placées… CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
102
Voronoï et Delaunay Du diagramme de Voronoï
au complexe simplicial de Delaunay d-cellule Cellules de Voronoï Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
103
Voronoï et Delaunay Du diagramme de Voronoï
au complexe simplicial de Delaunay (d-1)-cellule Cellules de Voronoï Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
104
Voronoï et Delaunay Du diagramme de Voronoï
au complexe simplicial de Delaunay (d-2)-cellule Cellules de Voronoï Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
105
Voronoï et Delaunay Du diagramme de Voronoï
au complexe simplicial de Delaunay À chaque d-cellule un 0-simplexe Régions de Voronoï Graphe de Delaunay Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
106
Voronoï et Delaunay Du diagramme de Voronoï
au complexe simplicial de Delaunay Régions de Voronoï Graphe de Delaunay Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
107
Voronoï et Delaunay Du diagramme de Voronoï
au complexe simplicial de Delaunay À chaque (d-1)-cellule un 1-simplexe Régions de Voronoï Graphe de Delaunay Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
108
Voronoï et Delaunay Du diagramme de Voronoï
au complexe simplicial de Delaunay À chaque (d-1)-cellule un 1-simplexe Régions de Voronoï Graphe de Delaunay Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
109
Voronoï et Delaunay Du diagramme de Voronoï
au complexe simplicial de Delaunay À chaque (d-1)-cellule un 1-simplexe Régions de Voronoï Graphe de Delaunay Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
110
Voronoï et Delaunay Du diagramme de Voronoï
au complexe simplicial de Delaunay À chaque (d-1)-cellule un 1-simplexe Régions de Voronoï Graphe de Delaunay Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
111
Voronoï et Delaunay Du diagramme de Voronoï
au complexe simplicial de Delaunay À chaque (d-1)-cellule un 1-simplexe Régions de Voronoï Graphe de Delaunay Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
112
Voronoï et Delaunay Du diagramme de Voronoï
au complexe simplicial de Delaunay À chaque (d-1)-cellule un 1-simplexe Régions de Voronoï Graphe de Delaunay Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
113
Voronoï et Delaunay Du diagramme de Voronoï
au complexe simplicial de Delaunay À chaque (d-2)-cellule un 2-simplexe Régions de Voronoï Complexe simplicial de Delaunay Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
114
À chaque (d-k)-cellule
Voronoï et Delaunay Du diagramme de Voronoï au complexe simplicial de Delaunay À chaque (d-k)-cellule un k-simplexe Régions de Voronoï Complexe simplicial de Delaunay Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA Marseille 15/03/2007
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.