Modélisation statistique de la topologie d’un nuage de points Michaël Aupetit – Ingénieur Chercheur Pierre Gaillard – Doctorant CEA-DAM – Bruyères-le-Châtel Département Analyse Surveillance Environnement Laboratoire Détection et Sismologie Opérationnelle Présentation aux Journées de Géométrie Algorithmique 12-16 mars 2007
Un point de vue statistique Etant donné un nuage de points de RD, échantillon d’une population (sous-variétés de RD) inconnue, si l’on connaît la densité de probabilité de la population (estimée à partir de l’échantillon), on peut apporter une solution à de nombreux problèmes usuels: classification, discrimination, régression… L’essentiel de la difficulté se porte sur la qualité de l’estimation en présence d’un faible nombre de données, la présence de valeurs manquantes… Il reste pourtant une information peu exploitée car difficile à extraire… CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Une question en attente de réponse… Les modèles statistiques de densité existant ne permettent pas de répondre à la question suivante : Quelle est la forme de ce nuage de points ? L’étude des « formes » en mathématiques, c’est la Topologie. La topologie décrit les propriétés des variétés CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Une réponse subjective… La réponse attendue serait : 1 point et 1 courbe Topologie : 1 variété de type point, 1 variété de type segment Non connectées l’une à l’autre Géométrie : Leur position absolue, leur position relative, la courbure du segment, sa longueur, l’importance du bruit… CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Pourquoi modéliser la topologie in situ? Reconnaissance de formes Ajout de caractéristiques topologiques au caractéristiques statistiques et géométriques Classification via composantes connexes; dimension intrinsèque… Apprentissage semi-supervisé CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Pourquoi modéliser la topologie in situ? Reconnaissance de formes Ajout de caractéristiques topologiques au caractéristiques statistiques et géométriques Classification via composantes connexes; dimension intrinsèque… Apprentissage semi-supervisé Analyse exploratoire Mesure des caractéristiques topologiques d’un nuage de point en dimensions >3 Plus court chemin le long des variétés (projection non linéaire) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Pourquoi modéliser la topologie in situ? Reconnaissance de formes Ajout de caractéristiques topologiques au caractéristiques statistiques et géométriques Classification via composantes connexes; dimension intrinsèque… Apprentissage semi-supervisé Analyse exploratoire Mesure des caractéristiques topologiques d’un nuage de point en dimensions >3 Plus court chemin le long des variétés (projection non linéaire) Robotique, commande de processus Trajectoire optimale Cinématique inverse [Zeller, Schulten - IEEE ISIC1996] CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Etat de l’art (Machine Learning): topologie fixée a priori Approches descriptives (critère MSE) Approches génératives (critère ML) Gauss. Mixt. QV [Gray] OD Codage,prédiction, compression Prédiction , correction d’erreurs CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Etat de l’art (Machine Learning): topologie fixée a priori Approches descriptives (critère MSE) Approches génératives (critère ML) Gauss. Mixt. QV [Gray] OD Codage,prédiction, compression Prédiction , correction d’erreurs SOM [Kohonen] GTM [Bishop] Projection, clustering, compression Projection 1D-2D… Modèle de topologie CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Etat de l’art (Machine Learning): topologie fixée a priori Approches descriptives (critère MSE) Approches génératives (critère ML) Gauss. Mixt. QV [Gray] OD Codage,prédiction, compression Prédiction , correction d’erreurs SOM [Kohonen] GTM [Bishop] Projection, clustering, compression Projection 1D-2D… Modèle de topologie Prin. Curv. [Kegl] PSOM [Walter] Prin. Curv. [Hastie,Stuetzle] LPCA [Bishop] Prédiction , correction d’erreurs Prédiction, correction d’erreurs Projection 1D-2D… Modèle de variétés CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Etat de l’art (Machine Learning): topologie fixée a priori Approches descriptives (critère MSE) Approches génératives (critère ML) Gauss. Mixt. QV [Gray] OD Codage,prédiction, compression Prédiction , correction d’erreurs SOM [Kohonen] GTM [Bishop] Projection, clustering, compression Projection 1D-2D… Modèle de topologie Prin. Curv. [Kegl] PSOM [Walter] Prin. Curv. [Hastie,Stuetzle] LPCA [Bishop] Prédiction , correction d’erreurs Prédiction, correction d’erreurs Projection 1D-2D… Modèle de variétés Problèmes : topologie imposée ou incomplète CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Etat de l’art : topologie apprise des données Information parcellaire sur la topologie Calcul de la dimension intrinsèque locale CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Etat de l’art : topologie apprise des données Information parcellaire sur la topologie Calcul de la dimension intrinsèque locale Modélisation sous forme de graphes à partir des données seules Gabriel Graph, Sphere of Influence Graph, Relative Neighborhood Graph, KNN Graph, beta-squelette… CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Etat de l’art : topologie apprise des données Information parcellaire sur la topologie Calcul de la dimension intrinsèque locale Modélisation sous forme de graphes à partir des données seules Gabriel Graph, Sphere of Influence Graph, Relative Neighborhood Graph, KNN Graph, beta-squelette… Modélisation sous forme de complexes simpliciaux à partir des données seules Crust [Amenta98] (k<4) a-shapes [Edelsbrunner94] Intérêt : certaines garanties topologiques / échantillonnage Problème : sensibilité au bruit moyen à fort, conditions d’échantillonnage invérifiables dans notre cas, absence de critère de sélection des paramètres (une piste : persistence topologique) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Etat de l’art : topologie apprise des données Approches géométriques basées sur des prototypes représentant les données (Quantification Vectorielle) Topology Representing Networks [Martinetz94] Witness Complexes [De Silva03] CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Complexe restreint de Delaunay Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Complexe restreint de Delaunay Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Complexe restreint de Delaunay Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] Les arcs de Delaunay sont retenus si la variété coupe la frontière de Voronoï commune à leurs extrémités M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Complexe restreint de Delaunay Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] Les arcs de Delaunay sont retenus si la variété coupe la frontière de Voronoï commune à leurs extrémités M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Complexe restreint de Delaunay Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] Les arcs de Delaunay sont retenus si la variété coupe la frontière de Voronoï commune à leurs extrémités M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Complexe restreint de Delaunay Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] Les arcs de Delaunay sont retenus si la variété coupe la frontière de Voronoï commune à leurs extrémités M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Complexe restreint de Delaunay Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] Les arcs de Delaunay sont retenus si la variété coupe la frontière de Voronoï commune à leurs extrémités M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Complexe restreint de Delaunay Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] Les triangles de Delaunay sont retenus si la variété coupe la frontière de Voronoï commune à leurs sommets M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Complexe restreint de Delaunay Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] Les triangles de Delaunay sont retenus si la variété coupe la frontière de Voronoï commune à leurs sommets M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Complexe restreint de Delaunay Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] Valable pour tous les k-simplexes (k<=d) M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Complexe restreint de Delaunay Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] Propriétés: - type d’homotopie homéomorphisme sous certaines conditions vérifiables uniquement si on connaît les Mk M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Complexe restreint de Delaunay Etant donnée une collection de variétés, et un ensemble de points (prototypes), on définit le complexe de Delaunay des points restreint aux variétés. [Edelsbrunner, Shah 1997] Propriétés: - type d’homotopie homéomorphisme sous certaines conditions vérifiables uniquement si on connaît les Mk Problème : il faut connaître les variétés Mk M1 M2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Applications : cas où les variétés sont connues Topologie de molécules avec les alpha-shapes [Edelsbrunner1994] Variété M = union des sphères centrées sur les points (alpha règle le rayon des sphères) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Applications : cas où les variétés sont connues Topologie de molécules avec les alpha-shapes [Edelsbrunner1994] Analyse exploratoire par élagage du graphe de Delaunay de données étiquetées [Aupetit2005] Variété M = union des sphères centrées sur les points (alpha règle le rayon des sphères) Variété M = union des cellules de Voronoï des points d’une même classe CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Approximation : cas où les variétés sont inconnues Topology Representing Network [Martinetz, Schulten 1994] La variété M est remplacée par un échantillon fini Le test d’intersection entre M et les frontières de Voronoï est remplacé par l’appartenance de l’échantillon à des régions d’influence qui contiennent ces frontières CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Approximation : cas où les variétés sont inconnues Topology Representing Network [Martinetz, Schulten 1994] La variété M est remplacée par un échantillon fini Le test d’intersection entre M et les frontières de Voronoï est remplacé par l’appartenance de l’échantillon à des régions d’influence qui contiennent ces frontières Connecter 1er and 2nd PPV de chaque donnée : Competitive Hebbian Learning (CHL) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Approximation : cas où les variétés sont inconnues Topology Representing Network [Martinetz, Schulten 1994] La variété M est remplacée par un échantillon fini Le test d’intersection entre M et les frontières de Voronoï est remplacé par l’appartenance de l’échantillon à des régions d’influence qui contiennent ces frontières 2nd 1er Connecter 1er and 2nd PPV de chaque donnée : Competitive Hebbian Learning (CHL) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Approximation : cas où les variétés sont inconnues Topology Representing Network [Martinetz, Schulten 1994] La variété M est remplacée par un échantillon fini Le test d’intersection entre M et les frontières de Voronoï est remplacé par l’appartenance de l’échantillon à des régions d’influence qui contiennent ces frontières 2nd 1er Connecter 1er and 2nd PPV de chaque donnée : Competitive Hebbian Learning (CHL) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Approximation : cas où les variétés sont inconnues Topology Representing Network [Martinetz, Schulten 1994] La variété M est remplacée par un échantillon fini Le test d’intersection entre M et les frontières de Voronoï est remplacé par l’appartenance de l’échantillon à des régions d’influence qui contiennent ces frontières 2nd 1er Connecter 1er and 2nd PPV de chaque donnée : Competitive Hebbian Learning (CHL) ROI = cellule de Voronoï d’ordre 2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Approximation : cas où les variétés sont inconnues Topology Representing Network [Martinetz, Schulten 1994] La variété M est remplacée par un échantillon fini Le test d’intersection entre M et les frontières de Voronoï est remplacé par l’appartenance de l’échantillon à des régions d’influence qui contiennent ces frontières 2nd 1er Connecter 1er and 2nd PPV de chaque donnée : Competitive Hebbian Learning (CHL) ROI = cellule de Voronoï d’ordre 2 1 arc du graphe de Delaunay = 1 cellule de Voronoï d’ordre 2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Approximation : cas où les variétés sont inconnues Topology Representing Network [Martinetz, Schulten 1994] La variété M est remplacée par un échantillon fini Le test d’intersection entre M et les frontières de Voronoï est remplacé par l’appartenance de l’échantillon à des régions d’influence qui contiennent ces frontières 2nd 1er Connecter 1er and 2nd PPV de chaque donnée : Competitive Hebbian Learning (CHL) ROI = cellule de Voronoï d’ordre 2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Approximation : cas où les variétés sont inconnues Topology Representing Network [Martinetz, Schulten 1994] La variété M est remplacée par un échantillon fini Le test d’intersection entre M et les frontières de Voronoï est remplacé par l’appartenance de l’échantillon à des régions d’influence qui contiennent ces frontières 2nd 1er Connecter 1er and 2nd PPV de chaque donnée : Competitive Hebbian Learning (CHL) ROI = cellule de Voronoï d’ordre 2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Approximation : cas où les variétés sont inconnues Topology Representing Network [Martinetz, Schulten 1994] La variété M est remplacée par un échantillon fini Le test d’intersection entre M et les frontières de Voronoï est remplacé par l’appartenance de l’échantillon à des régions d’influence qui contiennent ces frontières 2nd 1er Connecter 1er and 2nd PPV de chaque donnée : Competitive Hebbian Learning (CHL) ROI = cellule de Voronoï d’ordre 2 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Exemple du Topology Representing Network Sans bruit Cellules de Voronoï d’ordre 2 = région d’influence d’un arc du graphe de Delaunay Avec bruit CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Witness Complexes [deSilva,Carlsson 2003] A chaque (D+1-K)-facette d’une cellule de Voronoï correspond une cellule de Voronoï d’ordre K (réciproque fausse pour K>2) Zones mortes (3 ppv non sommets de Delaunay) Voronoï d’ordre 2 Voronoï d’ordre 3 Sommets candidats pour les triangles CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
TRN et Witness Complexes : les qualités Intérêt On construit un sous-complexe de Delaunay avec peu de calculs O(DNG) Si les sommets sont « bien » placés et en nombre « suffisant mais pas trop », Alors le complexe simplicial obtenu est « satisfaisant » CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
TRN et Witness Complexes : les qualités Intérêt On construit un sous-complexe de Delaunay avec peu de calculs O(DNG) Si les sommets sont « bien » placés et en nombre « suffisant mais pas trop », Alors le graphe obtenu est « satisfaisant » Passons aux « défauts » de mon point de vue (ML) : Le choix de ces ROI est-il « pertinent » pour résoudre le problème posé? CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
TRN et Witness Complexes : les défauts 1) Existence de zones mortes (K>2) donc sous-utilisation des G échantillons (G>>N) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
TRN et Witness Complexes : les défauts 2) Pas de préservation des 0-simplexes générateurs car tout point à toujours deux prototypes 1er et 2nd plus proches voisins qui seront donc connectés Avec bruit Sans bruit CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
TRN et Witness Complexes : les défauts 3) Sensibilité au bruit car modèle basé sur des ROI « binaires »: il suffit d’un seul point dans la région pour créer le lien. CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
TRN et Witness Complexes : les défauts 4) Modèle de variétés abstrait : les k-simplexes (k>0) sont plongeables, mais ne sont pas plongés géométriquement dans l’espace du nuage de point. Ce n’est pas un modèle des variétés génératrices au sens où on l’entend en ML modèle « proche » des données au sens des moindres carrés (e.g. K-means), mais « seulement » un modèle de leur connexité. CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
TRN et Witness Complexes : les défauts 4) Modèle de variétés abstrait : les k-simplexes (k>0) sont plongeables, mais ne sont pas plongés géométriquement dans l’espace du nuage de point. Ce n’est pas un modèle des variétés génératrices au sens où on l’entend en ML modèle « proche » des données au sens des moindres carrés (e.g. K-means), mais « seulement » un modèle de leur connexité. CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
TRN et Witness Complexes : les défauts 4) Modèle de variétés abstrait : les k-simplexes (k>0) sont plongeables, mais ne sont pas plongés géométriquement dans l’espace du nuage de point. Ce n’est pas un modèle des variétés génératrices au sens où on l’entend en ML modèle « proche » des données au sens des moindres carrés (e.g. K-means), mais « seulement » un modèle de leur connexité. Toutes les mesures de proximité sont effectuées par rapport aux seuls sommets Le complexe simplicial est abstrait CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
TRN et Witness Complexes : les défauts 4.1) Conséquence 1 : ROI de formes pas toujours adaptées Les « witness » sont loin de l’arc qu’ils génèrent (contre-intuitif en ML: moyenne, centre de gravité) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
TRN et Witness Complexes : les défauts 4.2) Conséquence 2 : Pas de self-consistance (définie par Hastie et Stuetzle avec les Variétés Principales), on peut avoir une intersection vide entre un segment et sa ROI (les points échantillons d’un segment peuvent ne pas générer ce segment) Pas d’intersection entre la ROI et le segment qu’elle génère CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
TRN et Witness Complexes : les défauts 4.3) Conséquence 3 : Volume des ROI non pertinent car lié à la « légitimité » que le simplexe associé appartienne ou non au complexe de Delaunay Volume minuscule = arête de Delaunay peu robuste à un léger déplacement des sommets - Risque qu’aucune donnée n’active cette région - Volume de cette région sans rapport avec la légitimité d’existence de l’arête : la densité uniforme de données générées dans le carré, devrait impliquer une « légitimité » similaire des arêtes retenues (4 côtés + 1 diagonale qu’importe laquelle). CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
TRN et Witness Complexes : les défauts 5) Pas de mesure objective de la qualité du modèle Comment mesurer la qualité du modèle sur des données de grande dimension (>3) dont on ne connaît rien a priori? (visualisation impossible) Comment comparer les modèles en l’absence de vérité terrain? CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Approximation : TRN et Witness Complexes Bilan : Une approche peu satisfaisante (point de vue ML) pour résoudre notre problème Vers une autre solution : formuler le problème avec une approche statistique CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Tabula rasa CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Des variétés génératrices Hypothèses générales sur le processus statistique de génération des données Des variétés génératrices inconnues… CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Hypothèses générales sur le processus statistique de génération des données Des variétés génératrices inconnues… …desquelles sont tirés des individus avec une densité de probabilité inconnue… CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
menant aux observations Hypothèses générales sur le processus statistique de génération des données Des variétés génératrices inconnues… …corrompus par un bruit de nature inconnue menant aux observations …desquelles sont tirés des individus avec une densité de probabilité inconnue… CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
menant aux observations Hypothèses générales sur le processus statistique de génération des données Ce que l’on veut… Des variétés génératrices inconnues… …desquelles sont tirés des individus avec une densité de probabilité inconnue… …corrompus par un bruit de nature inconnue menant aux observations CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Extraire la topologie à partir d’un modèle de densité La clef du problème : Un moyen d’extraire la topologie / la structure des données est de modéliser la distribution p(x) c’est-à-dire le processus statistique de génération des données Modèle génératif CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Extraire la topologie à partir d’un modèle de densité La clef du problème : Un moyen d’extraire la topologie / la structure des données est de modéliser la distribution p(x) c’est-à-dire le processus statistique de génération des données à l’aide d’une collection de variétés génératrices dont on puisse extraire la topologie Modèle génératif Topologie CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Modéliser des variétés génératrices par des variétés Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Modéliser des variétés génératrices par des variétés Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Modéliser des variétés génératrices par des variétés Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? . ... k-boules k=0 k=1 k=2 k=3 CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Modéliser des variétés génératrices par des variétés Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? . ... k-boules k=0 k=1 k=2 k=3 Pas de connexité structurelle entre éléments CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Modéliser des variétés génératrices par des variétés Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? . ... k-boules k=0 k=1 k=2 k=3 Pas de connexité structurelle entre éléments . ... k-pavés CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Modéliser des variétés génératrices par des variétés Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? . ... k-boules k=0 k=1 k=2 k=3 Pas de connexité structurelle entre éléments Nécessite 2k paramètres pour un k-pavé . ... k-pavés CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Modéliser des variétés génératrices par des variétés Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? . ... k-boules k=0 k=1 k=2 k=3 Pas de connexité structurelle entre éléments Nécessite 2k paramètres pour un k-pavé . ... k-pavés . ... k-simplexes CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Modéliser des variétés génératrices par des variétés Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? . ... k-boules k=0 k=1 k=2 k=3 Pas de connexité structurelle entre éléments Nécessite 2k paramètres pour un k-pavé . ... k-pavés Enveloppe convexe de k+1 points dans IRD (D>=k) . ... k-simplexes CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Modéliser des variétés génératrices par des variétés Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? . ... k-boules k=0 k=1 k=2 k=3 Pas de connexité structurelle entre éléments Nécessite 2k paramètres pour un k-pavé . ... k-pavés Enveloppe convexe de k+1 points dans IRD (D>=k) . ... k-simplexes Complexe simplicial CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Modéliser des variétés génératrices par des variétés Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? . ... k-boules k=0 k=1 k=2 k=3 Pas de connexité structurelle entre éléments Nécessite 2k paramètres pour un k-pavé . ... k-pavés Enveloppe convexe de k+1 points dans IRD (D>=k) . ... k-simplexes Pourquoi? CS = ensemble de variétés : parcimonieux (k+1 points / éléments) flexible (vers approx. universelle) topologie extractible (calculable, exacte car structure discrète + algo Betti) interpolation (linéaire,B-splines…) Complexe simplicial CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Modéliser des variétés génératrices par des variétés Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? Quel complexe simplicial? . ... k-simplexes CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Modéliser des variétés génératrices par des variétés Approximation de variétés par une variété composite assemblage de variétés élémentaires « intéressantes » (comme en approx. de fonctions) Quelle famille de variétés élémentaires ? Quel complexe simplicial? Un que l’on sache construire : le complexe de Delaunay . ... k-simplexes CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Modèle proposé 15/03/2007 … desquelles sont tirés des individus avec une densité de probabilité inconnue… Des variétés génératrices inconnues… …corrompus par un bruit de nature inconnue menant aux observations. CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Modèle proposé Supposons une variété composite linéaire … desquelles sont tirés des individus avec une densité de probabilité inconnue… Des variétés génératrices inconnues… …corrompus par un bruit de nature inconnue menant aux observations. Supposons une variété composite linéaire par morceaux sous-complexe du CS Delaunay… CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Modèle proposé Supposons une …à chaque composant … desquelles sont tirés des individus avec une densité de probabilité inconnue… Des variétés génératrices inconnues… …corrompus par un bruit de nature inconnue menant aux observations. Supposons une variété composite linéaire par morceaux sous-complexe du CS Delaunay… …à chaque composant de laquelle est associé une fdp uniforme… CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Modèle proposé Supposons une …à chaque composant … desquelles sont tirés des individus avec une densité de probabilité inconnue… Des variétés génératrices inconnues… …corrompus par un bruit de nature inconnue menant aux observations. Supposons une variété composite linéaire par morceaux sous-complexe du CS Delaunay… …convoluée à un bruit Gaussien centré isovarié. …à chaque composant de laquelle est associé une fdp uniforme… CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Modèle proposé Un complexe simplicial génératif gaussien Supposons une … desquelles sont tirés des individus avec une densité de probabilité inconnue… Des variétés génératrices inconnues… …corrompus par un bruit de nature inconnue menant aux observations. Supposons une variété composite linéaire par morceaux sous-complexe du CS Delaunay… …convoluée à un bruit Gaussien centré isovarié. …à chaque composant de laquelle est associé une fdp uniforme… Un complexe simplicial génératif gaussien CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Générer les k-simplexes gaussiens Comment définir un modèle génératif basé sur un complexe simplicial? A Point-gaussien B Segment-gaussien A Expression analytique Approximation (quasi Monte Carlo) Triangle-gaussien A B C k-simplexe … gaussien CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Le Complexe Simplicial Génératif Gaussien Un modèle de mélange gaussien étendu aux k-simplexes d’un complexe simplicial initial Réglage des paramètres Positionnement des sommets du complexe simplicial Probabilité a priori des k-simplexes Variance du bruit gaussien Critères Maximisation de la vraisemblance du modèle sachant les données Pénalisation par le critère BIC gestion automatique de la complexité du modèle liée au nombre de prototypes Méthode d’optimisation GEM CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Principe du Graphe Génératif Gaussien (GGG) Initialisation Positionnement de prototypes par Modèle de mélange gaussien puis construction du graphe de Delaunay (variété composite) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Principe du Graphe Génératif Gaussien (GGG) Initialisation Positionnement de prototypes par Modèle de mélange gaussien puis construction du graphe de Delaunay (variété composite) Modèle statistique de densité généré par la variété composite (équiprobabilité des composants) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Principe du Graphe Génératif Gaussien (GGG) Après apprentissage Certaines composantes ont une probabilité associée (quasi-)nulle: elle ne servent pas à expliquer les données. CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Principe du Graphe Génératif Gaussien (GGG) Après apprentissage Certaines composantes ont une probabilité associée (quasi-)nulle: elle ne servent pas à expliquer les données. On peut les supprimer : élagage du graphe CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Principe du Graphe Génératif Gaussien (GGG) Après apprentissage Certaines composantes ont une probabilité associée (quasi-)nulle: elle ne servent pas à expliquer les données. On peut les supprimer : élagage du graphe Complexe simplicial dont la topologie est supposée proche de celle des variétés génératrices des données CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Expérience : CHL vs GGG données bruitées Seuillage sur le nombre de witness CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Expérience : CHL vs GGG données bruitées Seuillage sur le nombre de witness CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Expérience : CHL vs GGG données bruitées Seuillage sur le nombre de witness CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Algorithme proposé : « algorithme incrémental » Dimension 0 Placer les simplexes de dimension 0 a l’aide d’un modèle de mélange gaussien isovarié Ajouter la dimension 1 Construire le Graphe de Delaunay, Initialiser le poids des segments, Modifier le poids des différents simplexes (dim 0 et 1) et la variance du bruit, Modifier les sommets en plus des autres paramètres Élagage 3. Ajouter la dimension k Ajouter les simplexes de dimensions où c’est possible, Initialiser le poids des simplexes, Modifier le poids des différents simplexes (dim 0 à k) et la variance du bruit, Modifier les sommets en plus des autres paramètres Élagage CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Exemple CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Application sur données hydro-acoustiques Chant des baleines (F. Samaran, C. Guinet, Centre d’étude biologique de Chizé – CNRS) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Application sur données hydro-acoustiques Chant des baleines (F. Samaran, C. Guinet, Centre d’étude biologique de Chizé – CNRS) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Application sur données hydro-acoustiques Chant des baleines (F. Samaran, C. Guinet, Centre d’étude biologique de Chizé – CNRS) échantillonnage CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Application sur données hydro-acoustiques Chant des baleines (F. Samaran, C. Guinet, Centre d’étude biologique de Chizé – CNRS) Filtrage statistique du bruit de fond par ajout d’une composante dédiée dans le GGG échantillonnage CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Application sur données hydro-acoustiques Chant des baleines (F. Samaran, C. Guinet, Centre d’étude biologique de Chizé – CNRS) Puis filtrage topologique des 0-simplexes avant extraction de caractéristiques géométriques de la composante connexe 1D candidate pour comparaison à une base de référence (discrimination) Filtrage statistique du bruit de fond par ajout d’une composante dédiée dans le GGG échantillonnage CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Points positifs 1) Pas de zones mortes : toutes les données sont exploitées 2) 0-variétés génératrices isolées préservées 3) Moindre sensibilité au bruit : on introduit un modèle de bruit (gaussien) et les ROI sont « floues » (gaussiennes) 4) Modèle de variétés « complet » : plongement géométrique de tous les k-simplexes 4.1) ROI englobant les k-simplexes (convolution) 4.2) Self-consistance : modèle génératif l’est par définition 4.3) Pertinence des k-simplexes mesurée par une probabilité 5) Mesure objective de la qualité : la vraisemblance pénalisée CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Points durs « No free lunch » Complexité de calcul en O(DN3) (graphe de Delaunay initial) Convergence lente (EM) Approximation numérique pour le calcul des k-simplexes gaussiens Multiples optima locaux de la fonction de vraisemblance CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Points clefs Estimateur statistique de la topologie Idée principale : Même géométrie implique même topologie Donc en imposant une proximité géométrique modèle/données (modulo le bruit gaussien) avec une gestion de la complexité du modèle, on suppose que la topologie du modèle sera proche de celle des variétés génératrices (d’où l’importance du plongement « complet » du modèle) D’où la conjecture suivante : La topologie des variétés modèles estime celle des variétés génératrices du nuage de points d’autant mieux que le modèle de densité associé est vraisemblable à complexité donnée Modèle de mélange particulier Topologie des variétés extractible et flexible Généralisant les modèles de mélange classiques (0-simplexes) Estimation de densités particulières localement uniformes (voire linéaire ou non-linéaire par interpolation) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Questions ouvertes Validité de la conjecture « bonne » vraisemblance pénalisée = « bonne » topologie - liens avec la persistence topologique? - lien entre préservation de la topologie et densité de l’échantillonnage (au sens probabiliste)? Théorème d’approximation universelle de variété? Complexité (nb. d’optima) de la fonction de vraisemblance? Algorithmes efficaces pour Optimiser la vraisemblance? Construire le graphe de Delaunay en dimension D ? Estimer les k-simplexes gaussiens? CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Travaux et collaborations Collaboration avec F. Chazal (INRIA Futurs) et D. Cohen-Steiner (INRIA Sophia) Collaboration avec S. Canu, G.Gasso et K. Zapien (INSA-Rouen) Thèse Pierre Gaillard (CEA-UTC, G. Govaert) : adaptation du modèle dans le cas de données étiquetées pour l’analyse de données et l’apprentissage semi-supervisé Thèse à venir (CEA-UTC, G. Govaert) : utilisation du modèle pour la visualisation de systèmes d’inférence floue Publications NIPS 2005 et ESANN 2007 Proposition d’un Workshop sur ce thème à NIPS en décembre 2007 (Communauté Machine Learning) CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Merci de votre attention
Perspectives pour les Witness Complex Comment positionner les prototypes pour que les ROI soient mieux placées… CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Voronoï et Delaunay Du diagramme de Voronoï au complexe simplicial de Delaunay d-cellule Cellules de Voronoï Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Voronoï et Delaunay Du diagramme de Voronoï au complexe simplicial de Delaunay (d-1)-cellule Cellules de Voronoï Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Voronoï et Delaunay Du diagramme de Voronoï au complexe simplicial de Delaunay (d-2)-cellule Cellules de Voronoï Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Voronoï et Delaunay Du diagramme de Voronoï au complexe simplicial de Delaunay À chaque d-cellule un 0-simplexe Régions de Voronoï Graphe de Delaunay Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Voronoï et Delaunay Du diagramme de Voronoï au complexe simplicial de Delaunay Régions de Voronoï Graphe de Delaunay Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Voronoï et Delaunay Du diagramme de Voronoï au complexe simplicial de Delaunay À chaque (d-1)-cellule un 1-simplexe Régions de Voronoï Graphe de Delaunay Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Voronoï et Delaunay Du diagramme de Voronoï au complexe simplicial de Delaunay À chaque (d-1)-cellule un 1-simplexe Régions de Voronoï Graphe de Delaunay Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Voronoï et Delaunay Du diagramme de Voronoï au complexe simplicial de Delaunay À chaque (d-1)-cellule un 1-simplexe Régions de Voronoï Graphe de Delaunay Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Voronoï et Delaunay Du diagramme de Voronoï au complexe simplicial de Delaunay À chaque (d-1)-cellule un 1-simplexe Régions de Voronoï Graphe de Delaunay Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Voronoï et Delaunay Du diagramme de Voronoï au complexe simplicial de Delaunay À chaque (d-1)-cellule un 1-simplexe Régions de Voronoï Graphe de Delaunay Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Voronoï et Delaunay Du diagramme de Voronoï au complexe simplicial de Delaunay À chaque (d-1)-cellule un 1-simplexe Régions de Voronoï Graphe de Delaunay Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
Voronoï et Delaunay Du diagramme de Voronoï au complexe simplicial de Delaunay À chaque (d-2)-cellule un 2-simplexe Régions de Voronoï Complexe simplicial de Delaunay Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007
À chaque (d-k)-cellule Voronoï et Delaunay Du diagramme de Voronoï au complexe simplicial de Delaunay À chaque (d-k)-cellule un k-simplexe Régions de Voronoï Complexe simplicial de Delaunay Ensemble v de points de IRD CEA-DAM Laboratoire Détection et Sismologie Opérationnelle Présentation JGA 2007 - Marseille 15/03/2007