Introduction aux classes empiétantes François Brucker Brest (Breizh) francois.brucker@enst-bretagne.fr
‘‘Définition générale de la classification’’ : Le seul moyen de de faire une méthode instructive et naturelle, c’est de mettre ensemble les choses qui se ressemblent et de séparer celles qui diffèrent les unes des autres. Georges Leclerc de Buffon, naturaliste et écrivain, Histoire naturelle,1749. 2 grands types de critères : globaux (au niveau des classes) locaux (au niveau des objets)
Une définition d’une classe Ensemble X d’objets Relation R Symétrique (x R y y R x) Réflexive (x R x pour tout x de X) On associe à R un graphe GR=(X,E) C est une classe de X C est une clique maximale de GR
Une classification de (X,R) GR {C1, C2, …, Cp} Ensemble de cliques maximales
Classification particulière Critère global : Critère local : Partition Relation d’équivalence réflexive symétrique transitive x R y et y R z x R z A B {A,B,}
non empiétance transitivité ami Classe B Classe A moi La non empietance implique la transitivité dans le modèle relationnel «Les amis de mes amis sont mes amis». ou : mes amis sont amis. Pas vrai dans la vraie vie : effet belle-mère. Pour les classes : On peut aussi voir ca dans la biologie, les hybrides ami
On regarde par rapport à 2 éléments y x z t Nos amis communs sont amis il faut qu’il soit l’ami de d’au moins deux de mes amis pour qu’il soit mon ami. ou, nos amis communs sont amis Relation 2-transitive (Jardine et Sibson, 1971)
Se généralise à 3, 4, ..., n éléments. z x Pour que 2 de mes amis soient amis, ils faut qu’ils soient les amis de n personne de mon cercle d’ami. y Relation n-transitive (Jardine et Sibson, 1971)
Les classes formées par ces modèles relationnels classes = toujours cliques max ca empiète.
Une définition d’une classe Ensemble X d’objets d(x,y)=d(y,x) d(x,y) 0 d(x,x)=0 Dissimilarité : d : X R telle que Propre si d(x,y)=0 x=y On associe à chaque d(x,y)=a un graphe Ga=(X,Ea) C est une classe de X C est une clique maximale d’un Ga
Classification particulière Ultramétrique : U u(x,y) £ max{u(x,z),u(z,y)} Arbre hiérarchique A B {A,B,}
Le cas des hybrides Les orchidées qui ont une fâcheuse tendances a s'hybrides avec des inconnus. Donc une representation non empitante est indispensable. Une des choses que l’on sait faire sont les arbres.
dist entre 2 especes via ancetrs : comme des info génétiques. A priori aucun sens de lecture On perd 2 choses : chronologie la sphericité qui rend la dist. egale (amibe originelle) Que deviennent les classes ?
Réticulogramme x y z t u v w
Distance additive d’arbre Ce n’est pas à proprement parler un système de classes x y z t u v w
Autre problème où l’empiétance est nécessaire : la sériation Le problème est ici de classer des objets par ordre chronologique, les objets étant décrit par une dissimilarité. Une classification est alors la donnée d’un ordre compatible avec la dissimilarité
x y z t Lien entre sériation et classes À la différence du modèle arboré, le problème de sériation est lié à un modèle de classe particulier : les hypergraphes d’intervalles x y z t Les classes d’une dissimilarité d sont un hypergraphe d’intervalle Si et seulement si il existe un ordre tel que toute classe de d soit un intervalle de cet ordre.
Il existe des bijections entre dissimilarités et classes Lien entre dissimilarités et classes Il existe des bijections entre dissimilarités et classes Les modèles de classe associés aux modèles de distance correspondent à des visions classificatoires différentes ultramétriques Û hiérarchies (Jardine, Jardine et Sibson, 1967, Johnson, 1967, Benzecri, 1973) dissimilarités fortement de Robinson Û pseudo-hiérarchies indicées (Durand, 1989) quasi-ultramétriques Û quasi-hiérarchies indicées (Diatta et Fichet, 1994) Dans ce cas, classifier c’est : transformer une dissimilarité quelconque en une dissimilarité d’un type particulier.
Intérêt : rendre compte des relations de k-transitivités Les k-ultramétriques (Jardine et Sibson, 1971) Définition : d est une dissimilarité k-ultramétrique sur X ssi : Pour tout S Í X, |S|=k, a,b Î X : d(a,b) £ max{d(x,y) | x Î S È {a,b}, y Î S} ie. Sur k+2 points, les deux plus grandes dissimilarités sont égales Intérêt : rendre compte des relations de k-transitivités
Intérêt : problèmes de sériation Les pyramides (Diday, 1984 ; Fichet, 1984) Définition : x y z t d est une dissimilarité fortement de Robinson sur X ssi : Il existe un ordre q sur X pour tout x q y q z d(x,z) ³ max{d(x,y),d(y,z)} pour tout x q y q z pour tout z q t : d(x,z)=d(y,z) Þ d(x,t)=d(y,t) pour tout t q x : d(x,z)=d(x,y) Þ d(y,t)=d(z,t) Intérêt : problèmes de sériation
Les quasi-ultramétriques (Diatta et Fichet, 1994) Définition : d est une dissimilarité quasi-ultramétrique ssi : pour tout {x,y,z,t} Í X : max { d(x,z), d(z,y) } £ d(x,y) Þ d(z,t) £ max { d(t,x), d(t,y), d(x,y) } x y z t Intérêt (1/2): l’intersection de 3 classes est toujours l’intersection de 2 d’entres elles
Les quasi-ultramétriques : Intérêt (2/2) Les 2-boules sont exactement les cliques maximales (calculabilité) y x z t L’intersection de 2 cliques maximales est une clique maximale (stabilité)
Relation entre les différents modèles pyramides ultra- métrique quasi- ultramétrique 3-ultramétrique faible (etc.) distance d’arbre
Visualisation des classes Problème : visualisation des classes d’une dissimilarité. Modèles « classiques » : Quasi-ultramétrique ? 1 4 ultramétrique dendrogrammes pyramides 2 5 3 6
Classes sur un chemin x y z t u v x y z t x y z t
Classes sur un circuit
Classes sur un arbre
Visualisation 3D
acides aminés différents (Fitch et Margoliash, 1967) Exemple : distance de mutation Nombre de positions dans la protéine cytochrome-c où deux espèces ont deux acides aminés différents (Fitch et Margoliash, 1967)
Ultramétrique sous dominante