Télécharger la présentation
Publié parValère Alix Modifié depuis plus de 11 années
1
Introduction aux classes empiétantes François Brucker Brest (Breizh)
2
‘‘Définition générale de la classification’’ :
Le seul moyen de de faire une méthode instructive et naturelle, c’est de mettre ensemble les choses qui se ressemblent et de séparer celles qui diffèrent les unes des autres. Georges Leclerc de Buffon, naturaliste et écrivain, Histoire naturelle,1749. 2 grands types de critères : globaux (au niveau des classes) locaux (au niveau des objets)
3
Une définition d’une classe
Ensemble X d’objets Relation R Symétrique (x R y y R x) Réflexive (x R x pour tout x de X) On associe à R un graphe GR=(X,E) C est une classe de X C est une clique maximale de GR
4
Une classification de (X,R)
GR {C1, C2, …, Cp} Ensemble de cliques maximales
5
Classification particulière
Critère global : Critère local : Partition Relation d’équivalence réflexive symétrique transitive x R y et y R z x R z A B {A,B,}
6
non empiétance transitivité
ami Classe B Classe A moi La non empietance implique la transitivité dans le modèle relationnel «Les amis de mes amis sont mes amis». ou : mes amis sont amis. Pas vrai dans la vraie vie : effet belle-mère. Pour les classes : On peut aussi voir ca dans la biologie, les hybrides ami
7
On regarde par rapport à 2 éléments
y x z t Nos amis communs sont amis il faut qu’il soit l’ami de d’au moins deux de mes amis pour qu’il soit mon ami. ou, nos amis communs sont amis Relation 2-transitive (Jardine et Sibson, 1971)
8
Se généralise à 3, 4, ..., n éléments.
z x Pour que 2 de mes amis soient amis, ils faut qu’ils soient les amis de n personne de mon cercle d’ami. y Relation n-transitive (Jardine et Sibson, 1971)
9
Les classes formées par ces modèles relationnels
classes = toujours cliques max ca empiète.
10
Une définition d’une classe
Ensemble X d’objets d(x,y)=d(y,x) d(x,y) 0 d(x,x)=0 Dissimilarité : d : X R telle que Propre si d(x,y)=0 x=y On associe à chaque d(x,y)=a un graphe Ga=(X,Ea) C est une classe de X C est une clique maximale d’un Ga
11
Classification particulière
Ultramétrique : U u(x,y) £ max{u(x,z),u(z,y)} Arbre hiérarchique A B {A,B,}
12
Le cas des hybrides Les orchidées qui ont une fâcheuse tendances a s'hybrides avec des inconnus. Donc une representation non empitante est indispensable. Une des choses que l’on sait faire sont les arbres.
13
dist entre 2 especes via ancetrs : comme des info génétiques.
A priori aucun sens de lecture On perd 2 choses : chronologie la sphericité qui rend la dist. egale (amibe originelle) Que deviennent les classes ?
14
Réticulogramme x y z t u v w
15
Distance additive d’arbre
Ce n’est pas à proprement parler un système de classes x y z t u v w
16
Autre problème où l’empiétance est nécessaire : la sériation
Le problème est ici de classer des objets par ordre chronologique, les objets étant décrit par une dissimilarité. Une classification est alors la donnée d’un ordre compatible avec la dissimilarité
17
x y z t Lien entre sériation et classes
À la différence du modèle arboré, le problème de sériation est lié à un modèle de classe particulier : les hypergraphes d’intervalles x y z t Les classes d’une dissimilarité d sont un hypergraphe d’intervalle Si et seulement si il existe un ordre tel que toute classe de d soit un intervalle de cet ordre.
18
Il existe des bijections entre dissimilarités et classes
Lien entre dissimilarités et classes Il existe des bijections entre dissimilarités et classes Les modèles de classe associés aux modèles de distance correspondent à des visions classificatoires différentes ultramétriques Û hiérarchies (Jardine, Jardine et Sibson, 1967, Johnson, 1967, Benzecri, 1973) dissimilarités fortement de Robinson Û pseudo-hiérarchies indicées (Durand, 1989) quasi-ultramétriques Û quasi-hiérarchies indicées (Diatta et Fichet, 1994) Dans ce cas, classifier c’est : transformer une dissimilarité quelconque en une dissimilarité d’un type particulier.
19
Intérêt : rendre compte des relations de k-transitivités
Les k-ultramétriques (Jardine et Sibson, 1971) Définition : d est une dissimilarité k-ultramétrique sur X ssi : Pour tout S Í X, |S|=k, a,b Î X : d(a,b) £ max{d(x,y) | x Î S È {a,b}, y Î S} ie. Sur k+2 points, les deux plus grandes dissimilarités sont égales Intérêt : rendre compte des relations de k-transitivités
20
Intérêt : problèmes de sériation
Les pyramides (Diday, 1984 ; Fichet, 1984) Définition : x y z t d est une dissimilarité fortement de Robinson sur X ssi : Il existe un ordre q sur X pour tout x q y q z d(x,z) ³ max{d(x,y),d(y,z)} pour tout x q y q z pour tout z q t : d(x,z)=d(y,z) Þ d(x,t)=d(y,t) pour tout t q x : d(x,z)=d(x,y) Þ d(y,t)=d(z,t) Intérêt : problèmes de sériation
21
Les quasi-ultramétriques
(Diatta et Fichet, 1994) Définition : d est une dissimilarité quasi-ultramétrique ssi : pour tout {x,y,z,t} Í X : max { d(x,z), d(z,y) } £ d(x,y) Þ d(z,t) £ max { d(t,x), d(t,y), d(x,y) } x y z t Intérêt (1/2): l’intersection de 3 classes est toujours l’intersection de 2 d’entres elles
22
Les quasi-ultramétriques :
Intérêt (2/2) Les 2-boules sont exactement les cliques maximales (calculabilité) y x z t L’intersection de 2 cliques maximales est une clique maximale (stabilité)
23
Relation entre les différents modèles
pyramides ultra- métrique quasi- ultramétrique 3-ultramétrique faible (etc.) distance d’arbre
24
Visualisation des classes
Problème : visualisation des classes d’une dissimilarité. Modèles « classiques » : Quasi-ultramétrique ? 1 4 ultramétrique dendrogrammes pyramides 2 5 3 6
25
Classes sur un chemin x y z t u v x y z t x y z t
26
Classes sur un circuit
27
Classes sur un arbre
28
Visualisation 3D
29
acides aminés différents (Fitch et Margoliash, 1967)
Exemple : distance de mutation Nombre de positions dans la protéine cytochrome-c où deux espèces ont deux acides aminés différents (Fitch et Margoliash, 1967)
30
Ultramétrique sous dominante
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.