La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Réseau bayésien et génétique

Présentations similaires


Présentation au sujet: "Réseau bayésien et génétique"— Transcription de la présentation:

1 Réseau bayésien et génétique
Simon de Givry INRA-UBIA Toulouse 21 juin 2011

2 PLAN Réseau Bayésien définition
réseaux de génotypes, d’allèles, de ségrégations séparation dirigée et indépendance conditionnelle principales requêtes méthode exacte pour l’inférence probabiliste méthode exacte pour l’optimisation combinatoire quelques résultats en reconstruction d’haplotypes à partir d’un pedigree et de génotypes Je ne parle pas d’estimation des parametres ni d’apprentissage automatique la structure d’un reseau bayesien a partir d’observations.

3

4 Daphne Koller, Nir Friedman, Probabilistic Graphical Models, 2009

5

6 variables discrètes, tables de probabilités conditionnelles
variables discrètes, tables de probabilités conditionnelles. exemple medical d’un patient. dyspnée : gêne respiratoire. facteurs de risque. resultats d’analyse

7

8 Cas particulier : HMM à horizon fixé
Chaîne de Markov homogène d’ordre 1 Chaîne de Markov cachée homogène d’ordre 1

9 Réseau de génotypes

10 Réseau de génotypes

11 hyp: fréquences alléliques équi-probables

12 Allele network Maternal allele at locus 1 of person 1
Paternal allele at locus 1 of person 1 L11m L11f Unordered allele pair at locus 1 of person 1 = data O11 p(L11m = a) is the frequency of allele a. p(O11 | l11m, l11f) = 0 or 1 depending on consistency

13 Allele network Mother Father Offspring
L11m L11f L12m L12f Mother Father O11 O12 L13m L13f O13 Offspring p(l13m | l11m, l11f) = 1/2 if l13m = l11m or l13m = l11f p(l13m | l11m, l11f) = otherwise

14 Probabilistic model for two loci
L11m L13m O11 L12f L12m L13f O12 O13 Model for locus 1 L21f L21m L23m O21 L22f L22m L23f O22 O23 Model for locus 2 Ici, hypothèse d’absence de déséquilibre de liaison : pas de lien entre loci des alleles des fondateurs! Too complex!!!

15 Adding a selector variable
L11m L11f Selector of maternal allele at locus 1 of person 3 O11 S13m p(s13m) = ½ L13m Maternal allele at locus 1 of person 3 (offspring) Selector variables Sijm are 0 or 1 depending on whose allele is transmitted to offspring i at maternal locus j. p(l13m | l11m, l11f,,S13m=0) = 1 if l13m = l11m p(l13m | l11m, l11f,,S13m=1) = 1 if l13m = l11f p(l13m | l11m, l11f,,s13m) = 0 otherwise

16 Probabilistic model for two loci
S13m L11f L11m L13m O11 S13f L12f L12m L13f O12 O13 Model for locus 1 S23m L21f L21m L23m O21 S23f L22f L22m L23f O22 O23 Model for locus 2

17 Segregation network Probabilistic Model for Recombination:
S13m L11f L11m L13m O11 S13f L12f L12m L13f O12 O13 S23m L21f L21m L23m O21 S23f L22f L22m L23f O22 O23 Probabilistic Model for Recombination:  is the recombination fraction between loci 2 & 1.

18

19

20

21 Circulation de l’information

22 Séparation dirigée (d-separation)

23 Lien entre d-separation et indépendence conditionnelle

24 Limites d’expressivité des réseaux bayésiens
Il existe des lois dont le modèle d’indépendence n’est pas représentable par un réseau bayésien Exemple: M = { X  W | {Y,Z}, Y  Z | {X,W} } Réseau de Markov : graphe non-orienté avec séparation directe Quelque soit le formalisme (réseau bayésien ou réseau de Markov), il existe des lois non représentables

25 Requêtes

26 Segregation network S13m L11f L11m L13m O11 S13f L12f L12m L13f O12 O13 S23m L21f L21m L23m O21 S23f L22f L22m L23f O22 O23 Genetic linkage analysis (PR): argmax L,S p(L, S, O | ) Haplotype reconstruction (MPE): argmax L,S p(L, S | O, )

27

28

29

30

31

32

33 Requêtes et algorithmes – liens avec HMM
Recherche de l’état le plus probable (MPE) algorithme de Viterbi (opérateurs max-prod) Vraisemblance des observations (PR) algorithme Forward (opérateurs sum-prod) Probabilités marginales (MAR) algorithme Forward-Backward (opérateurs sum-prod)  Cadre général : programmation dynamique non sérielle

34 Inférence probabiliste
Méthodes exactes programmation dynamique non sérielle recherche arborescente méthodes hybrides Méthodes approchées Méthodes par passage de messages (loopy belief propagation,…) Méthodes par simulation (MCMC,…)

35 Inférence probabiliste
polyarbre : un seul chemin entre 2 sommets

36

37 Les deux grandes règles

38

39 nouveaux 1 3 2 4 5

40 Impact de l’ordre d’élimination des variables
Impact de l’ordre d’élimination des variables. Ici complexité O(d^3) en temps et O(d^2) en espace. Trouver un ordre d’élimination optimal NP-dur.

41 But : calculer TOUTES les marginales (et plus)

42 Simple pedigree example

43 Genotype network

44 Allele network with phenotypic information on individual 11 and new individual 15

45 Primal graph (moral graph)

46 Triangulated graph (by following an elimination order)
Graphe triangulé : tout cycle de longueur >=4 possede une corde (arete entre 2 sommets non consecutifs du cycle) => compose de triangles et segments de droite => ordre elimination parfait => recherche des (au plus n) cliques maximales facile Link together variables occuring in new potentials

47 Junction tree (find all maximal cliques, build a tree from clique intersections)
Construction de l’arbre de jonction en suivant ordre elim en creant des cliques/potentiels dont le séparateur est relié à une clique ultérieure l’incluant. Runnning intersection property Forall V, W in the junction tree T, every clique on the path from V to W in T must contain V  W

48 Assignments of potentials

49 Propagation in the junction tree

50 Collect evidence

51 Distribute evidence

52

53 Graphical model formalisms

54 Combinatorial Optimization

55 Algorithme de séparation et évaluation
Chaque nœud de l’arbre est un WCSP défini par l’affectation courante Variables (ordre dynamique) (LB) Minorant = f = sous-estimation du coût de la meilleure solution dans le sous-arbre courant importance of good initial upperbound, dynamic variable ordering heuristics, binary branching. f0 appelé f_ensemble vide ou plutôt f_zero! si LB  UB alors couper f k (UB) Majorant  +k  = min {k, +} = coût de la meilleure solution trouvée = k

56 Local operators

57 Local operators X < Y

58 MENDEL DFBB-VE(2) (de Givry et al, Constraints 2008)
toulbar2 v0.5 avec last conflict Temps CPU en secondes pour trouver et prouver l’optimum DFBB-VE(2)

59 Reconstruction d’haplotypes dans des pedigrees en arbre (Favier et al, IJCAI 2011)
Indiv. x Loci 25x20 Environ 1000 variables par instance. 4 à 5 générations. treewidth ped37 = 2, ped7 = 2, ped44 = 2 57x6 20x20 Hypothèse : équilibre de liaison Marqueur s multiallèliques ( 9 allèles par marqueur)

60 Pedigree de demi-frères (Favier et al, WCB’10)
Chromosome X humain, marqueurs SNP sur 1,64 Morgan(hapmap) Hypothèses : équilibre de liaison fréquences alléliques uniforme

61


Télécharger ppt "Réseau bayésien et génétique"

Présentations similaires


Annonces Google