Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
1
Réseau bayésien et génétique
Simon de Givry INRA-UBIA Toulouse 21 juin 2011
2
PLAN Réseau Bayésien définition
réseaux de génotypes, d’allèles, de ségrégations séparation dirigée et indépendance conditionnelle principales requêtes méthode exacte pour l’inférence probabiliste méthode exacte pour l’optimisation combinatoire quelques résultats en reconstruction d’haplotypes à partir d’un pedigree et de génotypes Je ne parle pas d’estimation des parametres ni d’apprentissage automatique la structure d’un reseau bayesien a partir d’observations.
4
Daphne Koller, Nir Friedman, Probabilistic Graphical Models, 2009
6
variables discrètes, tables de probabilités conditionnelles
variables discrètes, tables de probabilités conditionnelles. exemple medical d’un patient. dyspnée : gêne respiratoire. facteurs de risque. resultats d’analyse
8
Cas particulier : HMM à horizon fixé
Chaîne de Markov homogène d’ordre 1 Chaîne de Markov cachée homogène d’ordre 1
9
Réseau de génotypes
10
Réseau de génotypes
11
hyp: fréquences alléliques équi-probables
12
Allele network Maternal allele at locus 1 of person 1
Paternal allele at locus 1 of person 1 L11m L11f Unordered allele pair at locus 1 of person 1 = data O11 p(L11m = a) is the frequency of allele a. p(O11 | l11m, l11f) = 0 or 1 depending on consistency
13
Allele network Mother Father Offspring
L11m L11f L12m L12f Mother Father O11 O12 L13m L13f O13 Offspring p(l13m | l11m, l11f) = 1/2 if l13m = l11m or l13m = l11f p(l13m | l11m, l11f) = otherwise
14
Probabilistic model for two loci
L11m L13m O11 L12f L12m L13f O12 O13 Model for locus 1 L21f L21m L23m O21 L22f L22m L23f O22 O23 Model for locus 2 Ici, hypothèse d’absence de déséquilibre de liaison : pas de lien entre loci des alleles des fondateurs! Too complex!!!
15
Adding a selector variable
L11m L11f Selector of maternal allele at locus 1 of person 3 O11 S13m p(s13m) = ½ L13m Maternal allele at locus 1 of person 3 (offspring) Selector variables Sijm are 0 or 1 depending on whose allele is transmitted to offspring i at maternal locus j. p(l13m | l11m, l11f,,S13m=0) = 1 if l13m = l11m p(l13m | l11m, l11f,,S13m=1) = 1 if l13m = l11f p(l13m | l11m, l11f,,s13m) = 0 otherwise
16
Probabilistic model for two loci
S13m L11f L11m L13m O11 S13f L12f L12m L13f O12 O13 Model for locus 1 S23m L21f L21m L23m O21 S23f L22f L22m L23f O22 O23 Model for locus 2
17
Segregation network Probabilistic Model for Recombination:
S13m L11f L11m L13m O11 S13f L12f L12m L13f O12 O13 S23m L21f L21m L23m O21 S23f L22f L22m L23f O22 O23 Probabilistic Model for Recombination: is the recombination fraction between loci 2 & 1.
21
Circulation de l’information
22
Séparation dirigée (d-separation)
23
Lien entre d-separation et indépendence conditionnelle
24
Limites d’expressivité des réseaux bayésiens
Il existe des lois dont le modèle d’indépendence n’est pas représentable par un réseau bayésien Exemple: M = { X W | {Y,Z}, Y Z | {X,W} } Réseau de Markov : graphe non-orienté avec séparation directe Quelque soit le formalisme (réseau bayésien ou réseau de Markov), il existe des lois non représentables
25
Requêtes
26
Segregation network S13m L11f L11m L13m O11 S13f L12f L12m L13f O12 O13 S23m L21f L21m L23m O21 S23f L22f L22m L23f O22 O23 Genetic linkage analysis (PR): argmax L,S p(L, S, O | ) Haplotype reconstruction (MPE): argmax L,S p(L, S | O, )
33
Requêtes et algorithmes – liens avec HMM
Recherche de l’état le plus probable (MPE) algorithme de Viterbi (opérateurs max-prod) Vraisemblance des observations (PR) algorithme Forward (opérateurs sum-prod) Probabilités marginales (MAR) algorithme Forward-Backward (opérateurs sum-prod) Cadre général : programmation dynamique non sérielle
34
Inférence probabiliste
Méthodes exactes programmation dynamique non sérielle recherche arborescente méthodes hybrides Méthodes approchées Méthodes par passage de messages (loopy belief propagation,…) Méthodes par simulation (MCMC,…)
35
Inférence probabiliste
polyarbre : un seul chemin entre 2 sommets
37
Les deux grandes règles
39
nouveaux 1 3 2 4 5
40
Impact de l’ordre d’élimination des variables
Impact de l’ordre d’élimination des variables. Ici complexité O(d^3) en temps et O(d^2) en espace. Trouver un ordre d’élimination optimal NP-dur.
41
But : calculer TOUTES les marginales (et plus)
42
Simple pedigree example
43
Genotype network
44
Allele network with phenotypic information on individual 11 and new individual 15
45
Primal graph (moral graph)
46
Triangulated graph (by following an elimination order)
Graphe triangulé : tout cycle de longueur >=4 possede une corde (arete entre 2 sommets non consecutifs du cycle) => compose de triangles et segments de droite => ordre elimination parfait => recherche des (au plus n) cliques maximales facile Link together variables occuring in new potentials
47
Junction tree (find all maximal cliques, build a tree from clique intersections)
Construction de l’arbre de jonction en suivant ordre elim en creant des cliques/potentiels dont le séparateur est relié à une clique ultérieure l’incluant. Runnning intersection property Forall V, W in the junction tree T, every clique on the path from V to W in T must contain V W
48
Assignments of potentials
49
Propagation in the junction tree
50
Collect evidence
51
Distribute evidence
53
Graphical model formalisms
54
Combinatorial Optimization
55
Algorithme de séparation et évaluation
Chaque nœud de l’arbre est un WCSP défini par l’affectation courante Variables (ordre dynamique) (LB) Minorant = f = sous-estimation du coût de la meilleure solution dans le sous-arbre courant importance of good initial upperbound, dynamic variable ordering heuristics, binary branching. f0 appelé f_ensemble vide ou plutôt f_zero! si LB UB alors couper f k (UB) Majorant +k = min {k, +} = coût de la meilleure solution trouvée = k
56
Local operators
57
Local operators X < Y
58
MENDEL DFBB-VE(2) (de Givry et al, Constraints 2008)
toulbar2 v0.5 avec last conflict Temps CPU en secondes pour trouver et prouver l’optimum DFBB-VE(2)
59
Reconstruction d’haplotypes dans des pedigrees en arbre (Favier et al, IJCAI 2011)
Indiv. x Loci 25x20 Environ 1000 variables par instance. 4 à 5 générations. treewidth ped37 = 2, ped7 = 2, ped44 = 2 57x6 20x20 Hypothèse : équilibre de liaison Marqueur s multiallèliques ( 9 allèles par marqueur)
60
Pedigree de demi-frères (Favier et al, WCB’10)
Chromosome X humain, marqueurs SNP sur 1,64 Morgan(hapmap) Hypothèses : équilibre de liaison fréquences alléliques uniforme
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.