Réseau bayésien et génétique Simon de Givry INRA-UBIA Toulouse 21 juin 2011
PLAN Réseau Bayésien définition réseaux de génotypes, d’allèles, de ségrégations séparation dirigée et indépendance conditionnelle principales requêtes méthode exacte pour l’inférence probabiliste méthode exacte pour l’optimisation combinatoire quelques résultats en reconstruction d’haplotypes à partir d’un pedigree et de génotypes Je ne parle pas d’estimation des parametres ni d’apprentissage automatique la structure d’un reseau bayesien a partir d’observations.
Daphne Koller, Nir Friedman, Probabilistic Graphical Models, 2009
variables discrètes, tables de probabilités conditionnelles variables discrètes, tables de probabilités conditionnelles. exemple medical d’un patient. dyspnée : gêne respiratoire. facteurs de risque. resultats d’analyse
Cas particulier : HMM à horizon fixé Chaîne de Markov homogène d’ordre 1 Chaîne de Markov cachée homogène d’ordre 1
Réseau de génotypes
Réseau de génotypes
hyp: fréquences alléliques équi-probables
Allele network Maternal allele at locus 1 of person 1 Paternal allele at locus 1 of person 1 L11m L11f Unordered allele pair at locus 1 of person 1 = data O11 p(L11m = a) is the frequency of allele a. p(O11 | l11m, l11f) = 0 or 1 depending on consistency
Allele network Mother Father Offspring L11m L11f L12m L12f Mother Father O11 O12 L13m L13f O13 Offspring p(l13m | l11m, l11f) = 1/2 if l13m = l11m or l13m = l11f p(l13m | l11m, l11f) = 0 otherwise
Probabilistic model for two loci L11m L13m O11 L12f L12m L13f O12 O13 Model for locus 1 L21f L21m L23m O21 L22f L22m L23f O22 O23 Model for locus 2 Ici, hypothèse d’absence de déséquilibre de liaison : pas de lien entre loci des alleles des fondateurs! Too complex!!!
Adding a selector variable L11m L11f Selector of maternal allele at locus 1 of person 3 O11 S13m p(s13m) = ½ L13m Maternal allele at locus 1 of person 3 (offspring) Selector variables Sijm are 0 or 1 depending on whose allele is transmitted to offspring i at maternal locus j. p(l13m | l11m, l11f,,S13m=0) = 1 if l13m = l11m p(l13m | l11m, l11f,,S13m=1) = 1 if l13m = l11f p(l13m | l11m, l11f,,s13m) = 0 otherwise
Probabilistic model for two loci S13m L11f L11m L13m O11 S13f L12f L12m L13f O12 O13 Model for locus 1 S23m L21f L21m L23m O21 S23f L22f L22m L23f O22 O23 Model for locus 2
Segregation network Probabilistic Model for Recombination: S13m L11f L11m L13m O11 S13f L12f L12m L13f O12 O13 S23m L21f L21m L23m O21 S23f L22f L22m L23f O22 O23 Probabilistic Model for Recombination: is the recombination fraction between loci 2 & 1.
Circulation de l’information
Séparation dirigée (d-separation)
Lien entre d-separation et indépendence conditionnelle
Limites d’expressivité des réseaux bayésiens Il existe des lois dont le modèle d’indépendence n’est pas représentable par un réseau bayésien Exemple: M = { X W | {Y,Z}, Y Z | {X,W} } Réseau de Markov : graphe non-orienté avec séparation directe Quelque soit le formalisme (réseau bayésien ou réseau de Markov), il existe des lois non représentables
Requêtes
Segregation network S13m L11f L11m L13m O11 S13f L12f L12m L13f O12 O13 S23m L21f L21m L23m O21 S23f L22f L22m L23f O22 O23 Genetic linkage analysis (PR): argmax L,S p(L, S, O | ) Haplotype reconstruction (MPE): argmax L,S p(L, S | O, )
Requêtes et algorithmes – liens avec HMM Recherche de l’état le plus probable (MPE) algorithme de Viterbi (opérateurs max-prod) Vraisemblance des observations (PR) algorithme Forward (opérateurs sum-prod) Probabilités marginales (MAR) algorithme Forward-Backward (opérateurs sum-prod) Cadre général : programmation dynamique non sérielle
Inférence probabiliste Méthodes exactes programmation dynamique non sérielle recherche arborescente méthodes hybrides Méthodes approchées Méthodes par passage de messages (loopy belief propagation,…) Méthodes par simulation (MCMC,…)
Inférence probabiliste polyarbre : un seul chemin entre 2 sommets
Les deux grandes règles
nouveaux 1 3 2 4 5
Impact de l’ordre d’élimination des variables Impact de l’ordre d’élimination des variables. Ici complexité O(d^3) en temps et O(d^2) en espace. Trouver un ordre d’élimination optimal NP-dur.
But : calculer TOUTES les marginales (et plus)
Simple pedigree example
Genotype network
Allele network with phenotypic information on individual 11 and new individual 15
Primal graph (moral graph)
Triangulated graph (by following an elimination order) Graphe triangulé : tout cycle de longueur >=4 possede une corde (arete entre 2 sommets non consecutifs du cycle) => compose de triangles et segments de droite => ordre elimination parfait => recherche des (au plus n) cliques maximales facile Link together variables occuring in new potentials
Junction tree (find all maximal cliques, build a tree from clique intersections) Construction de l’arbre de jonction en suivant ordre elim en creant des cliques/potentiels dont le séparateur est relié à une clique ultérieure l’incluant. Runnning intersection property Forall V, W in the junction tree T, every clique on the path from V to W in T must contain V W
Assignments of potentials
Propagation in the junction tree
Collect evidence
Distribute evidence
Graphical model formalisms
Combinatorial Optimization
Algorithme de séparation et évaluation Chaque nœud de l’arbre est un WCSP défini par l’affectation courante Variables (ordre dynamique) (LB) Minorant = f = sous-estimation du coût de la meilleure solution dans le sous-arbre courant importance of good initial upperbound, dynamic variable ordering heuristics, binary branching. f0 appelé f_ensemble vide ou plutôt f_zero! si LB UB alors couper f k (UB) Majorant +k = min {k, +} = coût de la meilleure solution trouvée = k
Local operators
Local operators X < Y
MENDEL DFBB-VE(2) (de Givry et al, Constraints 2008) toulbar2 v0.5 avec last conflict Temps CPU en secondes pour trouver et prouver l’optimum DFBB-VE(2)
Reconstruction d’haplotypes dans des pedigrees en arbre (Favier et al, IJCAI 2011) Indiv. x Loci 25x20 Environ 1000 variables par instance. 4 à 5 générations. treewidth ped37 = 2, ped7 = 2, ped44 = 2 57x6 20x20 Hypothèse : équilibre de liaison Marqueur s multiallèliques ( 9 allèles par marqueur)
Pedigree de demi-frères (Favier et al, WCB’10) Chromosome X humain, 36000 marqueurs SNP sur 1,64 Morgan(hapmap) Hypothèses : équilibre de liaison fréquences alléliques uniforme