Réseau bayésien et génétique

Slides:



Advertisements
Présentations similaires
What is your connection to the REAL network and why is the REAL Network important to your association? ?
Advertisements

The métro is very easy to use. The Lines are numbered 1 to 14, with two minor lines labeled 3bis and 7bis. These minor lines were originally part of the.
(Nom du fichier) - D1 - 01/03/2000 FTR&D/VERIMAG TAXYS : a tool for the Development and Verification of RT Systems a joint project between France Telecom.
Méthodes hybrides dans les réseaux de contraintes pondérées
Localisation fine de QTL par déséquilibre de liaison Simon BOITARD Durée : octobre 2003-septembre 2006 Laboratoire : BIA (biométrie et intelligence artificielle)
Florence Forbes INRIA Rhone-Alpes
Phylogénie et distances génétique
Séminaire LISC 29/06/01 Diffusion de l innovation Etudes sociologiques Modèles à seuil Réseaux sociaux Automates cellulaires, en réseaux.
Colloque Traitement et Analyse de séquences : compte-rendu
Résumé cours précédent
Substance pures et mélanges Pure substances and mixtures
How to solve biological problems with math Mars 2012.
Genotypic data: concepts and meanings
Décodage des informations
IFT313 Introduction aux langages formels
Froduald Kabanza Département d’informatique Université de Sherbrooke
1 Performance Evaluation Jean-Yves Le Boudec
Révisions - IA Généralité: problèmes de lIA Recherche Logique Traitement de lincertitude Apprentissage Langue naturelle.
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome.
GPA750 – Gestion de Projets
Réseaux bayésiens Chap. 14 Sections 1 – 3.
Réseaux bayésiens: Inférence
Dév. d’application interactive III Recherche de chemin.
LE DESEQUILIBRE DE LIAISON
Ce document est la propriété d ’EADS CCR ; il ne peut être communiqué à des tiers et/ou reproduit sans l’autorisation préalable écrite d ’EADS CCR et son.
Information Theory and Radar Waveform Design Mark R. bell September 1993 Sofia FENNI.
Vers un nouvel empirisme: l’ancien et le nouvel empirisme John Goldsmith Université de Chicago CNRS MoDyCo.
© Copyright Showeet.com S OCIAL M EDIA T HINKING.
Energy optimization in a manufacturing plant Journée GOThA Ordonnancement avec contraintes d’énergie et/ou de ressources périssables LAAS-CNRS Toulouse.
Laboratoire des outils informatiques pour la conception et la production en mécanique (LICP) ÉCOLE POLYTECHNIQUE FÉDÉRALE DE LAUSANNE 1 Petri nets for.
Optimisation de requêtes
Recombinaisons (suite)
Les verbes qui se terminent en -ER (-ER verbs). French has both regular and irregular verbs. (English does too, for that matter.)
Adapté de Michael Negnevitsky
Travail 1 Tutorial de mathématique Français English.
Introduction Définir Planning. L’agent Planning. Représentation pour l’agent planning. Idées derrieres l’agent planning.
Bhatti Noranakusar Foyer:140 Travail 1 Tutorial de mathématique Travail 1 Tutorial de mathématique Français Anglais.
Travail 1 Tutorial de mathématique
Observance thérapeutique. Observance Action d’observer une règle religieuse Puis stricte exécution des prescriptions du médecin Donne au patient un rôle.
Annual Best Practices Sessions / Ateliers annuels sur les pratiques exemplaires PERFORMANCE MONITORING, REPORTING AND EVALUATION: WHAT’S THE POINT OF.
Annual Best Practices Sessions / Ateliers annuels sur les pratiques exemplaires PERFORMANCE MONITORING, REPORTING AND EVALUATION: WHAT’S THE POINT OF.
Anitha sivaganesh foyer 140
Structures de données et algorithmes – TP7 Maria-Iuliana Dascalu, PhD
Modèles d’interaction et scénarios
Algorithmes génétiques en optimisation combinatoire
Tache 1 Construction d’un simulateur. Objectifs Disposer d’un simulateur d’une population présentant un déséquilibre de liaison historique, afin d’évaluer.
FINANCE Le risque systématique Professor André Farber Solvay Business School Université Libre de Bruxelles Fall 2006.
Graphisme par ordinateur
Concepts avancés en mathématiques et informatique appliquées
Présentation du nouveau Site Hercules. Plan Nouvelle ergonomie Nouvelle base de données Nouvelle procédure d’inscription Nouveaux outils d’administration.
French 1 Chapter 2 Grammar 2
Rapports équivalents Écrire, modéliser et identifier.
Clique Percolation Method (CPM)
Contractions with the Prepositions à and de. Differences and Similarities Faire du vélo Faire de la vidéo Jouer au golf Jouer aux cartes Each verb takes.
ETUDE DE LA TRANSGRESSION Transgressive segregation, adaptation and speciation (Rieseberg et al., 1999) The genetic architecture necessary for transgressive.
UE FMOV309 Génétique quantitative évolutive – 12 Nov 2013 Le modèle animal Génétique quantitative en populations naturelles.
Modélisation algébrique des arbres de défaillance dynamiques, contribution aux analyses qualitative et quantitative Guillaume Merle Thèse soutenue à l’ENS.
PERFORMANCE One important issue in networking is the performance of the network—how good is it? We discuss quality of service, an overall measurement.
An Introduction To Two – Port Networks The University of Tennessee Electrical and Computer Engineering Knoxville, TN wlg.
IP Multicast Text available on
Notes le 28 octobre ÊTRE (to be) je suis (I am) nous sommes (we are)
Internet – s 3 choses à toujours garder en tête concernant internet:
Information available in a capture history
Roots of a Polynomial: Root of a polynomial is the value of the independent variable at which the polynomial intersects the horizontal axis (the function.
1 Sensitivity Analysis Introduction to Sensitivity Analysis Introduction to Sensitivity Analysis Graphical Sensitivity Analysis Graphical Sensitivity Analysis.
Lequel The Last Part.
Genetic Algorithm for Variable Selection Jennifer Pittman ISDS Duke University.
Transcription de la présentation:

Réseau bayésien et génétique Simon de Givry INRA-UBIA Toulouse 21 juin 2011

PLAN Réseau Bayésien définition réseaux de génotypes, d’allèles, de ségrégations séparation dirigée et indépendance conditionnelle principales requêtes méthode exacte pour l’inférence probabiliste méthode exacte pour l’optimisation combinatoire quelques résultats en reconstruction d’haplotypes à partir d’un pedigree et de génotypes Je ne parle pas d’estimation des parametres ni d’apprentissage automatique la structure d’un reseau bayesien a partir d’observations.

Daphne Koller, Nir Friedman, Probabilistic Graphical Models, 2009

variables discrètes, tables de probabilités conditionnelles variables discrètes, tables de probabilités conditionnelles. exemple medical d’un patient. dyspnée : gêne respiratoire. facteurs de risque. resultats d’analyse

Cas particulier : HMM à horizon fixé Chaîne de Markov homogène d’ordre 1 Chaîne de Markov cachée homogène d’ordre 1

Réseau de génotypes

Réseau de génotypes

hyp: fréquences alléliques équi-probables

Allele network Maternal allele at locus 1 of person 1 Paternal allele at locus 1 of person 1 L11m L11f Unordered allele pair at locus 1 of person 1 = data O11 p(L11m = a) is the frequency of allele a. p(O11 | l11m, l11f) = 0 or 1 depending on consistency

Allele network Mother Father Offspring L11m L11f L12m L12f Mother Father O11 O12 L13m L13f O13 Offspring p(l13m | l11m, l11f) = 1/2 if l13m = l11m or l13m = l11f p(l13m | l11m, l11f) = 0 otherwise

Probabilistic model for two loci L11m L13m O11 L12f L12m L13f O12 O13 Model for locus 1 L21f L21m L23m O21 L22f L22m L23f O22 O23 Model for locus 2 Ici, hypothèse d’absence de déséquilibre de liaison : pas de lien entre loci des alleles des fondateurs! Too complex!!!

Adding a selector variable L11m L11f Selector of maternal allele at locus 1 of person 3 O11 S13m p(s13m) = ½ L13m Maternal allele at locus 1 of person 3 (offspring) Selector variables Sijm are 0 or 1 depending on whose allele is transmitted to offspring i at maternal locus j. p(l13m | l11m, l11f,,S13m=0) = 1 if l13m = l11m p(l13m | l11m, l11f,,S13m=1) = 1 if l13m = l11f p(l13m | l11m, l11f,,s13m) = 0 otherwise

Probabilistic model for two loci S13m L11f L11m L13m O11 S13f L12f L12m L13f O12 O13 Model for locus 1 S23m L21f L21m L23m O21 S23f L22f L22m L23f O22 O23 Model for locus 2

Segregation network Probabilistic Model for Recombination: S13m L11f L11m L13m O11 S13f L12f L12m L13f O12 O13 S23m L21f L21m L23m O21 S23f L22f L22m L23f O22 O23 Probabilistic Model for Recombination:  is the recombination fraction between loci 2 & 1.

Circulation de l’information

Séparation dirigée (d-separation)

Lien entre d-separation et indépendence conditionnelle

Limites d’expressivité des réseaux bayésiens Il existe des lois dont le modèle d’indépendence n’est pas représentable par un réseau bayésien Exemple: M = { X  W | {Y,Z}, Y  Z | {X,W} } Réseau de Markov : graphe non-orienté avec séparation directe Quelque soit le formalisme (réseau bayésien ou réseau de Markov), il existe des lois non représentables

Requêtes

Segregation network S13m L11f L11m L13m O11 S13f L12f L12m L13f O12 O13 S23m L21f L21m L23m O21 S23f L22f L22m L23f O22 O23 Genetic linkage analysis (PR): argmax L,S p(L, S, O | ) Haplotype reconstruction (MPE): argmax L,S p(L, S | O, )

Requêtes et algorithmes – liens avec HMM Recherche de l’état le plus probable (MPE) algorithme de Viterbi (opérateurs max-prod) Vraisemblance des observations (PR) algorithme Forward (opérateurs sum-prod) Probabilités marginales (MAR) algorithme Forward-Backward (opérateurs sum-prod)  Cadre général : programmation dynamique non sérielle

Inférence probabiliste Méthodes exactes programmation dynamique non sérielle recherche arborescente méthodes hybrides Méthodes approchées Méthodes par passage de messages (loopy belief propagation,…) Méthodes par simulation (MCMC,…)

Inférence probabiliste polyarbre : un seul chemin entre 2 sommets

Les deux grandes règles

nouveaux 1 3 2 4 5

Impact de l’ordre d’élimination des variables Impact de l’ordre d’élimination des variables. Ici complexité O(d^3) en temps et O(d^2) en espace. Trouver un ordre d’élimination optimal NP-dur.

But : calculer TOUTES les marginales (et plus)

Simple pedigree example

Genotype network

Allele network with phenotypic information on individual 11 and new individual 15

Primal graph (moral graph)

Triangulated graph (by following an elimination order) Graphe triangulé : tout cycle de longueur >=4 possede une corde (arete entre 2 sommets non consecutifs du cycle) => compose de triangles et segments de droite => ordre elimination parfait => recherche des (au plus n) cliques maximales facile Link together variables occuring in new potentials

Junction tree (find all maximal cliques, build a tree from clique intersections) Construction de l’arbre de jonction en suivant ordre elim en creant des cliques/potentiels dont le séparateur est relié à une clique ultérieure l’incluant. Runnning intersection property Forall V, W in the junction tree T, every clique on the path from V to W in T must contain V  W

Assignments of potentials

Propagation in the junction tree

Collect evidence

Distribute evidence

Graphical model formalisms

Combinatorial Optimization

Algorithme de séparation et évaluation Chaque nœud de l’arbre est un WCSP défini par l’affectation courante Variables (ordre dynamique) (LB) Minorant = f = sous-estimation du coût de la meilleure solution dans le sous-arbre courant importance of good initial upperbound, dynamic variable ordering heuristics, binary branching. f0 appelé f_ensemble vide ou plutôt f_zero! si LB  UB alors couper f k (UB) Majorant  +k  = min {k, +} = coût de la meilleure solution trouvée = k

Local operators

Local operators X < Y

MENDEL DFBB-VE(2) (de Givry et al, Constraints 2008) toulbar2 v0.5 avec last conflict Temps CPU en secondes pour trouver et prouver l’optimum DFBB-VE(2)

Reconstruction d’haplotypes dans des pedigrees en arbre (Favier et al, IJCAI 2011) Indiv. x Loci 25x20 Environ 1000 variables par instance. 4 à 5 générations. treewidth ped37 = 2, ped7 = 2, ped44 = 2 57x6 20x20 Hypothèse : équilibre de liaison Marqueur s multiallèliques ( 9 allèles par marqueur)

Pedigree de demi-frères (Favier et al, WCB’10) Chromosome X humain, 36000 marqueurs SNP sur 1,64 Morgan(hapmap) Hypothèses : équilibre de liaison fréquences alléliques uniforme