Alexis Criscuolo (ISEM, LIRMM)

Slides:

Advertisements

Présentations similaires

Programmation linéaire et Recherche opérationnelle

Advertisements

DESS Bioinformatique, Université Blaise Pascal, Clermont-Ferrand, Février 2004 Reconstruction phylogénétique D'après Huson et al. Édouard Barat David Salgado.

Fabrice Lauri, François Charpillet, Daniel Szer

Efficient Simplification of Point-Sampled Surfaces

Introduction aux classes empiétantes François Brucker Brest (Breizh)

Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.

Regroupement (clustering)

LIRMM 1 Journée Deuxièmes années Département Microélectronique LIRMM.

DE ZÉRO à PAUP : Délimitation du groupe d'intérêt ("ingroup")

JXDVDTEK – Une DVDthèque en Java et XML

Phylogénie et distances génétique

Prédiction de sites dinteraction des protéines par analyse darbres phylogénétiques Stéfan Engelen Génomique Analytique, INSERM U511 Université Pierre et.

Points de référence en décision multicritère J.F.R.O. Antoine ROLLAND LIP6 15 décembre 2006.

Colloque Traitement et Analyse de séquences : compte-rendu

Méthodes de comparaison entre séquences multi-échelles végétales

Architecture des Ordinateurs

A Pyramid Approach to Subpixel Registration Based on Intensity

Introduction à la logique

Complexité et Classification

introduction Tenter de situer l’homme au sein du règne animal en

Optimisation dans les télécommunications

Modélisation Bayésienne par chaines de Markov Monte Carlo

Un nouveau regard sur les données moléculaires

Optimisation globale non déterministe

Application des algorithmes génétiques

Auto-organisation dans les réseaux ad hoc

CHALLENGE ROADEF 2001 Résolution par une métaheuristique à base de recherche à voisinage variable et propagation par contraintes Fabrice BUSCAYLET Fabrice.

DEA Intelligence Artificielle et Optimisation Combinatoire

Algorithmes Branch & Bound

Produit vectoriel Montage préparé par : André Ross

Détection de co-évolution de gènes Master 2 : Informatique à Finalité Professionnelle et Recherche Unifiée (IFPRU) Parcours Ingénierie de lIntelligence.

TRIANGLE Inégalité triangulaire

III – Convergence Asymptotique

UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles

Ajustements c2 non-linéaires

II- L’algorithme du recuit simulé (pseudo-code)

LA CINETIQUE LOGIQUE Les gènes Hox. 1.Propriétés des gènes Hox 2.Réduction du modèle 3.Construction du modèle –Conventions –Modèle descriptif –Système.

Introduction à la programmation linéaire

Optimisation-Identification et Cast3M

Optimisation de GRAPHES

Plan Buts principaux Intérêt et pertinence du projet Rappel concernant la phylogénie Travail accompli jusquà maintenant Travail restant à accomplir Difficultés.

Annexe 1 VISITE SUR

Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,

1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome.

AIP PRIMECA des Pays de La Loire – 9 novembre 2006

Fonction logique OUI a S 1 a S 1 a S S = a La sortie est toujours

Inférence de génomes ancestraux

Recherche heuristique dans les bases de données L’algorithme BLAST

Introduction Objet de la programmation mathématique, construction d'un modèle mathématique, problème général de programmation mathématique et classification,

Jean Dubé CRDT, Université du Québec à Rimouski Mars 2012

Quelques exemples d ’utilisation des coordonnées au collège

Inférence de phylogénies

1 Une méthode itérative pour l'unfolding des données expérimentales, stabilisée dynamiquement(*) Bogdan MALAESCU LAL LLR 28/09/2009 (*arxiv: )

CHAPITRE 2: LES VECTEURS.

Programmation linéaire en nombres entiers

Classification naturelle = phylogénie

Formation Bio-informatique IRD

Familles de gènes Nadia El-Mabrouk.

Recherches locales et méta-heuristiques

Recherche par automates finis

STAN (Suffix Tree ANalyser) Un outil de recherche de motif dans les génomes Grégory Ranchy Anne-Sophie Valin 9 décembre 2004.

Inférence phylogénétique

Classification naturelle = phylogénie

Recherche heuristique dans les bases de données L’algorithme BLAST

Les mathématiques autrement Construction d ’un triangle mode d'emploi.

AIDE à la DECISION Critères IAE de Picardie - LP1.

1 UE Intro. Optimisation L3 INFO UPSud II. Programmation linéaire en variables entières (ou mixtes)

Transcription de la présentation:

Alexis Criscuolo (ISEM, LIRMM) L’amalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

Qui suis je? Alexis Criscuolo Licence de Mathématiques (UM2) DEA d’Informatique (LIRMM) 3ième année de Doctorat en Biologie (ISEM-LIRMM) Les chefs: Emmanuel Douzery (ISEM) Olivier Gascuel (LIRMM) Vincent Berry (LIRMM)

Plan Initiation à la phylogénie Parcimonie (pour les info) Vraisemblance (pour les info et les matheux) Distance (pour les matheux) Description des différentes méthodes d’amalgamation de données génomiques Combinaison basse (pour les bio) Combinaison haute (pour les info) Combinaison moyenne (pour les matheux) Comparaison des performances des combinaisons basse, moyenne et haute (pour les bio) Application à la phylogénie des mammifères (pour les curieux)

La phylogénie en théorie Chat Cheval Chameau Porc Dauphin Homme Rat Oie

La phylogénie en pratique

La phylogénie en pratique ame AGCTA Rat AGCTGCAA Lama ATC-GCTC Oie CTGCGGAT

La phylogénie en pratique Reconstruction phylogénétique

La phylogénie en pratique Mammifères Mammifères Oie Oie

La phylogénie en pratique Reconstruction phylogénétique

La phylogénie en pratique Reconstruction phylogénétique 1- Critère de parcimonie > Minimiser le nombre de mutations le long de l’arbre

La parcimonie 0123456789 Rat ATGCCGTGTG Porc TTGCTCAGCG Chameau TTGACCTGCG Dauphin TTGCTCTGCG Chat TTGCCCTTTG Homme ATACCGTGTG Cheval TGGCCCTTTG

La parcimonie 04578 Rat ACGGT Porc TTCGC Chameau TCCGC Dauphin TTCGC Chat TCCTT Homme ACGGT Cheval TCCTT 1236 9 TGCT G TGCA G TGAT G TACT G GGCT G

La parcimonie 04578 Rat ACGGT Porc TTCGC Chameau TCCGC Dauphin TTCGC Chat TCCTT Homme ACGGT Cheval TCCTT 1236 9 TGCT G TGCA G TGAT G TACT G GGCT G

La parcimonie 04578 Rat ACGGT Porc TTCGC Chameau TCCGC Dauphin TTCGC Chat TCCTT Homme ACGGT Cheval TCCTT 1236 9 TGCT G TGCA G TGAT G TACT G GGCT G 7:G<>T Chat Cheval Chameau Porc 8:C<>T 4:C<>T Dauphin Homme 0:A<>T 5:G<>C Rat

La parcimonie L’arbre le plus parcimonieux longueur = 9 0123456789 Rat ATGCCGTGTG Porc TTGCTCAGCG Chameau TTGACCTGCG Dauphin TTGCTCTGCG Chat TTGCCCTTTG Homme ATACCGTGTG Cheval TGGCCCTTTG 7:G<>T Chat Cheval Chameau Porc 8:C<>T 4:C<>T Dauphin Homme 0:A<>T 5:G<>C Rat

La phylogénie en pratique Reconstruction phylogénétique 2- Critère de vraisemblance > Optimiser la vraisemblance de l’arbre

La vraisemblance 01 i m W AT...GC G GTG...TG X AT...GC G GTG...TG Y AT...GC A GTG...TG Z AT...GC A GTG...TG

La vraisemblance 01 i m W AT...GC G GTG...TG X AT...GC G GTG...TG Y AT...GC A GTG...TG Z AT...GC A GTG...TG

La vraisemblance 01 i m W AT...GC G GTG...TG X AT...GC G GTG...TG Y AT...GC A GTG...TG Z AT...GC A GTG...TG X Z T W Y L( T[i] ) = vraisemblance de la topologie T pour le site i = probabilité P( i | T ) que i ait été généré par la topologie T

La vraisemblance = P + P + P + P + P + P + P + P + P + P + P + P + P G A G A G A G A = P + P + P + P + A A A C A G A T G A G A G A G A G A G A G A G A P + P + P + P + C A C C C G C T G A G A G A G A G A G A G A G A P + P + P + P + G A G C G G G T G A G A G A G A G A G A G A G A P + P + P + P T A T C T G T T G A G A G A G A

= A  P(AA)²  P(AC)  P(AG)² La vraisemblance G A G G A A P = P C A C G A A = A  P(AA)²  P(AC)  P(AG)² A C G T A - a b d C a - c e G b c - f T d e f -

But: trouver la topologie T qui maximise la fonction de vraisemblance La vraisemblance But: trouver la topologie T qui maximise la fonction de vraisemblance m L(T) =  L( T[i] ) Site i = 0

La phylogénie en pratique Reconstruction phylogénétique 3- Critère de distances > S’approcher au plus d’une matrice additive

Distance évolutive Homme ATGCCGTGTG Cheval ATGCGGACTA Canard CTGCACCTAG

Distance évolutive F(Homme,Cheval) Homme ATGCCGTGTG Cheval ATGCGGACTA Canard CTGCACCTAG AA/n 0.1 AC/n 0.0 AG/n AT/n CA/n CC/n CG/n CT/n GA/n GC/n GG/n 0.2 GT/n TA/n TC/n TG/n TT/n

Distance évolutive F(Homme,Cheval) Homme ATGCCGTGTG Cheval ATGCGGACTA Canard CTGCACCTAG AA/n 0.1 AC/n 0.0 AG/n AT/n CA/n CC/n CG/n CT/n GA/n GC/n GG/n 0.2 GT/n TA/n TC/n TG/n TT/n Homme 0.0 Cheval 0.4 0.0 Canard 0.6 0.7 0.0 Distance de Hamming: D = 1 - (AA/n + CC/n + GG/n + TT/n)

Distance évolutive F(Homme,Cheval) Homme ATGCCGTGTG Cheval ATGCGGACTA Canard CTGCCCTTAG AA/n 0.1 AC/n 0.0 AG/n AT/n CA/n CC/n CG/n CT/n GA/n GC/n GG/n 0.2 GT/n TA/n TC/n TG/n TT/n Homme 0.00 Cheval 0.57 0.00 Canard 1.20 2.03 0.00 Distance de Hamming: D = 1 - (AA/n + CC/n + GG/n + TT/n) Distance de Jukes & Cantor: (-3/4) ln (1 – 4D/3)

Distance arborée D = 0 D = D D  D + D D + D  max (D + D , D + D ) i ii ij ji ij ik ki ij kl il jk ik jl i k j l

 w ( - D )2 Méthode de distance Minimiser le critère mathématique suivant [Fitch & Margoliash 1967]:  w ( - D )2 ij ij ij ij afin d’obtenir la représentation arborée qui se rapproche le plus de la matrice  ij

NP-complétude Parcimonie Vraisemblance Distance Critères NP-complets

Heuristiques de recherche 1- Inférer « rapidement » un arbre de départ T0 1 2 - 3 2- Modifier la topologie de T0 pour obtenir la topologie T1 3- Si T1 améliore le critère, alors T0  T1 puis aller à l’étape 2 4 4- Continuer jusqu’à convergence du critère

Des jeux de données multiples Gène 1 Taxon 1 Taxon i

Des jeux de données multiples Gène 1 Taxon 1 Taxon i Taxon j

Des jeux de données multiples Gène 1 Gène 2 Taxon 1 Taxon i Taxon j

Des jeux de données multiples Gène 1 Gène 2 Taxon 1 Taxon i Taxon j Taxon n

Des jeux de données multiples Gène 1 Gène 2 Gène 3 Taxon 1 Taxon i Taxon j Taxon n

Des jeux de données multiples Gène 1 Gène 2 Gène 3 Taxon 1 Taxon n

Des jeux de données multiples mais incomplets Gène 1 Gène 2 Gène 3 Taxon 1 Taxon n

Des jeux de données multiples mais incomplets Disparition de certains gènes au cours de l’histoire évolutive

Des jeux de données multiples mais incomplets Disparition de certains gènes au cours de l’histoire évolutive Absence de séquençage de certains gènes pour une espèce donnée

Comment obtenir une phylogénie à partir d’un jeu de données incomplet? Gène 1 Gène 2 Gène 3 Taxon 1 Taxon n

Combinaison basse (pour les bio) Se débrouiller pour construire des phylogénies à partir des alignements de séquences incomplètes

Combinaison basse « total evidence »

Combinaison haute (pour les info) Récupérer les phylogénies reconstruites à partir de chaque gène et tenter de les amalgamer en une seule phylogénie synthétique: le superarbre

Combinaison haute { X | Y } Consensus

-Combinaison haute- Consensus strict D A B C D -Combinaison haute- Consensus strict A B C D

-Combinaison haute- Consensus strict D A B C D -Combinaison haute- Consensus strict A B C D

-Combinaison haute- Consensus majoritaire D A B C D A B D C -Combinaison haute- Consensus majoritaire A B C D

-Combinaison haute- Consensus majoritaire D A B C D A B D C -Combinaison haute- Consensus majoritaire A B C D

-Combinaison haute- Consensus majoritaire D A B C D A B D C -Combinaison haute- Consensus majoritaire A B C D

Combinaison haute « Build » [Aho et al. 1981] « Min Cut Supertree » [Semple & Steel 2000] « Modified Min Cut Supertree » [Page 2001] « Build With Distance » [Willson 2004]

-Combinaison haute- L’algorithme Build F B C G H D I

-Combinaison haute- L’algorithme Build F B C G H D I I H A G B F E C D

-Combinaison haute- L’algorithme Build F B C G H D I I H A G B F E C D ABCDEGH F I

-Combinaison haute- L’algorithme Build ABCDEGH F I

-Combinaison haute- L’algorithme Build ABCDEGH F I

-Combinaison haute- L’algorithme Build ABCDGH E C D F I

-Combinaison haute- L’algorithme Build ABCDGH F I

-Combinaison haute- L’algorithme Build ABCDGH C D F I

-Combinaison haute- L’algorithme Build ABCGH B E C F I

-Combinaison haute- L’algorithme Build ABCGH E F I

-Combinaison haute- L’algorithme Build ABCGH B E C F I

-Combinaison haute- L’algorithme Build ABCG D B E C F I

-Combinaison haute- L’algorithme Build ABCG D E F I

-Combinaison haute- L’algorithme Build ABCG D B E C F I

-Combinaison haute- L’algorithme Build ABC G A H G D B E C F I

-Combinaison haute- L’algorithme Build ABC G H D E F I

-Combinaison haute- L’algorithme Build ABC G A H D B E C F I

-Combinaison haute- L’algorithme Build AB G A H D B E C F I

-Combinaison haute- L’algorithme Build F B C G H D I A B C G H Build Supertree D E F I

-Combinaison haute- L’algorithme Build

-Combinaison haute- L’algorithme Build

-Combinaison haute- L’algorithme Build ABCE D C

-Combinaison haute- L’algorithme Build ABCE D

-Combinaison haute- L’algorithme Build ? A B E ABCE D C

-Combinaison haute- L’algorithme MC 2 1 1 B 1 1 E ABCE D C

-Combinaison haute- L’algorithme MC AB 1 E 1 ABCE D C

-Combinaison haute- L’algorithme MC AB E ABCE D C

-Combinaison haute- L’algorithme MC AB AB C E D C

-Combinaison haute- L’algorithme MC D E A B E C D A Min Cut Supertree B E C D

Combinaison haute MRP [Baum 1992, Ragan 1992] MRF [Chen & al. 2001] 0100101001?11?0100 01??0?011?0???0010 ??0011010??001???? 0100010??00??001?0 111??0101000????01 MRP [Baum 1992, Ragan 1992] MRF [Chen & al. 2001]

-Combinaison haute- La méthode MRP F B C G H D I

-Combinaison haute- La méthode MRP F B C G H D I ABCDEFGHI 110000???

-Combinaison haute- La méthode MRP F B C G H D I ABCDEFGHI 110000??? 111000???

-Combinaison haute- La méthode MRP F B C G H D I ABCDEFGHI 110000??? 111000??? 111100??? 111110??? 111110???

-Combinaison haute- La méthode MRP F B C G H D I ABCDEFGHI 110000??? 111000??? 111100??? 111110??? 111111??? ?110??000 ?110??100 ?110??110 ?111??110 ?111??111

-Combinaison haute- La méthode MRP F B C G H D I A B C ABCGHDIEF 110??0?00 111??0?00 111??1?00 111??1?10 111??1?11 ?110000?? ?111000?? ?111100?? ?111110?? ?111111?? G H D I E MRP Supertree F

Combinaison haute Méthode de quadruplets [Robinson-Rechavi & Graur 2001]

Combinaison moyenne Créer à partir de chaque gène un artefact mathématique afin d’amalgamer plus aisément l’information évolutive contenue dans chacun d’entre eux

Combinaison moyenne Méthode de quadruplet [Schmidt 2003]

Combinaison moyenne « Average consensus supertree » [Lapointe & Cucumel 1997]

Combinaison moyenne -ACS-

Combinaison moyenne -ACS- Soit C une collection de k matrices de distance {1 , 2 , 3 , … , k } Détection de la paire de taxons ab telle que p existe pour tout p = 1, … , k Normalisation des k matrices: p := p / p Moyenne simple pour chaque paire ij ij ij ij ij ab ij ij ab

Combinaison moyenne -ACS- D 0.52 0.04 0.00 2 A 0.00 B 0.27 0.00 C 0.34 0.28 0.00 1 ij ij

Combinaison moyenne -ACS- D 0.52 0.04 0.00 2 A 0.00 B 0.27 0.00 C 0.34 0.28 0.00 1 ij ij La paire AB est présente dans les deux matrices

Combinaison moyenne -ACS- D 1.21 0.09 0.00 2 A 0.00 B 1.00 0.00 C 1.25 1.03 0.00 1 ij ij La paire AB est présente dans les deux matrices

Combinaison moyenne -ACS- D 1.21 0.09 0.00 2 A 0.00 B 1.00 0.00 C 1.25 1.03 0.00 1 ij ij A 0.00 B 1.00 0.00 C 1.25 1.03 0.00 D 0.52 0.09 **** 0.00  ij

But Déformer les matrices sans modifier l’information topologique contenue dans chacune d’entre elles Effectuer une moyenne simple des différentes distances entre espèces

Déformation d’une matrice de distance Soient ( ) une matrice de distance et T la topologie de l’arbre inféré par une méthode de distance MD à partir de ( ). La multiplication de ( ) par un facteur de dilatation  ne modifie pas la topologie T de l’arbre inféré par MD. ij ij ij

Déformation d’une matrice de distance -Dilatation-

Déformation d’une matrice de distance -Dilatation- 

Déformation d’une matrice de distance Soient ( ) une matrice de distance et T la topologie de l’arbre inféré par une méthode de distance MD à partir de ( ). L’ajout d’une matrice à centre (a + a ) à ( ) ne modifie (presque) pas la topologie T de l’arbre inféré par MD. ij ij i j ij

Déformation d’une matrice de distance -Ajustement-

Déformation d’une matrice de distance -Ajustement- (a + a ) i j

Déformation d’une matrice de distance -Ajustement- +

Déformation d’une matrice de distance -Ajustement- + =

Critère mathématique On cherche à minimiser le critère: où

Contraintes Le problème est contraint afin de ne pas globalement déformer les matrices sources.

Solution Système linéaire n+2k+nk+1 variables pour k matrices définies sur n espèces Résolution du système en O(n3 k3)

Combinaison moyenne « Super Distance Matrix » [Criscuolo, Douzery, Berry & Gascuel 2004]

Meilleur type de combinaison? Combinaison basse: Meilleur critère : vraisemblance Meilleur logiciel ML : PhyML [Guindon & Gascuel 2003] Combinaison haute: Meilleure méthode : MRP Meilleur logiciel MP : TNT [Goloboff et al. 2003] Combinaison moyenne: Meilleure méthode : SDM Meilleur logiciel de distance : Fitch [Felsenstein 1993]

Simulations: protocole r8s [Sanderson 2002] Création d’un arbre modèle ultramétrique UT (i.e. respectant l’horloge moléculaire)

Simulations: protocole Obtention d’une phylogénie non-ultramétrique AT (i.e. présentant une déviation par rapport à l’horloge moléculaire) par multiplication de chaque branche par (1+X)

Simulations: protocole Obtention de k phylogénies ATp par multiplication de chaque branche par Xp/TBL

Simulations: protocole Seq-Gen [Rambaut & Grassly 1997] Génération de k alignements de b sites suivant le modèle K2P avec b tirée aléatoirement entre 200 et 1000

Simulations: protocole Délétion des taxons avec une probabilité de 25%, 50% et 75%

Simulations: protocole PhyML PAUP* SDM Fitch PhyML r8s TNT SDM Fitch

Critère métrique dq = (2+2)/C4 = 0.8 Erreur de type 1: nombre de mauvais quadruplets résolus inférés Erreur de type 2 : nombre de quadruplets résolus non inférés Distance quadruplet : moyenne des deux types d’erreurs normalisée par C n 4 c b a c ab|cd ab|ce ac|bd ac|be e et2 et1 d b Arbre modèle a Arbre inféré d e 5 dq = (2+2)/C4 = 0.8

Simulations: résultats k=2 k=20 SDM + Fitch <1s + 1s 2s + 23s SDM + Fitch + PhyML + 89s + 808s PhyML + MRP 38s + 4s 267s

Simulations: résultats k=2 k=20 SDM + Fitch <1s + 6s 4s + 24s SDM + Fitch + PhyML + 69s + 1130s PhyML + MRP 12s + 3s 153s + 18s

Simulations: résultats k=2 k=20 SDM + Fitch <1s + 1s 2s + 23s SDM + Fitch + PhyML + 21s + 2134s PhyML + MRP 6s 86s + 15s

Le jeu de données de Gatesy et al.

Jeu de données biologique 75 mammifères placentaires 7 Afrothériens en groupe externe 33 segments de gènes nucléaires 5 segments de gènes mitochondriaux 37018 sites 72620 gaps 6327 + 1826731 caractères absents  68.64 % de données manquantes

Application: la phylogénie des mammifères Rongeurs Primates Carnivores Périssodactyles Camélidés Suidés Ruminants Hippopotamidés [Gatesy et al. 2002] Cétacés

Application: la phylogénie des mammifères Rongeurs Primates Carnivores Périssodactyles Camélidés Suidés Ruminants Hippopotamidés Cétacés

MERCI…