La phylogénomique sans alignement de séquences

Slides:



Advertisements
Présentations similaires
LES INCERTITUDES DES TECHNIQUES DU GENIE GENETIQUE
Advertisements

L'hybridation fluorescente (FISH)
Evaluation dheuristiques pour lalignement de séquences génomiques Stéphane Guyetant Séminaire Symbiose du 23/01/03.
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
RECONNAISSANCE DE FORMES
Mardi 12 décembre h30 (50 min) La phylogénie, ses concepts et ses applications à la génomiqueLa phylogénie, ses concepts et ses applications à la.
DE ZÉRO à PAUP : Délimitation du groupe d'intérêt ("ingroup")
Phylogénie et distances génétique
OBJECTIFS FouDanGA : Fouille de données pour lannotation de génomes dactinomycètes CONTEXTE Laccumulation des séquences.
Prédiction de sites dinteraction des protéines par analyse darbres phylogénétiques Stéfan Engelen Génomique Analytique, INSERM U511 Université Pierre et.
Colloque Traitement et Analyse de séquences : compte-rendu
Le remplacement moléculaire
Modélisation Bayésienne par chaines de Markov Monte Carlo
Vecteurs algébriques Montage préparé par : André Ross
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
RECIT d’une EXPERIENCE Françoise Barachet LYCEE MONTDORY de THIERS
Vecteurs algébriques Montage préparé par : André Ross
Analyse en Composantes Principales
LA SYNTHÈSE DES PROTÉINES
Exemple synthèse (Chapitre 5)
Activité 5. Du génome au protéome
Yoann Beausse Journée Bioinformatique des Génopoles
SUIVI DE LA VEGETATION PAR IMAGE MODIS SUR LE BASSIN VERSANT DU BOUREGREG BROU Yao Télesphore EMRAN Anas TRA BI Zamblé Armand.
Journée thématique du GDR IFS « Réduction de modèle en IFS » ENSAM – Jeudi 18 mai 2006 Validation de l’approche de la réduction a priori - POD sur l'équation.
Horloge hélio-caustique de temps moyen
Présenté par Mathieu Almeida, Amine Ghozlane
1. Information génétique et protéines
Codage convolutif Les codeurs convolutifs génèrent un mot de code de longueur n à partir de plusieurs messages de longueurs k. La valeur du mot de code.
TP 5 Du génome au protéome
Chapitre 1 : Régime sinusoïdal
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
Chapitre 4 Réduction des endomorphismes
Les fichiers indexés (Les B-arbres)
Examen partiel #3 Mercredi le 15 décembre de 15h30 à 17h20
Rappel... Systèmes dynamiques: discrets; continus.
ANTI COLLISION Version 3 Version 3 – mars 2007 (version courte !)
Analyse de la variabilit é en vision par ordinateur Richard Lepage Département de génie de la production automatisée École de technologie supérieure Montréal.
Génération d’un segment de droite
1.
Prédiction d’interactions protéine-protéine
Position en fonction du temps
Standard Template Library
Annotation de génomes complets
Sous-espaces vectoriels engendrés
La banque UniprotKB et le logiciel Blast
Recherche heuristique dans les bases de données L’algorithme BLAST
Etienne Danchin & Amandine Campan Présentation interne, pôle Santé des Plantes, Sophia - Antipolis Mercredi 21 avril 2010 Grille PACA ProActive : retour.
Vecteur vitesse.
Progressivité d’un jeu de la PS à la GS → jeu des ours, miniland → accro maths (clowns), nathan Choix d’un jeu disponible dans beaucoup d’écoles maternelles.
GRAPHISME PAR ORDINATEUR
O-notation 1. Introduction 2. O-notation 3. Opérations 3.1 Somme 3.2 Produit 4. Règles générales 5. Exemple 6.Analyse des algorithmes récursifs 6.1 Dilatation.
Algorithmique et programmation Informatique Cours 12 3/12/2001.
La génétique et la biométrie
Cédric LAOUENAN 20/11/2008 Tests statistiques Cédric LAOUENAN 20/11/2008
Formation Bio-informatique IRD
Analyses phylogénétiques
Familles de gènes Nadia El-Mabrouk.
Décodage souple de l’image binaire des codes de Reed-Solomon
Calorimètres électromagnétiques et hadroniques
MATHÉMATIQUES DISCRÈTES Chapitre 2 (section 2) François Meunier DMI.
Réunion MODULOME 15/10/2007 Christine ROUSSEAU Recherche des CRISPRs : Résultats MODULOME.
Tests d’ajustement à une distribution théorique
OBJECTIFS FouDanGA : Fouille de données pour l’annotation de génomes d’actinomycètes CONTEXTE Mise en œuvre de méthodes.
Recherche heuristique dans les bases de données L’algorithme BLAST
L’analyse d’ADN et la génomique
Les banques de séquences nucléiques
ACP visualisation Représentation graphique: projection dans un plan de n individus à p caractères Un individu est un point d’un espace à p dimensions.
Bio-Informatique Analyse de séquences nucléotidiques
Comparing genomic architectures to reconstruct ancestral genomes Géraldine JEAN Laboratoire Bordelais de Recherche en Informatique.
Aa. b b c a.
Transcription de la présentation:

La phylogénomique sans alignement de séquences Jean-Loup Risler Statistique & Génome jrisler@genopole.cnrs.fr Carry-le-Rouet, Décembre 2006

Reconstructions phylogénétiques Distances Maximum de parcimonie Maximum de vraisemblance Recherche de synténies Identification des orthologues Blast Alignements multiples

Une alternative: la recherche de « mots » communs dans les séquences (k-words, k-tups, k-grams...) Exemple classique : le « Dotplot » « Dotplot » entre deux séquences génomiques de deux mycobactéries. Chaque croix indique un « mot » conservé de 20 lettres (au moins).

Les alignements de chromosomes entiers sont impossibles à cause des réarrangements. La recherche de « mots communs » ne se soucie pas de leurs positions. On peut donc penser à déterminer une « distance » entre chromosomes à partir de leur contenu en mots communs.

Composition en di- et tri-nucléotides (chaînes de B. E. Blaisdell, PNAS 83 (1986), 5155-5159 Composition en di- et tri-nucléotides (chaînes de Markov d’ordre 1 et 2) de séquences codantes et non codantes  test du chi2: S1 = mesure de la différence entre deux séquences basée sur leur composition en dinucléotides (chaînes de Markov d’ordre 1) S2 = mesure de la différence entre deux séquences basée sur leur composition en trinucléotides (chaînes de Markov d’ordre 2)

5 B 4 3 2 Arbre obtenu par Baisdell à partir de la composition en dinucléotides des séquences de 30 gènes (exons) en 1986 A: vertébrés et B: invertébrés (sauf un vilain petit canard) A 1

{ Revue: Vinga, S. & Almeida, J. Alignment-free sequence comparison Bioinformatics 19 (2003), 513-523.  Gary W. Stuart Une séquence peut être représentée par un vecteur AA TT AT { s  3 4 S = AATATTAAATTTATA AA = 3 AT = 4 TT = 3 TA = 4  s = (3, 4, 3, 4)

{  2 s1 TT {  4 s2 AA Une séquence S1 dupliquée en S2=S1-S1 seront représentées par deux vecteurs parallèles (angle nul) AT

{ {  s1  s2  s1 . s2 = u1*u2 + v1*v2 + t1*t2 = |s1|*|s2|*cos() AA AT s1 . s2 = u1*u2 + v1*v2 + t1*t2 = |s1|*|s2|*cos() |s1| = (u12 + v12 + t12)1/2  Deux séquences de compositions proches sont représentées par des vecteurs proches (petit angle) Chaque protéine est représentée par un vecteur dont les composantes (les compositions en mots) sont connues. L’angle entre les deux vecteurs se calcule très facilement.

d(i,j) = -Log[(1 + cos )/2] Ici deux protéines sont représentées dans « l’espace des peptides ». Chaque protéine est caractérisée par sa composition en « peptides ». S’il s’agit de tétrapeptides, alors il y a 160,000 peptides différents (20^4), donc chaque protéine est représentée par un vecteur dans un espace à 160,000 dimensions. Deux protéines dont les compositions en tétrapeptides sont voisines seront représentées par deux vecteurs proches faisant entre eux un petit angle theta. On définit la « distance » d(i,j) entre deux protéines i et j à partir de l’angle que font leurs vecteurs. d(i,j) = -Log[(1 + cos )/2]

A l’inverse de la diapo précédente, nous sommes ici dans « l’espace des protéines ». Un tétrapeptide donné (par exemple KFGT) sera observé 2 fois dans la protéine 1, 3 fois dans la protéine 2, etc... Les tétrapeptides dont les fréquences sont voisines dans le jeu de protéines étudiées seront représentés par des vecteurs voisins.

Il y a 160.000 tetrapeptides possibles. Donc, si l’on décompose un jeu de protéines en mots de longueur 4, chaque protéine sera représentée par un vecteur dans un espace à 160.000 dimensions... De très nombreux « axes » portent peu d’information (tetrapeptides peu ou pas présents). On réduit la taille de l’espace en prenant pour repères les axes d’inertie les plus significatifs du nuage de points (changement de repère) et en supprimant les axes de faible inertie.

z B’ B’ A’ A B Un nuage de points a une forme d’ellipsoïde dans un espace à 3 dimensions x, y, z. On cherche à visualiser ce nuage de façon à ce qu’il soit le plus « éclaté » possible --> on détermine les axes d’inertie du nuage, on prend comme nouveau repère les 2 axes (A, A’) et (B,B’) qui portent la plus grande inertie et on projette le nuage sur leur plan. x A A’ y B

Toutes les protéines d’une même espèce sont regroupées en un seul vecteur --> chaque espèce est représentée par un vecteur.

Arbre obtenu pour 64 espèces Arbre obtenu pour 64 espèces. Cet arbre est le « consensus » des 17 arbres obtenus en réduisant l’espace des tetrapeptides (160.000 dimensions) à 64-80 dimensions.