La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Etat de lart en Bioinformatique Sébastien Derivaux pour le cours de bioinformatique de Christian Michel.

Présentations similaires


Présentation au sujet: "Etat de lart en Bioinformatique Sébastien Derivaux pour le cours de bioinformatique de Christian Michel."— Transcription de la présentation:

1 Etat de lart en Bioinformatique Sébastien Derivaux pour le cours de bioinformatique de Christian Michel

2 Définition La Bioinformatique est la discipline qui permet de mettre loutil informatique au service des biologistes: stocker, extraire, organiser, analyser, interpréter et utiliser les données biologiques

3 Les données biologiques La bioinformatique utilise 3 sources de données : Les séquences de nucléotides (ADN - ARNm) Les séquences daminoacides Des informations sur les protéines (notamment leur structures)

4 Bref historique 1953: Watson et Crick découvrent la structure en double hélice de lADN 1962: Zuckerland et Pauling créent la théorie de lhorloge moléculaire 1965: Monod, Jacob et Wolf découvrent les mécanismes de la régulation génétique impliqués dans le dogme central de Crick 1982: Création de GeneBank 1990: Première tentative de thérapie génétique 1999: Décryptage complet du chromosome 22 chez lhomme

5 Le dogme central de biologie moléculaire Séquence dopérations de lADN aux protéines transcription : lADN est copié en ARNm traduction : lARNm est traduit en protéines par les ribosomes protéines sont les ouvrières du monde cellulaire Le code de lADN est responsable de la vie cellulaire réplication

6 Domaines de la bioinformatique Algorithmes dalignements Modèles dévolution et arbres phylogénétiques Bases de données Prédictions

7 Domaines de la bioinformatique Algorithmes dalignements

8 Utilisés dans tous les domaines de la bioinformatique Permettent la recherche de similarités entre deux séquences Si la similarité est suffisante, on peut parler dhomologie, il est possible que les séquences: codent la même fonction aient un ancêtre commun

9 Algorithmes dalignement Les algorithmes dalignement cherchent à repérer des régions proches, c'est à dire les régions qui comptabilisent un maximum de caractères communs (appariements) et un minimum de changements (substitutions, insertions et délétions) lorsqu'on les superpose l'une à l'autre. Lévaluation se base sur le nombre dopérations et leur coût pour passer dune séquence à lautre (via des matrices de coûts pour la substitution, insertion et délétion)

10 Alignement local et global L'alignement global est conçu pour comparer des séquences homologues (apparentées) sur toute leur longueur; on peut donc rater des homologies si elles sont très localisées. Algorithme de distance Needleman-Wunsch (1970) Myers & Miller L'alignement local est conçu pour rechercher dans la séquence A des régions semblables à la séquence B (ou à des parties de la séquence B). Smith-Waterman (1981) FASTA (1988) BLAST (1990, version 2 en 1997) Ces algorithmes utilisent la programmation dynamique

11 Programmation dynamique Optimisation pour les algorithmes de type diviser pour régner On divise un problème en sous problèmes Si ces problèmes ne sont pas indépendant (ce qui est le cas dans les algorithmes qui nous concernent) on résout plusieurs fois les mêmes sous problèmes ce qui nest pas optimal On résout donc le problème en stockant en mémoire les résultats de ses sous problèmes, ainsi on ne résout quune seule fois chaque sous problème

12 Algorithme de distance dédition On crée un table T de taille (m + 1) x (n + 1) (m et n tailles des séquences X et Y) T[i,j] représente la distance dédition entre X[0..i] et Y[0..j] (X[0..i] étant la sous séquence de X commençant en 0 et finissant en i) T[-1,-1] = 0 T[i,-1] = T[i-1,-1] + Del(X[i]) T[-1,j] = T[-1,j-1]+Ins(Y[i]) T[i,j] = min(T[i-1,j-1]+Sub(X[i],Y[i]), T[i-1,j]+Del(X[i]), T[i,j-1]+Ins(Y[j])) La distance dédition est T[m+1,n+1] La complexité est de 0(n²) en temps et en espace

13 Algorithme de distance dédition Comparaison de ACT et ATG Coûts: Coût(Ins(x)) = 1 Coût(Del(x)) = 1 Coût(Sub(x,x)) = 0 Coût(Sub(x,y)) = 3 (x y) Les coûts doivent établir une distance ACT 0 A T G

14 Algorithme de distance dédition T[1,1] = T[0,0] + Sub(A,A) = T[0,0] T[3,1] = T[2,1] + Del(A) Alignement optimal, on retourne de T[m+1, n+1] à T[0,0] en suivant les opération effectuées ACT 0123 A1012 T2121 G3232 ACT- A-TG

15 Algorithme Needleman-Wunsch Recherche le meilleur alignement global entre deux séquences Très coûteux en temps Ne détecte pas les motifs seuls 3 étapes 1. Une valeur est affectée à chaque case du tableau en fonction de la similarité/dissimilarité 2. Pour chaque cellule, chercher tous les chemins à partir du début de la séquence (en autorisant les insertions et délétions) et attribuer à la cellule la valeur maximale plus la valeur de la cellule elle-même 3. Construire lalignement optimal en partant de la cellule avec le meilleur score à lorigine

16 Algorithme Needleman-Wunsch Étape 1 On affecte les valeurs de similarité/dissimilarité (ici 1 si similaire, 0 sinon)

17 Algorithme Needleman-Wunsch Étape 2 pour chaque cellule On recherche dans la sous-ligne et la sous-colonne (grisées dans lexemple) la meilleure valeur (ici T[5,5] = 4) On ajoute cette valeur avec celle de la cellule courante (ici = 5) On peut utiliser des pénalités pour les introductions de trous dans lalignement (insertions et délétions), ici pénalité = 0 On obtient 5 pour la cellule de lexemple

18 Algorithme Needleman-Wunsch Étape 3 Le meilleur alignement est celui qui a la valeur maximale La valeur maximale est toujours sur la dernière ligne ou la dernière colonne On construit lalignement en chaînage arrière à partir de la valeur maximale à lorigine

19 Algorithme Smith-Waterman Basé sur lalgorithme de Needleman-Wunsch, mais au lieu de comparer les chaînes sur toute leur longueur, il regarde toutes les sous chaînes et choisit celle qui a la meilleure valeur Pour chaque cellule, lalgorithme calcule tous les chemins qui y arrivent indépendamment de leur taille, du nombre dinsertions et de délétions Lalgorithme ne fonctionne bien que sil y a des pénalité pour les trous (insertions et délétions), sinon on a le même résultat que Needleman- Wunsch

20 Algorithme Smith-Waterman Dans lexemple substitution(a,a) = +1 substitution(a,b) = -1/3 trou(k) = -1 – k/3 (k=taille du trou) Les cellules sont initialisées à 0 La valeur de T[i,j] est le maximum de: T[i-1,j-1] + sub(X i,X j ) T[i,k] + trou(k) (k < j) T[k,j] + trou(k) (k < i) 0 (on recommence un chemin)

21 Algorithme Smith-Waterman La valeur de chaque cellule est la valeur du meilleur alignement se finissant en cette cellule On trace le meilleur chemin à partir de la meilleure cellule Cette cellule peut être nimporte où dans le tableau Lorigine de ce chemin est un 0 qui note le début du nouveau chemin, ce nest pas forcement lorigine (cf exemple)

22 Autres algorithmes BLAST et FAST Variantes de Smith- Waterman avec utilisation dheuristiques Plus rapides, mais risques de manquer des alignements BLAST est plus rapide, FAST plus sensible DotPlot Méthode visuelle (cf exemple) On recherche visuellement les diagonales qui correspondent à des régions de similarité (entourées en rouge)

23 Alignement multiple Lalignement multiple consiste à aligner plusieurs séquences de façon globale Objectifs: Caractérisation des familles de protéines Définition des motifs fonctionnels et des domaines Aider à la prédiction de structures secondaires et tertiaires de nouvelles séquences (en comparant avec celles connues) Point de départ pour un traitement phylogénétique Algorithme de CLUSTALW et BLASTn

24 Domaines de la bioinformatique Algorithmes dalignements Modèles dévolution et arbres phylogénétiques

25 Modèle dévolution de LAMARK ( ) Pour Lamark, l'évolution était due à une adaptation continue au milieu ambiant : un environnement changeant altère les besoins de l'organisme vivant qui s'adapte en modifiant son comportement et en utilisant certains organes plus que d'autres. A force détirer son cou pour manger aux arbres, le cou de la girafe devient de plus en plus long

26 Modèle dévolution de DARWIN ( ) Évolution par sélection naturelle Une population est hétérogène et la nature favorise la multiplication de ceux qui ont un avantage dans leur environnement Il existe un processus de mutation qui permet davoir des phénotypes toujours légèrement différents

27 Les théories modernes La théorie de lévolution n'est pas uniformisante comme le pensait les typologistes, mais diversifiante 2 théories pour lexpliquer: La théorie neutraliste La pluparts des mutations restent neutres, se fixent au hasard (seules les mutations très défavorisantes ou létales pour l'individu sont éliminées) et le milieu n'a pas de rôle sélectif. La théorie sélectionniste Le polymorphisme génétique correspond à l'hétérogénéité de la niche écologique dont les conditions changent sans cesse dans le temps, mais aussi dans l'espace. L'espèce polymorphe voit donc sa niche écologique s'agrandir de façon considérable, en même temps que ses ressources augmentent et que la compétition diminue. En réalité, ce n'est pas l'individu, comme le pensaient les darwiniens, ni même les gènes, selon le néodarwinisme, qui constituent l'unité de base du vivant ; c'est toute la population.

28 Évolution convergente et évolution divergente L'évolution convergente correspond à des solutions trouvées de manière indépendante chez des organismes différents pour résoudre le même problème L'évolution divergente correspond au contraire à des protéines ayant le même ancêtre commun mais qui se sont spécialisées dans des fonctions différentes

29 Phylogénie La phylogénie retrace l'évolution des organismes. Elle s'appuie sur la taxonomie, laquelle a pour objet de classer les êtres vivants afin de les regrouper en ensembles suffisamment homogènes pour être comparés entre eux dans le temps et l'espace La phylogénie moléculaire procède par comparaison de gènes, il faut utiliser des gènes qui mutent peu

30 Phylogénie moléculaire La reconstruction est basée sur un ensemble de séquences supposées descendre dune même séquence ancestrale La recherche de blocs « conservés » permet de passer des séquences à un ensemble de sites sur lesquels on peut comparer les séquences Alignement multiple Sur lexemple, on conserve les sites 0,1,2,3,4 des séquences et le reste est éliminé

31 Objectifs de la phylogénie Mieux comprendre les mécanismes de l' évolution et les mécanismes moléculaires associés Connaître l'arbre de la vie (taxonomie) Étudier la biodiversité Déterminer l'origine géographique des espèces

32 Théorie de lhorloge moléculaire Quelques observations Le taux de mutation sur les gènes soumis à la pression sélective est faible exemple: le gène cytochrome B intervenant dans les chaînes d'oxydation cellulaire est très similaires chez tout les êtres vivants Le taux daccumulation des mutations sur des régions homologues (soumises à la même pression sélective) est le même pour toutes les espèces On peut donc tracer un arbre phylogénétique en observant les dissimilarités sur les gènes Si un gène soumis à la pression sélective est différent chez deux espèces, cest quelles ont divergée depuis longtemps Deux approches approche phénétique approche cladistique

33 Approche phénétique Fondée sur les distances Principe La configuration de l'arbre traduit avant tout le degré de similarité, sans nécessairement tenter de refléter l'évolution moléculaire sous-jacente (l'histoire) aux phénotypes observés. Méthode Méthode de clustering : ces programmes procèdent par regroupement successifs (clustering), depuis la paire des séquences les plus proches aux plus éloignées. Résultat Un et un seul arbre sans racine, nommé phénogramme ou dendrogramme Méthode rapide, avec de bons résultats pour des séquences proches Algorithmes : UPGMA, Neighbor Joining, Méthode des moindres carrés

34 Algorithme "Neighbor Joining" (NJ) Saitou & Nei, 1986 NJ regroupe les espèces en fonction de leur distance avec l'ensemble des autres espèces, et non pas de leur distance entre elles. Ce faisant, NJ minimise aussi la longueur totale des branches. Cet algorithme fonctionne même si les vitesse dévolution varient dune branche à lautre Il utilise une heuristique basé sur le principe du minimum dévolution Nexamine pas toutes les configurations Très rapide (comparé à la méthode des moindres carré qui évalue toutes les possibilités) ABCDE B5 C47 D7107 E6965 F Matrice de distance entre 5 séquences et arbre original

35 Algorithme "Neighbor Joining" (NJ) Etape 1: On appelle OTU (Operational Taxonomic Unit) une feuille ou un nœud de l'arbre. Au début, les OTU sont les espèces. On calcule la divergence nette r(i) de chaque OTU avec toutes les autres r(A) = =30 r(B) = 42 r(C) = 32 r(D) = 38 r(E) = 34 r(F) = 44 Etape 2: On calcule une nouvelle matrice de distance qui va donner pour chaque paire d'OTU la distance moyenne de cette paire avec tous les autres OTUs. Formule: M(ij)=d(ij) - [r(i) + r(j)]/(N-2) soit pour la paire A,B: M(AB)=d(AB) -[(r(A) + r(B)]/(N-2) = -13 ABCDE B-13 C-11.5 D E F

36 Algorithme "Neighbor Joining" (NJ) Etape 3: On choisit comme voisins les 2 OTU pour lesquels Mij est le plus petit. Ce sont A et B; ou D et E. Prenons A et B et créons un nouveau nœud appelé U. On calcule ensuite les longueurs des branches entre le nœud interne U et les OTU A et B et avec tous les autres nœuds terminaux d(AU) =d(AB) / 2 + [r(A)-r(B)] / 2(N-2) = 1 d(BU) =d(AB) -d(AU) = 4 d(CU) = d(AC) + d(BC) - d(AB) / 2 = 3 d(DU) = d(AD) + d(BD) - d(AB) / 2 = 6 d(EU) = d(AE) + d(BE) - d(AB) / 2 = 5 d(FU) = d(AF) + d(BF) - d(AB) / 2 = 7

37 Algorithme "Neighbor Joining" (NJ) On obtient larbre ci-contre On recommence à létape 1, avec une matrice réduite dune ligne et dune colonne (A et B sont remplacé par U)

38 Approche cladistique Fondée sur les séquences Principe La configuration de l'arbre tente de représenter le degré de parenté en intégrant l'évolution moléculaire sous-jacente aux phénotypes observés Méthode Ces méthodes construisent l'arbre en considérant les différentes configurations possibles (les différentes voies évolutives possibles) et choisissent la meilleure parmi celles-ci. Ces méthodes se caractérisent par : Le critère quantitatif qui évalue les configurations et intègre les hypothèses biologiques propres à la méthode. L'algorithme qui calcule cette quantité pour un arbre donné. La stratégie de recherche du meilleur arbre définit suivant ce critère. Résultat Un ou plusieurs arbres ex-aequo, nommé cladogramme Elles peuvent reconstituer les séquences ancestrales occupant les nœuds de l'arbre. Méthode très lente Algorithmes: méthode de parcimonie, de compatibilité, de vraisemblance maximum

39 Algorithme de parcimonie La parcimonie consiste a minimiser le nombre de "pas" (mutations / substitutions) nécessaires pour passer d'une séquence à une autre dans une topologie de l'arbre Hypothèses: les sites évoluent indépendamment les uns des autres la vitesse d'évolution est lente et constante au cours du temps On travaille sur les arbres non enraciné pour réduire la complexité Pour 8 OTU, il y a arbres non enraciné et arbres enracinés

40 Algorithme de parcimonie 1GGA 2GGG 3ACA 4ACG Séquence AAGAGTGCA 2AGCCGTGCG 3AGATATCCA 4AGAGATCCG On ne travaille que sur les sites informatifs au moins deux nucléotides différents à cette position chacun dans au moins deux séquences exemple: on ne conserve que les sites 5,7,9

41 Algorithme de parcimonie Avec lexemple précédent on peut construire 3 arbres non enracinés Le premier a besoin de 4 mutations, le second de 5 et le troisième de 6 Larbre le plus parcimonieux est donc le premier Il est possible de trouver plusieurs arbres optimaux On peut utiliser le bootstrap (avec les arbres obtenus) pour trouver larbre consensus

42 Évaluation des arbres phylogénétiques Le bootstrap : consiste à effectuer un tirage des sites au hasard avec remise (réplication) générations des nouveaux arbres recense les groupements les plus fréquemment rencontrés sur l'ensemble des arbres si un groupement est présent sur 95% des arbres, on le dit fiable il faut 1000 réplications pour que la méthode soit statistiquement valable Delete-half-Jackknifing Cette méthode ré-échantillonne la moitié des sites des séquences et élimine le reste (donne des résultats très similaires à ceux obtenus par bootstrap).

43 Domaines de la bioinformatique Algorithmes dalignements Modèles dévolution et arbres phylogénétiques Bases de données

44 Diverses banques de données Séquences de gènes : GenBank (NCBI), EMBL (EBI ), DDBJ Séquences de protéines : SWISS-PROT, PIR, ENZYME Structures macromoléculaires 3D : PDB, MMDB

45 Évolution de la banque EMBL

46 Bases de données Explosion des données : Séquences du génomes : 16 milliards de paires de bases Le génomes humain : 3,2 milliards Séquences de protéines : SWISSPROT : séquences annotées TrEMBL : séquences Structures de protéines : PDB : structures

47 Intégrations des bases de données Chaque base de données a son format propre Certains format standard existent : asn.1, fasta, mais aucun nest universel Existences de bases intégrées: Permet des recherches simples sur plusieurs bases de données hétérogènes Ex: Entrez (NCBI) intègre des publications, des bases de nucléotides et protéines, des structures 3D de protéines, … Problèmes de différences de terminologies entre les bases et de requêtes complexes sur plusieurs bases. Utilisation complexe

48 Formalisation du savoir Exemples GeneOntology termes de biologie moléculaire Normalisation des protéines de UniProt et Interpro en cours TAMBIS Permet de faire de recherches de concepts Ex : recherche de protéines vérifiant la relation « protéine1 homologue à protéine2 » Les ontologies en bioinformatique

49 Permet denrichir la requête Ex dontologie Si lutilisateur cherche une séquence RYR, on peut aussi lui renvoyer les résultats avec ATG. Gestion de vocabulaires différents Transfert ARN et tARN définissent le même concept Les apports de lontologie Nucléotide AGCT RY Codon compose est un

50 Intégration par vues Création dun schéma qui intègre celui des bases quil utilise Lutilisateur accède de façon transparentes au bases de données La terminologie est unifiée (utilisation dontologie) Permet deffectuer des requêtes complexes dans un langage de haut niveau (ex BioKleisli) Utilisation plus simple car requiert moins de connaissances

51 Domaines de la bioinformatique Algorithmes dalignements Modèles dévolution et arbres phylogénétiques Bases de données Prédictions

52 Prédiction de structure Prédire la structure 3D dune protéine à partir de sa séquence Problème NP-complet [Berger, 1998] Déduire la séquence dADN à partir de la structure Essentiel pour produire des protéines inhibantes

53 Structure dune protéine Structure primaire (1D) séquence des acides aminés enchaînes par des liaisons peptidiques et des ponts disulfures Structure secondaire (2D) repliements (formations périodiques adopté par des portions partielles dune protéine. Géométries possibles: hélice alpha (H), feuillet beta (E : brin étendu) et en coude (C). Structure tertiaire (3D) conformation tridimensionnelle thermodynamiquement stable qu'adoptent les différents éléments de la structure 2D Structure quaternaire (4D) certaines protéines complexe sont constituées de plusieurs sous-unités, lagencement de ces sous unités défini la structure quaternaire

54 Connaissance des structures PDB (Protein Data Bank) > structure de protéines nombre de conformations significativement différentes (ayant moins de 25% dacides aminés identiques) : > 1500 ajout de 6 structures chaque jour La majorité des séquences ont une homologie structurale < 20% On évalue à environ le nombre total de structures protéiques originales qui suffirait à modéliser la quasi-totalité des protéines connues

55 Prédiction de structure 2D Méthode statistique Depuis 1974, à partir des séquences connues on établit une table des proportions des 20 acides aminés, on associe la structure dune séquence avec la plus proche dans la table A partir des propriétés physico-chimiques des acides aminés la charge, l'hydrophobicité et l'hydrophilie influent sur la structure Méthode des plus proches voisins Méthode par réseaux de neurones Méthode des chaînes de Markov L'influence de la structure 3D sur la structure 2D n'est pas prise en compte par ces méthodes, or elle existe

56 Prédiction de structure 3D Comparaison avec une banque de structure de protéines Si la protéine partage au moins 30% de ses acides aminés avec une protéine connue, la structure de cette protéine sert dempreinte pour le modèle structural de la protéine étudiée, ensuite peut raffiner en utilisant deux méthodes: Méthodes substitutives Méthodes géométriques Sinon, on applique le threading: on recherche dans les repliements connus et on essaye de les assembler en optimisant certaines aspect comme lhydrophobie/hydrophilie, le rapport surface/volume, le rayon de giration,... Néanmoins, on atteint au mieux 76% dexactitude avec des réseaux neuronaux, problème encore ouvert

57 Structure dune séquence dADN Seul 1,1% de lADN humain est codant: ce sont les exons Chaque gène est composé dintrons (non codant) et dexons Les gènes représentent 25% du génome humain, le reste est appelé ADN intergénique La fonction de la majeure partie de lADN nest pas connue Une ORF (Open Reading Frame) est la région de lADN entre deux codons stop, possiblement codante

58 Recherche dORF La recherche dORF utilise plusieurs méthodes repérage des phases douverture de lecture longues, statistiquement improbable recherche des signaux nécessaires à la traduction, en particulier le site de fixation du ribosome (RBS) recherche de séquences particulières qui séparent introns et exons, ces séquences sont découvert par des systèmes à apprentissage, ils ne sont ni universels, ni spécifiques comparaison de la distribution des lettres ACGT

59 Codes circulaires Une fois trouvée, une séquence codante de codon (suite de 3 nucléotides) peut commencer à se lire sur 3 positions différentes Un code circulaire est un ensemble de mots tel que, tout mot écrit sur un cercle (la lettre qui suit la dernière lettre du mot est la première lettre du mot) a, au plus, une décomposition unique en mots du code. Le décodage dun mot écrit à partir de mots dun code circulaire est donc non ambigu Or, les séquences codantes semblent écrites avec un code circulaire, il est donc aisé de trouver la fenêtre de lecture

60 Détermination de la fonction dun gène Par similarité de séquence Par similarité de structure 3D Par l'étude de l'expression du gène dans l'espace et dans le temps On regarde la densité de lARNm produit selon les cellules, létat de développement, le milieu... Puces à ADN Par observation des effets de l'altération ou de la délétion du gène

61 Puces à ADN Mesures massivement parallèles et quantitatives de lexpression des gènes (transcrits/ARNm) On hybride de lADN complémentaire (ADNc) synthétique avec de lADN de cellules et on regarde lexpression des gènes On peut tester ADNc simultanément Exemple de puce à ADN, on a hybridé de échantillon dADNc (ADN complémentaire) synthétique (cible) avec de lADN de cellules (sonde) saines et dautres cancéreuses (en double couche), la superposition des deux couches montre quels ADNc sont efficaces contre le cancer

62

63 Conclusion La bioinformatique est un domaine vaste Il reste de nombreux problèmes ouverts Prédiction de structures 3D Gestion de lexplosion des données Les progrès en bioinformatique permettent des avancées importantes en terme de santé 17 enfants atteints de déficit immunitaire combiné sévère ont été soigné par thérapie génétique


Télécharger ppt "Etat de lart en Bioinformatique Sébastien Derivaux pour le cours de bioinformatique de Christian Michel."

Présentations similaires


Annonces Google