Etat de l’art en Bioinformatique Sébastien Derivaux pour le cours de bioinformatique de Christian Michel
Définition La Bioinformatique est la discipline qui permet de mettre l’outil informatique au service des biologistes: stocker, extraire, organiser, analyser, interpréter et utiliser les données biologiques
Les données biologiques La bioinformatique utilise 3 sources de données : Les séquences de nucléotides (ADN - ARNm) Les séquences d’aminoacides Des informations sur les protéines (notamment leur structures)
Bref historique 1953: Watson et Crick découvrent la structure en double hélice de l’ADN 1962: Zuckerland et Pauling créent la théorie de l’horloge moléculaire 1965: Monod, Jacob et Wolf découvrent les mécanismes de la régulation génétique impliqués dans le dogme central de Crick 1982: Création de GeneBank 1990: Première tentative de thérapie génétique 1999: Décryptage complet du chromosome 22 chez l’homme
Le dogme central de biologie moléculaire Séquence d’opérations de l’ADN aux protéines transcription : l’ADN est copié en ARNm traduction : l’ARNm est traduit en protéines par les ribosomes protéines sont les ouvrières du monde cellulaire Le code de l’ADN est responsable de la vie cellulaire réplication
Domaines de la bioinformatique Algorithmes d’alignements Modèles d’évolution et arbres phylogénétiques Bases de données Prédictions
Domaines de la bioinformatique Algorithmes d’alignements
Algorithmes d’alignements Utilisés dans tous les domaines de la bioinformatique Permettent la recherche de similarités entre deux séquences Si la similarité est suffisante, on peut parler d’homologie, il est possible que les séquences: codent la même fonction aient un ancêtre commun
Algorithmes d’alignement Les algorithmes d’alignement cherchent à repérer des régions proches, c'est à dire les régions qui comptabilisent un maximum de caractères communs (appariements) et un minimum de changements (substitutions, insertions et délétions) lorsqu'on les superpose l'une à l'autre. L’évaluation se base sur le nombre d’opérations et leur coût pour passer d’une séquence à l’autre (via des matrices de coûts pour la substitution, insertion et délétion)
Alignement local et global L'alignement global est conçu pour comparer des séquences homologues (apparentées) sur toute leur longueur; on peut donc rater des homologies si elles sont très localisées. Algorithme de distance Needleman-Wunsch (1970) Myers & Miller L'alignement local est conçu pour rechercher dans la séquence A des régions semblables à la séquence B (ou à des parties de la séquence B). Smith-Waterman (1981) FASTA (1988) BLAST (1990, version 2 en 1997) Ces algorithmes utilisent la programmation dynamique
Programmation dynamique Optimisation pour les algorithmes de type diviser pour régner On divise un problème en sous problèmes Si ces problèmes ne sont pas indépendant (ce qui est le cas dans les algorithmes qui nous concernent) on résout plusieurs fois les mêmes sous problèmes ce qui n’est pas optimal On résout donc le problème en stockant en mémoire les résultats de ses sous problèmes, ainsi on ne résout qu’une seule fois chaque sous problème
Algorithme de distance d’édition On crée un table T de taille (m + 1) x (n + 1) (m et n tailles des séquences X et Y) T[i,j] représente la distance d’édition entre X[0..i] et Y[0..j] (X[0..i] étant la sous séquence de X commençant en 0 et finissant en i) T[-1,-1] = 0 T[i,-1] = T[i-1,-1] + Del(X[i]) T[-1,j] = T[-1,j-1]+Ins(Y[i]) T[i,j] = min(T[i-1,j-1]+Sub(X[i],Y[i]), T[i-1,j]+Del(X[i]), T[i,j-1]+Ins(Y[j])) La distance d’édition est T[m+1,n+1] La complexité est de 0(n²) en temps et en espace
Algorithme de distance d’édition Comparaison de ACT et ATG Coûts: Coût(Ins(x)) = 1 Coût(Del(x)) = 1 Coût(Sub(x,x)) = 0 Coût(Sub(x,y)) = 3 (x ≠ y) Les coûts doivent établir une distance A C T G
Algorithme de distance d’édition 1 2 3 G T[1,1] = T[0,0] + Sub(A,A) = T[0,0] T[3,1] = T[2,1] + Del(A) Alignement optimal, on retourne de T[m+1, n+1] à T[0,0] en suivant les opération effectuées ACT- A-TG
Algorithme Needleman-Wunsch Recherche le meilleur alignement global entre deux séquences Très coûteux en temps Ne détecte pas les motifs seuls 3 étapes 1. Une valeur est affectée à chaque case du tableau en fonction de la similarité/dissimilarité 2. Pour chaque cellule, chercher tous les chemins à partir du début de la séquence (en autorisant les insertions et délétions) et attribuer à la cellule la valeur maximale plus la valeur de la cellule elle-même 3. Construire l’alignement optimal en partant de la cellule avec le meilleur score à l’origine
Algorithme Needleman-Wunsch Étape 1 On affecte les valeurs de similarité/dissimilarité (ici 1 si similaire, 0 sinon)
Algorithme Needleman-Wunsch Étape 2 pour chaque cellule On recherche dans la sous-ligne et la sous-colonne (grisées dans l’exemple) la meilleure valeur (ici T[5,5] = 4) On ajoute cette valeur avec celle de la cellule courante (ici 4 + 1 = 5) On peut utiliser des pénalités pour les introductions de trous dans l’alignement (insertions et délétions), ici pénalité = 0 On obtient 5 pour la cellule de l’exemple
Algorithme Needleman-Wunsch Étape 3 Le meilleur alignement est celui qui a la valeur maximale La valeur maximale est toujours sur la dernière ligne ou la dernière colonne On construit l’alignement en chaînage arrière à partir de la valeur maximale à l’origine
Algorithme Smith-Waterman Basé sur l’algorithme de Needleman-Wunsch, mais au lieu de comparer les chaînes sur toute leur longueur, il regarde toutes les sous chaînes et choisit celle qui a la meilleure valeur Pour chaque cellule, l’algorithme calcule tous les chemins qui y arrivent indépendamment de leur taille, du nombre d’insertions et de délétions L’algorithme ne fonctionne bien que s’il y a des pénalité pour les trous (insertions et délétions), sinon on a le même résultat que Needleman-Wunsch
Algorithme Smith-Waterman Dans l’exemple substitution(a,a) = +1 substitution(a,b) = -1/3 trou(k) = -1 – k/3 (k=taille du trou) Les cellules sont initialisées à 0 La valeur de T[i,j] est le maximum de: T[i-1,j-1] + sub(Xi,Xj) T[i,k] + trou(k) (k < j) T[k,j] + trou(k) (k < i) 0 (on recommence un chemin)
Algorithme Smith-Waterman La valeur de chaque cellule est la valeur du meilleur alignement se finissant en cette cellule On trace le meilleur chemin à partir de la meilleure cellule Cette cellule peut être n’importe où dans le tableau L’origine de ce chemin est un 0 qui note le début du nouveau chemin, ce n’est pas forcement l’origine (cf exemple)
Autres algorithmes BLAST et FAST DotPlot Variantes de Smith-Waterman avec utilisation d’heuristiques Plus rapides, mais risques de manquer des alignements BLAST est plus rapide, FAST plus sensible DotPlot Méthode visuelle (cf exemple) On recherche visuellement les diagonales qui correspondent à des régions de similarité (entourées en rouge)
Alignement multiple L’alignement multiple consiste à aligner plusieurs séquences de façon globale Objectifs: Caractérisation des familles de protéines Définition des motifs fonctionnels et des domaines Aider à la prédiction de structures secondaires et tertiaires de nouvelles séquences (en comparant avec celles connues) Point de départ pour un traitement phylogénétique Algorithme de CLUSTALW et BLASTn
Domaines de la bioinformatique Algorithmes d’alignements Modèles d’évolution et arbres phylogénétiques
Modèle d’évolution de LAMARK (1744-1829) Pour Lamark, l'évolution était due à une adaptation continue au milieu ambiant : un environnement changeant altère les besoins de l'organisme vivant qui s'adapte en modifiant son comportement et en utilisant certains organes plus que d'autres. A force d’étirer son cou pour manger aux arbres, le cou de la girafe devient de plus en plus long
Modèle d’évolution de DARWIN (1809-1882) Évolution par sélection naturelle Une population est hétérogène et la nature favorise la multiplication de ceux qui ont un avantage dans leur environnement Il existe un processus de mutation qui permet d’avoir des phénotypes toujours légèrement différents
Les théories modernes La théorie de l’évolution n'est pas uniformisante comme le pensait les typologistes, mais diversifiante 2 théories pour l’expliquer: La théorie neutraliste La pluparts des mutations restent neutres, se fixent au hasard (seules les mutations très défavorisantes ou létales pour l'individu sont éliminées) et le milieu n'a pas de rôle sélectif. La théorie sélectionniste Le polymorphisme génétique correspond à l'hétérogénéité de la niche écologique dont les conditions changent sans cesse dans le temps, mais aussi dans l'espace. L'espèce polymorphe voit donc sa niche écologique s'agrandir de façon considérable, en même temps que ses ressources augmentent et que la compétition diminue. En réalité, ce n'est pas l'individu, comme le pensaient les darwiniens, ni même les gènes, selon le néodarwinisme, qui constituent l'unité de base du vivant ; c'est toute la population.
Évolution convergente et évolution divergente L'évolution convergente correspond à des solutions trouvées de manière indépendante chez des organismes différents pour résoudre le même problème L'évolution divergente correspond au contraire à des protéines ayant le même ancêtre commun mais qui se sont spécialisées dans des fonctions différentes
Phylogénie La phylogénie retrace l'évolution des organismes. Elle s'appuie sur la taxonomie, laquelle a pour objet de classer les êtres vivants afin de les regrouper en ensembles suffisamment homogènes pour être comparés entre eux dans le temps et l'espace La phylogénie moléculaire procède par comparaison de gènes, il faut utiliser des gènes qui mutent peu
Phylogénie moléculaire La reconstruction est basée sur un ensemble de séquences supposées descendre d’une même séquence ancestrale La recherche de blocs « conservés » permet de passer des séquences à un ensemble de sites sur lesquels on peut comparer les séquences Alignement multiple Sur l’exemple, on conserve les sites 0,1,2,3,4 des séquences et le reste est éliminé
Objectifs de la phylogénie Mieux comprendre les mécanismes de l' évolution et les mécanismes moléculaires associés Connaître l'arbre de la vie (taxonomie) Étudier la biodiversité Déterminer l'origine géographique des espèces
Théorie de l’horloge moléculaire Quelques observations Le taux de mutation sur les gènes soumis à la pression sélective est faible exemple: le gène cytochrome B intervenant dans les chaînes d'oxydation cellulaire est très similaires chez tout les êtres vivants Le taux d’accumulation des mutations sur des régions homologues (soumises à la même pression sélective) est le même pour toutes les espèces On peut donc tracer un arbre phylogénétique en observant les dissimilarités sur les gènes Si un gène soumis à la pression sélective est différent chez deux espèces, c’est qu’elles ont divergée depuis longtemps Deux approches approche phénétique approche cladistique
Approche phénétique Fondée sur les distances Principe Méthode Résultat La configuration de l'arbre traduit avant tout le degré de similarité, sans nécessairement tenter de refléter l'évolution moléculaire sous-jacente (l'histoire) aux phénotypes observés. Méthode Méthode de clustering : ces programmes procèdent par regroupement successifs (clustering), depuis la paire des séquences les plus proches aux plus éloignées. Résultat Un et un seul arbre sans racine, nommé phénogramme ou dendrogramme Méthode rapide, avec de bons résultats pour des séquences proches Algorithmes : UPGMA, Neighbor Joining, Méthode des moindres carrés
Algorithme "Neighbor Joining" (NJ) Saitou & Nei, 1986 NJ regroupe les espèces en fonction de leur distance avec l'ensemble des autres espèces, et non pas de leur distance entre elles. Ce faisant, NJ minimise aussi la longueur totale des branches. Cet algorithme fonctionne même si les vitesse d’évolution varient d’une branche à l’autre Il utilise une heuristique basé sur le principe du minimum d’évolution N’examine pas toutes les configurations Très rapide (comparé à la méthode des moindres carré qui évalue toutes les possibilités) A B C D E 5 4 7 10 6 9 F 8 11 Matrice de distance entre 5 séquences et arbre original
Algorithme "Neighbor Joining" (NJ) Etape 1: On appelle OTU (Operational Taxonomic Unit) une feuille ou un nœud de l'arbre. Au début, les OTU sont les espèces. On calcule la divergence nette r(i) de chaque OTU avec toutes les autres r(A) = 5+4+7+6+8=30 r(B) = 42 r(C) = 32 r(D) = 38 r(E) = 34 r(F) = 44 Etape 2: On calcule une nouvelle matrice de distance qui va donner pour chaque paire d'OTU la distance moyenne de cette paire avec tous les autres OTUs. Formule: M(ij)=d(ij) - [r(i) + r(j)]/(N-2) soit pour la paire A,B: M(AB)=d(AB) -[(r(A) + r(B)]/(N-2) = -13 A B C D E -13 -11.5 -10 -10.5 F -11
Algorithme "Neighbor Joining" (NJ) Etape 3: On choisit comme voisins les 2 OTU pour lesquels Mij est le plus petit. Ce sont A et B; ou D et E. Prenons A et B et créons un nouveau nœud appelé U. On calcule ensuite les longueurs des branches entre le nœud interne U et les OTU A et B et avec tous les autres nœuds terminaux d(AU) =d(AB) / 2 + [r(A)-r(B)] / 2(N-2) = 1 d(BU) =d(AB) -d(AU) = 4 d(CU) = d(AC) + d(BC) - d(AB) / 2 = 3 d(DU) = d(AD) + d(BD) - d(AB) / 2 = 6 d(EU) = d(AE) + d(BE) - d(AB) / 2 = 5 d(FU) = d(AF) + d(BF) - d(AB) / 2 = 7
Algorithme "Neighbor Joining" (NJ) On obtient l’arbre ci-contre On recommence à l’étape 1, avec une matrice réduite d’une ligne et d’une colonne (A et B sont remplacé par U)
Approche cladistique Fondée sur les séquences Principe Méthode La configuration de l'arbre tente de représenter le degré de parenté en intégrant l'évolution moléculaire sous-jacente aux phénotypes observés Méthode Ces méthodes construisent l'arbre en considérant les différentes configurations possibles (les différentes voies évolutives possibles) et choisissent la meilleure parmi celles-ci. Ces méthodes se caractérisent par : Le critère quantitatif qui évalue les configurations et intègre les hypothèses biologiques propres à la méthode. L'algorithme qui calcule cette quantité pour un arbre donné. La stratégie de recherche du meilleur arbre définit suivant ce critère. Résultat Un ou plusieurs arbres ex-aequo, nommé cladogramme Elles peuvent reconstituer les séquences ancestrales occupant les nœuds de l'arbre. Méthode très lente Algorithmes: méthode de parcimonie, de compatibilité, de vraisemblance maximum
Algorithme de parcimonie La parcimonie consiste a minimiser le nombre de "pas" (mutations / substitutions) nécessaires pour passer d'une séquence à une autre dans une topologie de l'arbre Hypothèses: les sites évoluent indépendamment les uns des autres la vitesse d'évolution est lente et constante au cours du temps On travaille sur les arbres non enraciné pour réduire la complexité Pour 8 OTU, il y a 10 395 arbres non enraciné et 135 135 arbres enracinés
Algorithme de parcimonie On ne travaille que sur les sites informatifs au moins deux nucléotides différents à cette position chacun dans au moins deux séquences exemple: on ne conserve que les sites 5,7,9 Séquence 1 2 3 4 5 6 7 8 9 A G T C 1 G A 2 3 C 4
Algorithme de parcimonie Avec l’exemple précédent on peut construire 3 arbres non enracinés Le premier a besoin de 4 mutations, le second de 5 et le troisième de 6 L’arbre le plus parcimonieux est donc le premier Il est possible de trouver plusieurs arbres optimaux On peut utiliser le bootstrap (avec les arbres obtenus) pour trouver l’arbre consensus
Évaluation des arbres phylogénétiques Le bootstrap : consiste à effectuer un tirage des sites au hasard avec remise (réplication) générations des nouveaux arbres recense les groupements les plus fréquemment rencontrés sur l'ensemble des arbres si un groupement est présent sur 95% des arbres, on le dit fiable il faut 1000 réplications pour que la méthode soit statistiquement valable Delete-half-Jackknifing Cette méthode ré-échantillonne la moitié des sites des séquences et élimine le reste (donne des résultats très similaires à ceux obtenus par bootstrap).
Domaines de la bioinformatique Algorithmes d’alignements Modèles d’évolution et arbres phylogénétiques Bases de données
Bases de données Diverses banques de données Séquences de gènes : GenBank (NCBI), EMBL (EBI), DDBJ Séquences de protéines : SWISS-PROT, PIR, ENZYME Structures macromoléculaires 3D : PDB, MMDB
Évolution de la banque EMBL
Bases de données Explosion des données : Séquences du génomes : 16 milliards de paires de bases Le génomes humain : 3,2 milliards Séquences de protéines : SWISSPROT : 130000 séquences annotées TrEMBL : 850000 séquences Structures de protéines : PDB : 25000 structures
Intégrations des bases de données Chaque base de données a son format propre Certains format standard existent : asn.1, fasta, mais aucun n’est universel Existences de bases intégrées: Permet des recherches simples sur plusieurs bases de données hétérogènes Ex: Entrez (NCBI) intègre des publications, des bases de nucléotides et protéines, des structures 3D de protéines, … Problèmes de différences de terminologies entre les bases et de requêtes complexes sur plusieurs bases. Utilisation complexe
Les ontologies en bioinformatique Formalisation du savoir Exemples GeneOntology 19000 termes de biologie moléculaire Normalisation des protéines de UniProt et Interpro en cours TAMBIS Permet de faire de recherches de concepts Ex : recherche de protéines vérifiant la relation « protéine1 homologue à protéine2 »
Les apports de l’ontologie Permet d’enrichir la requête Ex d’ontologie Si l’utilisateur cherche une séquence RYR, on peut aussi lui renvoyer les résultats avec ATG. Gestion de vocabulaires différents Transfert ARN et tARN définissent le même concept compose Nucléotide Codon est un R Y A G C T
Intégration par vues Création d’un schéma qui intègre celui des bases qu’il utilise L’utilisateur accède de façon transparentes au bases de données La terminologie est unifiée (utilisation d’ontologie) Permet d’effectuer des requêtes complexes dans un langage de haut niveau (ex BioKleisli) Utilisation plus simple car requiert moins de connaissances
Domaines de la bioinformatique Algorithmes d’alignements Modèles d’évolution et arbres phylogénétiques Bases de données Prédictions
Prédiction de structure Prédire la structure 3D d’une protéine à partir de sa séquence Problème NP-complet [Berger, 1998] Déduire la séquence d’ADN à partir de la structure Essentiel pour produire des protéines inhibantes
Structure d’une protéine Structure primaire (1D) séquence des acides aminés enchaînes par des liaisons peptidiques et des ponts disulfures Structure secondaire (2D) repliements (formations périodiques adopté par des portions partielles d’une protéine. Géométries possibles: hélice alpha (H), feuillet beta (E : brin étendu) et en coude (C). Structure tertiaire (3D) conformation tridimensionnelle thermodynamiquement stable qu'adoptent les différents éléments de la structure 2D Structure quaternaire (4D) certaines protéines complexe sont constituées de plusieurs sous-unités, l’agencement de ces sous unités défini la structure quaternaire
Connaissance des structures PDB (Protein Data Bank) > 25000 structure de protéines nombre de conformations significativement différentes (ayant moins de 25% d’acides aminés identiques) : > 1500 ajout de 6 structures chaque jour La majorité des séquences ont une homologie structurale < 20% On évalue à environ 10000 le nombre total de structures protéiques originales qui suffirait à modéliser la quasi-totalité des protéines connues
Prédiction de structure 2D Méthode statistique Depuis 1974, à partir des séquences connues on établit une table des proportions des 20 acides aminés, on associe la structure d’une séquence avec la plus proche dans la table A partir des propriétés physico-chimiques des acides aminés la charge, l'hydrophobicité et l'hydrophilie influent sur la structure Méthode des plus proches voisins Méthode par réseaux de neurones Méthode des chaînes de Markov L'influence de la structure 3D sur la structure 2D n'est pas prise en compte par ces méthodes, or elle existe
Prédiction de structure 3D Comparaison avec une banque de structure de protéines Si la protéine partage au moins 30% de ses acides aminés avec une protéine connue, la structure de cette protéine sert d’empreinte pour le modèle structural de la protéine étudiée, ensuite peut raffiner en utilisant deux méthodes: Méthodes substitutives Méthodes géométriques Sinon, on applique le threading: on recherche dans les repliements connus et on essaye de les assembler en optimisant certaines aspect comme l’hydrophobie/hydrophilie, le rapport surface/volume, le rayon de giration, ... Néanmoins, on atteint au mieux 76% d’exactitude avec des réseaux neuronaux, problème encore ouvert
Structure d’une séquence d’ADN Seul 1,1% de l’ADN humain est codant: ce sont les exons Chaque gène est composé d’introns (non codant) et d’exons Les gènes représentent 25% du génome humain, le reste est appelé ADN intergénique La fonction de la majeure partie de l’ADN n’est pas connue Une ORF (Open Reading Frame) est la région de l’ADN entre deux codons stop, possiblement codante
Recherche d’ORF La recherche d’ORF utilise plusieurs méthodes repérage des phases d’ouverture de lecture longues, statistiquement improbable recherche des signaux nécessaires à la traduction, en particulier le site de fixation du ribosome (RBS) recherche de séquences particulières qui séparent introns et exons, ces séquences sont découvert par des systèmes à apprentissage, ils ne sont ni universels, ni spécifiques comparaison de la distribution des lettres ACGT
Codes circulaires Une fois trouvée, une séquence codante de codon (suite de 3 nucléotides) peut commencer à se lire sur 3 positions différentes Un code circulaire est un ensemble de mots tel que, tout mot écrit sur un cercle (la lettre qui suit la dernière lettre du mot est la première lettre du mot) a, au plus, une décomposition unique en mots du code. Le décodage d’un mot écrit à partir de mots d’un code circulaire est donc non ambigu Or, les séquences codantes semblent écrites avec un code circulaire, il est donc aisé de trouver la fenêtre de lecture
Détermination de la fonction d’un gène Par similarité de séquence Par similarité de structure 3D Par l'étude de l'expression du gène dans l'espace et dans le temps On regarde la densité de l’ARNm produit selon les cellules, l’état de développement, le milieu ... Puces à ADN Par observation des effets de l'altération ou de la délétion du gène
Puces à ADN Mesures massivement parallèles et quantitatives de l’expression des gènes (transcrits/ARNm) On hybride de l’ADN complémentaire (ADNc) synthétique avec de l’ADN de cellules et on regarde l’expression des gènes On peut tester 10000 ADNc simultanément Exemple de puce à ADN, on a hybridé de échantillon d’ADNc (ADN complémentaire) synthétique (cible) avec de l’ADN de cellules (sonde) saines et d’autres cancéreuses (en double couche), la superposition des deux couches montre quels ADNc sont efficaces contre le cancer
Conclusion La bioinformatique est un domaine vaste Il reste de nombreux problèmes ouverts Prédiction de structures 3D Gestion de l’explosion des données Les progrès en bioinformatique permettent des avancées importantes en terme de santé 17 enfants atteints de déficit immunitaire combiné sévère ont été soigné par thérapie génétique