Aurélia Boissin-Quillon

Slides:

Advertisements

Présentations similaires

La Méthode de Simplexe Standardisation

Advertisements

Non linéarités liées à la thermique

Classification et prédiction

Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.

Localisation fine de QTL par déséquilibre de liaison Simon BOITARD Durée : octobre 2003-septembre 2006 Laboratoire : BIA (biométrie et intelligence artificielle)

Paris F-RO /1/98 De lemploi de modèles pour explorer de nouvelles stratégies de conduite de culture : application à la conduite du blé M.H. Chatelin.

Université Montpellier II

Prédiction de sites dinteraction des protéines par analyse darbres phylogénétiques Stéfan Engelen Génomique Analytique, INSERM U511 Université Pierre et.

Colloque Traitement et Analyse de séquences : compte-rendu

1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.

Fusion de données SENSO

Compressibilité des gaz

Modélisation des systèmes non linéaires par des SIFs

variable aléatoire Discrète

Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé

Chapitre VII :Commande par retour d’état

République Algérienne Démocratique et Populaire Ministère de l’Enseignement Supérieur et de la Recherche Scientifique.

Etienne Bertaud du Chazaud

Un neurone élémentaire

BTS Systèmes Electroniques

Application des algorithmes génétiques

La méthode de Monte Carlo

Décodage des informations

Journée thématique du GDR IFS « Réduction de modèle en IFS » ENSAM – Jeudi 18 mai 2006 Validation de l’approche de la réduction a priori - POD sur l'équation.

La Lettre de linfectiologue Étude NEAT001/ANRS143 : RAL versus TDF/FTC en 1 re ligne (1) 78 centres, 15 pays Européens Critère principal composite (6)

Fonction puissance Montage préparé par : André Ross

Méthode des k plus proches voisins

Programmation logique Démonstrateur automatique

La phylogénomique sans alignement de séquences

Groupe 1: Classes de même intervalle

Présenté par Mathieu Almeida, Amine Ghozlane

Le code génétique Biologie 122.

Produit mixte Montage préparé par : André Ross

Maîtrise des risques et sûreté de fonctionnement – Avignon – 6-10 Octobre 2008 Modélisation des dysfonctionnements dun système dans le cadre dactivités.

Constitution d’un virus

Coloration gap sommet identifiante de graphes

Les réseaux de neurones

Représentation des systèmes dynamiques dans l’espace d’état

Représentation des systèmes dynamiques dans l’espace d’état

Représentation des systèmes dynamiques dans l’espace d’état

Courbes de Bézier.

La corrélation et la régression

Recherche Opérationnelle

Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,

1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome.

Institut Supérieur des Etudes Technologiques de Djerba Exposé du Traitement de Données Réalisé par: Khalifa Marwa Magroun Amira Jawadi Souad L2MDW.

AIP PRIMECA des Pays de La Loire – 9 novembre 2006

Les familles de fonctions

Analyse des Algorithmes

Recherche heuristique dans les bases de données L’algorithme BLAST

MAXIMISER les RESULTATS

Chapitre 2 : l’expression du patrimoine génétique

Paradigmes des Langages de Programmation

Optimisation par les algorithmes génétiques

Programmation linéaire en nombres entiers

1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.

TNS et Analyse Spectrale

Identification of a Novel Circulating Recombinant

Alignement de séquences biologiques

Recherche de motifs par projections aléatoires

20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.

Evaluation des performances des tests diagnostiques en absence de Gold Standard Christophe Combescure Laboratoire de Biostatistique, IURC.

ANNEE UNIVERSITAIRE :2010/2011

Recherche heuristique dans les bases de données L’algorithme BLAST

Résolution des équations différentielles

Régulation de l’expression génétique: la traduction

Validation d’une méthode d’analyse

ECHANTILLONAGE ET ESTIMATION

Processus ponctuels Caractéristiques et Modèles de répartitions spatiales.

Transcription de la présentation:

Aurélia Boissin-Quillon Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon UMR754 « Rétrovirus et pathologie comparée » UMR5208 « Institut Camille Jordan » Directeurs de thèse : Dr Caroline Leroux (DR,INRA) Pr Didier Piau (PR, Université Grenoble 1)

Les rétrovirus Famille des Retroviridae Virus enveloppés à ARN Génome constitué de deux copies d’ARN simple brin env SU TM gag LTR LTR pol

Le genre lentivirus Un genre de la famille des Retroviridae Composé de HIV, EIAV, SRLV, SIV, FIV, BIV Grande variabilité génétique générée lors de la synthèse du matériel génétique

Répartition des mutations le long du génome des lentivirus Mutations pas réparties de manière homogène Principalement gène env, notamment dans la partie codant la glycoprotéine de surface (SU). SU constituée d'une succession de régions constantes (pas ou peu de variabilité génétique) et de régions variables (nombreuses mutations).

C V C V C V C 175 | 248 | 269 295 | | Réference 1 2 3 4 5 6 7 8 9 10 269 295 | | V C Réference 1 2 3 4 5 6 7 8 9 10 11 12 13 14 QEYQCKKVNLNSSDSSNPVR------VEDVMNTTEYWGFKWLEC ..........T--------------------D............ ..........T--------------------D.I.......... ..........TT-------------------............. ..........M--------------------............. ....................------.................. ....................------....I............. .................T..------....I............. ..........TA.N..IS.S------GKGERD............ ......E...TLKS.NSSIPPIHVED...EG.IM.F........ NQTENFKTILVP .........V.. .....L...... ............ ENEMVNIND ........G ........V ......ND- ......... .......SV ........- TDTWIPKGCNETWA N............. N............P .............. .N............ NG............ N...T......... QPPFFLVQEKGIANTSRIGNCGPTIFL ........G.E................ ........G.E.D.............. ........GE................. ........G...T...K.......... ........G.................. ........................... ..........E..S............. ..........RVN..A...........

Identification de régions C et V chez tous les lentivirus SIV V1 V2 V3 V4 V5 (530 aa) C1 C2 C3 C4 C5 C6 BIV V1 V2 V3 V4 V5 V6 (550 aa) C1 C2 C3 C4 C5 C6 C7 EIAV V1 V2 V3 V4 V5 V6 V7 V8 (440 aa) C1 C2 C3 C4 C5 C6 C7 C8 C9

Le contexte biologique Grande variabilité de tous les génomes lentiviraux entraîne des modifications de la biologie des virus : Échappement à la réponse immunitaire, virulence, tropisme cellulaire… L’accumulation de mutations dans les régions variables peut provenir de : Taux de mutations localement élevé Mécanismes de sélection Combinaison de ces deux phénomènes

Objectif Déterminer s’il existe des signatures spécifiques des régions constantes et variables des lentivirus

Méthode : Utiliser des outils mathématiques capables de segmenter les séquences en régions constantes et variables afin d’en extraire des caractéristiques de chacun de ces deux types de régions.

Plan Le contexte biologique Les outils mathématiques Modèles prédictifs des régions constantes et variables d’EIAV Extension des modèles aux autres lentivirus Extraction de mots caractéristiques Une autre application des modèles Conclusions et perspectives

TAC A C TATA TT WYI L A SHMR DP Un peu de vocabulaire… Séquence Lettre Nucléotides Acides aminés TAC A C TATA TT WYI L A SHMR DP Lettre Mot Lettre Mot Alphabet à 4 lettres : A={A,C,G,T} Alphabet à 20 lettres : A={A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}

Comment segmenter les séquences (nt ou aa)? Nombreuses méthodes de segmentation des séquences : Modèles de rupture Modèles de Markov cachés

Les modèles de Markov cachés Une séquence hétérogène est considérée comme une succession de régions statistiquement homogènes appelées états cachés. V1 V2 C1 C2 Chaîne de Markov 1 Chaîne de Markov 2 Chaîne de Markov 1 Chaîne de Markov 2 La succession des états cachés est décrite par une chaîne de Markov inobservable : la chaîne cachée

Les différents modèles de Markov cachés Chaîne des états Chaîne des observations Le modèle M1-M5 : Le modèle M1-M1 : Le modèle M1-M0 : C C C C V V C T G A C C T

Les paramètres des modèles de Markov cachés Un modèle de Markov caché M1-Mm est entièrement défini par : Le nombre N d’états cachés qui correspond au nombre de types de régions Le nombre M de lettres différentes dans la séquence Les lois initiales qui permettent de modéliser ce qui se passe au début de la séquence au niveau des états et au niveau des observations La matrice de transition T de la chaîne des états La matrice d’émission E de la chaîne des observations

La matrice de transition T Les matrices de transition T et d’émission E La matrice de transition T Elle modélise la relation entre les états (passage d’un type de région à l’autre) T(k,l)=P(Si+1=l | Si=k) pour k,l Є S avec ∑l ЄS T(k,l)=1 La matrice d’émission E Elle modélise la relation entre les observations et les états. Soit xi:j = (xi,xi+1,…,xj), alors, pour a1:m+1 Є A et k Є S : E(k ,a1:m,am+1)=P(Xi+1=am+1 | Xi-m+1:i =a1:m, Si+1=k ) avec ∑am+1 Є A E(k ,a1:m, am+1) = 1 E = MC MV

Estimation des paramètres Soient X(1),..,X(p) p séquences nucléotidiques ou déduites en acides aminés. Soit θ= {T,E} l’ensemble des paramètres du modèle à estimer. On cherche : θ = argmax P(X(1),…,X(p) | θ) ^ Deux situations : La séquence des états cachés est connue (alignement)  Comptage direct La séquence des états cachés est inconnue  Algorithme de Baum-Welch

Algorithme de Baum-Welch Algorithme de Baum-Welch = cas particulier de l’algorithme EM (expectation-maximisation) Algorithme itératif consistant en l’alternance de deux phases: Phase E : Estimation de la séquence des états cachés Phase M : Maximisation de la vraisemblance A chaque itération, un nouvel ensemble de paramètres θ’ augmentant la vraisemblance est défini.  Convergence vers un maximum local

Reconstruction de la séquence des états cachés G T A C G T Séquence des observations Séquence des états cachés 1 2 Régions C et V C V Pour tout 1 ≤ i ≤ n et tout k Є S, on calcule : P(Si=k | X) Séquence des états cachés les plus probables

Plan Le contexte biologique Les outils mathématiques Modèles prédictifs des régions constantes et variables d’EIAV Extension des modèles aux autres lentivirus Extraction de mots caractéristiques Une autre application des modèles Conclusions et perspectives

Échantillon d’apprentissage : 94 Le matériel utilisé EIAV V1 V2 V3 V4 V5 V6 V7 V8 187 séquences (GenBank) 1200 nt ou 400 aa Échantillon d’apprentissage : 94 Échantillon de test : 93

Quels modèles de Markov cachés? Alphabet 4 lettres (nt) 20 lettres (aa) Nombre d’états cachés N Deux types de régions : C et V  N=2 Ordre du modèle m Pas de procédure statistique bien définie  augmentation progressive

Oscillation de la séquence des états cachés V5 V1 V2 V6 V7 V8 V3 V4 200 400 600 800 1000 1200 nucléotides Modèle M1-M5 sur les séquences nucléotidiques

Définition d’un nouvel algorithme Amélioration de l’estimation de la matrice d’émission Introduction d’une information supplémentaire Algorithme de Baum-Welch avec matrice d’émission fixée La matrice d’émission E va être estimée par comptage direct. La matrice de transition T va être estimée par une variante de l’algorithme de Baum-Welch.

Description de l’algorithme de Baum-Welch avec matrice d’émission fixée Estimation des matrices d’émission sur chaque type de régions par comptage direct après alignement des séquences d’entraînement Assemblage des matrices d’émission de chaque type de régions pour former un estimateur de la matrice E Estimation de la matrice de transition T avec l’algorithme de Baum-Welch dont la phase M a été modifiée pour garder la matrice d’émission E à sa valeur estimée

Influence de l’ordre sur la qualité prédictive Modèle M1-M0 sur les séquences nucléotidiques État 2 État 1 V5 V1 V2 V6 V7 V8 V3 V4 V5 V1 V2 V6 V7 V8 V3 V4 200 400 600 800 1000 1200 nucléotides

Influence de l’ordre sur la qualité prédictive Modèle M1-M1 sur les séquences nucléotidiques État 2 État 1 V5 V1 V2 V6 V7 V8 V3 V4 V5 V1 V2 V6 V7 V8 V3 V4 200 400 600 800 1000 1200 nucléotides

Modèle M1-M5 sur les séquences nucléotidiques Les régions C et V d’EIAV ont des compositions en mots de nucléotides différentes Modèle M1-M5 sur les séquences nucléotidiques 200 400 800 1000 1200 600 État 2 État 1 nucléotides V5 V1 V2 V6 V7 V8 V3 V4

Modèle M1-M1 sur les séquences déduites en acides aminés Les régions C et V d’EIAV ont des compositions en mots d’acides aminés différentes Modèle M1-M1 sur les séquences déduites en acides aminés 100 200 400 300 État 2 État 1 acides aminés V5 V1 V2 V6 V7 V8 V3 V4

Pour résumer : Il existe des modèles de Markov cachés d’ordre 5 sur les nucléotides ou d’ordre 1 sur les acides aminés capables de différencier avec une grande précision les régions C et V d’EIAV  Il existe des différences statistiques entre les compositions en mots de nucléotides ou d’acides aminés des régions C et V  Les régions C d’EIAV possèdent des propriétés statistiques suffisamment similaires pour être reconnues par un seul état  Les régions V d’EIAV possèdent des propriétés statistiques suffisamment similaires pour être reconnues par un seul état, tout en ayant chacune un profil statistique qui lui est propre

Modèle M1-M5 sur les séquences nucléotidiques Les régions V d’EIAV ont des compositions en mots de nucléotides différentes Modèle M1-M5 sur les séquences nucléotidiques État 9 État 8 État 7 État 6 État 5 État 4 État 3 État 2 État 1 V1 V2 V3 V4 V5 V6 V7 V8 200 400 600 800 1000 1200 nucléotides

Un biais possible : le surentraînement séquence précoce séquence tardive 42 - - 250 41 - - 200 40 - - 150 Temperature °C 39 - - 100 38 - 37 - - 50 - 0 - 100 - 200 - 300 - 400 - 500 - 600 - 700 - 800 - 900 - 1000 jours post- infection Exemple de séquence d’apprentissage : séquence précoce V1 V2 V3 V4 CKRVNLKKVNLTSSDSSIRVEDVGNTTEYWG Exemple de séquence de test : séquence tardive V1 V2 V3 V4 CKEVYWG

Les modèles ne sont pas surentraînés État 9 État 8 État 7 État 6 État 5 État 4 État 3 État 2 État 1 V1 V2 V3 V4 V5 V6 V7 V8 200 400 600 800 1000 1200 nucléotides Modèle M1-M5 sur les séquences nucléotidiques

Un autre biais possible : influence de l’ordre et de la position des régions variables Exemple de séquence d’apprentissage V1 V2 V3 V7 V8 Exemple de séquence de test V1 V7’ V2 V3 V7 V8

Les modèles ne sont pas influencés par l’ordre ou la position des régions variables État 9 État 8 État 7 État 6 État 5 État 4 État 3 État 2 État 1 V1 V7’ V2 V3 V4 V5 V6 V7 V8 200 400 600 800 1000 1200 nucléotides

Pour résumer : Il est possible de différencier les régions C et V d’EIAV à l’aide de modèles de Markov cachés. Ces modèles ne sont basés ni sur un alignement de séquences, ni sur l’identification de grands motifs, ni sur l’ordre, la position ou la longueur des différentes régions. Ces modèles s’appuient sur la composition en mots de nucléotides ou d’acides aminés de chaque type de région. Il existe des différences statistiques entre les compositions en mots de nucléotides ou d’acides aminés des régions C et V

Quantification de la séparation des régions C et V d’EIAV Définition d’une « distance » entre matrices d’émission : Soient P et Q les matrices de transition de deux chaînes de Markov et π la mesure stationnaire associée à P. H(P|Q) = ∑(i,j) π(i) P(i,j) log P(i,j) Q(i,j) δ(P,Q)=H(P|Q)+H(Q|P) Entropie relative : Entropie relative symétrisée :

Etude de la séparation des régions C et V d’EIAV Etude de la distance entre les régions constantes et variables d’EIAV : δ(Ci,C) < δ(Ci,Vj) pour tous i et j δ(Vi,V) < δ(Vi,Cj) pour tous i et j Test statistique il existe une différence significative entre les régions constantes et variables chaque région possède une signature qui lui est propre. Il existe une séparation entre le groupe des régions constantes et le groupe des régions variables.

Plan Le contexte biologique Les outils mathématiques Modèles prédictifs des régions constantes et variables d’EIAV Extension des modèles aux autres lentivirus Extraction de mots caractéristiques Une autre application des modèles Conclusions et perspectives

Modèle M1-M5 sur les séquences nucléotidiques Définition de modèles de Markov cachés prédictifs des régions C et V des autres lentivirus Exemple : HIV-1 nucléotides Modèle M1-M5 sur les séquences nucléotidiques

Modèle M1-M1 sur les séquences déduites en acides aminés Définition de modèles de Markov cachés prédictifs des régions C et V des autres lentivirus Exemple : HIV-1 acides aminés Modèle M1-M1 sur les séquences déduites en acides aminés

Performance des modèles Lentivirus EIAV 96 HIV-1 94 SIV 89 SRLV % d’acides aminés bien étiquetés EIAV 96 HIV-1 94 SIV 89 SRLV

Un modèle capable de différencier les régions C et V d’HIV-2? Etat 2 Etat 1 V1/V2 V3 V4 V5 100 200 300 400 500 acides aminés Modèle M1-M1 sur les séquences déduites en acides aminés

Définition des régions C et V d’HIV-2 V1/V2 V3 V4 V5 Homologie V1/V2 V3 V4 V5 Alignement V1/V2 V3 V4 V5

Modèle M1-M1 sur les séquences déduites en acides aminés Il existe des régions C et V d’HIV-2 qui possèdent des caractéristiques statistiques différentes Etat 2 Etat 1 V1/V2 V3 V4 V5 100 200 300 400 500 acides aminés Modèle M1-M1 sur les séquences déduites en acides aminés

Il est possible de définir des modèles de Markov cachés capables de différencier avec une bonne précision les régions constantes et variables des lentivirus EIAV, HIV, SIV et SRLV.

Les régions C et V possèdent des propriétés statistiques communes Modèle M1-M1 sur les séquences déduites en acides aminés acides aminés

acides aminés

Plan Le contexte biologique Les outils mathématiques Modèles prédictifs des régions constantes et variables d’EIAV Extension des modèles aux autres lentivirus Extraction de mots caractéristiques Une autre application des modèles Conclusions et perspectives

Analyse en Composantes Principales

Extraction de mots caractéristiques des régions C et V des lentivirus Mot caractéristique = mot qui apparaît fréquemment dans un type de région Méthode d’extraction : On veut définir : MC = {w / FreqC(w) ≥ sC} et MV = {w / FreqV(w) ≥ sV} tels que séquences constantes (SeqC)  majorité de mots MC séquences variables (SeqV)  majorité de mots MV On maximise P = P(majorité MC | SeqC) + P(majorité MV | SeqV)

Exemples de mots caractéristiques Extraction de mots de 6 nucléotides caractéristiques des régions C et V de l’ensemble des lentivirus à partir du modèle combiné M1-M5 : (sc,sv)=(75,45) Extraction de mots de 2 acides aminés caractéristiques des régions C et V de l’ensemble des lentivirus à partir du modèle combiné M1-M1 : (sc,sv)=(75,45) MC (2080) AAAACC, AAAAGC, AAAATT, AAACAG, AAACAT, AAACCC, AATCTA, AATCTC, AATCTG, AATGCC, AATGCG, CGGTTT, CGTATT, CGTCAG, CGTCAT, CGTCCA, CGTCTG, GCCTTT, GCGACA, GCGACC, GCGACG, GCGCAT, GCGCCC, GCGCCT, GCGCTC, GCGCTG, GCGGAA, GCGGCA, GCGGCT, GCGGGT, GCGGTA, TAATTT, TACACA, TTGTGA, TTGTGC, TTGTGG, TTGTTG, TTTAAA, TTTAAC, TTTAAG… MV (1007) AACTAT, AACTCT, AACTGA, AACTGT, AACTTT, AAGACG, CCGTCA, CCTAAC, CCTAAG, CCTACA, CCTAGA, CTAGGT, CTAGTG, CTAGTT, CTGTCG, CTGTTC, CTGTTT, GATATA, GATCTT, GATGAC, GGGATT, GGGCGA, GGGCGC, GGGTAG, GTCGGC, TTAGTC, TTATAA, TTATTG, TTCAAC, TTCAGA... MC (216) AE, AG, AV, AW, AY, CA, CC, CD, CG, CH, CL, CP, CQ, CR, CW, DA, DF, DG, DH, DM, HY, IE, IF, IH, IV, IW, IY, KA, KC, LE, LG, LH, RF, RH, RM, RR, RS, RV, SC, SE, SF, SL, SP, SV, SW, WM, WN, WP, YQ, YV, YY… MV (85) AD, AL, AN, CE, GK, GN, GT, HH, HI, HV, IC, ID, IN, KG, KI, KK, KM, LD, LF, MD, MG, NS, NT, NY, PH, PK, PN, PR, QG, QN, RI, RK, SN, SR, SS, ST, TA, TD, TK, TL, TM, TN, WG, WI, WT, YA, YL, YN, YR, YW…

Plan Le contexte biologique Les outils mathématiques Modèles prédictifs des régions constantes et variables d’EIAV Extension des modèles aux autres lentivirus Extraction de mots caractéristiques Une autre application des modèles Conclusions et perspectives

Une reconstruction phylogénétique possible EIAV SRLV HIV-1 HIV-2 SIV 5 Une distance entre virus : Soit d(N|M) le pourcentage d’erreurs commises par le modèle M sur des séquences du virus N. D(N,M)=d(N|M) + d(M|N)

Plan Le contexte biologique Les outils mathématiques Modèles prédictifs des régions constantes et variables d’EIAV Extension des modèles aux autres lentivirus Extraction de mots caractéristiques Une autre application des modèles Conclusions et perspectives

Conclusions Mise au point d’une variante de l’algorithme de Baum-Welch permettant une segmentation fine des séquences Différenciation des régions C et V de tous les lentivirus grâce à leur composition en mots de nucléotides ou d’acides aminés. Existence une signature spécifique des régions V commune à l’ensemble des lentivirus. Mise en évidence de mots caractéristiques des régions C et V des lentivirus.

Perspectives Analyser en détails les motifs caractéristiques des régions constantes et variables Développer un logiciel permettant d’identifier les régions constantes et variables de nouvelles séquences de lentivirus sans avoir besoin d’aligner ces séquences avec des séquences connues. Etendre les modèles à d’autres régions du génome ou à d’autres virus ou à la recherche d’autres hétérogénéités « fines »