La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)

Présentations similaires


Présentation au sujet: "Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)"— Transcription de la présentation:

1

2 Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA) Pr Didier Piau (PR, Université Grenoble 1) UMR754 « Rétrovirus et pathologie comparée » UMR5208 « Institut Camille Jordan »

3 Famille des Retroviridae Virus enveloppés à ARN Génome constitué de deux copies dARN simple brin Les rétrovirus gag pol env SUTM LTR

4 Le genre lentivirus Un genre de la famille des Retroviridae Composé de HIV, EIAV, SRLV, SIV, FIV, BIV Grande variabilité génétique générée lors de la synthèse du matériel génétique

5 Répartition des mutations le long du génome des lentivirus Mutations pas réparties de manière homogène Principalement gène env, notamment dans la partie codant la glycoprotéine de surface (SU). successionde régions constantes ( et de régionsariables SU constituée d'une succession de régions constantes (pas ou peu de variabilité génétique) et de régions variables (nombreuses mutations).

6 Réference QEYQCKKVNLNSSDSSNPVR------VEDVMNTTEYWGFKWLEC T D T D.I TT M I T I TA.N..IS.S------GKGERD E...TLKS.NSSIPPIHVED...EG.IM.F ENEMVNIND G V......ND SV TDTWIPKGCNETWA N N P N N NG N...T QPPFFLVQEKGIANTSRIGNCGPTIFL G.E G.E.D GE G...T...K G E..S RVN..A | | 248 | VVV NQTENFKTILVP V L L CCC C

7 Identification de régions C et V chez tous les lentivirus BIV V1V2V3V4V5V6 (550 aa) C1C2C3C4C5C6C7 EIAV V1V2V3V4V5V6 V7V8 (440 aa) C1 C2C3 C4C5 C6C7 C8C9 SIV V1V2V3V4V5 (530 aa) C1C2C3C4C5C6

8 Le contexte biologique Grande variabilité de tous les génomes lentiviraux entraîne des modifications de la biologie des virus : Échappement à la réponse immunitaire, virulence, tropisme cellulaire… Laccumulation de mutations dans les régions variables peut provenir de : Taux de mutations localement élevé Mécanismes de sélection Combinaison de ces deux phénomènes

9 Déterminer sil existe des signatures spécifiques des régions constantes et variables des lentivirus Objectif

10 Méthode : Utiliser des outils mathématiques capables de segmenter les séquences en régions constantes et variables afin den extraire des caractéristiques de chacun de ces deux types de régions.

11 Le contexte biologique Les outils mathématiques Modèles prédictifs des régions constantes et variables dEIAV Extension des modèles aux autres lentivirus Extraction de mots caractéristiques Une autre application des modèles Conclusions et perspectives Plan

12 Un peu de vocabulaire… TAC Séquence Lettre Mot A C TATA TT Alphabet à 4 lettres : A={A,C,G,T} Nucléotides Acides aminés WYI Alphabet à 20 lettres : A={A,C,D,E,F,G,H,I,K,L,M,N,P, Q,R,S,T,V,W,Y} Lettre Mot L A SHMR DP

13 Nombreuses méthodes de segmentation des séquences : Modèles de rupture Modèles de Markov cachés Comment segmenter les séquences (nt ou aa)?

14 Les modèles de Markov cachés Chaîne de Markov 1 Chaîne de Markov 2 Chaîne de Markov 1 La succession des états cachés est décrite par une chaîne de Markov inobservable : la chaîne cachée Une séquence hétérogène est considérée comme une succession de régions statistiquement homogènes appelées états cachés. V1V2 C1 C2

15 Les différents modèles de Markov cachés Le modèle M1-M0 :Le modèle M1-M0 : C CCCVVC ACT Chaîne des états Chaîne des observations G Le modèle M1-M1 :Le modèle M1-M1 : Le modèle M1-M5 :Le modèle M1-M5 : C T

16 Les paramètres des modèles de Markov cachés Un modèle de Markov caché M1-Mm est entièrement défini par : Le nombre N détats cachés qui correspond au nombre de types de régions Le nombre M de lettres différentes dans la séquence Les lois initiales qui permettent de modéliser ce qui se passe au début de la séquence au niveau des états et au niveau des observations La matrice de transition T de la chaîne des états La matrice démission E de la chaîne des observations

17 Les matrices de transition T et démission E La matrice de transition T Elle modélise la relation entre les états (passage dun type de région à lautre) T(k,l)=P(S i+1 =l | S i =k) pour k,l Є S avec l Є S T(k,l)=1 La matrice démission E Elle modélise la relation entre les observations et les états. Soit x i:j = (x i,x i+1,…,x j ), alors, pour a 1:m+1 Є A et k Є S : E(k,a 1:m,a m+1 )=P(X i+1 =a m+1 | X i-m+1:i =a 1:m, S i+1 =k ) avec a m+1 Є A E(k,a 1:m, a m+1 ) = 1 E = MC MV

18 Estimation des paramètres Soient X (1),..,X (p) p séquences nucléotidiques ou déduites en acides aminés. Soit θ= {T,E} lensemble des paramètres du modèle à estimer. On cherche : θ = argmax P(X (1),…,X (p) | θ) Deux situations : La séquence des états cachés est connue (alignement) Comptage direct La séquence des états cachés est inconnue Algorithme de Baum-Welch ^

19 Algorithme de Baum-Welch Algorithme de Baum-Welch = cas particulier de lalgorithme EM Algorithme itératif consistant en lalternance de deux phases: Phase E : Estimation de la séquence des états cachés Phase M : Maximisation de la vraisemblance A chaque itération, un nouvel ensemble de paramètres θ augmentant la vraisemblance est défini. (expectation-maximisation) Convergence vers un maximum local

20 Reconstruction de la séquence des états cachés Séquence des états cachés les plus probables Pour tout 1 i n et tout k Є S, on calcule : P(S i =k | X) ACGTGCCTAAATCTTG CCCCVVVCCVCVCVVV ACGTGCCTAAATCTTG Séquence des observations Séquence des états cachés Régions C et V

21 Le contexte biologique Les outils mathématiques Modèles prédictifs des régions constantes et variables dEIAV Extension des modèles aux autres lentivirus Extraction de mots caractéristiques Une autre application des modèles Conclusions et perspectives Plan

22 Le matériel utilisé EIAV V1V2V3V4V5V6 V7V8 187 séquences (GenBank) 1200 nt ou 400 aa Échantillon dapprentissage : 94 Échantillon de test : 93

23 Quels modèles de Markov cachés? Alphabet 4 lettres (nt) 20 lettres (aa) Nombre détats cachés N Deux types de régions : C et V N=2 Ordre du modèle m Pas de procédure statistique bien définie augmentation progressive

24 V5V1V2V6V7V8V3 V État 2 État 1 nucléotides Modèle M1-M5 sur les séquences nucléotidiques Oscillation de la séquence des états cachés

25 Amélioration de lestimation de la matrice démission Introduction dune information supplémentaire La matrice démission E va être estimée par comptage direct. La matrice de transition T va être estimée par une variante de lalgorithme de Baum-Welch. Algorithme de Baum-Welch avec matrice démission fixée Définition dun nouvel algorithme

26 Estimation des matrices démission sur chaque type de régions par comptage direct après alignement des séquences dentraînement Estimation de la matrice de transition T avec lalgorithme de Baum-Welch dont la phase M a été modifiée pour garder la matrice démission E à sa valeur estimée Assemblage des matrices démission de chaque type de régions pour former un estimateur de la matrice E Description de lalgorithme de Baum-Welch avec matrice démission fixée

27 Influence de lordre sur la qualité prédictive Modèle M1-M0 sur les séquences nucléotidiques V5 V1V2 V6V7V8 V3 V État 2 État 1 nucléotides V5 V1V2 V6V7V8 V3 V4

28 Influence de lordre sur la qualité prédictive Modèle M1-M1 sur les séquences nucléotidiques V5 V1V2 V6V7V8 V3 V État 2 État 1 nucléotides V5 V1V2 V6V7V8 V3 V4

29 Les régions C et V dEIAV ont des compositions en mots de nucléotides différentes État 2 État 1 nucléotides V5 V1V2 V6V7V8 V3 V4 Modèle M1-M5 sur les séquences nucléotidiques

30 État 2 État 1 acides aminés V5 V1V2 V6V7V8 V3 V4 Les régions C et V dEIAV ont des compositions en mots dacides aminés différentes Modèle M1-M1 sur les séquences déduites en acides aminés

31 Pour résumer : Il existe des modèles de Markov cachés dordre 5 sur les nucléotides ou dordre 1 sur les acides aminés capables de différencier avec une grande précision les régions C et V dEIAV Les régions C dEIAV possèdent des propriétés statistiques suffisamment similaires pour être reconnues par un seul état Les régions V dEIAV possèdent des propriétés statistiques suffisamment similaires pour être reconnues par un seul état, tout en ayant chacune un profil statistique qui lui est propre Il existe des différences statistiques entre les compositions en mots de nucléotides ou dacides aminés des régions C et V

32 V5V1V2V6V7 V8 V3 V4 État 5 État 8 État 9 État 6 État 7 État 3 État 4 État 2 État Modèle M1-M5 sur les séquences nucléotidiques nucléotides Les régions V dEIAV ont des compositions en mots de nucléotides différentes

33 Un biais possible : le surentraînement Exemple de séquence dapprentissage : séquence précoce Exemple de séquence de test : séquence tardive V1V2V3V4 V1V2V3V4 jours post- infection Temperature °C séquence tardive séquence précoce CKRVNLKKVNLTSSDSSIRVEDVGNTTEYWG CKEVYWG

34 Les modèles ne sont pas surentraînés V5V1V2V6V7 V8 V3 V4 État 5 État 8 État 9 État 6 État 7 État 3 État 4 État 2 État Modèle M1-M5 sur les séquences nucléotidiques nucléotides

35 Un autre biais possible : influence de lordre et de la position des régions variables Exemple de séquence dapprentissage Exemple de séquence de test V1 V2V3 V7 V8 V1 V2V3 V7 V8V7

36 Les modèles ne sont pas influencés par lordre ou la position des régions variables V5V1V2V6V7 V8 V3 V4 État 5 État 8 État 9 État 6 État 7 État 3 État 4 État 2 État nucléotides V7

37 Il est possible de différencier les régions C et V dEIAV à laide de modèles de Markov cachés. Ces modèles ne sont basés ni sur un alignement de séquences, ni sur lidentification de grands motifs, ni sur lordre, la position ou la longueur des différentes régions. Ces modèles sappuient sur la composition en mots de nucléotides ou dacides aminés de chaque type de région. Il existe des différences statistiques entre les compositions en mots de nucléotides ou dacides aminés des régions C et V Pour résumer :

38 Quantification de la séparation des régions C et V dEIAV Définition dune « distance » entre matrices démission : Soient P et Q les matrices de transition de deux chaînes de Markov et π la mesure stationnaire associée à P. H(P|Q) = (i,j) π (i) P(i,j) log P(i,j) Q(i,j) δ(P,Q)=H(P|Q)+H(Q|P) Entropie relative : Entropie relative symétrisée :

39 Il existe une séparation entre le groupe des régions constantes et le groupe des régions variables. Test statistique il existe une différence significative entre les régions constantes et variables chaque région possède une signature qui lui est propre. Etude de la séparation des régions C et V dEIAV Etude de la distance entre les régions constantes et variables dEIAV : δ(Ci,C) < δ(Ci,Vj) pour tous i et j δ(Vi,V) < δ(Vi,Cj) pour tous i et j

40 Le contexte biologique Les outils mathématiques Modèles prédictifs des régions constantes et variables dEIAV Extension des modèles aux autres lentivirus Extraction de mots caractéristiques Une autre application des modèles Conclusions et perspectives Plan

41 Définition de modèles de Markov cachés prédictifs des régions C et V des autres lentivirus Exemple : HIV-1 Modèle M1-M5 sur les séquences nucléotidiques nucléotides

42 Définition de modèles de Markov cachés prédictifs des régions C et V des autres lentivirus Exemple : HIV-1 Modèle M1-M1 sur les séquences déduites en acides aminés acides aminés

43 Performance des modèles Lentivirus % dacides aminés bien étiquetés EIAV96 HIV-194 SIV89 SRLV96

44 Un modèle capable de différencier les régions C et V dHIV-2? V1/V2V3V4V Etat 1 Etat 2 acides aminés Modèle M1-M1 sur les séquences déduites en acides aminés

45 Définition des régions C et V dHIV-2 V1/V2V3V4V5V1/V2V3V4V5V1/V2V3V4V5 HIV-1 Homologie Alignement

46 Il existe des régions C et V dHIV-2 qui possèdent des caractéristiques statistiques différentes Etat 1 Etat 2 acides aminés Modèle M1-M1 sur les séquences déduites en acides aminés V1/V2V3V4V5

47 Il est possible de définir des modèles de Markov cachés capables de différencier avec une bonne précision les régions constantes et variables des lentivirus EIAV, HIV, SIV et SRLV.

48 Les régions C et V possèdent des propriétés statistiques communes acides aminés Modèle M1-M1 sur les séquences déduites en acides aminés

49 acides aminés

50 Le contexte biologique Les outils mathématiques Modèles prédictifs des régions constantes et variables dEIAV Extension des modèles aux autres lentivirus Extraction de mots caractéristiques Une autre application des modèles Conclusions et perspectives Plan

51 Analyse en Composantes Principales

52 Extraction de mots caractéristiques des régions C et V des lentivirus Mot caractéristique = mot qui apparaît fréquemment dans un type de région Méthode dextraction : MC = {w / Freq C (w) s C }MV = {w / Freq V (w) s V } On veut définir : et séquences constantes (SeqC) majorité de mots MC séquences variables (SeqV) majorité de mots MV tels que On maximiseP = P(majorité MC | SeqC) + P(majorité MV | SeqV)

53 Exemples de mots caractéristiques Extraction de mots de 2 acides aminés caractéristiques des régions C et V de lensemble des lentivirus à partir du modèle combiné M1-M1 : (s c,s v )=(75,45) MC (216) AE, AG, AV, AW, AY, CA, CC, CD, CG, CH, CL, CP, CQ, CR, CW, DA, DF, DG, DH, DM, HY, IE, IF, IH, IV, IW, IY, KA, KC, LE, LG, LH, RF, RH, RM, RR, RS, RV, SC, SE, SF, SL, SP, SV, SW, WM, WN, WP, YQ, YV, YY… MV (85) AD, AL, AN, CE, GK, GN, GT, HH, HI, HV, IC, ID, IN, KG, KI, KK, KM, LD, LF, MD, MG, NS, NT, NY, PH, PK, PN, PR, QG, QN, RI, RK, SN, SR, SS, ST, TA, TD, TK, TL, TM, TN, WG, WI, WT, YA, YL, YN, YR, YW… Extraction de mots de 6 nucléotides caractéristiques des régions C et V de lensemble des lentivirus à partir du modèle combiné M1-M5 : (s c,s v )=(75,45) MC (2080) AAAACC, AAAAGC, AAAATT, AAACAG, AAACAT, AAACCC, AATCTA, AATCTC, AATCTG, AATGCC, AATGCG, CGGTTT, CGTATT, CGTCAG, CGTCAT, CGTCCA, CGTCTG, GCCTTT, GCGACA, GCGACC, GCGACG, GCGCAT, GCGCCC, GCGCCT, GCGCTC, GCGCTG, GCGGAA, GCGGCA, GCGGCT, GCGGGT, GCGGTA, TAATTT, TACACA, TTGTGA, TTGTGC, TTGTGG, TTGTTG, TTTAAA, TTTAAC, TTTAAG… MV (1007) AACTAT, AACTCT, AACTGA, AACTGT, AACTTT, AAGACG, CCGTCA, CCTAAC, CCTAAG, CCTACA, CCTAGA, CTAGGT, CTAGTG, CTAGTT, CTGTCG, CTGTTC, CTGTTT, GATATA, GATCTT, GATGAC, GGGATT, GGGCGA, GGGCGC, GGGTAG, GTCGGC, TTAGTC, TTATAA, TTATTG, TTCAAC, TTCAGA...

54 Le contexte biologique Les outils mathématiques Modèles prédictifs des régions constantes et variables dEIAV Extension des modèles aux autres lentivirus Extraction de mots caractéristiques Une autre application des modèles Conclusions et perspectives Plan

55 Une reconstruction phylogénétique possible Une distance entre virus : Soit d(N|M) le pourcentage derreurs commises par le modèle M sur des séquences du virus N. D(N,M)=d(N|M) + d(M|N) EIAV SRLV HIV-1 HIV-2 SIV 5

56 Le contexte biologique Les outils mathématiques Modèles prédictifs des régions constantes et variables dEIAV Extension des modèles aux autres lentivirus Extraction de mots caractéristiques Une autre application des modèles Conclusions et perspectives Plan

57 Conclusions Mise au point dune variante de lalgorithme de Baum-Welch permettant une segmentation fine des séquences Différenciation des régions C et V de tous les lentivirus grâce à leur composition en mots de nucléotides ou dacides aminés. Existence une signature spécifique des régions V commune à lensemble des lentivirus. Mise en évidence de mots caractéristiques des régions C et V des lentivirus.

58 Perspectives Analyser en détails les motifs caractéristiques des régions constantes et variables Développer un logiciel permettant didentifier les régions constantes et variables de nouvelles séquences de lentivirus sans avoir besoin daligner ces séquences avec des séquences connues. Etendre les modèles à dautres régions du génome ou à dautres virus ou à la recherche dautres hétérogénéités « fines »

59

60

61


Télécharger ppt "Prédiction markovienne in silico des régions constantes et variables des lentivirus Aurélia Boissin-Quillon Directeurs de thèse : Dr Caroline Leroux (DR,INRA)"

Présentations similaires


Annonces Google