La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Jessica Monhart Camille Pitteloud Supervisé par Micha Hersch.

Présentations similaires


Présentation au sujet: "Jessica Monhart Camille Pitteloud Supervisé par Micha Hersch."— Transcription de la présentation:

1 Jessica Monhart Camille Pitteloud Supervisé par Micha Hersch

2 1)Introduction 2)Objectifs 3)Intérêts 4)Méthodes et résultats a. K-means b. PCA 5)Comparaison des méthodes 6)Perspectives 7)Feedback

3 -> Toutes les souris de laboratoire descendent de la même espèce ancestrale: Mus musculus -> Le génome des souris de laboratoire a montré quelles descendaient de différentes sous-espèces de Mus musculus: Mus musculus musculus Mus musculus domesticus Mus musculus castaneus Mus musculus molossinus

4 -> Aujourdhui, plus de 450 souches consanguines ont été créées en laboratoire. -> Une souche est considérée comme consanguine lorsquil y a eu croisement entre frère et sœur plus de 20 fois consécutives. -> Etant donné que la plupart des souches a été croisée sur plus de 150 générations, elles sont considérées comme homozygotes.

5 a)Comparaison de souris de différentes souches sur une base de SNPs (au niveau du génome ou dune région) -> Sont-elles proches ou éloignées ? -> Le regroupement par similarité coïncide-t-il avec leur phylogénie?

6 b) Comparaison des résultats obtenus avec ceux de la littérature scientifique

7 c) Comparaison de différentes méthodes danalyse -> Quels sont leurs avantages et leurs inconvénients ?

8 Connaître la distance génétique entre les différentes souches de souris permet: -> Lobtention de meilleurs échantillonnages lors dexpériences -> Lélimination de variables confondantes génétiques

9 Transformation de données génétiques en données mathématiques Codage des 4 bases (A-T,C-G) en valeurs -1,1 Conversion des SNPs en vecteurs -> n SNPs stockés dans un vecteur = n dimensions

10 Principe: Création dun algorithme définissant des groupes auxquels il attribue les souris.

11 1 ère étape: Décider de K, cest-à-dire faire lhypothèse sur le nombre de groupes à trouver. -> Dans notre cas, nous avons 4 souches principales donc nous aurons 4 groupes.

12 2 ème étape: Initialiser les centroïdes. -> Dans notre cas, nous avons 4 groupes, donc nous aurons 4 centroïdes. -> Initialisation = distribution des centroïdes autour de la moyenne de tous les points. -> Ces centroïdes finiront par se trouver au centre de chaque groupe auquel ils appartiennent.

13 3 ème étape: Assimiler chaque point à chaque groupe. -> Dans notre cas, il sagit de répartir chaque souris à son centroïde le plus proche. -> La position du centroïde correspond à la moyenne des points.

14 4 ème étape: Recalculer la position des centroïdes. -> Il faut prendre tous les points affectés à un centre et refaire la moyenne. -> Létape 3 et 4 sont à répéter jusquà ce que les centroïdes ne bougent plus.

15 Souches: 1 129S1/SvImJ 2 A/J 3 AKR/J 4 BALB/cByJ 5 BTBRT+tf/J 6 C3H/HeJ 7 C57BL/6J 8 C58/J 9 CBA/J 10 DBA/2J 11 FVB/NJ 12 I/LnJ 13 KK/HlJ 14 LP/J 15 NOD/ShiLtJ 16 NZB/BlNJ 17 PL/J 18 SJL/J 19 SM/J 20 SWR/J

16 Résultats que lon sattendait à obtenir: 1 ère analyse: 2 ème analyse: 3 ème analyse:

17 Résultats pour les 3287 SNPs: 1 ère analyse: 2 ème analyse: 3 ème analyse:

18 Résultats pour le chromosome 1 (263 SNPs): 1 ère analyse: 2 ème analyse: 3 ème analyse:

19 Résultats pour le chromosome 10 (163 SNPs): 1 ère analyse: 2 ème analyse: 3 ème analyse:

20 Résultats pour le chromosome 19 (73 SNPs): 1 ère analyse: 2 ème analyse: 3 ème analyse:

21 Conclusion: -> Même en réduisant le nombre de SNPs, les analyses ne donnent pas de résultats suffisamment similaires. -> Cette méthode ne fonctionne pas pour nos données.

22 Principe: Méthode permettant de réduire le nombre de dimensions Utile car représenter graphiquement les différentes souches (vecteurs) contenant plusieurs SNPs (dimensions) est impossible -> réduction des données en 2D (voire 3D)

23 Marche à suivre: 1.Sélection des SNPs et des souches à comparer Exemple: rsnps X.1 X1.5 X1.7 [1,] [2,] [3,] [4,] [5,] [6,]

24 2. Calcul de la matrice de covariance C -> évaluation de la relation entre les SNPs Exemple: matricecov<-cov(t(rsnps)) > matricecov [,1] [,2] [,3] [,4] [,5] [,6] [1,] [2,] [3,] [4,] [5,] [6,]

25 3. Diagonalisation de C -> obtention des vecteurs et des valeurs propres Exemple: eigen(matricecov) $values [1] e e e e e-17 [6] e-16 -Le 1 er vecteur propre est celui qui maximise la variance. -Plus la valeur propre est grande, plus la variance est importante.

26 4. Sélection de k vecteurs propres (2 ou 3) -> réduction du nombre de dimensions 5. Projection de tous les points (souches) sur le plan formé par les k vecteurs propres

27 Comment tirer des conclusions à partir de nos plots? 1) 9 plots très semblables 2) Mise en évidence des souches externes/groupées 3) PCA sur les souches externes 4) Enlever les souches externes 5) PCA sur les souches restantes

28 PCA sur les 20 souches:

29 PCA sur les 5 souches extérieures au groupe central:

30 PCA sur les 15 souches:

31 PCA sur les 4 souches extérieures au 15:

32 PCA sur les 11 souches:

33 PCA sur les 9 souches:

34 PCA sur les 7 souches:

35 Résultats pour les 9 souches:

36 Résultat final de la PCA: -> les distances estimées par la PCA correspondent aux distances entre les groupes trouvés dans la littérature

37 1)K-means: Avantages: -> méthode plus rapide à assimiler -> méthode plus simple à appliquer Inconvénient: -> méthode qui ne fonctionne pas sur nos données

38 2) Analyse en composantes principales: Avantage: -> méthode efficace pour analyser nos données Inconvénients: -> méthode longue et compliquée -> nous ne pouvions pas utiliser tous les SNPs, seulement 1000.

39 -> Utilisation dautres méthodes -> Nous aurions pu analyser lADN mitochondrial et comparer les résultats avec ceux des SNPs -> Deviner les SNPs manquants chez certaines souris au sein dun certain groupe

40 -> Apprentissage de méthodes de programmation -> Réalisation du projet lui-même -> Aperçu danalyses mathématiques sur des données biologiques

41 Nous tenons à remercier Micha Hersch pour sa disponibilité, son soutien et sa patience!

42 Jessica Monhart Camille Pitteloud


Télécharger ppt "Jessica Monhart Camille Pitteloud Supervisé par Micha Hersch."

Présentations similaires


Annonces Google