Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
1
Lab mouse similarity Jessica Monhart (jessica.monhart@unil.ch)
Camille Pitteloud Supervisé par Micha Hersch
2
Sommaire Introduction Objectifs Intérêts Méthodes et résultats
a. K-means b. PCA Comparaison des méthodes Perspectives 7) Feedback
3
1. Introduction -> Toutes les souris de laboratoire descendent de la même espèce ancestrale: Mus musculus -> Le génome des souris de laboratoire a montré qu’elles descendaient de différentes sous-espèces de Mus musculus: Mus musculus musculus Mus musculus domesticus Mus musculus castaneus Mus musculus molossinus
4
1. Introduction -> Aujourd’hui, plus de 450 souches consanguines ont été créées en laboratoire. -> Une souche est considérée comme consanguine lorsqu’il y a eu croisement entre frère et sœur plus de 20 fois consécutives. -> Etant donné que la plupart des souches a été croisée sur plus de 150 générations, elles sont considérées comme homozygotes.
5
2. Objectifs Comparaison de souris de différentes souches sur une base de SNPs (au niveau du génome ou d’une région) -> Sont-elles proches ou éloignées ? -> Le regroupement par similarité coïncide-t-il avec leur phylogénie?
6
2. Objectifs b) Comparaison des résultats obtenus avec ceux de la littérature scientifique
7
2. Objectifs c) Comparaison de différentes méthodes d’analyse -> Quels sont leurs avantages et leurs inconvénients ?
8
3. Intérêts du projet Connaître la distance génétique entre les différentes souches de souris permet: -> L’obtention de meilleurs échantillonnages lors d’expériences -> L’élimination de variables confondantes génétiques
9
4. Méthodes Transformation de données génétiques en données mathématiques Codage des 4 bases (A-T,C-G) en valeurs -1,1 Conversion des SNPs en vecteurs -> n SNPs stockés dans un vecteur = n dimensions
10
1ère méthode: K-means Principe: Création d’un algorithme définissant des groupes auxquels il attribue les souris.
11
1ère méthode: K-means 1ère étape:
Décider de K, c’est-à-dire faire l’hypothèse sur le nombre de groupes à trouver. -> Dans notre cas, nous avons 4 souches principales donc nous aurons 4 groupes.
12
1ère méthode: K-means 2ème étape: Initialiser les centroïdes.
-> Dans notre cas, nous avons 4 groupes, donc nous aurons 4 centroïdes. -> Initialisation = distribution des centroïdes autour de la moyenne de tous les points. -> Ces centroïdes finiront par se trouver au centre de chaque groupe auquel ils appartiennent.
13
1ère méthode: K-means 3ème étape:
Assimiler chaque point à chaque groupe. -> Dans notre cas, il s’agit de répartir chaque souris à son centroïde le plus proche. -> La position du centroïde correspond à la moyenne des points.
14
1ère méthode: K-means 4ème étape:
Recalculer la position des centroïdes. -> Il faut prendre tous les points affectés à un centre et refaire la moyenne. -> L’étape 3 et 4 sont à répéter jusqu’à ce que les centroïdes ne bougent plus.
15
1ère méthode: K-means Souches: 11 FVB/NJ 1 129S1/SvImJ 12 I/LnJ 2 A/J
KK/HlJ AKR/J LP/J 4 BALB/cByJ 15 NOD/ShiLtJ 5 BTBRT+tf/J 16 NZB/BlNJ C3H/HeJ PL/J 7 C57BL/6J SJL/J C58/J SM/J CBA/J SWR/J DBA/2J
16
Résultats pour la méthode K-means
Résultats que l’on s’attendait à obtenir: 1ère analyse: 2ème analyse: 3ème analyse:
17
Résultats pour la méthode K-means
Résultats pour les 3287 SNPs: 1ère analyse: 2ème analyse: 3ème analyse:
18
Résultats pour la méthode K-means
Résultats pour le chromosome 1 (263 SNPs): 1ère analyse: 2ème analyse: 3ème analyse:
19
Résultats pour la méthode K-means
Résultats pour le chromosome 10 (163 SNPs): 1ère analyse: 2ème analyse: 3ème analyse:
20
Résultats pour la méthode K-means
Résultats pour le chromosome 19 (73 SNPs): 1ère analyse: 2ème analyse: 3ème analyse:
21
Résultats pour la méthode K-means
Conclusion: -> Même en réduisant le nombre de SNPs, les analyses ne donnent pas de résultats suffisamment similaires. -> Cette méthode ne fonctionne pas pour nos données.
22
2ème méthode: PCA Principe: Méthode permettant de réduire le nombre de dimensions Utile car représenter graphiquement les différentes souches (vecteurs) contenant plusieurs SNPs (dimensions) est impossible -> réduction des données en 2D (voire 3D)
23
2ème méthode: PCA Marche à suivre:
Sélection des SNPs et des souches à comparer Exemple: rsnps X.1 X1.5 X1.7 [1,] [2,] [3,] [4,] [5,] [6,]
24
2ème méthode: PCA 2. Calcul de la matrice de covariance C
-> évaluation de la relation entre les SNPs Exemple: matricecov<-cov(t(rsnps)) > matricecov [,1] [,2] [,3] [,4] [,5] [,6] [1,] [2,] [3,] [4,] [5,] [6,]
25
2ème méthode: PCA 3. Diagonalisation de C
-> obtention des vecteurs et des valeurs propres Exemple: eigen(matricecov) $values [1] e e e e e-17 [6] e-16 -Le 1er vecteur propre est celui qui maximise la variance. -Plus la valeur propre est grande, plus la variance est importante.
26
2ème méthode: PCA 4. Sélection de k vecteurs propres (2 ou 3) -> réduction du nombre de dimensions 5. Projection de tous les points (souches) sur le plan formé par les k vecteurs propres
27
Résultats pour la méthode PCA
Comment tirer des conclusions à partir de nos plots? 1) 9 plots très semblables 2) Mise en évidence des souches externes/groupées 3) PCA sur les souches externes 4) Enlever les souches externes 5) PCA sur les souches restantes
28
Résultats pour la méthode PCA
PCA sur les 20 souches:
29
Résultats pour la méthode PCA
PCA sur les 5 souches extérieures au groupe central:
30
Résultats pour la méthode PCA
PCA sur les 15 souches:
31
Résultats pour la méthode PCA
PCA sur les 4 souches extérieures au 15:
32
Résultats pour la méthode PCA
PCA sur les 11 souches:
33
Résultats pour la méthode PCA
PCA sur les 9 souches:
34
Résultats pour la méthode PCA
PCA sur les 7 souches:
35
Résultats pour la méthode PCA
les 9 souches:
36
Résultats pour la méthode PCA
Résultat final de la PCA: -> les distances estimées par la PCA correspondent aux distances entre les groupes trouvés dans la littérature
37
5. Comparaison des méthodes
K-means: Avantages: -> méthode plus rapide à assimiler -> méthode plus simple à appliquer Inconvénient: -> méthode qui ne fonctionne pas sur nos données
38
5. Comparaison des méthodes
2) Analyse en composantes principales: Avantage: -> méthode efficace pour analyser nos données Inconvénients: -> méthode longue et compliquée -> nous ne pouvions pas utiliser tous les SNPs, seulement 1000.
39
6. Perspectives -> Utilisation d’autres méthodes -> Nous aurions pu analyser l’ADN mitochondrial et comparer les résultats avec ceux des SNPs -> Deviner les SNPs manquants chez certaines souris au sein d’un certain groupe
40
7. Feedback -> Apprentissage de méthodes de programmation
-> Réalisation du projet lui-même -> Aperçu d’analyses mathématiques sur des données biologiques
41
Remerciements Nous tenons à remercier Micha Hersch pour sa disponibilité, son soutien et sa patience!
42
Merci de votre attention!
Jessica Monhart Camille Pitteloud
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.