Lab mouse similarity Jessica Monhart

Slides:



Advertisements
Présentations similaires
Un environnement de développement éducatif
Advertisements

La Méthode de Simplexe Standardisation
Module Systèmes d’exploitation
Fatigue chronique, douleurs articulaires
Soutenance du stage de DEA.
Chap. 4 Recherche en Table
Approche graphique du nombre dérivé
A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting.
Portée des variables VBA & Excel
Classification et prédiction
Regroupement (clustering)
Efficient Simplification of Point-Sampled Surfaces
Regroupement (clustering)
Raisonnement et logique
Soizic Geslin Samy Fouilleux Minh Le Hoai Maxime Chambreuil
DE ZÉRO à PAUP : Délimitation du groupe d'intérêt ("ingroup")
microéconomie - ch. 5 - Concurrence imparfaite - diapo 2
1. Les caractéristiques de dispersion. 11. Utilité.
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
Gestion des connaissances
Construction de Box-Plot ou diagrammes en boîtes ou boîtes à moustaches Construire une boîte à moustaches …
Safae LAQRICHI, Didier Gourc, François Marmier {safae
IAS 36 «Dépréciation d'actifs»
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
2.5 Champ électrique produit par une distribution continue de charges.
Présentation à l'intention de : VIDE DATE
Améliorer les performances du chiffrage à flot SYND
Analyse en Composantes Principales
Concepts avancés en mathématiques et informatique appliquées
Réglage et protection des réseaux électriques
Application des algorithmes génétiques
Auto-organisation dans les réseaux ad hoc
Plans à groupes indépendants: organisation
Classification Multi Source En Intégrant La Texture
Commande par algorithme génétique
Methode de Tri efficace
Concepts avancés en mathématiques et informatique appliquées
Méthode des k plus proches voisins
Jessica Monhart Camille Pitteloud Supervisé par Micha Hersch.
Responsables P. Maury & R. Babilé
Plan d’expérience dynamique pour la maximisation
Sections sélectionnées du Chapitre 11
Systèmes d’équations du premier degré à deux variables
Test bilan de calcul mental N°1 :
Description génétique de deux lignées de lapins sélectionnés
Chapitre 4 Réduction des endomorphismes
Les pointeurs Modes d’adressage de variables. Définition d’un pointeur. Opérateurs de base. Opérations élémentaires. Pointeurs et tableaux. Pointeurs et.
Courbes de Bézier.
Génération d’un segment de droite
Les modèles linéaires (Generalized Linear Models, GLM)
3.1 DÉTERMINANTS (SUITE) Cours 6.
Universté de la Manouba
Gilbert TOUT NEST QUE CALCUL Vous vous êtes certainement déjà demandé ce que voulait dire « se donner à 100% » ?
1 Séminaire LOVe du 29/03/07 Combinaison d'objets (fusion centralisée) T3.2 Combinaison de pistages (fusion décentralisée) T3.3.
RECONNAISSANCE DE FORMES
Chapitre 3 La cinématique à une dimension
1 Protection des arbres multicast avec une forêt duale Mohand Yazid SAIDI Bernard COUSIN Miklós MOLNÁR 15 Février 2006.
Institut Supérieur des Etudes Technologiques de Djerba Exposé du Traitement de Données Réalisé par: Khalifa Marwa Magroun Amira Jawadi Souad L2MDW.
Gestion de Fichiers Hachage (suite). 2 Plan du cours daujourdhui Prédiction de la distribution des enregistrements Réduction des collisions en augmentant.
Excel (Partie 2).
Recherche dun même objet / scène Approches basées sur des descripteurs locaux Approches basées sur des descripteurs globaux.
Estimation de la valeur génétique du Pur-Sang Anglais en République Tchèque Franey Anne Frisée Vincent Vanloocke Denis.
2.2 PRODUIT SCALAIRE ET CALCUL D’ANGLES
Programmation linéaire en nombres entiers : les méthodes de troncature
Comment introduire des données dans la base de données « recherche » des FUNDP © Collège des scientifiques - Faculté de Droit.
Projet Télédétection Vidéo Surveillance Deovan Thipphavanh – Mokrani Abdeslam – Naoui Saïd Master 2 Pro SIS / 2006.
Rappels de statistiques descriptives
Optimisation par les algorithmes génétiques
Sujets spéciaux en informatique I
Transcription de la présentation:

Lab mouse similarity Jessica Monhart (jessica.monhart@unil.ch) Camille Pitteloud (camille.pitteloud@unil.ch) Supervisé par Micha Hersch

Sommaire Introduction Objectifs Intérêts Méthodes et résultats a. K-means b. PCA Comparaison des méthodes Perspectives 7) Feedback

1. Introduction -> Toutes les souris de laboratoire descendent de la même espèce ancestrale: Mus musculus -> Le génome des souris de laboratoire a montré qu’elles descendaient de différentes sous-espèces de Mus musculus: Mus musculus musculus Mus musculus domesticus Mus musculus castaneus Mus musculus molossinus

1. Introduction -> Aujourd’hui, plus de 450 souches consanguines ont été créées en laboratoire. -> Une souche est considérée comme consanguine lorsqu’il y a eu croisement entre frère et sœur plus de 20 fois consécutives. -> Etant donné que la plupart des souches a été croisée sur plus de 150 générations, elles sont considérées comme homozygotes.

2. Objectifs Comparaison de souris de différentes souches sur une base de SNPs (au niveau du génome ou d’une région) -> Sont-elles proches ou éloignées ? -> Le regroupement par similarité coïncide-t-il avec leur phylogénie?

2. Objectifs b) Comparaison des résultats obtenus avec ceux de la littérature scientifique

2. Objectifs c) Comparaison de différentes méthodes d’analyse -> Quels sont leurs avantages et leurs inconvénients ?

3. Intérêts du projet Connaître la distance génétique entre les différentes souches de souris permet: -> L’obtention de meilleurs échantillonnages lors d’expériences -> L’élimination de variables confondantes génétiques

4. Méthodes Transformation de données génétiques en données mathématiques Codage des 4 bases (A-T,C-G) en valeurs -1,1 Conversion des SNPs en vecteurs -> n SNPs stockés dans un vecteur = n dimensions

1ère méthode: K-means Principe: Création d’un algorithme définissant des groupes auxquels il attribue les souris.

1ère méthode: K-means 1ère étape: Décider de K, c’est-à-dire faire l’hypothèse sur le nombre de groupes à trouver. -> Dans notre cas, nous avons 4 souches principales donc nous aurons 4 groupes.

1ère méthode: K-means 2ème étape: Initialiser les centroïdes. -> Dans notre cas, nous avons 4 groupes, donc nous aurons 4 centroïdes. -> Initialisation = distribution des centroïdes autour de la moyenne de tous les points. -> Ces centroïdes finiront par se trouver au centre de chaque groupe auquel ils appartiennent.

1ère méthode: K-means 3ème étape: Assimiler chaque point à chaque groupe. -> Dans notre cas, il s’agit de répartir chaque souris à son centroïde le plus proche. -> La position du centroïde correspond à la moyenne des points.

1ère méthode: K-means 4ème étape: Recalculer la position des centroïdes. -> Il faut prendre tous les points affectés à un centre et refaire la moyenne. -> L’étape 3 et 4 sont à répéter jusqu’à ce que les centroïdes ne bougent plus.

1ère méthode: K-means Souches: 11 FVB/NJ 1 129S1/SvImJ 12 I/LnJ 2 A/J 13 KK/HlJ 3 AKR/J 14 LP/J 4 BALB/cByJ 15 NOD/ShiLtJ 5 BTBRT+tf/J 16 NZB/BlNJ 6 C3H/HeJ 17 PL/J 7 C57BL/6J 18 SJL/J 8 C58/J 19 SM/J 9 CBA/J 20 SWR/J 10 DBA/2J

Résultats pour la méthode K-means Résultats que l’on s’attendait à obtenir: 1ère analyse: 2ème analyse: 3ème analyse:

Résultats pour la méthode K-means Résultats pour les 3287 SNPs: 1ère analyse: 2ème analyse: 3ème analyse:

Résultats pour la méthode K-means Résultats pour le chromosome 1 (263 SNPs): 1ère analyse: 2ème analyse: 3ème analyse:

Résultats pour la méthode K-means Résultats pour le chromosome 10 (163 SNPs): 1ère analyse: 2ème analyse: 3ème analyse:

Résultats pour la méthode K-means Résultats pour le chromosome 19 (73 SNPs): 1ère analyse: 2ème analyse: 3ème analyse:

Résultats pour la méthode K-means Conclusion: -> Même en réduisant le nombre de SNPs, les analyses ne donnent pas de résultats suffisamment similaires. -> Cette méthode ne fonctionne pas pour nos données.

2ème méthode: PCA Principe: Méthode permettant de réduire le nombre de dimensions Utile car représenter graphiquement les différentes souches (vecteurs) contenant plusieurs SNPs (dimensions) est impossible -> réduction des données en 2D (voire 3D)

2ème méthode: PCA Marche à suivre: Sélection des SNPs et des souches à comparer Exemple: rsnps X.1 X1.5 X1.7 [1,] -1 -1 1 [2,] -1 1 -1 [3,] 1 1 -1 [4,] -1 1 1 [5,] 1 1 -1 [6,] -1 1 -1

2ème méthode: PCA 2. Calcul de la matrice de covariance C -> évaluation de la relation entre les SNPs Exemple: matricecov<-cov(t(rsnps)) > matricecov [,1] [,2] [,3] [,4] [,5] [,6] [1,] 1.3333333 -0.6666667 -1.3333333 0.6666667 -1.3333333 -0.6666667 [2,] -0.6666667 1.3333333 0.6666667 0.6666667 0.6666667 1.3333333 [3,] -1.3333333 0.6666667 1.3333333 -0.6666667 1.3333333 0.6666667 [4,] 0.6666667 0.6666667 -0.6666667 1.3333333 -0.6666667 0.6666667 [5,] -1.3333333 0.6666667 1.3333333 -0.6666667 1.3333333 0.6666667 [6,] -0.6666667 1.3333333 0.6666667 0.6666667 0.6666667 1.3333333

2ème méthode: PCA 3. Diagonalisation de C -> obtention des vecteurs et des valeurs propres Exemple: eigen(matricecov) $values [1] 5.154701e+00 2.845299e+00 5.529209e-16 3.268086e-16 -6.352955e-17 [6] -2.158371e-16 -Le 1er vecteur propre est celui qui maximise la variance. -Plus la valeur propre est grande, plus la variance est importante.

2ème méthode: PCA 4. Sélection de k vecteurs propres (2 ou 3) -> réduction du nombre de dimensions 5. Projection de tous les points (souches) sur le plan formé par les k vecteurs propres

Résultats pour la méthode PCA Comment tirer des conclusions à partir de nos plots? 1) 9 plots très semblables 2) Mise en évidence des souches externes/groupées 3) PCA sur les souches externes 4) Enlever les souches externes 5) PCA sur les souches restantes

Résultats pour la méthode PCA PCA sur les 20 souches:

Résultats pour la méthode PCA PCA sur les 5 souches extérieures au groupe central:

Résultats pour la méthode PCA PCA sur les 15 souches:

Résultats pour la méthode PCA PCA sur les 4 souches extérieures au 15:

Résultats pour la méthode PCA PCA sur les 11 souches:

Résultats pour la méthode PCA PCA sur les 9 souches:

Résultats pour la méthode PCA PCA sur les 7 souches:

Résultats pour la méthode PCA les 9 souches:

Résultats pour la méthode PCA Résultat final de la PCA: -> les distances estimées par la PCA correspondent aux distances entre les groupes trouvés dans la littérature

5. Comparaison des méthodes K-means: Avantages: -> méthode plus rapide à assimiler -> méthode plus simple à appliquer Inconvénient: -> méthode qui ne fonctionne pas sur nos données

5. Comparaison des méthodes 2) Analyse en composantes principales: Avantage: -> méthode efficace pour analyser nos données Inconvénients: -> méthode longue et compliquée -> nous ne pouvions pas utiliser tous les SNPs, seulement 1000.

6. Perspectives -> Utilisation d’autres méthodes -> Nous aurions pu analyser l’ADN mitochondrial et comparer les résultats avec ceux des SNPs -> Deviner les SNPs manquants chez certaines souris au sein d’un certain groupe

7. Feedback -> Apprentissage de méthodes de programmation -> Réalisation du projet lui-même -> Aperçu d’analyses mathématiques sur des données biologiques

Remerciements Nous tenons à remercier Micha Hersch pour sa disponibilité, son soutien et sa patience!

Merci de votre attention! Jessica Monhart (jessica.monhart@unil.ch) Camille Pitteloud (camille.pitteloud@unil.ch)