Nadia Tahiri BIF7002 – Hiver 2017

Slides:



Advertisements
Présentations similaires
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
Advertisements

Alix Boc Université du Québec à Montréal
Développement d'un service Web de transformation des données routières : application à un système géomatique mobile (M 2 G) Karl Guillotte Direction :
Visualisation dynamique d'arbres hiérarchiques de très grande taille Par Rémi Fusade TER encadré par Thomas Hurtut et Thierry Stein.
Proposition d’une heuristique efficace pour l’ordonnancement des machines parallèles 1 Benjamin Vincent Nikolay Tchernev Christophe Duhamel Libo Ren 21e.
Les systèmes d'information 1- Une pratique quotidienne 2- Les données 3- Approche conceptuelle 4- Notion de serveur 5- Conception d'un système d'information.
P HYLOGÉNIE MOLÉCULAIRE Dr Lilia Romdhane Faculté des Sciences de Bizerte.
Hypergraph Lossless Compression, Quadtrees et notion de complexité sur les images G graphes et sécurité Sujet de stage de Master en cours: Sujet de thèse.
1- Introduction 1ère partie Le langage SQL 2- Connexion 3- Structure & Contenu 4- Requêtes.
La classification phylogénétique « Rien n'a de sens en biologie, si ce n'est à la lumière de l'évolution » ● Carl Von Linné ( ): créateur de notre.
Comparing color edge detection and segmentation methods Projet TIM.
Active Learning for Natural Language Parsing and Information Extraction, de Cynthia A. Thompson, Mary Elaine Califf et Raymond J. Mooney Philippe Gambette.
Adopter le KM mix pour obtenir ou renforcer le leadership Préparé par: Ilham ELKORCHI Meriem NASIRI Mohammed BENMRAH Encadré par: Ouidad AMRANI.
Systématique phylogénétique Bruno Righetti, 2015.
Utilisation du logiciel EduStat © Analyse classique d’items L’examen du rapport.
Les cinq domaines du socle Les compétences : - en CAP, BEP et bac pro - en Mathématiques pour le cycle 4 - en Physique-Chimie pour le cycle 4.
Un système autonomique basé sur des bases de connaissances pour améliorer les performances d’un entrepôt de données Réalisé par : OUSSAFI MOHAMMED HOURRI.
Les rprésentation des signaux dans le cadre décisionnel de Bayes Jorge F. Silva Shrikanth S. Narayanan.
Système d’aide à la décision Business Intelligence
Les Bases de données Définition Architecture d’un SGBD
Cours d’Econométrie de la Finance (Stat des choix de portf. IV 1-2)
Suites ordonnées ou mettre de l’ordre
Rappels de sixième La classification en ensembles emboîtés est une méthode pour classer et organiser la grande diversité d’êtres vivants. On les classe.
Analyse, Classification,Indexation des Données ACID
Interprétation des indicateurs?
Information, Calcul, Communication
Algorithmique Avancée et Complexité Chap2:Complexité et Optimalité
Loi Normale (Laplace-Gauss)
D’où proviennent les nouveaux groupes et les nouvelles espèces ?
LE PASSAGE À L’EURO DE L’APPLICATION ICARE
Analyse en Composantes Principales A.C.P. M. Rehailia Laboratoire de Mathématiques de l’Université de Saint Etienne (LaMUSE).
Profils d’emplois JT du 24 septembre 2001
DESSIN TECHNIQUE Té de dessin Collège technique Sousse Collège technique Sousse.
Cyber-Sphinx Séance 2.
et discussion de l'article 2
Technologies de l’intelligence d’affaires Séance 11
Les répétitions en tandem et l ’étude des génomes
Les indicateurs et la modélisation trophique dans l’approche écosystémique des pêches : une application au suivi des ressources marines de la Guinée. Par.
Technologies de l’intelligence d’affaires Séance 12
République Algérienne Démocratique et Populaire Ministère de l'Enseignement Supérieur et de la Recherche Scientifique Université Saad.
Méthodologie de la recherche Programme du module.
Cyber-Sphinx Séance 2.
Mathématiques et Sports. La course à pied La course à pied  Les mathématiques, sont un outil qui permet d’analyser, de simuler, de prédire et d’optimiser.
Branch-and-price algorithms for the solution of the multi-trip vehicle routing problem with time windows (MTVRPTW) 1.
ACP Analyse en Composantes Principales
Systèmes de monnaie.
Introduction en systèmes d’information et bases de données B.Shishedjiev -Introduction en BD 1.
Royaume de Maroc Université Hassan Premier Settat Faculté des Sciences et Techniques de Settat LA CLASSIFICATION K-MEANS SOUS R /MATLAB Master :Automatique.
Introduction Dès les premières tentatives de classification s’est posé le problème du nombre de classes, de la validation, et de l’existence.
Présentation de la base Frantext
Arbres de décision.
Variable Neighborhood Descent (VND) Réalisée par Nadia Sassi Eya baghdedi AU
Centre d’études et de recherches sur les qualifications
Position, dispersion, forme
Jean-Sébastien Provençal
Valérie Hay Université du Québec à Montréal 15 Janvier 2019 BIF7002
Contribution du LHyGeS
Les calculs usuels sur les prix
Moteurs de recherches Data mining Nizar Jegham.
INTELLIGENCE ARTIFICIELLE
5. Algorithme du simplexe
Package JADE : Analyse en composantes principales (ACI)
Tableau de bord d’un système de recommandation
Encadrée par: - Mr. Abdallah ALAOUI AMINI Réalisée par : -ERAOUI Oumaima -DEKKAR Amal - ES-SAHLY Samira -Houari Mohammed PROGRAMMATION MULTIOBJECTIFS.
INTELLIGENCE ARTIFICIELLE
INTELLIGENCE ARTIFICIELLE
Impact Evaluation 4 Peace March 2014, Lisbon, Portugal 1 Echantillonage pour une Evaluation d’Impact Latin America and the Caribbean’s Citizen Security.
Projet CRImage UNIVERSITE STENDHAL GRENOBLE
DONNÉE DE BASE QM Manuel de formation. Agenda 2  Introduction  Objectif de la formation  Données de base QM: Caractéristique de contrôle Catalogue.
Transcription de la présentation:

Nadia Tahiri BIF7002 – Hiver 2017 Inférence de super-arbres phylogénétiques multiples en utilisant l’algorithme des k-moyennes Nadia Tahiri BIF7002 – Hiver 2017

Plan Introduction Phylogénie Mesures de comparaison des arbres Classification d’arbres phylogénétiques Problématique Algorithme Résultats Simulations Données réelles (biologiques et linguistiques) Conclusion

Introduction

La phylogénie La phylogénie (ou phylogénèse) étudie la parenté entre différents êtres vivants en vue de comprendre leur évolution. feuilles (espèces) Temps branches ancêtres virtuels racine

Reconstruction d’un arbre phylogénétique alignement des séquences AAATGATCTGCGTCAATATTATAA GCCTGATCCTCACTACTGTCATCTTAA ATAGGGCCCGTATTTACCCTATAG AACTGGTCCACCCTTATACTAAAAGACGCCTCACTAGGAAGCTAA AACTGATCTGCTTCAATAATTTAA AAATGATCTGCGTCAATATTA---------------------TAA GCCTGATCCTCACTA------------------CTGTCATCTTAA ATA---------------------GGGCCCGTATTTACCCTATAG AACTGGTCCACCCTTATACTAAAAGACGCCTCACTAGGAAGCTAA AACTGATCTGCTTCAATAATT---------------------TAA calcul des distances ou des dissimilarités entre les espèces 4 2 application d’une méthode de reconstruction d’arbres

Mesures de comparaison des arbres Il existe quatre principales mesures de comparaison d’arbres phylogénétiques: La distance des moindres carrés (LS) (Gauss, 1795); La dissimilarité de bipartitions (DB) (Boc et al., 2010, Makarenkov et al., 2007); La distance de quartets (QD) (Bryant et al., 2000); La distance de Robinson et Foulds (RF) (Robinson et Foulds, 1981).

Classification d’arbres phylogénétiques Nadia Tahiri, Matthieu Willems, Vladimir Makarenkov (2015) Inférence de super-arbres phylogénétiques multiples en utilisant l’algorithme des k-moyennes, article publié dans les actes de la conférence SFC-2015.

Problématique Idée: Classification d’arbres phylogénétiques basée sur l’algorithme des k-moyennes permet de distinguer les familles de gènes qui ont la même histoire évolutive (e.g. gènes orthologues) Nécessité de fusionner les arbres phylogénétiques via le projet ToL (Tree of Life) 1 (Maddison et al., 2007) Perte d’informations Incohérence de la fusion des arbres phylogénétiques Nous proposons ici une méthode de partitionnement d’un ensemble de n arbres phylogénétiques qui se base sur l’algorithme des k-moyennes 1 http://tolweb.org/tree/

Algorithmes d’inférence d’arbres consensus Arbre T1 Arbre T2 Arbre consensus (strict et majoritaire) de T1 et T2 Les trois principales approches pour l’inférence d’arbres consensus : Arbre consensus strict (Sokal et Rohlf, 1981) Arbre consensus majoritaire (Margush et McMorris, 1981) Arbre consensus majoritaire étendu (Felsenstein, 1985)

Algorithmes d’inférence d’un super-arbre Les méthodes de super-arbres réconcilient des arbres phylogénétiques définis sur des ensembles de taxons différents mais partiellement chevauchants. Principales méthodes d’inférence de super-arbres: Dans le passé (Gordon, 1986) Illustration d’une reconstruction dans le passé (Bininda-Edmonds, 2004).

Algorithmes d’inférence d’un super-arbre Les méthodes de super-arbres réconcilient des arbres phylogénétiques définis sur des ensembles de taxons différents mais partiellement chevauchants. Principales méthodes d’inférence de super-arbres: Dans le présent : MPR (Ragan, 1992; Doyle, 1992) Illustration d’une reconstruction dans le passé (Bininda-Edmonds, 2004).

Algorithme Nom : Super-trees Méthode : utilisation de l’algorithme des k-moyennes pour classifier les arbres phylogénétiques Propriété : arbre consensus est un arbre médian d’un groupe d’arbres dans le sens de la distance topologique de Robinson et Foulds (Barthélemy et McMorris,1986). Données en entrée : - n arbres phylogénétiques définis sur des ensembles d’espèces (i.e., objets, taxa) différents, mais chevauchants Particularité : Il faudra filtrer les ensembles d’espèces Difficulté : Définir un seuil minimum de feuilles chevauchantes entre les arbres phylogénétiques Données en sortie : - partitionnement optimal de ces arbres en un ou plusieurs groupes; - pour chaque groupe retrouvé: la liste des arbres phylogénétiques associés; Indices de validités des clusters utilisés: CH (Calinski-Harabasz, 1974), W.

Algorithme des k-moyennes Description: Permet de déterminer le partitionnement optimal des données (i.e., arbres phylogénétiques dans notre cas) en k groupes selon un critère de similarité (MacQueen, 1967). Distance choisie: distance de Robinson et Foulds (1981) La distance topologique de Robinson et Foulds entre deux arbres phylogénétiques est égale au nombre minimal d’opérations élémentaires de fusion et de séparation de noeuds, nécessaires pour transformer un arbre en un autre (d(T,T’) = 2). Critères d’évaluation Calinski-Harabasz (1974); W.

Fonction objective N – nombre d’arbres phylogénétiques K – nombre de groupes Nk – nombre d’arbres phylogénétiques dans le cluster k RFnorm – Distance topologique de Robinson et Foulds normalisée par 2n-6 Tki – arbre phylogénétique i du cluster k Tkj – arbre phylogénétique j du cluster k

Critère de calinski-harabasz (1974) N – nombre d’arbres phylogénétiques K – nombre de groupes SSB – indice d’évaluation intergroupe SSW – indice d’évaluation intragroupe

Les indices SSW – Cas des arbres complets SSW – indice d’évaluation intragroupe RF – distance topologique de Robinson et Foulds (1981) Tki et Tkj – deux arbres phylogénétiques appartenant à la même classe k Nk – nombre d’arbres phylogénétiques dans la classe k K – nombre de classes N – nombre total d’arbres phylogénétiques dans le jeu de données

Les indices SSW – Cas des arbres partiels SSW – indice d’évaluation intragroupe RF – distance topologique de Robinson et Foulds (1981) Tki et Tkj – deux arbres phylogénétiques appartenant à la même classe k Nk – nombre d’arbres phylogénétiques dans la classe k K – nombre de classes N – nombre total d’arbres phylogénétiques dans le jeu de données – valeur maximale de RF entre les arbres Tik et Tjk, ayant feuilles communes

Les indices SSB – Cas des arbres complets SSB – indice d’évaluation intergroupe les arbres Ti et Tj appartiennent à des classes différentes

Les indices SSB – Cas des arbres partiels SSB – indice d’évaluation intergroupe les arbres Ti et Tj appartiennent à des classes différentes Limite: Ne permet pas de comparer la solution en un arbre-consensus unique (cas où K = 1) avec la solution admettant les arbres-consensus multiples (cas où K ≥ 2).

Fonction objective W Fonction objective W où : RF – distance de Robinson et Foulds (1981) Tki et Tkj – deux arbres phylogénétiques Tki et Tkj appartenant à la même classe k RF(Tki, Tkj) – distance RF entre les arbres phylogénétiques Tki et Tkj Nk – nombre d’arbres phylogénétiques dans la classe k K – nombre de classes N – nombre total d’arbres phylogénétiques considérés n(Tki, Tkj) – nombre d’espèces identiques dans les arbres phylogénétiques Tki et Tkj Limite: Ne tient pas compte de la distance intergroupe.

Résultats

Validation de l’approche et des critères Plan des simulations: Étape 1: Générer k arbres phylogénétiques binaires aléatoires {T1…Tk}, ayant de n1 à n2 feuilles chacun (et au moins n feuilles communes), où k = {1…10} et n = {8, 16, 32, 64}. Étape 2: Pour chaque arbre phylogénétique Ti (où i = 1…k), générer l’ensemble de 100 arbres appartenant à la classe i pour chacun des intervalles indiqués ci-dessous. Pour ce faire: nous allons générer des arbres phylogénétiques aléatoires tels que le pourcentage de similitude (mesuré à l’aide de la distance RF) entre eux et Ti soit: de 0 à 10% (Intervalle I), de 10 à 25% (Intervalle II), de 25 à 50% (Intervalle III). Étape 3: Exécuter l’algorithme Super-trees sur les ensembles d’arbres générés avec les différents paramètres (k, N, n, Intervalle, Fonctions Objectives = W, CH; 2 variantes testées: la distance RF était mise au carrée ou non), Mesure de la qualité des résultats par les indices Rand et Rand ajusté.

Indice Rand ajusté Remarque: Mesure la qualité des résultats par la différence du nombre simulé de clusters et du nombre de clusters dans la partition trouvée par notre algorithme (i.e. similarité entre deux partitions de clusters) Avoir une connaissance a priori des données (i.e. nombre de clusters) Intervalle [-1; 1] Très sensible versus à l’indice Rand 1 (Hubert et Arabie, 1985)

Validation de l’approche et des critères Étude de l’évolution de l’indice Rand ajusté moyen et de la différence du nombre de classes pour les quatre critères: -- CH ; -- W -- CH où RF n’est pas au carré ; -- W où RF n’est pas au carré.

Validation de l’approche et des critères Étude de l’évolution de l’indice Rand ajusté moyen (avec différents taux de bruit) : 0% de bruit 10% de bruit 25% de bruit 50% de bruit

Validation de l’approche et des critères Comparaison de : notre algorithme basé sur l’indice de validité CH (dont la distance RF n’est pas mis au carré avec l’approche directe (i.e. par l’inférence d’un consensus et dont la distance RF est mis au carré) Δ 26

Classification des protéines ribosomales des archaebactéries (Matte-Tailliez et al., 2002 ) Données: Soit 49 protéines ribosomales de 14 archéobactéries (étudiées initialement par Matte-Tailliez et al., 2002). Motivations: Trouver les protéines des 14 archaebactéries partageant la même histoire évolutive. Détecter les gènes qui ont subi les mêmes transferts horizontaux (HGT). L’arbre d’espèces pour 14 archéobactéries (Matte-Tailliez et al., Mol. Biol. Evol., 2002).

Classification des protéines ribosomales des archaebactéries (Matte-Tailliez et al., 2002 ) Arbres consensus selon le critère CH Arbre consensus 1 (avec les transferts) Arbre consensus 2 (avec les transferts)

Données biologiques de Stockham et al. 2002 Groupe biologique étudié Nombre d’espèces Nombre d’arbres phylogénétiques Nombre de classes trouvé par Stockham et al. 2002 Nombre de classes trouvé par notre algorithme avec le critère CH PEVCCA *1 129 168 3 PEVCCA2 654 5 Campanulaceae family 51 450 Caesalpinia family 13 216 1 (supposé par les auteurs) 2

Évolution des langues Indo-Européennes (IE) La base de données: Organisée par Dyen et al. (1997) et améliorée par Boc et al. (2010). Regroupée en 200 mots de la liste Swadesh, traduite dans 87 langues et structurée en 1315 cognats. Motivations: Trouver des groupes de langues partageant la même histoire évolutive. Mettre en avant l’origine des langues IE Hypothèse Kourgane Hypothèse Anatolienne ou une nouvelle hypothèse L’arbre d’évolution des langues IE (Gray et Atkinson, Nature, 2003).

Résultats pour les langues IE La langue Riksmal est l’hybride du Danois et du couple (Islandais, Féroïen) Split-graphe pour sept langues nord-germaniques (Willems et al., BMC Evol. Bio., 2016).

Résultats pour les langues IE La langue Riksmal est l’hybride du Danois et du couple (Islandais, Féroïen) Deux super-arbres que nous avons retrouvés pour les langues nord-germaniques en utilisant le critère CH

Conclusion

Conclusion Perspectives Développement : d’un nouvel algorithme pour la classification des super-arbres de nouveaux critères de classification (i.e. fonction objective W et le critère Calinski-Harabasz CH) pour le cas des arbres phylogénétiques (i.e., additifs) Validation de l’approche par simulations Application de l’algorithme sur des données réelles (i.e. biologiques et linguistiques) Variante k-médoïde, autres indices tel que : Silhouette, Gap statistique et variantes de CH Perspectives Définir un seuil du choix du bon critère (CH vs W) Améliorer la complexité de l’algorithme Incorporer le boostrapping accompagnant les résultats des super-arbres Définir un seuil minimum de feuilles chevauchantes entre les arbres phylogénétiques 34

Merci de votre attention !!!

Remerciements Mon directeur de thèse : Vladimir Makarenkov Mes collaborateurs et membres du laboratoire de bioinformatique de l’Université du Québec à Montréal: Dunarel Badescu (McGill) Nancy Badran (UQÀM) Abdoulaye Baniré Diallo (UQÀM) Alexandre Gondeau (UQÀM) Les fonds FQRNT et la fondation de l’UQÀM pour le financement de ce projet

Références Barthélemy, J. P., & McMorris, F. R. (1986). The median procedure for n-trees. Journal of Classification, 3(2), 329-334. Calinski, T. et Harabasz, J. 1974. A dendrite method for cluster analysis. Communications in Statistics-theory and Methods, 3(1), 1-27. Gordon, A. D. (1986). Consensus supertrees: the synthesis of rooted trees containing overlapping sets of labeled leaves. Journal of Classification, 3(2), 335-348. MacQueen, J. (1967). Some methods for classification and analysis of multivariate observations. In Proceedings of the fifth Berkeley symposium on mathematical statistics and probability, 1(281-297), 14. Robinson, D.R. et Foulds, L.R. (1981) Comparison of phylogenetic trees. Mathematical Biosciences, 53, 131-147. Tahiri, N., Willems, M., Makarenkov, V. (2014) Classification d’arbres phylogénétiques basée sur l’algorithme des k-moyennes, Actes de SFC-2014. Tahiri, N., Willems, M., Makarenkov, V. (2015) Inférence de super-arbres phylogénétiques multiples en utilisant l’algorithme des k-moyennes, Actes de SFC-2015.