Valérie Hay Université du Québec à Montréal 15 Janvier 2019 BIF7002

Slides:



Advertisements
Présentations similaires
Les informations, opinions et conclusions présentées n'engagent que l'auteur. L'information validée et officielle concernant les problématiques d'insectes.
Advertisements

Activités mathématiques autour du jeu de bridge Séance 2 1.
Introduction à la notion de fonction 1. Organisation et gestion de données, fonctions 1.1. Notion de fonction ● Déterminer l'image d'un nombre par une.
Nouveau programme de 3ème Probabilités Document de travail – Académie de Rouen
LE SUPPORT D'ORDINATEUR PORTABLE. Problématique Oh, j'ai chaud aux jambes ! Et moi, j'ai chaud à mon processeur !
Inter académiques Orléans 2007 Analyse d'activités pouvant donner lieu à développement dans et hors la classe. Durée : 1h30 ● Problématique ● Présentation.
Deux facteurs: l’œuf et la poule Position théorique: décrire la langue au niveau de la performance Position théorique: décrire la langue au niveau de la.
La question sur corpus.
DIAGRAMME DE DEPLOIEMENT Exposé de: MBALLA MEKONGO Michèle MBOUNA FEUZE William SIEYADJEU Alex Lionel CHOPGWE Leonard NDUMATE Landry TIDJON Lionel.
Dr. Tarek Barhoumi statistiques descriptives Statistiques descriptives Dr. Tarek Barhoumi.
Exploitation de mesures scientifiques.
Le choix des matières premières Les données de composition
L’arbre de la vie Page 20 Les relations évolutionnistes d’un groupe d’organismes sont des relations phylogénétiques Darwin: «phylogénie = branches d’un.
Exposé : Les arbres phylogénétiques
Les trois niveaux de la biodiversité
Algorithme et programmation
SNMP - Comment calculer l'utilisation de la Bande passante
Algorithmique demander jeu du pendu.
Reprise du cours ( ) Aujourd’hui :

Ecole des Hautes Etudes en Sciences Sociales
Soutenance de Mémoire de Master En vue de l’obtention du diplôme de master En Physique des fluides et des transferts THEME Etude des champs dynamique.
Stage de Pré-rentrée de Paris VI
Comment construire un schéma de scénario ou synopsis ? Les 6 étapes
corpus spéciale et spécialisée
Plans d’expériences: Plans factoriels
Domaine: Relations R.A.:
Inégalité et autopsie fœtale au Québec
Faire de Zotero son hub de recherche : L’exemple Zotlog
Tableau de bord des risques
Techniques du Data Mining
Thème 1A: GÉNÉTIQUE ET ÉVOLUTION Chapitre 2
Les hélices des protéines transmembranaires
Le logiciel HYPERBASE-LATIN :
Stabilité des porteurs horizontaux (Poutres)
Paradigme constructiviste
Introduction aux statistiques Intervalles de confiance
Regroupement contextuel de cimes dans les images aéroportées
Méthodologie scientifique
Plan National de Formation
Techniques du Data Mining
Des mathématiques derrière l’intelligence artificielle
Chapitre 3 : Caractéristiques de tendance centrale
Résultats PISA 2006 Quelques éléments
Programme financé par l’Union européenne
Révision du format des données
Les Séquences et leurs Propriétés
L’EPISSAGE ALTERNATIF DE L’ARN
Comment lire et écrire un article scientifique
Organisation et évaluation
4°) Intervalle de fluctuation :
Information sur survies des patients en dialyse péritonéale, en France métropolitaine dans le RDPLF Année 2016.
Lois de Probabilité Discrètes
Un bref historique* Automne 1977 – Implantation de la Cote Z (sans IFG) Automne 1996 – Implantation de la CRC (avec IFG) Hiver 2005 – Pondération des échecs.
Méru - Bernadette Aubry
Le code de Huffman: est une méthode de compression statistique de données qui permet de réduire la longueur du codage d'un alphabet. Le code de Huffman.
Présentation 4 : Sondage stratifié
La biotechnologie.
Reconnaissance de formes: lettres/chiffres
Numérique et Sciences Informatiques
Technologie de l’ADN recombinant
Les Séquences et leurs Propriétés
Analyse des données et complémentarité des sources
Contextualisation : Détermination de l’intensité d’une force
Présentation des nouveaux programmes de mathématiques de première des séries technologiques Jessica Parsis.
Sandrine Marchand- Académie de Grenoble
I. Aouichak, I. Elfeki, Y. Raingeaud, J.-C. Le Bunetel
Introduction à la biologie
Transcription de la présentation:

Valérie Hay Université du Québec à Montréal 15 Janvier 2019 BIF7002 Phylogénétique des mots Adaptation d'un algorithme de détection des transferts horizontaux de gènes pour la détection d’emprunts de mots dans les langues Indo-Européennes Valérie Hay Université du Québec à Montréal 15 Janvier 2019 BIF7002

Le plan L’évolution, la phylogénétique et la linguistique Les transferts et leur détection Notre problème et solution Méthodologie et Résultats Conclusion Le plan

Caractères de BD https://www.tumblr.com/search/cladee%20 Qu’est-ce que l’évolution et la phylogénétique https://www.tumblr.com/search/cladee%20

Caractères de BD et évolution La phylogénétique est une méthode afin de déterminer comment s’est passé l’évolution afin d’arriver aux espèces connues aujourd’hui. On fait des supposition informées basées sur les fossiles, l’apparition de différentes espèces. https://www.tumblr.com/search/cladee%20

Les boîtes téléphoniques On peut faire des arbres phylogénétiques avec n’importe quel objet de manière à voir son évolution dans le temps. Certains arbre peuvent être plus ou moins certain dépendant des données que l’on a. Par exemple les boîtes téléphones peuvent être réalisé avec un niveau de certitude très élevé car elles ne sont pas si veille que cela, donc la mémoire de l’Homme peut faire la reconstruction https://londonist.com/london/best-of-london/the-red-phone-box-an-evolutionary-tree

Les espèces vivantes Ce qui est plus intéressant est l’évolution des espèces vivantes. http://peaksurfer.blogspot.ca/2017/04/change-agents.html: dernier 1 % du matériel génétique

La phylogénie Projet global de l’évolution de toutes les espèces (Tree of Life) : 1996 - 2007: http://tolweb.org/tree/ 2007 - : https://itol.embl.de/

Le parallèle Phylogénétique Linguistique ADN, ARN, protéines Arbres de gènes et d’espèces Base de données de séquences Outils: bioinformatique Langues, cognats, mots Arbres d’évolution des mots et des langues Base de données par de langues par cognat (Dyen et Greenhill) Outils: archives & écrits historiques 4/5 nucléotides, 21 acide aminé vs beaucoup de lettres différentes

Exemples d’adaptation Arbre phylogénétique: Gray et Atkinson de 2003 Propagation virale: Bouckaert 2012 Syntaxe, géographie et génétique: Longobardi 2015 Hybrides: Willems 2016 Plusieurs exemples d’adaptation de la phylogénétique vers la linguistique existe dans la littérature

Les langues Indo-Européennes Gray, R. D. et Atkinson, Q. D. (2003). Language-tree divergence times support the Anatolian theory of Indo-European origin. Nature, 426(6965), 435-439. Un des premier exemple d’adaptation: l’arbre des langues. Toujours une référence dans le domaine. Il y a encore un inconnu soit d’où les langues IE origine: thories Kurganne vs Anatolienne. Expansion kurgannes (originant dans la Russie d’aujourd’hui) utilisant des chevaliers ou les fermes Anatoliennes (Turkie) dispenser par l’agriculture Ce travail donne raison à la dispersion des langues via l’agriculture anatoliennes.

Prédiction virale Si on peut prévoir la dispersion virale, on peut peut-être prédire la dispersion linguistique et voir si ça match avec les langues comtemporaines Bouckaert, R., et al. (2012). Mapping the origins and expansion of the Indo-European language family. Science, 337(6097), 957-960.

Les langues hybrides On peut trouver les souches hybrides, donc pourquoi pas les langues hybrides? Celles dont le contenu en mot corresponds à Willems, M., et al. (2016). Using hybridization networks to retrace the evolution of Indo-European languages. BMC Evolutionary Biology, 16, 180 (118 pages).

Transfert d’un gène Chez les bactéries, l’acquisition de nouveaux matériels génétique se fait de plusieurs manières, et entre autre transferts via des phages von Wintersdorff, C. J. H. et al. (2016). Dissemination of Antimicrobial Resistance in Microbial Ecosystems through Horizontal Gene Transfer. Frontiers in Microbiology, 7(173).

Transfert bactérien Boc, A., et al. (2010). Inferring and validating horizontal gene transfer events using bipartition dissimilarity. Systematic Biology, 59(2), 195-211. Algo développer pour trouver et déterminer le sens des transferts bactériens.

La problématique Déterminer les transferts de mots d’une langue vers une autre Le but est toujours d’expliquer l’origine et l’évolution du groupe des langues Indo-Européennes. Cette explication passe peut-être par la détermination des transferts de mots afin de voir les différentes influences.

La problématique La solution Déterminer les transferts de mots d’une langue vers une autre La solution Adapter un algorithme de la bioinformatique Nous avons choisi l’algorithme de Boc et al. (Systematic Biology, 2010) La solution qu’on propose est d’utiliser l’algorithme de Boc pour trouver les transferts de gènes bactérien. D’adapter l’algorithme pour trouver les transferts de mots.

La méthode Jeu de données d’entrée: 200 mots (sens) de la liste de Swadesh traduit en 87 langues (Dyen et al.) Probabilité de transfert : C2 doit être déterminé expérimentalement Le but est toujours d’expliquer l’origine et l’évolution du groupe des langues Indo-Européennes

Les paramètres de notre modèle Valeurs Intervalle Valeurs essayées Min Max Minexternalnodes (External) 1 3 1, 2, 3 Mininternalnodes (Internal) C2 0.5 5 0.25 0.5, 0.75, 1, 1.25, 1.5, 1.75, 2, 2.25, 2.5, 2.75, 3, 3.25, 3.5, 3.75, 4, 4.25, 4.5, 4.75, 5 Blk 0.1 0.05 0.1, 0.15, 0.2, 0.25, 0.3, 0.35, 0.4, 0.45, 0.5 On a 4 paramètres à optimiser… blk = différence de la moyenne de l’âge des langues entre deux groupes de langues

Les langues Indo-Européennes Nœud interne Les langues Indo-Européennes Gray, R. D. et Atkinson, Q. D. (2003). Language-tree divergence times support the Anatolian theory of Indo-European origin. Nature, 426(6965), 435-439. Le nombre de nœuds interne vs externe Nœud externe

La données positives Transferts connus de la littérature Site web http://ielex.mpi.nl/ Au fils des ans et des publications, il y a eu des transferts qui ont été identifiés. On les a répertorités. On a surtout obtenu des transferts vers l’anglais et les langues albanaisaises car c’est les études qui ont été réalisées. On a donc composé un jeu de données positifs composés de 56 transferts… 56 transferts connus = 53 mots et 55 cognats

Évaluation des paramètres   Algorithme\Données Vrai Faux Vrai Positif Faux Positif Faux Négatif Vrai Négatif Présentation de la table de vérité La F-mesure est choisi pour l’évaluation des différents paramètres car développé pour problème de classification = exactement ce que nous avons ici.

Résultats J’ai construit des graphiques de genre pour déterminer la valeur de la F-mesure optimale. Ca donne une bonne vision de l’ensemble des données. J’ai aussi fait une analyse numérique afin de déterminer exactement les paramètres qui ont la plus haute F-mesure. Aussi on dirait ici que plusieurs valeurs donne la même valeur, mais est-ce vrai?

Les valeurs optimales Paramètre Valeurs optimales Minexternalnodes (External) 1 Mininternalnodes (Internal) 2 C2 2.75 - 5 2.75, 3, 3.25, 3.5, 3.75, 4, 4.25, 4.5, 4.75, 5 Blk 0.1 – 0.45 0.1, 0.15, 0.2, 0.25, 0.3, 0.35, 0.4, 0.45 Oui, on obtient en fait des plages de valeurs ayant une valeur de F-mesure identique. Valeurs optimales minimales: C2 = 2.75 et blk = 0.1 Valeurs optimales maximales: C2 = 5 et blk = 0.45

Les jeux de données Tous les 200 mots de la liste de Swadesh Les mots du lexique: 143 mots fruit, woman, man, person, animal, yellow, hand … Les mots d’action: 57 mots to_eat, to_play, to_dye, to_burn, to_hunt … Utilisation des paramètres optimaux avec 3 jeux de données indépendants

Représentation des données Langues receveuses Langues donneuses

Cartes thermiques 200 Mots: C2 = 2.75 & blk = 0.1 Résultats des cartes thermiques pour les 2 extrémités de la plages On voit quelques différentes, mais l’écart n’est pas très grand

Le lexique 143 Mots: C2 = 2.75 & blk = 0.1

Les actions 57 Mots: C2 = 2.75 & blk = 0.1

Les langues Indo-Européennes Transfert intra-groupe Les langues Indo-Européennes Gray, R. D. et Atkinson, Q. D. (2003). Language-tree divergence times support the Anatolian theory of Indo-European origin. Nature, 426(6965), 435-439. Transfert inter-groupe On peut aussi décortiquer les transferts dépendant s’ils sont inter vs intra groupe et sortant vs entrant

Décortiquer les transferts Quand on décortique ont voit différente choses Tous les 200 mots pour C2 = 2.75 & blk = 0.1

Les transferts du lexique Quand on décortique ont voit différente choses Tous les 143 mots pour C2 = 2.75 & blk = 0.1

Les transferts des actions Quand on décortique ont voit différente choses Tous les 57 mots pour C2 = 2.75 & blk = 0.1

Analyses à venir Nombre de transferts Retrouver les transferts positifs Retrouver de la littérature Identifier des transferts inédits

Arbre des Langues (fruit, cognat2)

Arbre de Mot (fruit, cognat2)

Transferts trouvés pour le mot Fruit

Conclusion Plusieurs parallèles existent entre l’évolution génétique et des langues Adaptation possible des algorithmes bioinformatiques à la linguistique Détection des transferts de mots pour déterminer l’histoire de l’évolution des langues Indo-Européennes Identification de nouveaux transferts pouvant être expliqués?