Valérie Hay Université du Québec à Montréal 15 Janvier 2019 BIF7002 Phylogénétique des mots Adaptation d'un algorithme de détection des transferts horizontaux de gènes pour la détection d’emprunts de mots dans les langues Indo-Européennes Valérie Hay Université du Québec à Montréal 15 Janvier 2019 BIF7002
Le plan L’évolution, la phylogénétique et la linguistique Les transferts et leur détection Notre problème et solution Méthodologie et Résultats Conclusion Le plan
Caractères de BD https://www.tumblr.com/search/cladee%20 Qu’est-ce que l’évolution et la phylogénétique https://www.tumblr.com/search/cladee%20
Caractères de BD et évolution La phylogénétique est une méthode afin de déterminer comment s’est passé l’évolution afin d’arriver aux espèces connues aujourd’hui. On fait des supposition informées basées sur les fossiles, l’apparition de différentes espèces. https://www.tumblr.com/search/cladee%20
Les boîtes téléphoniques On peut faire des arbres phylogénétiques avec n’importe quel objet de manière à voir son évolution dans le temps. Certains arbre peuvent être plus ou moins certain dépendant des données que l’on a. Par exemple les boîtes téléphones peuvent être réalisé avec un niveau de certitude très élevé car elles ne sont pas si veille que cela, donc la mémoire de l’Homme peut faire la reconstruction https://londonist.com/london/best-of-london/the-red-phone-box-an-evolutionary-tree
Les espèces vivantes Ce qui est plus intéressant est l’évolution des espèces vivantes. http://peaksurfer.blogspot.ca/2017/04/change-agents.html: dernier 1 % du matériel génétique
La phylogénie Projet global de l’évolution de toutes les espèces (Tree of Life) : 1996 - 2007: http://tolweb.org/tree/ 2007 - : https://itol.embl.de/
Le parallèle Phylogénétique Linguistique ADN, ARN, protéines Arbres de gènes et d’espèces Base de données de séquences Outils: bioinformatique Langues, cognats, mots Arbres d’évolution des mots et des langues Base de données par de langues par cognat (Dyen et Greenhill) Outils: archives & écrits historiques 4/5 nucléotides, 21 acide aminé vs beaucoup de lettres différentes
Exemples d’adaptation Arbre phylogénétique: Gray et Atkinson de 2003 Propagation virale: Bouckaert 2012 Syntaxe, géographie et génétique: Longobardi 2015 Hybrides: Willems 2016 Plusieurs exemples d’adaptation de la phylogénétique vers la linguistique existe dans la littérature
Les langues Indo-Européennes Gray, R. D. et Atkinson, Q. D. (2003). Language-tree divergence times support the Anatolian theory of Indo-European origin. Nature, 426(6965), 435-439. Un des premier exemple d’adaptation: l’arbre des langues. Toujours une référence dans le domaine. Il y a encore un inconnu soit d’où les langues IE origine: thories Kurganne vs Anatolienne. Expansion kurgannes (originant dans la Russie d’aujourd’hui) utilisant des chevaliers ou les fermes Anatoliennes (Turkie) dispenser par l’agriculture Ce travail donne raison à la dispersion des langues via l’agriculture anatoliennes.
Prédiction virale Si on peut prévoir la dispersion virale, on peut peut-être prédire la dispersion linguistique et voir si ça match avec les langues comtemporaines Bouckaert, R., et al. (2012). Mapping the origins and expansion of the Indo-European language family. Science, 337(6097), 957-960.
Les langues hybrides On peut trouver les souches hybrides, donc pourquoi pas les langues hybrides? Celles dont le contenu en mot corresponds à Willems, M., et al. (2016). Using hybridization networks to retrace the evolution of Indo-European languages. BMC Evolutionary Biology, 16, 180 (118 pages).
Transfert d’un gène Chez les bactéries, l’acquisition de nouveaux matériels génétique se fait de plusieurs manières, et entre autre transferts via des phages von Wintersdorff, C. J. H. et al. (2016). Dissemination of Antimicrobial Resistance in Microbial Ecosystems through Horizontal Gene Transfer. Frontiers in Microbiology, 7(173).
Transfert bactérien Boc, A., et al. (2010). Inferring and validating horizontal gene transfer events using bipartition dissimilarity. Systematic Biology, 59(2), 195-211. Algo développer pour trouver et déterminer le sens des transferts bactériens.
La problématique Déterminer les transferts de mots d’une langue vers une autre Le but est toujours d’expliquer l’origine et l’évolution du groupe des langues Indo-Européennes. Cette explication passe peut-être par la détermination des transferts de mots afin de voir les différentes influences.
La problématique La solution Déterminer les transferts de mots d’une langue vers une autre La solution Adapter un algorithme de la bioinformatique Nous avons choisi l’algorithme de Boc et al. (Systematic Biology, 2010) La solution qu’on propose est d’utiliser l’algorithme de Boc pour trouver les transferts de gènes bactérien. D’adapter l’algorithme pour trouver les transferts de mots.
La méthode Jeu de données d’entrée: 200 mots (sens) de la liste de Swadesh traduit en 87 langues (Dyen et al.) Probabilité de transfert : C2 doit être déterminé expérimentalement Le but est toujours d’expliquer l’origine et l’évolution du groupe des langues Indo-Européennes
Les paramètres de notre modèle Valeurs Intervalle Valeurs essayées Min Max Minexternalnodes (External) 1 3 1, 2, 3 Mininternalnodes (Internal) C2 0.5 5 0.25 0.5, 0.75, 1, 1.25, 1.5, 1.75, 2, 2.25, 2.5, 2.75, 3, 3.25, 3.5, 3.75, 4, 4.25, 4.5, 4.75, 5 Blk 0.1 0.05 0.1, 0.15, 0.2, 0.25, 0.3, 0.35, 0.4, 0.45, 0.5 On a 4 paramètres à optimiser… blk = différence de la moyenne de l’âge des langues entre deux groupes de langues
Les langues Indo-Européennes Nœud interne Les langues Indo-Européennes Gray, R. D. et Atkinson, Q. D. (2003). Language-tree divergence times support the Anatolian theory of Indo-European origin. Nature, 426(6965), 435-439. Le nombre de nœuds interne vs externe Nœud externe
La données positives Transferts connus de la littérature Site web http://ielex.mpi.nl/ Au fils des ans et des publications, il y a eu des transferts qui ont été identifiés. On les a répertorités. On a surtout obtenu des transferts vers l’anglais et les langues albanaisaises car c’est les études qui ont été réalisées. On a donc composé un jeu de données positifs composés de 56 transferts… 56 transferts connus = 53 mots et 55 cognats
Évaluation des paramètres Algorithme\Données Vrai Faux Vrai Positif Faux Positif Faux Négatif Vrai Négatif Présentation de la table de vérité La F-mesure est choisi pour l’évaluation des différents paramètres car développé pour problème de classification = exactement ce que nous avons ici.
Résultats J’ai construit des graphiques de genre pour déterminer la valeur de la F-mesure optimale. Ca donne une bonne vision de l’ensemble des données. J’ai aussi fait une analyse numérique afin de déterminer exactement les paramètres qui ont la plus haute F-mesure. Aussi on dirait ici que plusieurs valeurs donne la même valeur, mais est-ce vrai?
Les valeurs optimales Paramètre Valeurs optimales Minexternalnodes (External) 1 Mininternalnodes (Internal) 2 C2 2.75 - 5 2.75, 3, 3.25, 3.5, 3.75, 4, 4.25, 4.5, 4.75, 5 Blk 0.1 – 0.45 0.1, 0.15, 0.2, 0.25, 0.3, 0.35, 0.4, 0.45 Oui, on obtient en fait des plages de valeurs ayant une valeur de F-mesure identique. Valeurs optimales minimales: C2 = 2.75 et blk = 0.1 Valeurs optimales maximales: C2 = 5 et blk = 0.45
Les jeux de données Tous les 200 mots de la liste de Swadesh Les mots du lexique: 143 mots fruit, woman, man, person, animal, yellow, hand … Les mots d’action: 57 mots to_eat, to_play, to_dye, to_burn, to_hunt … Utilisation des paramètres optimaux avec 3 jeux de données indépendants
Représentation des données Langues receveuses Langues donneuses
Cartes thermiques 200 Mots: C2 = 2.75 & blk = 0.1 Résultats des cartes thermiques pour les 2 extrémités de la plages On voit quelques différentes, mais l’écart n’est pas très grand
Le lexique 143 Mots: C2 = 2.75 & blk = 0.1
Les actions 57 Mots: C2 = 2.75 & blk = 0.1
Les langues Indo-Européennes Transfert intra-groupe Les langues Indo-Européennes Gray, R. D. et Atkinson, Q. D. (2003). Language-tree divergence times support the Anatolian theory of Indo-European origin. Nature, 426(6965), 435-439. Transfert inter-groupe On peut aussi décortiquer les transferts dépendant s’ils sont inter vs intra groupe et sortant vs entrant
Décortiquer les transferts Quand on décortique ont voit différente choses Tous les 200 mots pour C2 = 2.75 & blk = 0.1
Les transferts du lexique Quand on décortique ont voit différente choses Tous les 143 mots pour C2 = 2.75 & blk = 0.1
Les transferts des actions Quand on décortique ont voit différente choses Tous les 57 mots pour C2 = 2.75 & blk = 0.1
Analyses à venir Nombre de transferts Retrouver les transferts positifs Retrouver de la littérature Identifier des transferts inédits
Arbre des Langues (fruit, cognat2)
Arbre de Mot (fruit, cognat2)
Transferts trouvés pour le mot Fruit
Conclusion Plusieurs parallèles existent entre l’évolution génétique et des langues Adaptation possible des algorithmes bioinformatiques à la linguistique Détection des transferts de mots pour déterminer l’histoire de l’évolution des langues Indo-Européennes Identification de nouveaux transferts pouvant être expliqués?