A la découverte de la polysémie des spécificités du français technique RÉCITAL 2005 - Dourdan Ann Bertels University of Leuven RU Quantitative Lexicology.

Slides:



Advertisements
Présentations similaires
Introduction à l’Algorithmique
Advertisements

Présentation des programmes de terminale STG Juin 2006.
Olivier Kraif, Agnès Tutin LIDILEM
Urbanisation de Systèmes d'Information
Les TESTS STATISTIQUES
Maîtrise de la langue au cycle 3
Méthodes statistiques. Ajustements et corrélation
Les TESTS STATISTIQUES
Indexation textuelle : Systèmes de recherche d’informations
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Présentation CFAO Page 1.
Initiation au système d’information et aux bases de données
Initiation au système d’information et aux bases de données
La Régression Multiple
EVALUATION EVALUATION DES MANUELS SCOLAIRES Evaluer signifie :
Régression linéaire simple
Groupe 1: Classes de même intervalle
Bases de données lexicales
Opération et systèmes de décision Faculté des Sciences de l administration MQT Probabilités et statistique Mesures caractéristiques.
LES FICHES POUR METTRE EN OEUVRE DES DISPOSITIFS D'AIDE ET DE SOUTIEN
Reconnaissance Vocale
La régression logistique
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Forum des Industries de la Langue, 17 mars 2010
Le projet de terminologie
TRAITEMENT INSTRUMENTÉ DE CORPUS
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Régression linéaire multiple : hypothèses & interprétation
Statistiques Séance 10 N. Yamaguchi.
Master 1 – Sciences du Langage –
QUAND LES ÉLÈVES RACONTENT L’HISTOIRE NATIONALE QUESTIONS À L’ENSEIGNEMENT Questions de méthode Valérie Fontanieu, Ifé-ENS Françoise Lantheaume, ECP, Lyon.
Vocabulaire La polysémie
Théorème de la limite centrale l’inférence statistique
Vers une analyse syntaxique à granularité variable Tristan Van rullen
ANALYSE DE DONNEES TESTS D’ASSOCIATION
REPRESENTATION DE L’INFORMATION
STATISTIQUES DESCRIPTIVES
STATISTIQUES – PROBABILITÉS
Probabilités et Statistiques Année 2010/2011
Un exemple d’ANOVA Pour étudier l'influence du milieu sur la DL50 de daphnies (heure), on a mesuré cette durée de vie pour deux clones de daphnies en fonction.
Dominique LAURENT Patrick SEGUELA
Un exemple de régression poissoniènne
Introduction à une analyse statistique de données
On souhaite analyser les concentrations de mercure (ppm) dans les chaires de poissons carnivores des lacs de l'est de Etats- Unis. On espère trouver une.
Notions de coûts et prise de décision
Régréssion linéaire simple
Vers une intégration plus poussée de la recherche Web avec les Systèmes d’Information Géographiques Adapté de «Toward Tighter Integration of Web Search.
TEXT MINING Fouille de textes
Ensemble pour un avenir meilleur
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 1.
Le Traitement Automatique des Langues (TAL)
Video.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :34 1 Les modèles linéaires (Generalized Linear.
Les relations - règles - variables - table de valeurs - graphiques.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :26 1 Régression multiple Quand et pourquoi on.
CFM Centre de Formation Mécanique
L ’opérationnalisation des objectifs
Etude de la capacité de fonctionnement imaginaire des infirmières avec des bébés prématurissimes E. Seye, E. Amrani (IDE, réanimation néonatale) V. Granboulan.
Statistique Descriptive Les Paramètres de Tendance Centrale
Distribution à deux variables
Détecter les groupes à hauts risques cardiaques à partir de caractéristiques telles que l’alimentation, le fait de fumer ou pas, les antécédents familiaux.
CHAPITRE 2 LES SITUATIONS FONCTIONNELLES
1 L2 STE. Test du χ2 d’adéquation/conformité: Il s'agit de juger de l'adéquation entre une série de données statistiques et une loi de probabilité définie.
STRUCTURE D ’ UN ARTICLE ORIGINAL Pr Ganry.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Coltier Yves Division des prix 14/05/2014 Les remplacements de type EC Les modèles hédoniques.
Chapitre 4 Statistique descriptive 1. Echantillonnage statistique population On appelle population, un ensemble d’individus auquel on s’intéresse échantillon.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Julie QUIRICO BTS IPM Session
Transcription de la présentation:

A la découverte de la polysémie des spécificités du français technique RÉCITAL 2005 - Dourdan Ann Bertels University of Leuven RU Quantitative Lexicology and Variational Linguistics

Plan de la présentation Introduction et question de recherche Corpus technique Méthodologie Spécificités : Keywords Method Polysémie : cooccurrences Analyses statistiques : premiers résultats 2 2 RÉCITAL, Dourdan, 6-10 juin 2005

1. Introduction et question de recherche Thèse de doctorat : Etude sémantique quantitative du français scientifique et technique Monosémie – polysémie dans un corpus technique = Corpus de textes relevant d’un domaine de spécialité  machines-outils pour l’usinage des métaux 3 3 RÉCITAL, Dourdan, 6-10 juin 2005

1. Introduction et question de recherche Monosémie – polysémie dans un corpus technique Question de recherche  2 axes : Identifier le vocabulaire spécifique (les spécificités) Déterminer la monosémie ou la polysémie Vérifier dans quelle mesure les spécificités sont monosémiques Quantifier la recherche => corrélation entre le continuum de spécificité (le degré de spécificité) le continuum de monosémie (le degré de monosémie) Question de recherche mesurable et objectivable 4 4 RÉCITAL, Dourdan, 6-10 juin 2005

1. Introduction et question de recherche Question de recherche principale : Corrélation entre rang de spécificité et rang de monosémie Hypothèse de recherche : Les mots (les plus) spécifiques du corpus technique ne sont pas nécessairement (les plus) monosémiques (=> non-biunivocité) Questions de recherche supplémentaires : Fréquence, classe lexicale, longueur, nombre de classes lex. Vérifier l’impact des variables indépendantes sur le rang de monosémie (variable dépendante) 5 5 RÉCITAL, Dourdan, 6-10 juin 2005

1. Introduction et question de recherche Monosémie – polysémie dans un corpus technique Etude de corpus de textes spécialisés : Approche sémasiologique, linguistique et descriptive (>< approche onomasiologique et normative traditionnelle) Remise en question : Monosémie et univocité (Cf. Terminologie traditionnelle) Dichotomie entre langue générale et langue spécialisée : termes font partie de la langue générale véhiculent des connaissances spécialisées (Lerat 1995) 6 6 RÉCITAL, Dourdan, 6-10 juin 2005

1. Introduction et question de recherche tour fq 1478 machine-outil pour l’usinage des pièces rotation, révolution sens général : attendre son tour / à son tour découpe fq 965 action de découper résultat de la découpe (= pièce découpée) usiner fq 1035 Façonner, travailler une pièce (avec un outil) => indéterminé Spécification du sens en fonction du contexte / complément usiner des trous = tarauder / usiner des pièces = fraiser, rectifier 7 7 RÉCITAL, Dourdan, 6-10 juin 2005

Plan de la présentation Introduction et question de recherche Corpus technique Méthodologie Spécificités : Keywords Method Polysémie : cooccurrences Analyses statistiques : premiers résultats 8 8 RÉCITAL, Dourdan, 6-10 juin 2005

2. Corpus technique Corpus de textes techniques (1.760.000) : machines-outils pour l’usinage des métaux  lemmatisé : Cordial 7 Analyseur 4 sous-corpus Revues électroniques (Internet) 800.000 Fiches techniques (Internet) 300.000 Normes et directives (Internet + IBN (ISO)) 300.000 Manuels (4) 360.000 Corpus de référence : Le Monde : 1998 (15.300.000)  lemmatisé : Cordial 7 Analyseur 9 9 RÉCITAL, Dourdan, 6-10 juin 2005

2. Corpus technique 10 10 RÉCITAL, Dourdan, 6-10 juin 2005

Plan de la présentation Introduction et question de recherche Corpus technique Méthodologie Spécificités : Keywords Method Polysémie : cooccurrences Analyses statistiques : premiers résultats 11 11 RÉCITAL, Dourdan, 6-10 juin 2005

A. Spécificités Mots et termes spécifiques (unités simples) KeyWords Method (Log Likelihood Ratio (Dunning 1993)) AV + AV Frequency List Tool WordSmith Tools : KeyWords Calcul des spécificités (distribution hypergéométrique) Lexico3 Liste de spécificités + mesure statistique indiquant le degré de spécificité 12 12 RÉCITAL, Dourdan, 6-10 juin 2005

A. Spécificités Spécificités  les mots les plus fréquents = les mots les plus représentatifs Comment calculer la spécificité ? Fréquence dans le corpus technique ~ fréquence dans le corpus de référence (ou corpus entier (Lexico3)), taille des deux corpus Fréquence observée ~ fréquence attendue (corpus de référence) Différence entre fq observée et fq attendue significative Keywords / mots-clés / spécificités significativement plus fréquents dans le corpus technique 13 13 RÉCITAL, Dourdan, 6-10 juin 2005

A. Spécificités KeyWords Method : AV Frequency List Tool : le corpus technique (1.7 mio) le corpus de référence Le Monde (15.3 mio) 13.000 spécificités positives (p  0.05) Filtrer les mots grammaticaux et les noms propres ! code Cordial = indication de la classe lexicale Liste de mots grammaticaux (450) + noms propres (7200) Script Python: filtrer  7240 spécificités Mots spécifiques qui ne sont pas des termes : permettre, modèle 2112 hapax à supprimer  +/- 5000 spécificités 14 14 RÉCITAL, Dourdan, 6-10 juin 2005

A. Spécificités Tête de liste (4717) : les mots les plus spécifiques du corpus technique 15 15 RÉCITAL, Dourdan, 6-10 juin 2005

Plan de la présentation Introduction et question de recherche Corpus technique Méthodologie Spécificités : Keywords Method Polysémie : cooccurrences Analyses statistiques : premiers résultats 16 16 RÉCITAL, Dourdan, 6-10 juin 2005

B. Polysémie : cooccurrences Expérimentation : échantillon de 30 termes techniques Découpe, avance, tour, usinage, … Dictionnaires techniques spécialisés Étude de corpus : contexte linguistique accès au(x) sens Analyse sémantique : automatiser ? quantifier ? tentative d’opérationalisation du degré de monosémie Cooccurrences : distinguer les différents usages et sens (Schütze 1998, François, Manguin & Victorri 2003, Véronis 2003, Audibert 2003) Cooccurrences des cooccurrences (Martinez 2000, Ferret 2004) 17 17 RÉCITAL, Dourdan, 6-10 juin 2005

B. Polysémie : cooccurrences Exemple : cooccurrences de tour L'atelier de sous-traitance le fabrique en quatre étapes. La première est un tour sur lequel on usine l'alésage central. Ensuite, un centre d'usinage … = “machine-outil pour l’usinage des pièces” La technologie actuelle de la grande vitesse fait appel à …, ce qui convient à des broches pouvant monter jusqu'à quinze mille tours par minute, … =  “rotation, révolution” 18 18 RÉCITAL, Dourdan, 6-10 juin 2005

B. Polysémie : cooccurrences Pourquoi les cooccurrences de deuxième ordre ? Caractère monosémique ou polysémique d’une unité linguistique  contextes sémantiquement homogènes ou non Accès à la sémantique de ces cooccurrences  cooccurrences de deuxième ordre : recouvrement Degré de recouvrement : plus élevé homogénéité sémantique des cooccurrences mot de base : plus monosémique Degré de recouvrement : plus faible hétérogénéité sémantique des cooccurrences mot de base : plus polysémique 19 19 RÉCITAL, Dourdan, 6-10 juin 2005

B. Polysémie : cooccurrences Recouvrement des cooccurrents des cooccurrents d’un mot spécifique (p.ex. tour) Tous les cooccurrents statistiquement pertinents de tour dans le corpus technique (vertical, numérique, bi-broches, mille, minute, …) Mesure d’association : LLR (log de vraisemblance) Valeur p  0.05 ( 0.01 /  0.001 /  0.0001) Tous les cooccurrents de ces coocccurrents de tour Recouvrement de ces cooccurrents de deuxième ordre 20 20 RÉCITAL, Dourdan, 6-10 juin 2005

B. Polysémie : cooccurrences Tour (= mot de base / spécificité) vertical  fraiseuse, axes, horizontal, centre, position, … numérique  fraiseuse, axes, commande, perceuse, … minute  tours, environ, heures, secondes, prend, … c cc cooccurrents cooccurrents des cooccurrents 21 21 RÉCITAL, Dourdan, 6-10 juin 2005

B. Polysémie : cooccurrences Algorithme  scripts Python À partir des fichiers *.cnr techniques : cooccurrences pertinentes Collocatif / base / co-fréquence / cfreq / nfreq Traitement statistique (~ table de contingence) Collocatif / base / co-fréquence / LLR / valeur p Base de données indexée C.colstats + CC.colstats Interroger la base de données pour chaque spécificité (base) + déterminer le degré de monosémie Recouvrement des cooccurrents de deuxième ordre  mesure 22 22 RÉCITAL, Dourdan, 6-10 juin 2005

B. Polysémie : cooccurrences Mot de base c1  x y z1 z2 z3 … c2  x y z4 z5 z6 … c3  w v z7 z8 z9 … c4  w v z10 z11 z12 … c5  w z13 z14 z15 z16 … c cc Poids de chaque x : 2 / (5 * 25) Poids de chaque w : 3 / (5 * 25) 23 23 RÉCITAL, Dourdan, 6-10 juin 2005

B. Polysémie : cooccurrences Mesure de recouvrement : = recouvrement formel des cooccurrents de deuxième ordre fq cc : nombre de c qui ont un cc en commun (cc partagé) # total c : nombre de cooccurrents (c) différents # total cc : nombre de cooccurrents des cooccurrents (cc) Poids de chaque cc = fq cc (nombre de c avec ce cc) # total c * # total cc Poids près de 1  fort partagés  monosémie Poids près de 0  très peu partagés  distribution hétérogène 24 24 RÉCITAL, Dourdan, 6-10 juin 2005

B. Polysémie : cooccurrences Mise au point de la mesure de recouvrement quantifier la monosémie (homogénéité sémantique) Tenir compte du nombre de c ? des cc isolés / cc partagés ? du nombre de cc par c ? Quelle configuration pour le corpus technique ? Fenêtre d’observation : [-5;+5] ou [-3;+3] ? Seuil de significativité : (1-p) : 0.95 / 0.99 / 0.999 / 0.9999 ? Mot de base = lemme, MAIS c et cc = formes fléchies ? 25 25 RÉCITAL, Dourdan, 6-10 juin 2005

Plan de la présentation Introduction et question de recherche Corpus technique Méthodologie Spécificités : Keywords Method Polysémie : cooccurrences Analyses statistiques : premiers résultats 26 26 RÉCITAL, Dourdan, 6-10 juin 2005

4. Analyses statistiques Comment déterminer la corrélation ? Évaluer l’impact du rang de spécificité (VI) sur le rang de monosémie (VD)  analyse de régression simple Évaluer l’impact des variables indépendantes (VI) sur le rang de monosémie (VD)  analyse de régression multiple Spécificité (des plus spécifiques aux moins spécifiques) Fréquence absolue dans le corpus technique ! Classe lexicale (Cordial) Nombre de classes lexicales Longueur (~ fréquence) 27 27 RÉCITAL, Dourdan, 6-10 juin 2005

4. Analyses statistiques Analyse de régression simple et visualisation dans R : Corpus technique (1.7mio) : 4717 mots (LWW_5_0.9999)  Coefficient de corrélation (Pearson) : -0.7181 lm(formula = rang_v_mono_0.9999 ~ rang_v_spec, data = cl_mots4717) Residuals: Min 1Q Median 3Q Max -2719.62 -658.64 -17.86 574.79 3972.32 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4066.70091 27.79260 146.32 <2e-16 *** rang_v_spec -0.73239 0.01033 -70.87 <2e-16 *** --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Residual standard error: 949 on 4715 degrees of freedom Multiple R-Squared: 0.5158, Adjusted R-squared: 0.5157 F-statistic: 5022 on 1 and 4715 DF, p-value: < 2.2e-16 28 28 RÉCITAL, Dourdan, 6-10 juin 2005

29 29 RÉCITAL, Dourdan, 6-10 juin 2005

4. Analyses statistiques Recherches futures : Analyse de régression multiple Analyses de régression détaillées Par classe lexicale (subst / adj / verbe / adv) Par catégorie (ex. substantifs déverbaux, abréviations et sigles, mots à plusieurs étiquettes …) Analyses de régression détaillées par sous-corpus Revues / fiches techniques / normes / manuels  Meilleure corrélation entre le rang de spécificité et le rang de monosémie dans les normes ? Validation manuelle de la mesure de recouvrement 30 30 RÉCITAL, Dourdan, 6-10 juin 2005

Pour plus d’informations : http://wwwling.arts.kuleuven.be/qlvl/ ann.bertels@ilt.kuleuven.be