Repérage de créations lexicales sur le Web francophone

Slides:

Advertisements

Présentations similaires

Conférence « Compétences Informatiques » 10 avril 2006

Advertisements

Approche graphique du nombre dérivé

INDICATEURS STATISTIQUES ET DEVELOPPEMENT TECHNOLOGIQUE

Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)

La Cyclostationnarité Aspects théoriques et application au Diagnostic

Olivier Kraif, Agnès Tutin LIDILEM

UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE

Intervenant Régis BACHER Laffiliation 27/01/2014 Présentation 1.

CPeyronnet | | Veille et recherche sur Internet : concepts, méthodologies, outils... 1 CvTic Veille et recherche sur Internet.

Cours n°1ue304b (S. Sidhom) UE 304 b Cours_L2.documentation_n°1 Gestion des documents : Technologies de lInformation et de la Communication Par : Sahbi.

TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES

SYSTRAN Un outil du TAL Victoria AUPERT Marjorie LORSUNG.

Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline

Tutoriel XSLT F. Sajous ERSS – 01/04/2005.

Défi écriture BEF Couverture. Défi écriture BEF Page 1.

Indexation textuelle : Systèmes de recherche d’informations

1 TICE 2000 / Troyes / octobre 2000 Des moteurs de recherche efficaces pour des systèmes hypertextes grâce aux contextes des nœuds Des moteurs de.

Safae LAQRICHI, Didier Gourc, François Marmier {safae

Avis de lAQIISTI sur la formation infirmière en systèmes et technologies de linformation: composante essentielle au développement de la pratique infirmière.

Conférence laitière 16 juillet –Gestion des priorités pour les mesures daccompagnement –Pistes de travail de moyen terme Ordre du jour.

Travaux pratiques sur Nooj

Cordial, le TAL et les aides à la rédaction

Expertise et formation du lméca ESIA / Université de Savoie

LES OUTILS POUR LA GOUVERNANCE DES DONNÉES LA PASSION DES DONNÉES LA PRÉCISION DES RÉSULTATS.

> a patent search service supplied by Patents & Technology Surveys Ltd PROFESSIONAL ONLINE PATENT INFORMATION SERVICE.

Approche critique des produits IdL Master 1 IdL Année

C. FORESTIER Journée d'étude sur les Archives Ouvertes Couperin 21 mai 2007 THESES EN LIGNE : comment faire simple !

Aide à la Recherche Bibliographique sur le WEB Hatem BEN ROMDHANE (URSAM) ENIT Janvier 2003.

B2i Lycée Circulaire BO n°31 du 29/08/2013.

Annuaires et moteurs de recherche d’information sur Internet

Certificat Informatique et Internet

Médiathèque de Sélestat - 5 février 2005 Olivier Andrieu Comment ne pas être visible sur les moteurs de recherche.

Recherche Documentaire et traitement de l’information

VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.

Google, un moteur de recherche comme les autres ?

Traducteur Technique en Interne Christophe Jovelin DESS ILTS 2005

SCIENCES DE L ’INGENIEUR

Académie de Versailles - Inspection pédagogique régionale de lettres

Les langues anciennes au lycée

Formation Centra sur les usages du TNI

Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.

Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions

Yasmina ABBAS EDF - Division Recherche et Développement (Division R&D)

Évaluations nationales cm Réunions de directions et animation pédagogique du 13/01/10 Circonscription de PontChateau Briere – VG-

Une approche intégrée pour la normalisation des extragrammaticalités de la parole spontanée Mohamed-Zakaria KURDI CLIPS – IMAG.

Mise en oeuvre dun outil original daide en ligne à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP)

Forum des Industries de la Langue, 17 mars 2010

Annexe 1 VISITE SUR

Structure et Services « STS » Menu Structures : Divisions

La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.

F L T R Université catholique de Louvain-la-Neuve Faculté de philosophie et lettres FLTR Faculté de Philosophie et Lettres Présentation décembre 2002 Réalisation:

LA GESTION COLLABORATIVE DE PROJETS Grâce aux outils du Web /03/2011 Académie de Créteil - Nadine DUDRAGNE 1.

Page 1 © Jean Elias Gagner en agilité numérique. Page 2 © Jean Elias Les fournisseurs.

Page 1 © Jean Elias Recherche et veille. Page 2 © Jean Elias Les fournisseurs.

Utilisation du vocabulaire dans le discours des élèves: des outils pour vous aider Vincent Gagnon, UQAC Édith Bujold, U. Laval Stéphane Allaire, UQAC ÉRI.

Centre d’échange d’informations sur la Convention sur la Diversité Biologique Bienvenue dans le cours sur l’ajout d’une page web sur un site web développé.

Département fédéral de l’intérieur DFI Office fédéral de la statistique OFS Rapport sur le développement durable 2012 – Le système d’indicateurs MONET.

Réunion de lancement du 18 janvier constitution, alignement, comparaison et exploitation d’ontologies géographiques hétérogènes Réunion de lancement.

Pr ZEGOUR DJAMEL EDDINE Ecole Supérieure d’Informatique (ESI)

Human Knowledge La nouvelle génération de moteurs sémantiques.

Aide à la rédaction. Plan L’aide à la rédaction : principes et outils La correction orthographique –Historique –Modélisation linguistique –Evaluation.

Recherche d’information

Techniques documentaires et veille stratégique Anne Pajard, avril 2008

Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.

TEXT MINING Fouille de textes

Le Traitement Automatique des Langues (TAL)

Recherche Internet. 2 Quelques chiffres Nombre d’internautes en France (avril 2006) : plus de 26 millions d’individus Google est actuellement le moteur.

Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.

Compétences informationnelles Choisir ses sources Connaître les outils de repérage.

Transcription de la présentation:

Repérage de créations lexicales sur le Web francophone Franck SAJOUS & Ludovic TANGUY ERSS / Université de Toulouse 2 Le Web comme ressource pour le TAL ATALA-11/03/2006

Plan Créations lexicales : pour quoi faire ? Repérage des créations sur corpus classique Repérage sur le Web via un moteur de recherche Méthode hypothético-déductive vs inductive Un moteur dédié : Trifouillette Filtrage du bruit Résultats

Quelques trouvailles en vrac Formes attestées absentes des listes de référence Termes techniques Aquamarquage, hémagglutination, immunofixation Concepts récents Pacser (se) / pacsage, surencadrement, intermédiation Langue populaire Baisage, poilade Créations diverses Pêchable, japonisation, europhobie, googler

Intérêt du repérage de créations lexicales Linguistique traditionnelle Morphologie, lexicologie, terminologie Étude des procédés de création lexicale Veille lexicale, évolution de la langue Traitement automatique : Analyse (morpho)-syntaxique, traduction, etc. Constitution / extension de lexiques

Exemples d'études à l'ERSS Étude de suffixes particuliers -able, -esque, -este, -ien, -ouill-, etc. Recensement des formes puis analyse Travaux de M. Plénat, M. Roché, N. Hathout, S. Lignon Noms déverbaux d'action Famille de suffixes : -age, -ment, -tion, -erie, -ance, -ence, -ure Recensement et analyse : repérage de couples nom/verbe Extension du lexique Verbaction utilisé par des analyseurs de corpus (Syntex) et en recherche d'information Travaux de N. Hathout, L. Tanguy

Approches sur corpus classiques À partir d'une liste de référence Dictionnaire de langue (formes fléchies) Repérage de toute forme non référencée Mathieu et alii, 1998 Sans liste de référence Repérage des formes rares (hapax) Janicijevic & Walker, 1997 Par accumulation Repérage des apparitions sur corpus évolutif Renouf et alii (projet APRIL 2004-06) Problèmes et résultats communs : Noms propres, fautes d'orthographe, mots collés, etc. La dérivation est le procédé le plus productif

La tentation du Web Intérêts : Méthodes envisageables : Quantité de données nécessaire pour l'étude de phénomènes rares Représentation de nombreux types de textes, domaines, niveaux de langue Créativité et spontanéité débordante Méthodes envisageables : Constitution d'un corpus à partir de sites sélectionnés Utilisation d'un moteur de recherche généraliste Parcours systématique du Web

Utilisation des moteurs de recherche Deux approches : hypothético-déductive ou inductive Hypothético-déductive : Construction d'un mot-candidat en appliquant des processus de création lexicale Google → googlisation ? Vérification de son existence sur le Web Inductive : Utilisation de patrons *isation Filtrage par une liste de référence

Méthode hypothético-déductive Adaptée aux créations dérivées à partir de bases connues Exemple : verbe → nom par suffixation Système Walim (F. Namer) gratiner → ?gratinage ?gratination ?gratinement Après vérification via un moteur : gratinage Couverture limitée : Bases connues Procédés morphologiques connus

Méthode inductive Utilisation de jokers dans les requêtes Un programme : Webaffix (Tanguy & Hathout) Désormais inutilisable depuis la disparition d'AltaVista en Avril 2004 Principes : pour un suffixe donné Construction et lancement de sous-requêtes Analyse et filtrage des résultats Vérification de la langue Correction orthographique, détection des contextes bruités Analyse des créations repérées Calcul de la base et vérification

Exemples de campagnes passées Adjectifs en –este 1 attestation avant 1997 (silvio-pelliqueste), 14 en 2004 (algueste, bangueste, big-bangueste, blagueste, blogueste, cirqueste, dukeste, gagueste, gangueste, jack-langueste, loqueste, orqueste, swingueste, turqueste) Adjectifs en –able 1145 nouveaux adjectifs (1641 dans les dictionnaires généraux) Extension du lexique Verbaction Au total, 9400 couples nom/verbe dont 2000 trouvés par Webaffix Étude des noms déverbaux concurrents 1150 couples Xage/Xment dont une des formes n'est pas recensée dans les dictionnaires

La recherche continue face à l'adversité : Trifouillette Objectif : détection automatique de "formes rares" indépendante des moteurs de recherche → mise en œuvre d'un crawler recherche non ciblée → l'utilisateur définit ses requêtes a posteriori stockage des pages pertinentes pertinente ≈ contient au moins une forme rare rare ≈ nombre d'occurrences rencontrées faible

Filtrage et traitements pré-analyse extraction du texte recodage unicode normalisation + nettoyage segmentation en mots lien emails, urls... filtrage a priori : - domaines de 1er niveau - extensions de fichiers - méta-données

Détection de la langue Recours à : Critère d'acceptabilité : lexique de référence + mots gramm. FR mots gramm. autres langues Critère d'acceptabilité : %mots connus > SeuilMC & %mots grammaticaux FR > SeuilGrFR & %mots grammaticaux Autres < SeuilGrA & %mots différents > SeuilDiff Au niveau global + en contexte autour des mots inconnus (∉ lexique)

Filtrage du bruit Mots collés/Mots séparés MAIS "des technologies d'accès sans fil tellesque IEEE802" tellesque ← telles que "des technol ogies d'accès sans fil telles que IEEE802" technol ogies ← technologies MAIS "Bises pâquestes." pâquestes ↚ pâques tes "Syd Barret, spécialiste es planade, fut interné en 1968" es planade ↚ esplanade

Filtrage du bruit (2) Présence de majuscules : noms propres sigles MAIS "les ViWistes vont me haïr, mais je passe aux japonaises, surtout Honda" Suite de lettres "impossibles" "il travaille au cnrs" MAIS : "l'xmlisation récente des corpus"

Filtrage du bruit (3) Lettres répétées n fois (n > 2) "Couuuucouuuuu !", "Aaaaaaaarg !" MAIS : "la société des xviiièmistes se réunira demain" Lettres parasites accerptable ← acceptable MAIS : hivernable ↚ hivernale Lettres manquantes accepable ← acceptable MAIS : entarter ↚ entartrer

Premiers résultats Chaque jour : 100 000 à 700 000 pages, 2 à 35 millions de formes 2000 à 70000 nouvelles entrées, dont : sans filtrage : 80 à 90% de bruit avec filtrage : 19 à 28% de bruit non signalé 7 à 37% de surcorrection (parmi les formes réellement pertinentes) Trouvailles difficilement "prévisibles" : rhône-alpettes, downesque, ViWiste (Volkswagen) warriorisme, repositoires (repository)

Coté utilisateur... requête filtrage accès au contextes formes trouvées

Perspectives Mise à disposition des résultats Système d'alerte pour des couples {requête, utilisateur} Étude des contextes d'apparition des créations lexicales Collaborations bienvenues : Traitements spécifiques additionnels Autres langues