Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006.

Slides:



Advertisements
Présentations similaires
Le Nom L’adjectif Le verbe Objectif: Orthogram
Advertisements

LES NOMBRES PREMIERS ET COMPOSÉS
Ma surprise du Zoo.
[number 1-100].
Qualité du Premier Billot. 2 3 Défauts reliés à labattage.
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Classe : …………… Nom : …………………………………… Date : ………………..
Les numéros
Sud Ouest Est Nord Individuel 36 joueurs
1. 2 Informations nécessaires à la création dun intervenant 1.Sa désignation –Son identité, ses coordonnées, son statut 2.Sa situation administrative.
PhotoManager eXtreme Présentation IceCream team Besoins Étude existant Technologies Découpage des tâches Conclusion.
Vers un outil d’aide à la conception des cannelures à flancs en développante de cercle La recherche effectuée lors de ma thèse a consisté à décrire le.
JPEG2000 Vincent Roudaut Master M2 ESTC CNAM
La diapo suivante pour faire des algorithmes (colorier les ampoules …à varier pour éviter le « copiage ») et dénombrer (Entoure dans la bande numérique.
1 Efficient Data and Program Integration Using Binding Patterns Ioana Manolescu, Luc Bouganim, Francoise Fabret, Eric Simon INRIA.
Chapitre 2 L’intensité du courant électrique
Tableau de bord. Tableau de bord QCM personnalisés.
Analyse de la variance à deux facteurs (données déséquilibrées) Michel Tenenhaus.
2 1. Vos droits en tant quusagers 3 1. Vos droits en tant quusagers (suite) 4.
LA LOLF A L IA 44 en UNE ANNEE DE DECOUVERTES.
17/05/2006 Les 42 meilleures façons de réussir ou rater sa communication en ligne 1 Les 42 meilleures façons de réussir (ou rater) sa communication en.
Nom du module Date Lieu de la formation. 2 Genèse du projet Historique, partenaires, publics Pour qui ? Pourquoi ? Qui ? Comment ? Quand ?
User management pour les entreprises et les organisations Auteur / section: Gestion des accès.
Travaux pratiques sur Nooj
Injection de dépendances
ORTH 1 CE2 Je sais écrire sans erreur les pluriels des noms se terminant par s, x, z.
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
1 Bienvenue! Ministère de lEmploi et de la Solidarité sociale Direction des ressources humaines La conduite dun projet de refonte dun intranet Pascale.
Développement d’applications web
1 Cours numéro 3 Graphes et informatique Définitions Exemple de modélisation Utilisation de ce document strictement réservée aux étudiants de l IFSIC.
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 1 : La notion de système.
1 SERVICE PUBLIC DE LEMPLOI REGION ILE DE France Tableau de bord Juillet- Août 2007.
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
Détection de co-évolution de gènes Master 2 : Informatique à Finalité Professionnelle et Recherche Unifiée (IFPRU) Parcours Ingénierie de lIntelligence.
1 Journée de regroupement des correspondants "Egalité et genre" - 21 novembre 2011 Rectorat de Rouen - SAIO - CD-HD Résultats scolaires, appréciations.
ACDI IUT de Paris – 05 février CR-MD - v1.20 Enquête POST-DUT Informatique 03 1 Les diplômés de 2003 Claude Ratard - Vélizy.
Projet poker 1/56. Introduction Présentation de léquipe Cadre du projet Enjeux Choix du sujet 2.
Internet : la mémoire courte ? Capture de sites Web en ligne Conférence B.N.F, Avril 2004 Xavier Roche(HTTrack)
LES NOMBRES PREMIERS ET COMPOSÉS
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
Développement d’application web
Unit 4: Les animaux Unit 4: Les animaux.
1 INETOP
1. 2 PLAN DE LA PRÉSENTATION - SECTION 1 : Code HTML - SECTION 2.1. : CSS (Méthode 1) - SECTION 2.2. : CSS (Méthode 2) - SECTION 3 : JavaScript - SECTION.
Organiser le vocabulaire FLS 2581/ FLS 3581 Cours dimmersion.
Notre calendrier français MARS 2014
Modélisation et analyse de la variabilité dans une chaîne logistique par Laurence Morlet Promoteur : Philippe Chevalier Lecteurs : Laurence.
Forum des Industries de la Langue, 17 mars 2010
Annexe 1 VISITE SUR
Repérage de créations lexicales sur le Web francophone
C'est pour bientôt.....
Charte graphique Réunion de lancement Novembre 2008 Novembre 2008
Veuillez trouver ci-joint
F L T R Université catholique de Louvain-la-Neuve Faculté de philosophie et lettres FLTR Faculté de Philosophie et Lettres Présentation décembre 2002 Réalisation:
LA GESTION COLLABORATIVE DE PROJETS Grâce aux outils du Web /03/2011 Académie de Créteil - Nadine DUDRAGNE 1.
Page 1 © Jean Elias Gagner en agilité numérique. Page 2 © Jean Elias Les fournisseurs.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
Page 1 © Jean Elias Recherche et veille. Page 2 © Jean Elias Les fournisseurs.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
CALENDRIER-PLAYBOY 2020.
LES PILES ET FILES.
Exercice de vérification 1 p
Les Chiffres Prêts?
Médiathèque de Chauffailles du 3 au 28 mars 2009.
Les réseaux - Internet Historique Réseau local Internet Les protocoles
Formation instituteurs
Transcription de la présentation:

Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

2 Plan Créations lexicales : pour quoi faire ? Repérage des créations sur corpus "classique" Repérage sur le Web via un moteur de recherche Méhode inductive vs hypothético-déductive Exemples de campagnes Les difficultés du Web Un moteur dédié : Trifouillette Parcours du web Analyse Résultats

3 Quelques trouvailles en vrac Termes techniques Aquamarquage, hémaglutination, immunofixation Créations récentes Pacser (se), surencadrement, intermédiation Langue populaire Baisage, poilade Diverses créations transparentes Pêchable, japonisation, europhobie, googler

4 Intérêt du repérage de créations lexicales L'évolution de la langue : un objet d'étude en soi Étude des mécanismes morphologiques Deux types de clients Linguistique traditionnelle : morphologie, lexicologie, terminologie Traitement automatique : analyse (morpho)- syntaxique, traduction, etc.

5 Approches ciblées ou non Ciblage sur un procédé de création : Dérivation morphologique (préfixation, suffixation) Emprunts Ciblage sur un domaine : Terminologie, traductions spécialisées Scientifique, technique, juridique, etc. Couverture maximale sans ciblage : Extension de lexiques génériques

6 Exemples d'études à l'ERSS Etude de suffixes particuliers -able, -esque, -este, -ien, -ouill-, etc. Recensement de formes puis analyses M. Plénat, M. Roché, N. Hathout, S. Lignon Noms déverbaux d'action Famille de suffixes : -age, -ment, -tion, -erie, -ance, -ence, -ure Recensement et analyse : repérage de couples nom/verbe Extension du lexique Verbaction utilisé par des analyseurs de corpus N. Hathout, L. Tanguy

7 Approches sur corpus classiques A partir d'une liste de référence Dictionnaire de langue (formes fléchies) Repérage de toute forme non référencée Mathieu et al, 1998 Sans liste de référence Repérage des formes rares (hapax) Janicijevic & Walker 1997 Par accumulation Repérage des apparitions sur corpus évolutif Renouf et al. Problèmes communs : Noms propres, fautes d'orthographe, mots collés, etc.

8 Le cas de la dérivation morphologique Phénomène de création d'un lexème à partir d'un autre Divers mécanismes : préfixation, infixation, suffixation, conversion Le procédé le plus productif repéré par les approches générales Permet une caractérisation aisée du mot créé Notamment un calcul du lexème base

9 La tentation du Web Le plus gros des corpus (A. Kilgariff) … … ou la "poubelle planétaire" (F. Rastier) Dans les deux cas : De grandes quantités de données Une créativité et une spontanéité débordante Une représentation de nombreux types de textes, domaines, niveaux de langue Une absence totale d'organisation, de représentativité Des modes d'accès très spécifiques pensés pour d'autres usages

10 L'accès au Web Trois méthodes envisageables : Constitution d'un corpus Utilisation d'un moteur de recherche généraliste Parcours du Web (crawling) Méthode la plus directe et la moins coûteuse : les moteurs de recherche généralistes Couverture importante Accès simple et automatisable

11 Utilisation des moteurs de recherche Deux approches : hypothético-déductive ou inductive Hypothético-déductive : Construire un mot-candidat en appliquant des processus de création lexicale Google -> googlisation ? Vérifier son existence sur le Web Inductive : Utilisation de patrons *isation

12 Le point sur les moteurs de recherche De 1995 à 2003 : de nombreux moteurs aux caractéristiques variées Depuis 2003 : Deux compagnies et des caractéristiques similaires La cas AltaVista Un des tout premiers moteurs Recherches complexes : jokers (*), proximité (NEAR) Comportement fiable et pas de traitements cachés Pas de paranoïa ni de protection contre les robots Racheté par Yahoo en 2003 avec modification complète de la base de données et des modes d'accès

13 La situation actuelle Deux moteurs majeurs : Google et Yahoo Des grosses bases de données mal quantifiées Des modes d'interrogation (très) basiques Des traitements opaques (pseudo- lemmatisation, mots vides, etc.) Des accès contrôlés et rationnés APIs permettant environ 1000 requêtes par jour, sur une base de données restreinte

14 Les travaux avant 2003 Possibilités d'interrogation d'AltaVista et Northern Light par patrons Méthode inductive : *esque Découpage du problème en sous-requêtes aba*esque abr*esque –abracadabrantesque … Un programme : Webaffix (Hathout & Tanguy)

15 Webaffix en quelques mots Pour un suffixe donné : Construction des sous-requêtes correspondantes avec élimination des mots connus (TLFi + Grand Robert) Lancement des requêtes et analyse des pages Récupération des formes et filtrage des résultats : Vérification de la langue Corrections orthographiques diverses Élimination de contextes bruités

16 Analyse des créations Calcul des différentes bases possibles Programme DeCor (N. Hathout) Exemple : jospinisation -> jospiniser Fonctionnement par analogie sur la base d'un lexique existant Vérification des hypothèses Recherche de pages Web contenant à la fois le lexème dérivé et le lexème base Bon taux de précision : 70% pour les suffixes principaux

17 Méthode hypothético-déductive Processus de prévision – vérification Adapté aux créations dérivées à partir de bases connues Exemple : verbe -> nom par suffixation Système Walim (F. Namer) gratiner -> ?gratinage ?gratination ?gratinement Après vérification : gratinage Limites de l'approche : Bases connues Procédés morphologiques connus

18 Exemples de campagne Adjectifs en –este 1 attestation avant 1997, 14 en 2004 Adjectifs en –able 1145 nouveaux adjectifs (1641 dans les dictionnaires généraux) Extension du lexique Verbaction Au total, 9400 couples noms/verbes dont 2000 trouvés sur le Web Etude des noms déverbaux concurrents 1150 couples Xage/Xment dont une des formes n'est pas recensée dans les dictionnaires

19 Les difficultés du Web Noms propres ABCVoyage, Nuisement, GLevesque Fautes d'orthographe Abbatage, adminstration, rélaisation, requiquition Mots collés/découpés "…tellement absurdesque je…", "la dé nonciation de…" Codes informatiques ou autres Tifimage, clientstable, myhachage Autres langues que le français Niederschlagstation, cabbage, diversidade Faux documents Traductions automatiques, linguistes, pornographes, etc.

20 La recherche continue face à l'adversité : Trifouillette Objectif : détection automatique de "formes rares" indépendante des moteurs de recherche mise en oeuvre d'un crawler recherche non ciblée l'utilisateur définit ses requêtes a posteriori stockage des pages pertinentes pertinente contient au moins une forme rare rare nombre d'occurrences recontrées < seuil donné

21 Architecture base de domaines Superviseur de Crawl Gestionnaire de données base de mots cache (pages pertinentes) mot M contenu dans pages P CRAWL DONNÉES UTILISATEUR urls domaine i Crawler domaine i urls domaine k Crawler domaine k nom de domaine Analyseur Page i,n collecteur de liens collecteur de mots Analyseur Page k,m collecteur de liens collecteur de mots url page liens collectés {mots, pages} liens internes nouveaux domaines requête (eg. *esque) 1 2 abracadabranteque cuisinesque micaretesque ratounesque rolesque... contextes de "cuisinesque" ? 3 4 bla bla... cuisinesque...blabla

22 Crawl (parcours du web) Noms de domaines : exhaustivité impossible germe + suivi de liens / (arpa) frorgcomca... cnrs.fruniv-tlse2.fririt.fr dr14.cnrs.frdsi.cnrs.fr atlas.irit.frdilan.irit.fr...

23 Suivi de liens : principe Page sur Trifouillette Simple, mais insuffisant : : 1 page : 1 page : 1 page Traiter aussi : frames images mappées javascript redirections Page sur Trifouil- lette trifouillette.org

24 Suivi de liens : filtrage sélectionner l'information pertinente a priori langue type de contenu (textuel ou autre) base de domaines.uk.mil.gov... extension de domaines.exe.mp3.swf... extension de fichiers.fr.ca.org.com....html.htm.txt.jsp.asp... lang=en, charset=kio8 content-type= x-application/swf... header HTTP lang=en, charset=kio8 content-type= x-application/swf... header HTML lang=fr latin1, latin9 iso iso utf-8... Page candidate

25 Suivi de liens : filtrage (2) Headers souvent absents traiter la page/ignorer ? polluer la base/rater une information pertinente Parfois incorrects Content-Type: text/html ; character= ( Content-Type: text/html; character=iso Content-Language: pl; (

26 Analyse de la page Sélectionner les contextes pertinents (contenu : texte) Segmenter, filtrer (encore) Compter Pertinence locale, filtrer (toujours) scripts, headers, urls, s contexte Page candidate segmenteur (unicode) {języka, créée, años...} {créée} języka, años latin1 compteur segmenteur latin1 {j, zyka, créée, a, os...} segmen -teur html tu es... {tues} {tu, es} convertisseur unicode é é é é é unicode \u00E9

27 Détection globale de la langue Eliminer les autres langues Ignorer certaine pages en français recours à des lexiques si % mots-vides < Seuil mots-vides ou % mots-connus < Seuil mots-connus la page n'est pas analysée bien mais insuffisant

28 Détection globale de la langue : problèmes page en français dont on aimerait se passer % mots-vides : OK % mots-connus : OK

29 Détection globale de la langue : problèmes (2) mots vides : 24% mots connus : 42% a, de, en, entre, et, la, nos, par, que, se, un, y digital, sus, pistas, culas, montés, sociales, formas, entrante, bigouden, société, los, si, vida, locales, su, principales, sobre, poco, palabras, chronique, final, alain, partir, vil, art, claire, total, capturas, ajuste, claves, tic, grand, os, embargo, alan, pertinentes, bien, son, culturales, hip, mai, da, inversion, culturelle, pays, dos, gracias, salas, as, texto, participantes, récit, jean, demanda, cargo, esther, micas, sciences, local, conforme, coordonné, an, migrantes, ventas, flexible, sala, historia, dossier, para, area, intenta, existe, las, barbés, con, han, dernier, est, varias, stria, mas, es, strias, démocratisation, pues, internas, probable, fin, thomas, fabricantes

30 Détection de la langue en contexte ? contexte OK :'-( Mêmes seuils appliqués au voisinage d'un "mot" + recherche des mots vides de langues "proches"

31 Thiviers Décision de l'assemblée des habitants concernant les mesures de sûreté pendant la Fronde 20 juin 1652 Sur l'advis donné à la communaulté qu'il y a plusieurs personnes mal intantionées contre le général et le particuilher et qui se prévallent du dézordre du temps pour leur nouire tant en leurs personnes, bestiaux, que grains, la communaulté ayant esté dhuement assamblée en corps de jurade, la cloche sounant à la mode acoustumée, a esté délibéré que líon continuera de se guarder dans les mesmes de[s]sains et délibérations cy devant prinses et avec les mesmes précaultions, ou plus grandes sy besoing est, quíy[l] sera pontuellement et sans contredy au... gutenber/mazzarin/thiviers/thivier.htm Détection de la langue en contexte ancien français latin occitan catalan provençal etc.

32 Filtrage des erreurs recoller les morceaux : mot1mot2 trifouillette mais : ilarrive d Angers (apostrophe oubliée) angers thecompany toits gave chairman contexte : anglais ? apresent séparer les mots collés : "tellesque" : des technologies d'accès sans fil tellesque IEEE802 telles que idem : "pâquestes" pâques tes ? inconnu mot1mot2 connu !

33 Non-Filtrage des erreurs on ne traite pas : les consonnes doubblées, les invesrions de lettres, etc. juste pour rire : A bon ch bon r A bon chapitre, bon rapitre A bon chascal, bon rascal A bon chapin, bon rapin A bon chapon, bon rapon. [...] A bon chabougri, bon rabougri A bon chorizo, bon rorizo A bon checul, bon recul A bon choyaume, bon royaume (Boris Vian, Lettre au provéditeur-éditeur sur quelques équations morales)

34 Pollution difficilement évitable Formes présentes dans la base : aabcabcababaaa, aaaaccbbabc, abcaaab,... aacdefjllpy

35 Premiers résultats En une semaine, chaque jour : à pages - 2 à 35 millions de "mots" 2000 à nouvelles entrées (dont déchets) 3,5 millions de pages stockées -ette : rhône-alpettes, bambousette, bisounette... -esque : downesque, kamasutresque, ratounesque -ouil- : festouille, jazzouillant, pizzouille... -iste : gnomoniste, informatiste, terreuriste, ViWiste -isme : warriorisme, entomoterrorisme, beaufisme merci l'IRIT : agentifié/en agentifiant, questionnabilité, repositoires

36 Coté utilisateur... requête résultats annotations contextes

37 Coté utilisateur : contextes

38 Coté utilisateur : personnalisation à venir : - utilisation d'anti-lexiques - alertes s

39 Conclusion Bilan : trop tôt, mais encourageant Dans l'immédiat : laisser tourner faire utiliser (interne) mettre à disposition les résultats Perspectives : diachronie/veille caractérisation des trouvailles (marqueurs discriminants) degré de nettoyage réglable suivant les applications