La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Eric Laporte Institut Gaspard-Monge Université Paris-Est Marne-la-Vallée France Etiquettes lexicales, grammaires.

Présentations similaires


Présentation au sujet: "Eric Laporte Institut Gaspard-Monge Université Paris-Est Marne-la-Vallée France Etiquettes lexicales, grammaires."— Transcription de la présentation:

1 Eric Laporte Institut Gaspard-Monge Université Paris-Est Marne-la-Vallée France Etiquettes lexicales, grammaires

2 Tokenisation Rappel et précision en recherche d'informations Élaboration d'une requête Grammaires locales Informations lexicales Etiquettes lexicales Lexiques pour le traitement des langues Ambiguïtés Consultation Structures de traits Recherche de formes Masques lexicaux Objectifs

3 Tokenisation

4 Tokenisation (1/2) Tokens : éléments simples d'un texte écrit Passer d'une séquence de caractères à une séquence de tokens Je vais fermer l'autre porte /Je/vais/fermer/l/'/autre/porte/ Définition des tokens Les mots délimités par des espaces ? /l'autre//autre,/ Certains symboles - peuvent gêner la comparaison entre mots - peuvent avoir une importance en eux-mêmes /l/'/autre//autre/,/ Tokens-mots et tokens-non-mots

5 Tokenisation (2/2) Définition par les délimiteurs Simple Fournit seulement les tokens-mots Définition par les tokens Fournit les tokens-mots et les tokens-non-mots Permet de séparer 2 tokens sans délimiteur. Ex. : 60%, 1970s, G8 Dans les deux cas, expressions rationnelles [^\w\s]un symbole de ponctuation \w+une séquence d'1 ou plusieurs caractères alphanumériques \d+une séquence d'1 ou plusieurs chiffres

6 Algorithme de tokenisation (1/2) Entrées : le texte, séquence de caractères ; une ou plusieurs expressions rationnelles définissant les tokens Sorties : une séquence de tokens tant que le texte n'est pas fini { pour chaque expression rationnelle { appliquer l'expression au texte en allant le plus loin possible marquer dans le texte la position obtenue } si aucune marque alors passer au caractère suivant sinon { conserver seulement la marque la plus à droite copier sur la sortie depuis le caractère courant jusqu'à la marque prendre comme caractère courant le caractère marqué } }

7 Algorithme de tokenisation (2/2) Je vais fermer l'autre porte | | ^Je | | ^vais |...

8 Expressions rationnelles (1/2) Notations en grep, sed, vi, emacs, flex, perl, python... Détails des conventions différents pour chaque programme [ ] 0|1|2|3|4|5|6|7|8|9 [0-9] 0|1|2|3|4|5|6|7|8|9 [^a-zA-Z]1 caractère autre que [a-zA-Z] CLEF?CLE|CLEF [0-9]+[0-9][0-9]*.1 caractère autre que fin de ligne (\n) ^Le"Le" si placé en début de ligne dernier$"dernier" si placé en fin de ligne \|\(\)\*\[\?\+\.\^\$\\|()*[?+.^$\

9 Expressions rationnelles (2/2) Notation en python \s1 espace, fin de ligne ou tabulation \w1 caractère alphanumérique \d1 chiffre

10 Le tokeniseur de NLTK >>> from nltk_lite import tokenize >>> phrase = "Je vois l'autre." >>> list(tokenize.regexp(phrase, "[^\s]+") ['Je', 'vois', "l'autre."] >>> Pour ne pas mélanger les types de caractères dans un token : >>> list(tokenize.regexp(phrase, "[\w]+|[^\s\w]") ['Je', 'vois', 'l', "'", 'autre', '.'] >>>

11 Les tokeniseurs d'Unitex Pour chaque langue, un tokeniseur sans paramétrage possible Définition par les tokens

12 Objectifs de la normalisation Faciliter l'échange de données et d'outils Formats lisibles, pas toujours adaptés au traitement direct Les normes sont discutées par des experts variés Elles sont compatibles avec des théories variées Norme en construction Organisation internationale de normalisation (ISO) Elément token: attribut value, attribut id, contenu textuel par page Attribut value: peut représenter une forme sous-jacente d u Codage des tokens

13 Unitex: outil logiciel libre pour l'analyse de textes par lexique (Sébastien Paumier, Université de Marne-la-Vallée) Formats adaptés au traitement par lexique Référence : manuel en français, anglais tokens.txt, liste des tokens du texte, sans répétitions Au lecteur Glória Kreinz text.cod, fichier binaire équivalent au texte: chaque token est représenté par un numéro déduit de la position du token dans le fichier précédent Numéros codés sur 4 octets, à partir de zéro Format des fichiers Unitex pour le codage des textes

14 Rappel et précision en recherche d'informations

15 Critères de succès Rappel : détecter le plus possible de formes désirées Précision : retenir le moins possible de formes non désirées Rappel et précision en recherche d'informations (1/2)

16 Rappel Nombre de de documents retenus parmi les documents désirés D&R/D Exemple : requête justice documents désirés ministre de la Justice retenu garanties accordées aux justiciables en améliorant la formation des magistrats non retenu Précision Nombre de documents désirés parmi les documents retenus D&R/R Exemple : requête rentrée documents retenus bien préparer la rentrée des classesdésiré Titine est rentrée à la maisonnon désiré Rappel et précision en recherche d'informations (2/2)

17 Deux valeurs indépendantes dont l'évolution est habituellement antagonique Bruit + précision = 1 Silence + rappel = 1 Evaluation précise du rappel et de la précision - Marquer manuellement les documents désirés - Appliquer le système et marquer les documents retenus - Compter les documents à la fois désirés et retenus (D&R) - Calculer le rappel (D&R / D) et la précision (D&R / R) A cause du marquage manuel, ne peut être fait que sur un petit corpus Rappel et précision (1/5)

18 Graphique rappel/précision Rappel et précision (2/5) précision rappel 1 1 0

19 Effet d'un relâchement de contrainte Exemple : admettre des équivalents sémantiques Le rappel a tendance à augmenter, la précision à diminuer (pluls de documents) Rappel et précision (3/5) précision rappel 1 1 0

20 Effet d'un resserrement de contrainte Exemple : relever le seuil de proximité exigé entre requête et document Le rappel a tendance à diminuer, la précision à augmenter (moins de documents) Rappel et précision (4/5) précision rappel 1 1 0

21 Objectif de la recherche d'informations Augmenter à la fois le rappel et la précision Cas du modèle vectoriel - jouer sur le seuil de proximité - pré-traitement du texte : lemmatisation Exemple : requêterentrée documentsbien préparer la rentrée des classes bien préparer le rentrée du classeretenu Titine est rentrée à la maison Titine être rentrer à le maisonnon retenu C'est un pré-traitement qui nécessite des données linguistiques Rappel et précision (5/5)

22 Causes du silence Variations dans la façon d'exprimer une idée - pluriel, féminin, conjugaison (morpho-syntaxe) ministèreministères - synonymesloirèglement - dérivésjusticejusticiable - languesministèreministry etc. Relâchement de contrainte Admettre des variantes Le rappel et les variantes

23 Causes du bruit Ambiguïtés (une forme, plusieurs interprétations) bien préparer la rentrée des classes Titine est rentrée à la maison Resserrement de contrainte Sélectionner les formes dont l'interprétation correspond à la requête La précision et l'ambiguïté

24 Objectif Augmenter à la fois le rappel et la précision en améliorant la requête Rappel Relâcher des contraintes sur les variations Méthode : étendre la requête dans le sens de l'union (plus d'occurrences) Précision Resserrer des contraintes sur l'ambiguïté Méthode : étendre la requête dans le sens de la concaténation (moins d'occurrences) Amélioration de la requête

25 - pluriel, féminin, conjugaison (morpho-syntaxe) =ministère + ministères =règlement + règlements =juger + juge + juges + jugé + jugés + jugée + jugées + jugeons + jugez + jugent... - synonymesloi + règlement - dérivésjustice + justiciable - autres ("association")justice : masque lexical Etendre la requête en une union de plusieurs requêtes Relâcher des contraintes sur les variations

26 En décrivant le contexte d'un mot ambigu, on sélectionne certaines interprétations requêtedocuments retenus rentrée bien préparer la rentrée des classes Titine est rentrée à la maison est rentrée Titine est rentrée à la maison la rentrée bien préparer la rentrée des classes rentrée des classes bien préparer la rentrée des classes Etendre la requête en une séquence de plusieurs mots Resserrer des contraintes sur l'ambiguïté

27 Une grammaire locale est une requête qui peut comporter - plusieurs variantes - des séquences de plusieurs mots Forme améliorée de requête L'amélioration des requêtes est-elle automatisable ? Construction manuelle des grammaires locales On la représente par un graphe avec un éditeur graphique Unitex : FSGraph Grammaires locales

28 Relâcher une contrainte Faire une concordance sur le corpus Resserrer la contrainte en fonction de la concordance Itérer Méthode d'amélioration d'un graphe avec un corpus précision rappel 1 1 0

29 Allonger des chemins Ajouter du contexte gauche ou droit dans le graphe : resserrement de contrainte (moins d'occurrences) Raccourcir des chemins Supprimer une partie du contexte gauche ou droit dans le graphe : relâchement de contrainte (plus d'occurrences) Relâcher/resserrer des contraintes dans une grammaire locale (1/2)

30 Ajouter des chemins Ajouter des variantes parallèles dans le graphe : relâchement de contrainte (plus d'occurrences) Remplacer un masque lexical par un autre plus général : relâchement de contrainte Supprimer des chemins Remplacer un masque lexical général (ex. ) par une liste de mots : resserrement de contrainte Relâcher/resserrer des contraintes dans une grammaire locale (2/2)

31 Ces opérations nécessitent des informations sur les mots Pluriels, synonymes, ambiguïtés... Informations lexicales

32

33 Informations codifiées qui constituent les étiquettes des mots Traits traditionnels Catégorie grammaticale : substantif, verbe, adjectif... Sous-catégories : indéfini, possessif... Traits flexionnels : masculin, féminin, neutre, singulier, pluriel, comparatif, nominatif, génitif... Traits syntaxiques : transitif, accepte une complétive sujet... Traits sémantiques : humain, concret, abstrait, comptable... Formes canoniques Formes sous-jacentes Relations entre entrées Informations lexicales (1/2)

34 Lemme Une des formes fléchies choisie pour les représenter toutes olivier,olivier.N:ms oliviers,olivier.N:mp La notion de lemme facilite lorganisation des données : de nombreuses informations ne dépendent pas de la flexion et peuvent être rattachées aux lemmes Utilisation pour diminuer le nombre de dimensions dans le modèle de l'espace vectoriel Informations lexicales (2/2)

35 Les relations exploitables sont de nature sémantique et parfois syntaxique connecter/relier confondre/confusion Elles sont liées aux autres informations lexicales : la dérivation tendre/tension nest valable que pour tendre verbe Relations purement sémantiques (thésaurus, réseau sémantique) : manger/repas connecter/relier Relations sémantico-syntaxiques (lexique-grammaire) : N 0 confondre N 1 (avec + et) N 2 N 0 faire Det confusion entre N 1 et N 2 Relations entre entrées lexicales

36 Nombre de valeurs possibles dun trait donné : - 2 (mot grammatical/mot plein) : Google - 15 (catégorie grammaticale) : corpus classiques - des dizaines de milliers (lemme) : lexiques inclus dans Unitex, thésaurus Le nombre de valeurs différentes dun trait mesure la quantité dinformation quil apporte Quantité dinformation lexicale

37 Les corpus classiques nincluent pas le lemme parmi les informations lexicales Brown (1981) : 4 lemmes, 119 étiquettes, presque sans mots composés Penn (1993) : 1 lemme, 36 étiquettes, presque sans mots composés Les lexiques inclus dans Unitex sont beaucoup plus informatifs : DELAF (1990) : lemmes, étiquettes, réductibles à sans perte dinformation Corpus arboré du français (2003) : comparable aux lexiques d'Unitex (même origine : LADL) Jeux détiquettes lexicales (1/2)

38 étiquettes réductibles à sans perte dinformation Forme fléchieEtiquette médiatricemédiateur.N:fs On suppose la forme fléchie connue et on simplifie l'étiquette Forme fléchieEtiquette médiatrice3eur.N:fs Le nombre d'étiquettes différentes diminue sans perte d'information Jeux détiquettes lexicales (2/2)

39 Lexiques pour le traitement des langues

40 Les informations lexicales ne sont pas prévisibles à partir de la forme des mots : mouvement, nombrièvement, adverbe tendre, verbetendre, adjectif Les lexiques électroniques recensent les mots et les étiquettes correspondantes Une entrée lexicale est lassociation dune forme et des informations lexicales correspondantes La construction des lexiques électroniques est-elle automatisable ? Lexiques pour le traitement des langues (1/2)

41 Nombre dentrées dans les dictionnaires DELA entrées de lemmes simples ( entrées fléchies simples) Mémoire occupée : 21 Mo Forme comprimée avec accès rapide adaptée au traitement direct : 1,8 Mo (automate minimal, états, transitions) entrées fléchies composées Mémoire occupée : 13 Mo Forme comprimée avec consultation rapide : 7,2 Mo (automate minimal, états, transitions) Lexiques pour le traitement des langues (2/2)

42 Dans un domaine très restreint, - le vocabulaire est limité ; - il y a moins dambiguïtés : dans le domaine des ponts suspendus, on conserve tendre, verbe, mais pas tendre, adjectif ; - certaines expressions peuvent être considérées comme figées : dans les bulletins météo, alternance de passages nuageux et déclaircies donc on a moins besoin d'informations lexicales sur les mots qui en font partie Simplifications

43 Les informations lexicales permettent de représenter formellement les ambiguïtés Ambiguïtés lexicales et lemmes la porte droite du bâtimentlemme : droit La droite a voté contre cette loilemme : droite Ambiguïtés lexicales et traits Le moteur sert à tendre le câble cat. gramm. : verbe Luc se croit tendre avec Marie cat. gramm. : adjectif cf. Ambiguïtés typographiques Je ne sais pas. Je lai en C. Paul aussi Ambiguïtés

44 Les informations lexicales trouvées dans le lexique sont incluses dans la représentation du texte En cas dambiguïtés, toutes les hypothèses peuvent être représentées La résolution des ambiguïtés est-elle automatisable ? Unitex : - pré-traitement - application des ressources lexicales (par la fenêtre du pré- traitement, ou par le menu Text) - pour visualiser les entrées trouvées dans le lexique : Word Lists - pour engendrer les automates des phrases : menu Text, Construct FST-Text Consultation dun lexique sur un texte

45 Les informations lexicales peuvent être codées sous forme dune structure de traits (norme en construction) Elément (feature structure) : un ensemble de traits Elément (feature) : un trait avec un nom et une valeur La valeur peut être un (chaîne de caractères), un, un,,... La norme en construction prévoit un format long et un format compact Structures de traits

46 passager adjective feminine singular Structures de traits : format long

47 passager Déclaration : adjective feminine singular Structures de traits : format compact

48 Avantages du format XML des structures de traits On peut deviner le sens des informations sans connaître les conventions La structure est utilisable par les logiciels qui manipulent les étiquettes lexicales Avantages du format DELA Compact Permet de visualiser sur un même écran plusieurs dizaines de mots ou entrées Convient pour éditer et mettre à jour les données Structures de traits et format DELA

49 Recherche de formes

50 La recherche de formes dans un texte sert à la recherche d'informations (indexation de documents, extraction d'informations) C'est aussi l'opération de base de l'analyse syntaxique Applications traduction automatique correction orthographique synthèse vocale Dans certaines langues découpage en mots Critères de succès Rappel et précision Recherche de formes

51 En espagnol Es la mejor forma de comprobarlo "C'est la meilleure façon de le prouver" comprobar "prouver"(des milliers de verbes) lo"le"(une dizaine de pronoms) Lo comprobó "Il l'a prouvé" Les traitements sont simplifiés si on considère comprobarlo comme une combinaisons de deux mots, plutôt qu'un mot... sauf au moment de découper le texte en mots En arabe standard wara'isuhu wara'isuhu "et son président""et""président""son" Recherche de formes pour découpage en mots

52 En chinois mandarin Pas d'espaces entre les mots En coréen manasiôs'takojocha "même (...) qu'(il l')a rencontrée" manasiôs'takojocha "rencontrer"(honor)(passé)(déclar)"que""même" Recherche de formes pour découpage en mots

53 Une fois les lexiques appliqués à un texte, les informations incluses dans le texte peuvent être exploitées pour rechercher des formes linguistiques dans le texte (Unitex) Masques lexicaux Expressions qui reconnaissent des mots en fonction de propriétés lexicales - lemme : reconnaît droit, droits, droite, droites - catégorie grammaticale : reconnaît nimporte quel verbe (utiliser les conventions des lexiques consultés) - autres traits présents dans le lexique : reconnaît nimporte quel substantif singulier - combinaisons de ces informations : reconnaît seulement pouvoir et pouvoirs - autres masques lexicaux :,,... (v. manuel) - forme fléchie : droit Informations lexicales et recherche de formes

54 Une concordance réalisée avec un lemme (ex. ) est une concordance lemmatisée Avec consultation de lexique (Unitex) - peut produire une concordance de nimporte quel texte disponible dans un format électronique - il existe des dictionnaires disponibles avec des informations lexicales fines (facteur de précision) Avec corpus lemmatisé les ambiguïtés lexicales sont levées (facteur de précision) Concordances lemmatisées


Télécharger ppt "Eric Laporte Institut Gaspard-Monge Université Paris-Est Marne-la-Vallée France Etiquettes lexicales, grammaires."

Présentations similaires


Annonces Google