Cours 4 Étiquettes lexicales.

Name: Cours 4 Étiquettes lexicales.
Uploaded: 2017-12-19T06:19:08+00:00
Duration: PTM20S11
Channel: Gisbert Perrin
Description: Cours 4 Étiquettes lexicales.

Cours 4 Étiquettes lexicales

Catégories grammaticales
En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif, adverbe, pronom, préposition, conjonction, déterminant En général, 10 à 15 catégories par langue Information sur les voisins du mot Un pronom est souvent suivi d'un verbe : il intervient Un déterminant est souvent suivi d'un nom : les annonces Information sur la prononciation du mot Président peut être un nom : Le président de séance est en retard Président peut être un verbe : Ils président la séance à tour de rôle La prononciation est différente Les poules du couvent couvent

Catégories grammaticales
Catégories grammaticales et suffixes vaccine est un verbe, on peut le regrouper avec vacciner féminine est un adjectif, on peut le regrouper avec féminin Application : la recherche d'informations Catégories grammaticales et pertinence Les noms sont souvent pertinents : balle, film, banque... Les prépositions le sont moins : selon, depuis, malgré... une croix en or et pierres précieuses... nom Or la version de la chanson... conjonction

Définition des catégories grammaticales
Par les suffixes Deux mots qui prennent les mêmes suffixes ont des chances d'appartenir à la même catégorie vaccine, vaccinent, vacciné, vaccines/juge, jugent, jugé, juges verbes parent, parents, parente, parentes/ami, amis, amie, amies noms Par les contextes Deux mots qui acceptent les mêmes contextes ont des chances d'appartenir à la même catégorie Les représentants des pays concernés Les représentants des partis concernés noms Le TGV n'avait pas prévu de s'arrêter Le TGV n'avait pas cessé de s'arrêter verbes

Catégories ouvertes/fermées
Catégories fermées Les éléments sont en nombre limité et fixe Mots grammaticaux (jouent un rôle important dans la grammaire), courts et fréquents Prépositions : à de par pour sans selon depuis malgré... Quelques dizaines On en crée rarement de nouvelles Catégories ouvertes Les éléments sont nombreux et de nouveaux sont créés continuellement Noms : futon MP3 pseudotéléspectateur triréacteur... Quelques dizaines de milliers Verbes : faxer surréglementer sursubventionner télécopier... Quelques milliers

Catégories ouvertes Noms ou substantifs
Souvent précédés d'un déterminant des annonces Varient entre singulier et pluriel une annonce/des annonces Sous-catégories : noms communs bateau, chaise, relation, élève noms propres Paris, Laporte, Lip Verbes Varient en temps il annonce il annoncera personne il annonce nous annonçons auxiliaires pouvoir, devoir, avoir, être...

Catégories ouvertes Adjectifs
Varient entre singulier et pluriel normal normaux masculin et féminin normaux normales Adverbes Généralement déplaçables dans une phrase Souvent, le bus s'arrête ici Le bus, souvent, s'arrête ici Le bus s'arrête souvent ici Le bus s'arrête ici souvent

Catégories fermées Prépositions
à de par pour sans selon sur sous avec depuis malgré... Devant des noms ou des verbes : à des annonces pour annoncer Conjonctions et ou mais car... Entre deux séquences analogues : des programmes et des données que quand si comme lorsque... Devant une phrase incluse dans une autre : Je viendrai si je peux

Catégories fermées Déterminants
un une des du le la les chaque deux trois quatre beaucoup mon... Devant des noms : des annonces beaucoup d'annonces Pronoms je tu il elle on nous vous moi toi lui ceci cela qui quoi que quelqu'un...

Étiquettes lexicales En anglais tags Je viendrai si je peux
Je,PRO:1s viendrai,V:F1s si,CONJS je,PRO:1s peux,V:P1s Un objet qui identifie pour chaque token-mot - la catégorie grammaticale - éventuellement d'autres propriétés (temps, personne, nombre...) On peut aussi étiqueter les symboles de ponctuation

Étiquettes lexicales non structurées
Je,PP viendrai,VBF si,IN je,PP peux,VBP Chaque étiquette représente une catégorie généralement un peu plus précise qu'une catégorie grammaticale Exemples PP pronom personnel VBF verbe conjugué au futur IN préposition ou conjonction de subordination Jeu d'étiquettes (tagset) Ensemble d'étiquettes Pour l'anglais, généralement 50 à 150 étiquettes

Étiquettes lexicales structurées
Je,PRO:1s viendrai,V:F1s si,CONJS je,PRO:1s peux,V:P1s Chaque étiquette donne séparément - la catégorie grammaticale - d'autres propriétés éventuelles : - temps (présent, futur, passé...) - personne (1, 2, 3) - genre (masculin, féminin) - nombre (singulier, pluriel) etc. Traits flexionnels

Étiquettes lexicales structurées
viendrai,V:F1s Paires attribut-valeur partOfSpeech = verb tense = future person = 1 number = singular attributs (features) valeurs (values)

ABR abreviation ADJ adjective ADV adverb DET:ART article DET:POS possessive pronoun (ma, ta, ...) INT interjection KON conjunction NAM proper name NOM noun NUM numeral PRO pronoun PRO:DEM demonstrative pronoun PRO:IND indefinite pronoun PRO:PER personal pronoun PRO:POS possessive pronoun (mien, tien, ...) PRO:REL relative pronoun PRP preposition PRP:det preposition plus article (au,du,aux,des) PUN punctuation PUN:cit punctuation citation SENT sentence tag SYM symbol VER:cond verb conditional VER:futu verb futur VER:impe verb imperative VER:impf verb imperfect VER:infi verb infinitive VER:pper verb past participle VER:ppre verb present participle VER:pres verb present VER:simp verb simple past VER:subi verb subjunctive imperfect VER:subp verb subjunctive present

Racinisation Pour la recherche d'informations, les variations de forme des mots ne sont pas très pertinentes et augmentent inutilement le nombre de dimensions de l'espace vectoriel Exemples vaccine, vaccinent, vacciné, vaccines... La racinisation (stemming) consiste à remplacer toutes ces variantes par vacciner ou même vaccine, vaccinent, vacciné, vaccines, vaccination, vaccinal... par vaccin On n'a pas besoin que ce soit un mot correct, il suffit que ce soit le même pour tous

Le raciniseur de Porter (1980)
Substitution de suffixes ational --> ate relational --> relate ing -->  motoring --> motor Plusieurs passes Passe 1 ies --> i capabilities --> capabiliti Passe 4 (m>0)biliti --> ble capabiliti --> capable m = nombre de séquences voyelle/consonne Exemples capabilities m = 5 capa m = 1

Step 1a SSES -> SS caresses -> caress IES -> I ponies -> poni ties > ti SS -> SS caress -> caress S -> cats > cat Step 1b (m>0) EED -> EE feed > feed agreed -> agree (*v*) ED -> plastered -> plaster bled > bled (*v*) ING -> motoring -> motor sing > sing If the second or third of the rules in Step 1b is successful, the following is done: AT -> ATE conflat(ed) -> conflate BL -> BLE troubl(ed) -> trouble IZ -> IZE siz(ed) > size (*d and not (*L or *S or *Z)) > single letter hopp(ing) -> hop tann(ed) -> tan fall(ing) -> fall hiss(ing) -> hiss fizz(ed) -> fizz (m=1 and *o) -> E fail(ing) -> fail fil(ing) -> file The rule to map to a single letter causes the removal of one of the double letter pair. *v* contains a vowel (a, e, i, o, u, or y preceded by a consonant) *d ends with a double consonant, e.g. tt, ss *o ends with cvc, where the second c is not w, x or y

Step 1c Step 2 (*v*) Y -> I happy -> happi sky -> sky
(m>0) ATIONAL -> ATE relational -> relate (m>0) TIONAL -> TION conditional -> condition rational > rational (m>0) ENCI -> ENCE valenci > valence (m>0) ANCI -> ANCE hesitanci > hesitance (m>0) IZER -> IZE digitizer > digitize (m>0) ABLI -> ABLE conformabli -> conformable (m>0) ALLI -> AL radicalli > radical (m>0) ENTLI -> ENT differentli -> different (m>0) ELI -> E vileli > vile (m>0) OUSLI -> OUS analogousli -> analogous (m>0) IZATION -> IZE vietnamization -> vietnamize (m>0) ATION -> ATE predication -> predicate (m>0) ATOR -> ATE operator > operate (m>0) ALISM -> AL feudalism > feudal (m>0) IVENESS -> IVE decisiveness -> decisive (m>0) FULNESS -> FUL hopefulness -> hopeful (m>0) OUSNESS -> OUS callousness -> callous (m>0) ALITI -> AL formaliti > formal (m>0) IVITI -> IVE sensitiviti -> sensitive (m>0) BILITI -> BLE sensibiliti -> sensible

Step 3 Step 4 (m>0) ICATE -> IC triplicate -> triplic
(m>0) ATIVE -> formative > form (m>0) ALIZE -> AL formalize > formal (m>0) ICITI -> IC electriciti -> electric (m>0) ICAL -> IC electrical -> electric (m>0) FUL -> hopeful > hope (m>0) NESS -> goodness > good Step 4 (m>1) AL -> revival > reviv (m>1) ANCE -> allowance > allow (m>1) ENCE -> inference > infer (m>1) ER -> airliner > airlin (m>1) IC -> gyroscopic -> gyroscop (m>1) ABLE -> adjustable -> adjust (m>1) IBLE -> defensible -> defens (m>1) ANT -> irritant > irrit (m>1) EMENT -> replacement -> replac (m>1) MENT -> adjustment -> adjust (m>1) ENT -> dependent > depend (m>1 and (*S or *T)) ION -> adoption > adopt (m>1) OU -> homologou > homolog (m>1) ISM -> communism > commun (m>1) ATE -> activate > activ (m>1) ITI -> angulariti -> angular (m>1) OUS -> homologous -> homolog (m>1) IVE -> effective > effect (m>1) IZE -> bowdlerize -> bowdler *S ends with s (and the same for other letters)

Step 5a Step 5b (m>1) E -> probate -> probat rate -> rate
(m=1 and not *o) E -> cease > ceas Step 5b (m > 1 and *d and *L) -> single letter controll > control roll > roll

Le raciniseur de Porter (1980)
Exemples d'imperfections Paires regroupées numerical numerous --> numer university universe --> univers Paires non regroupées noisy --> noisi noise --> nois sparsity --> sparsiti sparse --> spars

Étiquetage Attribution d'une étiquette lexicale à chaque token (mot ou symbole de ponctuation) Entrées : un texte tokenisé et un jeu d'étiquettes Sortie : le texte étiqueté Applications recherche d'informations reconnaissance de parole analyse syntaxique Ambiguïtés lexicales La poste livre le colis dans un délai d'une semaine verbe Le livre parvient à l'acheteur en une semaine nom

Étiquetage par règles écrites à la main
Première étape On consulte un lexique qui donne toutes les étiquettes possibles des tokens-mots Il,PRO:3s est,V:P3s,A:ms,A:mp,A:fs,A:fp,ADV fin,A:ms,N:fs ./. Deuxième étape On applique des règles écrites à la main qui éliminent des étiquettes en fonction du contexte if (+1A/ADV/QUANT); (+2 SENT-LIM); (NOT -1 SVOC/A); then eliminate non-ADV tags else eliminate ADV tag

Étiquetage par règles apprises statistiquement (Brill, 1995)
Première étape On consulte un lexique qui donne l'étiquette la plus fréquente pour chaque token race/NN (plus souvent nom que verbe) expected/VBN to/TO race/NN tomorrow/NN Deuxième étape On applique les règles apprises statistiquement qui changent des étiquettes en fonction du contexte Changer NN en VB après TO expected/VBN to/TO race/VB tomorrow/NN

Étiquetage par règles apprises statistiquement
Deux algorithmes d'apprentissage Pour la première étape Le lexique donnant l'étiquette la plus fréquente pour chaque token est obtenu à partir d'un corpus étiqueté Pour la deuxième étape Entrées : le lexique de la première étape ; un corpus étiqueté ; des formes de règles Sorties : un ensemble de règles étiqueter le texte du corpus avec le lexique de la première étape tant que les résultats ne sont pas assez bons examiner toutes les règles sélectionner celle qui donne le meilleur étiquetage remplacer l'ancien étiquetage par celui obtenu

Étiquetage par règles apprises statistiquement
Pour la deuxième étape Les règles peuvent être des arbres de décision Chaque noeud de l'arbre correspond à un critère (question), et chaque noeud fils à une réponse possible Chaque feuille correspond à une décision Exemple de jeu de critères : - étiquette de l'avant-dernier token avant - étiquette du dernier token avant - forme du token, s'il est fréquent - les 2 premières lettres du token - les 3 dernières lettres du token - particularités typographiques du token (majuscules, guillemets, tiret...) - forme du token après, s'il est fréquent - particularités typographiques du token après (majuscules, guillemets, tiret...)

Étiquetage par modèle de Markov appris statistiquement
Probabilité qu'un mot étiqueté TO soit suivi d'un mot étiqueté NN : P(NN|TO) = 0,021 P(VB|TO) = 0,34 Probabilité qu'un mot étiqueté NN soit race : P(race|NN) = 0,00041 P(race| VB) = 0,00003 Probabilité qu'un mot étiqueté TO soit suivi de race/NN : P(NN|TO) P(race|NN) = 0,000007 P(VB|TO) P(race| VB) = 0,00001 Conclusion L'étiquette correcte de race dans to race est probablement VB

Cours 4 Étiquettes lexicales.

Présentations similaires

Présentation au sujet: "Cours 4 Étiquettes lexicales."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Cours 4 Étiquettes lexicales.

Présentations similaires

Présentation au sujet: "Cours 4 Étiquettes lexicales."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back