La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Cours 4 Étiquettes lexicales. Catégories grammaticales En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif,

Présentations similaires


Présentation au sujet: "Cours 4 Étiquettes lexicales. Catégories grammaticales En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif,"— Transcription de la présentation:

1 Cours 4 Étiquettes lexicales

2 Catégories grammaticales En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif, adverbe, pronom, préposition, conjonction, déterminant En général, 10 à 15 catégories par langue Information sur les voisins du mot Un pronom est souvent suivi d'un verbe : il intervient Un déterminant est souvent suivi d'un nom : les annonces Information sur la prononciation du mot Président peut être un nom : Le président de séance est en retard Président peut être un verbe : Ils président la séance à tour de rôle La prononciation est différente Les poules du couvent couvent

3 Catégories grammaticales Catégories grammaticales et suffixes vaccine est un verbe, on peut le regrouper avec vacciner féminine est un adjectif, on peut le regrouper avec féminin Application : la recherche d'informations Catégories grammaticales et pertinence Les noms sont souvent pertinents : balle, film, banque... Les prépositions le sont moins : selon, depuis, malgré... une croix en or et pierres précieuses...nom Or la version de la chanson...conjonction

4 Définition des catégories grammaticales Par les suffixes Deux mots qui prennent les mêmes suffixes ont des chances d'appartenir à la même catégorie vaccine, vaccinent, vacciné, vaccines/juge, jugent, jugé, jugesverbes parent, parents, parente, parentes/ami, amis, amie, amiesnoms Par les contextes Deux mots qui acceptent les mêmes contextes ont des chances d'appartenir à la même catégorie Les représentants des pays concernés Les représentants des partis concernésnoms Le TGV n'avait pas prévu de s'arrêter Le TGV n'avait pas cessé de s'arrêter verbes

5 Catégories ouvertes/fermées Catégories fermées Les éléments sont en nombre limité et fixe Mots grammaticaux (jouent un rôle important dans la grammaire), courts et fréquents Prépositions : à de par pour sans selon depuis malgré... Quelques dizaines On en crée rarement de nouvelles Catégories ouvertes Les éléments sont nombreux et de nouveaux sont créés continuellement Noms : futon MP3 pseudotéléspectateur triréacteur... Quelques dizaines de milliers Verbes : faxer surréglementer sursubventionner télécopier... Quelques milliers

6 Catégories ouvertes Noms ou substantifs Souvent précédés d'un déterminantdes annonces Varient entre singulier et plurielune annonce/des annonces Sous-catégories : noms communsbateau, chaise, relation, élève noms propresParis, Laporte, Lip Verbes Varient en temps il annonce il annoncera personneil annoncenous annonçons Sous-catégories : auxiliairespouvoir, devoir, avoir, être...

7 Catégories ouvertes Adjectifs Varient entre singulier et plurielnormalnormaux masculin et fémininnormauxnormales Adverbes Généralement déplaçables dans une phrase Souvent, le bus s'arrête ici Le bus, souvent, s'arrête ici Le bus s'arrête souvent ici Le bus s'arrête ici souvent

8 Catégories fermées Prépositions à de par pour sans selon sur sous avec depuis malgré... Devant des noms ou des verbes :à des annoncespour annoncer Conjonctions et ou mais car... Entre deux séquences analogues :des programmes et des données que quand si comme lorsque... Devant une phrase incluse dans une autre : Je viendrai si je peux

9 Catégories fermées Déterminants un une des du le la les chaque deux trois quatre beaucoup mon... Devant des noms : des annoncesbeaucoup d'annonces Pronoms je tu il elle on nous vous moi toi lui ceci cela qui quoi que quelqu'un...

10 Étiquettes lexicales En anglais tags Je viendrai si je peux Je,PRO:1s viendrai,V:F1s si,CONJS je,PRO:1s peux,V:P1s Un objet qui identifie pour chaque token-mot - la catégorie grammaticale - éventuellement d'autres propriétés (temps, personne, nombre...) On peut aussi étiqueter les symboles de ponctuation

11 Étiquettes lexicales non structurées Je,PP viendrai,VBF si,IN je,PP peux,VBP Chaque étiquette représente une catégorie généralement un peu plus précise qu'une catégorie grammaticale Exemples PPpronom personnel VBFverbe conjugué au futur INpréposition ou conjonction de subordination Jeu d'étiquettes (tagset) Ensemble d'étiquettes Pour l'anglais, généralement 50 à 150 étiquettes

12 Étiquettes lexicales structurées Je,PRO:1s viendrai,V:F1s si,CONJS je,PRO:1s peux,V:P1s Chaque étiquette donne séparément - la catégorie grammaticale - d'autres propriétés éventuelles : - temps (présent, futur, passé...) - personne (1, 2, 3) - genre (masculin, féminin) - nombre (singulier, pluriel) etc. Traits flexionnels

13 Étiquettes lexicales structurées viendrai,V:F1s Paires attribut-valeur partOfSpeech = verb tense = future person = 1 number = singular attributs (features) valeurs (values)

14 ABRabreviation ADJadjective ADVadverb DET:ARTarticle DET:POSpossessive pronoun (ma, ta,...) INTinterjection KONconjunction NAMproper name NOMnoun NUMnumeral PROpronoun PRO:DEMdemonstrative pronoun PRO:INDindefinite pronoun PRO:PERpersonal pronoun PRO:POSpossessive pronoun (mien, tien,...) PRO:RELrelative pronoun PRPpreposition PRP:detpreposition plus article (au,du,aux,des) PUNpunctuation PUN:citpunctuation citation SENTsentence tag SYMsymbol VER:condverb conditional VER:futuverb futur VER:impeverb imperative VER:impfverb imperfect VER:infiverb infinitive VER:pperverb past participle VER:ppreverb present participle VER:presverb present VER:simpverb simple past VER:subiverb subjunctive imperfect VER:subpverb subjunctive present

15 Racinisation Pour la recherche d'informations, les variations de forme des mots ne sont pas très pertinentes et augmentent inutilement le nombre de dimensions de l'espace vectoriel Exemples vaccine, vaccinent, vacciné, vaccines... La racinisation (stemming) consiste à remplacer toutes ces variantes par vacciner ou même vaccine, vaccinent, vacciné, vaccines, vaccination, vaccinal... par vaccin On n'a pas besoin que ce soit un mot correct, il suffit que ce soit le même pour tous

16 Le raciniseur de Porter (1980) Substitution de suffixes ational --> aterelational --> relate ing --> motoring --> motor Plusieurs passes Passe 1ies --> icapabilities --> capabiliti Passe 4(m>0)biliti --> blecapabiliti --> capable m = nombre de séquences voyelle/consonne Exemples capabilitiesm = 5capam = 1

17 Step 1a SSES -> SS caresses -> caress IES -> I ponies -> poni ties -> ti SS -> SS caress -> caress S -> cats -> cat Step 1b (m>0) EED -> EE feed -> feed agreed -> agree (*v*) ED -> plastered -> plaster bled -> bled (*v*) ING -> motoring -> motor sing -> sing If the second or third of the rules in Step 1b is successful, the following is done: AT -> ATE conflat(ed) -> conflate BL -> BLE troubl(ed) -> trouble IZ -> IZE siz(ed) -> size (*d and not (*L or *S or *Z)) -> single letter hopp(ing) -> hop tann(ed) -> tan fall(ing) -> fall hiss(ing) -> hiss fizz(ed) -> fizz (m=1 and *o) -> E fail(ing) -> fail fil(ing) -> file The rule to map to a single letter causes the removal of one of the double letter pair. *v*contains a vowel (a, e, i, o, u, or y preceded by a consonant) *dends with a double consonant, e.g. tt, ss *oends with cvc, where the second c is not w, x or y

18 Step 1c (*v*) Y -> I happy -> happi sky -> sky Step 2 (m>0) ATIONAL -> ATE relational -> relate (m>0) TIONAL -> TION conditional -> condition rational -> rational (m>0) ENCI -> ENCE valenci -> valence (m>0) ANCI -> ANCE hesitanci -> hesitance (m>0) IZER -> IZE digitizer -> digitize (m>0) ABLI -> ABLE conformabli -> conformable (m>0) ALLI -> AL radicalli -> radical (m>0) ENTLI -> ENT differentli -> different (m>0) ELI -> E vileli - > vile (m>0) OUSLI -> OUS analogousli -> analogous (m>0) IZATION -> IZE vietnamization -> vietnamize (m>0) ATION -> ATE predication -> predicate (m>0) ATOR -> ATE operator -> operate (m>0) ALISM -> AL feudalism -> feudal (m>0) IVENESS -> IVE decisiveness -> decisive (m>0) FULNESS -> FUL hopefulness -> hopeful (m>0) OUSNESS -> OUS callousness -> callous (m>0) ALITI -> AL formaliti -> formal (m>0) IVITI -> IVE sensitiviti -> sensitive (m>0) BILITI -> BLE sensibiliti -> sensible

19 Step 3 (m>0) ICATE -> IC triplicate -> triplic (m>0) ATIVE -> formative -> form (m>0) ALIZE -> AL formalize -> formal (m>0) ICITI -> IC electriciti -> electric (m>0) ICAL -> IC electrical -> electric (m>0) FUL -> hopeful -> hope (m>0) NESS -> goodness -> good Step 4 (m>1) AL -> revival -> reviv (m>1) ANCE -> allowance -> allow (m>1) ENCE -> inference -> infer (m>1) ER -> airliner -> airlin (m>1) IC -> gyroscopic -> gyroscop (m>1) ABLE -> adjustable -> adjust (m>1) IBLE -> defensible -> defens (m>1) ANT -> irritant -> irrit (m>1) EMENT -> replacement -> replac (m>1) MENT -> adjustment -> adjust (m>1) ENT -> dependent -> depend (m>1 and (*S or *T)) ION -> adoption -> adopt (m>1) OU -> homologou -> homolog (m>1) ISM -> communism -> commun (m>1) ATE -> activate -> activ (m>1) ITI -> angulariti -> angular (m>1) OUS -> homologous -> homolog (m>1) IVE -> effective -> effect (m>1) IZE -> bowdlerize -> bowdler *Sends with s (and the same for other letters)

20 Step 5a (m>1) E -> probate -> probat rate -> rate (m=1 and not *o) E -> cease -> ceas Step 5b (m > 1 and *d and *L) -> single letter controll -> control roll -> roll

21 Le raciniseur de Porter (1980) Exemples d'imperfections Paires regroupées numericalnumerous--> numer universityuniverse--> univers Paires non regroupées noisy--> noisinoise--> nois sparsity--> sparsitisparse--> spars

22 Étiquetage Attribution d'une étiquette lexicale à chaque token (mot ou symbole de ponctuation) Entrées : un texte tokenisé et un jeu d'étiquettes Sortie : le texte étiqueté Applications recherche d'informations reconnaissance de parole analyse syntaxique Ambiguïtés lexicales La poste livre le colis dans un délai d'une semaineverbe Le livre parvient à l'acheteur en une semainenom

23 Étiquetage par règles écrites à la main Première étape On consulte un lexique qui donne toutes les étiquettes possibles des tokens-mots Il,PRO:3s est,V:P3s,A:ms,A:mp,A:fs,A:fp,ADV fin,A:ms,N:fs./. Deuxième étape On applique des règles écrites à la main qui éliminent des étiquettes en fonction du contexte if (+1A/ADV/QUANT); (+2 SENT-LIM); (NOT -1 SVOC/A); then eliminate non-ADV tags else eliminate ADV tag

24 Étiquetage par règles apprises statistiquement (Brill, 1995) Première étape On consulte un lexique qui donne l'étiquette la plus fréquente pour chaque token race/NN(plus souvent nom que verbe) expected/VBN to/TO race/NN tomorrow/NN Deuxième étape On applique les règles apprises statistiquement qui changent des étiquettes en fonction du contexte Changer NN en VB après TO expected/VBN to/TO race/VB tomorrow/NN

25 Étiquetage par règles apprises statistiquement Deux algorithmes d'apprentissage Pour la première étape Le lexique donnant l'étiquette la plus fréquente pour chaque token est obtenu à partir d'un corpus étiqueté Pour la deuxième étape Entrées : le lexique de la première étape ; un corpus étiqueté ; des formes de règles Sorties : un ensemble de règles étiqueter le texte du corpus avec le lexique de la première étape tant que les résultats ne sont pas assez bons examiner toutes les règles sélectionner celle qui donne le meilleur étiquetage remplacer l'ancien étiquetage par celui obtenu

26 Étiquetage par règles apprises statistiquement Pour la deuxième étape Les règles peuvent être des arbres de décision Chaque noeud de l'arbre correspond à un critère (question), et chaque noeud fils à une réponse possible Chaque feuille correspond à une décision Exemple de jeu de critères : - étiquette de l'avant-dernier token avant - étiquette du dernier token avant - forme du token, s'il est fréquent - les 2 premières lettres du token - les 3 dernières lettres du token - particularités typographiques du token (majuscules, guillemets, tiret...) - forme du token après, s'il est fréquent - particularités typographiques du token après (majuscules, guillemets, tiret...)

27 Étiquetage par modèle de Markov appris statistiquement Probabilité qu'un mot étiqueté TO soit suivi d'un mot étiqueté NN : P(NN|TO) = 0,021P(VB|TO) = 0,34 Probabilité qu'un mot étiqueté NN soit race : P(race|NN) = 0,00041P(race| VB) = 0,00003 Probabilité qu'un mot étiqueté TO soit suivi de race/NN : P(NN|TO) P(race|NN) = 0, P(VB|TO) P(race| VB) = 0,00001 Conclusion L'étiquette correcte de race dans to race est probablement VB


Télécharger ppt "Cours 4 Étiquettes lexicales. Catégories grammaticales En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif,"

Présentations similaires


Annonces Google