Cours 4 Étiquettes lexicales.

Slides:



Advertisements
Présentations similaires
Objet direct / Objet indirect
Advertisements

Objectifs de la séance Aujourd'hui, nous allons apprendre à distinguer certains homophones grammaticaux. A la fin de la séance, vous serez capables de.
Objectifs de la séance Aujourd'hui, nous allons apprendre à distinguer certains homophones grammaticaux. A la fin de la séance, vous serez capables de.
Objectifs de la séance Aujourd'hui, nous allons apprendre à distinguer certains homophones grammaticaux. A la fin de la séance, vous serez capables de.
Le démonstratif.
Les pronoms possessifs
EN. Use EN to : -Replace DE + a thing Par exemple: Je parle souvent (de mon ecole.) JEN parle souvent.
ORTH 1 CE2 Je sais écrire sans erreur les pluriels des noms se terminant par s, x, z.
Les Homophones Des mots qui ont le même son mais pas le même orthographe ni la même définition.
Les adjectifs possessifs
LES REGLES DE BASE DE L’ORTHOGRAPHE
Les classes de mots.
FRANÇAIS IV/AP S 2.2 – 2.3. Les adverbes: p A: If masculine singular adjective ends with a vowel = simply add –ment (i.e. absolument, poliment)
Les types de phrases La phrase déclarative
Le français dans tous les sens
Les pronoms Le, la, les, le Lui, leur Y, en.
Français 2: mardi, le 7 mai, 2013 Commencez: avec un(e) ami(e) A: Chez le médecin: He says, «Vous devez aller à lhôpital pour un radio. Vous pouvez vous.
Tout savoir sur les classes de mots
Nature ou fonction d’un mot
Comment tu apprends une langue? How you learn a language? Français langue seconde -FSL French as second language -FSL.
Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.
Cours 6 Paires attribut-valeur Structures de traits Unification.
La nature des mots.
1.Après les expressions demotion 2. Le subjonctif dans les propositions relatives et après le superlatif 3. Le passé du subjonctif.
LE DEVELOPPEMENT DU LANGAGE
Le démonstratif adjectif et pronom.
French 102 Chapitre Sept. Grammar Slides Chapitre 7 – La vie professionnelle.
Les sports. Après avoir visionné le clip, créé une liste de questions que tu peux demander à tes camarades de classe. Tu dois savoir la réponse à tes.
L'analyse doit mettre en évidence la nature et la fonction du mot
Les pronoms d’object direct et indirect
PRONOMS!PRONOMS! Règle 1: Le pronom remplace l’ “objet”: subject + verb + object = subject + pronoun + verb Ex.: La fille regarde le garçon = La fille.
Blanc: leçon 15 LE, LA, L’, ET LES-LES PRONOMS COMPLÉMENTS.
10/10/2014 FRENCH 1: MOI 4. VENDREDI Le mot du jour: mes profs L’objectif: Falcons will be able to describe themselves using complete sentences.
Les classes grammaticales
Les Pronoms Objet: indirect et direct Rachel Mojdehbakhsh AP French - 2.
Aujourd'hui, nous allons étudier les classes grammaticales des mots.
Ex. Est-ce que tu connais le pouvoir de Magnéto?
Programmation annuelle: Etude de la langue
Pronoms personnels Par: shannon Harvie.
THE ADJECTIVES: BEAU, NOUVEAU AND VIEUX 1.
Pronom Personnel. Definition  Un pronom remplace un element de la phrase.
French 1: être and adjectives 10/20/2014. lundi Le mot du jour: l’accord (agreement) L’objectif: Falcons will demonstrate an understanding.
Le verbe être je suis tu es …en forme il/elle est …fatigué(e)
Les mots terminés par ail(le), eil(le), euil(le), ouil(le)
LE PRONOM C’est un mot qui varie en genre et en nombre; le pronom personel varie aussi en personne ( 1p 2p 3p), fonction , place, sens, (eg) le pronom.
Les Adjectifs Possessifs
EDL GRAMMAIRE GRAMMAIRE CONJUGAISON CE1 GRAM 11 GRAM 12 GRAM 13
Module d’auto-apprentissage
Subject pronouns usually begin a sentence. They tell what the person or thing is doing. In French they are as follows Je- I nous- we Tu – you (informal)
Les pronoms démonstratifs
Les verbes réguliers Et Les verbes irréguliers LE PASSÉ COMPOSÉ.
Les pronoms démonstratif et possessif
Agreement of the Past Participle. Le Passé Composé  The passé composé is used to express an action completed in the past.  The passé composé of most.
Pour commencer, clique ici
Les Pronoms Compléments d’objets directs C.O.D. Les pronoms C.O.D Les pronoms C.O.D sont: Le (masculin singulier) La (féminin singulier) L’ (devant un.
les mots variables et les mots invariables.
Les parties du discours
Pronom En et Y. Y Y is an indirect object pronoun that precedes the verb. It usually replaces an inanimate object (thing or idea) The object replaced.
Pronom Personnel. Definition  Un pronom remplace un élément de la phrase.  A pronoun replaces an element in the sentence.
AVOIR Quick review of the conjugation of the verb AVOIR  J’ai  tu as  Il/elle a  Nous avons  Vous avez  Ils/ells ont.
© 2015 by Vista Higher Learning, Inc. All rights reserved.1B.2-1 Point de départ In Level 1, you learned to use indirect and direct object pronouns. Now.
OBJECT PRONOUNS WITH THE PASSÉ COMPOSÉ Page 122. Placement  With all object pronouns, placement is the same. DirectIndirectPlaces De+ nouns or ideas.
LES PRONOMS D’OBJET DIRECT. WHAT IS A SUBJECT? In a sentence, the person or thing that performs the action of the verb is called the SUBJECT.
{ L’analyse L'analyse doit mettre en évidence la nature et la fonction du mot.
Les COI et les COD Y et En. Comment distinguer les CODs et les COIs?
Direct object pronouns le la l’ les. A direct object is the “what” of a sentence. Example: I am reading the book. What am I reading? the book The book.
Les Pronoms Objets Directs avec le Passé Composé Français II A/B M. Jackson GHS.
Transcription de la présentation:

Cours 4 Étiquettes lexicales

Catégories grammaticales En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif, adverbe, pronom, préposition, conjonction, déterminant En général, 10 à 15 catégories par langue Information sur les voisins du mot Un pronom est souvent suivi d'un verbe : il intervient Un déterminant est souvent suivi d'un nom : les annonces Information sur la prononciation du mot Président peut être un nom : Le président de séance est en retard Président peut être un verbe : Ils président la séance à tour de rôle La prononciation est différente Les poules du couvent couvent

Catégories grammaticales Catégories grammaticales et suffixes vaccine est un verbe, on peut le regrouper avec vacciner féminine est un adjectif, on peut le regrouper avec féminin Application : la recherche d'informations Catégories grammaticales et pertinence Les noms sont souvent pertinents : balle, film, banque... Les prépositions le sont moins : selon, depuis, malgré... une croix en or et pierres précieuses... nom Or la version de la chanson... conjonction

Définition des catégories grammaticales Par les suffixes Deux mots qui prennent les mêmes suffixes ont des chances d'appartenir à la même catégorie vaccine, vaccinent, vacciné, vaccines/juge, jugent, jugé, juges verbes parent, parents, parente, parentes/ami, amis, amie, amies noms Par les contextes Deux mots qui acceptent les mêmes contextes ont des chances d'appartenir à la même catégorie Les représentants des pays concernés Les représentants des partis concernés noms Le TGV n'avait pas prévu de s'arrêter Le TGV n'avait pas cessé de s'arrêter verbes

Catégories ouvertes/fermées Catégories fermées Les éléments sont en nombre limité et fixe Mots grammaticaux (jouent un rôle important dans la grammaire), courts et fréquents Prépositions : à de par pour sans selon depuis malgré... Quelques dizaines On en crée rarement de nouvelles Catégories ouvertes Les éléments sont nombreux et de nouveaux sont créés continuellement Noms : futon MP3 pseudotéléspectateur triréacteur... Quelques dizaines de milliers Verbes : faxer surréglementer sursubventionner télécopier... Quelques milliers

Catégories ouvertes Noms ou substantifs Souvent précédés d'un déterminant des annonces Varient entre singulier et pluriel une annonce/des annonces Sous-catégories : noms communs bateau, chaise, relation, élève noms propres Paris, Laporte, Lip Verbes Varient en temps il annonce il annoncera personne il annonce nous annonçons auxiliaires pouvoir, devoir, avoir, être...

Catégories ouvertes Adjectifs Varient entre singulier et pluriel normal normaux masculin et féminin normaux normales Adverbes Généralement déplaçables dans une phrase Souvent, le bus s'arrête ici Le bus, souvent, s'arrête ici Le bus s'arrête souvent ici Le bus s'arrête ici souvent

Catégories fermées Prépositions à de par pour sans selon sur sous avec depuis malgré... Devant des noms ou des verbes : à des annonces pour annoncer Conjonctions et ou mais car... Entre deux séquences analogues : des programmes et des données que quand si comme lorsque... Devant une phrase incluse dans une autre : Je viendrai si je peux

Catégories fermées Déterminants un une des du le la les chaque deux trois quatre beaucoup mon... Devant des noms : des annonces beaucoup d'annonces Pronoms je tu il elle on nous vous moi toi lui ceci cela qui quoi que quelqu'un...

Étiquettes lexicales En anglais tags Je viendrai si je peux Je,PRO:1s viendrai,V:F1s si,CONJS je,PRO:1s peux,V:P1s Un objet qui identifie pour chaque token-mot - la catégorie grammaticale - éventuellement d'autres propriétés (temps, personne, nombre...) On peut aussi étiqueter les symboles de ponctuation

Étiquettes lexicales non structurées Je,PP viendrai,VBF si,IN je,PP peux,VBP Chaque étiquette représente une catégorie généralement un peu plus précise qu'une catégorie grammaticale Exemples PP pronom personnel VBF verbe conjugué au futur IN préposition ou conjonction de subordination Jeu d'étiquettes (tagset) Ensemble d'étiquettes Pour l'anglais, généralement 50 à 150 étiquettes

Étiquettes lexicales structurées Je,PRO:1s viendrai,V:F1s si,CONJS je,PRO:1s peux,V:P1s Chaque étiquette donne séparément - la catégorie grammaticale - d'autres propriétés éventuelles : - temps (présent, futur, passé...) - personne (1, 2, 3) - genre (masculin, féminin) - nombre (singulier, pluriel) etc. Traits flexionnels

Étiquettes lexicales structurées viendrai,V:F1s Paires attribut-valeur partOfSpeech = verb tense = future person = 1 number = singular attributs (features) valeurs (values)

ABR abreviation ADJ adjective ADV adverb DET:ART article DET:POS possessive pronoun (ma, ta, ...) INT interjection KON conjunction NAM proper name NOM noun NUM numeral PRO pronoun PRO:DEM demonstrative pronoun PRO:IND indefinite pronoun PRO:PER personal pronoun PRO:POS possessive pronoun (mien, tien, ...) PRO:REL relative pronoun PRP preposition PRP:det preposition plus article (au,du,aux,des) PUN punctuation PUN:cit punctuation citation SENT sentence tag SYM symbol VER:cond verb conditional VER:futu verb futur VER:impe verb imperative VER:impf verb imperfect VER:infi verb infinitive VER:pper verb past participle VER:ppre verb present participle VER:pres verb present VER:simp verb simple past VER:subi verb subjunctive imperfect VER:subp verb subjunctive present

Racinisation Pour la recherche d'informations, les variations de forme des mots ne sont pas très pertinentes et augmentent inutilement le nombre de dimensions de l'espace vectoriel Exemples vaccine, vaccinent, vacciné, vaccines... La racinisation (stemming) consiste à remplacer toutes ces variantes par vacciner ou même vaccine, vaccinent, vacciné, vaccines, vaccination, vaccinal... par vaccin On n'a pas besoin que ce soit un mot correct, il suffit que ce soit le même pour tous

Le raciniseur de Porter (1980) Substitution de suffixes ational --> ate relational --> relate ing -->  motoring --> motor Plusieurs passes Passe 1 ies --> i capabilities --> capabiliti Passe 4 (m>0)biliti --> ble capabiliti --> capable m = nombre de séquences voyelle/consonne Exemples capabilities m = 5 capa m = 1

Step 1a   SSES -> SS caresses -> caress IES -> I ponies -> poni ties -> ti SS -> SS caress -> caress S -> cats -> cat Step 1b   (m>0) EED -> EE feed -> feed agreed -> agree (*v*) ED -> plastered -> plaster bled -> bled (*v*) ING -> motoring -> motor sing -> sing If the second or third of the rules in Step 1b is successful, the following is done:   AT -> ATE conflat(ed) -> conflate BL -> BLE troubl(ed) -> trouble IZ -> IZE siz(ed) -> size (*d and not (*L or *S or *Z)) -> single letter hopp(ing) -> hop tann(ed) -> tan fall(ing) -> fall hiss(ing) -> hiss fizz(ed) -> fizz (m=1 and *o) -> E fail(ing) -> fail fil(ing) -> file The rule to map to a single letter causes the removal of one of the double letter pair. *v* contains a vowel (a, e, i, o, u, or y preceded by a consonant) *d ends with a double consonant, e.g. tt, ss *o ends with cvc, where the second c is not w, x or y

Step 1c Step 2 (*v*) Y -> I happy -> happi sky -> sky   (m>0) ATIONAL -> ATE relational -> relate (m>0) TIONAL -> TION conditional -> condition rational -> rational (m>0) ENCI -> ENCE valenci -> valence (m>0) ANCI -> ANCE hesitanci -> hesitance (m>0) IZER -> IZE digitizer -> digitize (m>0) ABLI -> ABLE conformabli -> conformable (m>0) ALLI -> AL radicalli -> radical (m>0) ENTLI -> ENT differentli -> different (m>0) ELI -> E vileli - > vile (m>0) OUSLI -> OUS analogousli -> analogous (m>0) IZATION -> IZE vietnamization -> vietnamize (m>0) ATION -> ATE predication -> predicate (m>0) ATOR -> ATE operator -> operate (m>0) ALISM -> AL feudalism -> feudal (m>0) IVENESS -> IVE decisiveness -> decisive (m>0) FULNESS -> FUL hopefulness -> hopeful (m>0) OUSNESS -> OUS callousness -> callous (m>0) ALITI -> AL formaliti -> formal (m>0) IVITI -> IVE sensitiviti -> sensitive (m>0) BILITI -> BLE sensibiliti -> sensible

Step 3 Step 4 (m>0) ICATE -> IC triplicate -> triplic (m>0) ATIVE -> formative -> form (m>0) ALIZE -> AL formalize -> formal (m>0) ICITI -> IC electriciti -> electric (m>0) ICAL -> IC electrical -> electric (m>0) FUL -> hopeful -> hope (m>0) NESS -> goodness -> good Step 4   (m>1) AL -> revival -> reviv (m>1) ANCE -> allowance -> allow (m>1) ENCE -> inference -> infer (m>1) ER -> airliner -> airlin (m>1) IC -> gyroscopic -> gyroscop (m>1) ABLE -> adjustable -> adjust (m>1) IBLE -> defensible -> defens (m>1) ANT -> irritant -> irrit (m>1) EMENT -> replacement -> replac (m>1) MENT -> adjustment -> adjust (m>1) ENT -> dependent -> depend (m>1 and (*S or *T)) ION -> adoption -> adopt (m>1) OU -> homologou -> homolog (m>1) ISM -> communism -> commun (m>1) ATE -> activate -> activ (m>1) ITI -> angulariti -> angular (m>1) OUS -> homologous -> homolog (m>1) IVE -> effective -> effect (m>1) IZE -> bowdlerize -> bowdler *S ends with s (and the same for other letters)

Step 5a Step 5b (m>1) E -> probate -> probat rate -> rate (m=1 and not *o) E -> cease -> ceas Step 5b   (m > 1 and *d and *L) -> single letter controll -> control roll -> roll

Le raciniseur de Porter (1980) Exemples d'imperfections Paires regroupées numerical numerous --> numer university universe --> univers Paires non regroupées noisy --> noisi noise --> nois sparsity --> sparsiti sparse --> spars

Étiquetage Attribution d'une étiquette lexicale à chaque token (mot ou symbole de ponctuation) Entrées : un texte tokenisé et un jeu d'étiquettes Sortie : le texte étiqueté Applications recherche d'informations reconnaissance de parole analyse syntaxique Ambiguïtés lexicales La poste livre le colis dans un délai d'une semaine verbe Le livre parvient à l'acheteur en une semaine nom

Étiquetage par règles écrites à la main Première étape On consulte un lexique qui donne toutes les étiquettes possibles des tokens-mots Il,PRO:3s est,V:P3s,A:ms,A:mp,A:fs,A:fp,ADV fin,A:ms,N:fs ./. Deuxième étape On applique des règles écrites à la main qui éliminent des étiquettes en fonction du contexte if (+1A/ADV/QUANT); (+2 SENT-LIM); (NOT -1 SVOC/A); then eliminate non-ADV tags else eliminate ADV tag

Étiquetage par règles apprises statistiquement (Brill, 1995) Première étape On consulte un lexique qui donne l'étiquette la plus fréquente pour chaque token race/NN (plus souvent nom que verbe) expected/VBN to/TO race/NN tomorrow/NN Deuxième étape On applique les règles apprises statistiquement qui changent des étiquettes en fonction du contexte Changer NN en VB après TO expected/VBN to/TO race/VB tomorrow/NN

Étiquetage par règles apprises statistiquement Deux algorithmes d'apprentissage Pour la première étape Le lexique donnant l'étiquette la plus fréquente pour chaque token est obtenu à partir d'un corpus étiqueté Pour la deuxième étape Entrées : le lexique de la première étape ; un corpus étiqueté ; des formes de règles Sorties : un ensemble de règles étiqueter le texte du corpus avec le lexique de la première étape tant que les résultats ne sont pas assez bons examiner toutes les règles sélectionner celle qui donne le meilleur étiquetage remplacer l'ancien étiquetage par celui obtenu

Étiquetage par règles apprises statistiquement Pour la deuxième étape Les règles peuvent être des arbres de décision Chaque noeud de l'arbre correspond à un critère (question), et chaque noeud fils à une réponse possible Chaque feuille correspond à une décision Exemple de jeu de critères : - étiquette de l'avant-dernier token avant - étiquette du dernier token avant - forme du token, s'il est fréquent - les 2 premières lettres du token - les 3 dernières lettres du token - particularités typographiques du token (majuscules, guillemets, tiret...) - forme du token après, s'il est fréquent - particularités typographiques du token après (majuscules, guillemets, tiret...)

Étiquetage par modèle de Markov appris statistiquement Probabilité qu'un mot étiqueté TO soit suivi d'un mot étiqueté NN : P(NN|TO) = 0,021 P(VB|TO) = 0,34 Probabilité qu'un mot étiqueté NN soit race : P(race|NN) = 0,00041 P(race| VB) = 0,00003 Probabilité qu'un mot étiqueté TO soit suivi de race/NN : P(NN|TO) P(race|NN) = 0,000007 P(VB|TO) P(race| VB) = 0,00001 Conclusion L'étiquette correcte de race dans to race est probablement VB