La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis.

Présentations similaires


Présentation au sujet: "Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis."— Transcription de la présentation:

1 Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

2 Les Mots Les AEF (FSA) sont particulièrement utiles pour les lexiques De nombreuses périphériques, dont certaines avec des ressources mémoire limitées, ont besoin d'accéder à de longues listes de mots Besoin d’effectuer des tâches assez sophistiquées avec ces listes Donc, nous allons d'abord parler de certains faits sur les mots et ensuite revenir aux méthodes de calcul/traitement 12/11/2014 Speech and Language Processing - Jurafsky and Martin 2

3 Morphologie de l’Anglais La morphologie est l'étude de la façon dont les mots sont construits à partir de plus petites unités significatives appelées morphèmes: e.g. « fox » (1 morphème), « cats » (2 morphèmes « cat » et « s ») Les morphèmes peuvent êtres divisés en deux classes  Radicaux (stems): Les unités de base portant le sens principal du mot (« cat »)  Affixes: des pièces qui sont ajoutées aux radicaux pour + de détails sur le sens ou changer leurs sens et fonctions grammaticales (« -ization », « de-») 12/11/2014 Speech and Language Processing - Jurafsky and Martin 3

4 Affixes Préfixes: précèdent le radical  undo Suffixes: placés après le radical  ionization Circonfixes (circumfixes): les 2 à la fois  En Allemand le verbe sagen (dire) au participe passé gesagt (a dit) Infixes: ajoutés à l’intérieur du radical  En Arabe ل اع ب Affixes combinées: unbelievably (un-, -able, -ly) 12/11/2014 Speech and Language Processing - Jurafsky and Martin 4

5 Morphologie Morphologie Concatenative  Utilisation de préfixes et suffixes Morphologie non-concatenative basée sur des racines et patrons (Templatic morphology, root-and-pattern morphology)  Arabe, Hébreu et langues sémitiques 12/11/2014 Speech and Language Processing - Jurafsky and Martin 5

6 12/11/2014 Speech and Language Processing - Jurafsky and Martin 6 Morphologie de l’Anglais Nous pouvons diviser encore plus la morphologie en deux grandes catégories  Flexionnelle (Inflectional)  Dérivationnelle (Derivational)

7 12/11/2014 Speech and Language Processing - Jurafsky and Martin 7 Classe / catégorie de mots Par catégories de mots, nous viennent à l'esprit des notions familières comme « nom » et « verbe » Importance des « catégories de mots »: catégorie de mot du radical affecte largement la façon avec laquelle les radicaux et les affixes peuvent se combiner

8 12/11/2014 Speech and Language Processing - Jurafsky and Martin 8 Morphologie Flexionnelle La morphologie flexionnelle concerne la combinaison des radicaux et des affixes où le mot résultant:  a la même catégorie de mot que l'original  sert un but grammatical ou sémantique qui est  différent de l'original  mais n'en est pas moins lié à l'original de façon claire

9 12/11/2014 Speech and Language Processing - Jurafsky and Martin 9 Noms et Verbes Anglais 2 types pour la morphologie flexionnelle des noms anglais: les noms sont de simples marqueurs pour le pluriel et le possessif  cat  cats  butterfly  butterflies  man  man’s Les verbes ne sont que légèrement plus complexes  Des marqueurs appropriés pour le temps du verbe  play  played play  playing  play  plays

10 12/11/2014 Speech and Language Processing - Jurafsky and Martin 10 Réguliers et Irréguliers Problème compliqué par le fait que certains mots se conduisent mal (refusent de suivre les règles)  mouse/mice, goose/geese (oie), ox/oxen (boeuf)  go/went, fly/flew Les mots réguliers et irréguliers sont utilisés pour désigner les mots qui suivent les règles et ceux qui ne le font pas

11 12/11/2014 Speech and Language Processing - Jurafsky and Martin 11 Verbes Réguliers et Irréguliers Réguliers…  Walk, walks, walking, walked, walked  Play, plays, playing, played, played Irréguliers  Eat, eats, eating, ate, eaten  Catch, catches, catching, caught, caught  Cut, cuts, cutting, cut, cut

12 12/11/2014 Speech and Language Processing - Jurafsky and Martin 12 Morphologie Flexionnelle Ainsi, la morphologie flexionnelle de l'anglais est assez simple Mais est compliquée par le fait qu’il existe des irrégularités

13 Morphologie Dérivationnelle La morphologie dérivationnelle concerne la combinaison des radicaux et des affixes où le mot résultant:  Appartient à une catégorie de mots différente de celle de l'original  A un sens généralement difficile à prédire de façon précise 12/11/2014 Speech and Language Processing - Jurafsky and Martin 13

14 12/11/2014 Speech and Language Processing - Jurafsky and Martin 14 Exemples de Dérivations Formation de noms à partir de verbes et d’adjectifs -ationcomputerizecomputerization -eeappointappointee -erkillkiller -nessfuzzyfuzziness

15 12/11/2014 Speech and Language Processing - Jurafsky and Martin 15 Exemples de Dérivations Formation d’adjectifs à partir de verbes et de Noms -alcomputationcomputational -ableembraceembraceable -lessclueclueless

16 12/11/2014 Speech and Language Processing - Jurafsky and Martin 16 Morphologie Dérivationnelle La morphologie dérivationnelle est le travail « sale » (complexe) que personne ne vous a appris.  Quasi-systématicité Computation localisation * eatation * spellation  Changements irréguliers de sens  Changements de classes de mots

17 12/11/2014 Speech and Language Processing - Jurafsky and Martin 17 Exemple: Compute Plusieurs chemins sont possibles… Commencer avec compute  Computer -> computerize -> computerization  Computer -> computerize -> computerizable  Computer -> computable Mais les chemins (opérations) ne sont pas nécessairement tous/toutes permis(es)  Clue  Clue -> *clueable

18 12/11/2014 Speech and Language Processing - Jurafsky and Martin 18 Morphologie et AEFs (FSAs) Nous aimerions utiliser les mécanismes prévus par les FSA pour capturer ces aspects de la morphologie  Accepter les chaînes qui sont dans le langage  Rejeter les chaînes qui ne le sont pas  Et le faire d'une manière qui ne nous oblige pas à lister tous les mots de la langue traitée  Analyseur morphologique (morphological parser/analyser)

19 Construction d’un analyseur morphologique Besoin de 3 composantes:  Lexique (lexicon): listes des radicaux et affixes et informations de base  Règles morpho-tactiques (morphotactics) : règles spécifiant quelle(s) classe(s) de morphèmes peut/peuvent suivre quelle(s) autre(s). E.g. Morphème du pluriel suit le nom et pas l’inverse  Règles d’orthographe (orthographic/spelling rules): changements d’orthographe dus aux combinaisons de morphèmes: city  cities 12/11/2014 Speech and Language Processing - Jurafsky and Martin 19

20 12/11/2014 Speech and Language Processing - Jurafsky and Martin 20 Commencer de façon simple Noms réguliers singuliers: ok Noms réguliers pluriels prennent un -s à la fin Les irréguliers sont acceptés tels quels

21 12/11/2014 Speech and Language Processing - Jurafsky and Martin 21 Règles Simples Règles flexionnelles nominales

22 12/11/2014 Speech and Language Processing - Jurafsky and Martin 22 Maintenant Injecter les mots Remplacer les noms de classes telle que “reg- noun” par les FSAs qui reconnaissent tous les mots de cette classe là.

23 12/11/2014 Speech and Language Processing - Jurafsky and Martin 23 Règles de Morphologie Dérivationnelle de l’Anglais Si tout est état final, comment certaines chaînes peuvent elle être rejetées?

24 12/11/2014 Speech and Language Processing - Jurafsky and Martin 24 Lexiques et Analyse Morphologique Ainsi, la vue d'ensemble est de stocker  un lexique (liste de mots que vous aimez) sous forme de FSA.  Le lexique de base est intégré dans des automates plus vastes qui capturent la morphologie flexionnelle et dérivationnelle de la langue. Et alors? Eh bien la chose la plus simple que vous pouvez faire est la vérification d’orthographe

25 12/11/2014 Speech and Language Processing - Jurafsky and Martin 25 Génération vs. Analyse/Reconnaissance Nous pouvons maintenant lancer des chaînes de caractères dans ces machines pour reconnaître celles de la langue Mais la reconnaissance n'est généralement pas tout à fait ce que nous voulons  Souvent, si nous trouvons une chaîne de caractères dans la langue nous pourrions vouloir lui attribuer une structure (analyse)  Nous pourrions aussi avoir une structure et vouloir lui produire une forme (production / génération)

26 12/11/2014 Speech and Language Processing - Jurafsky and Martin 26 Finite State Transducers (Transducteurs d’E.F.) L’idée simple est comme suit:  ajouter un autre ruban (bande)  ajouter des symboles additionnels aux transitions  E.g.: sur une bande nous lisons “cats”, et nous écrivons sur l’autre “cat +N +PL” FST  Fait la correspondance entre les deux niveaux via un automate  FST visualisé comme un automate à 2 rubans

27 12/11/2014 Speech and Language Processing - Jurafsky and Martin 27 FST

28 FST: Définition Formelle Un FST peut être défini comme suit:  Q : ensemble de N états  Σ: un alphabet fini de symboles complexes sous forme de paires input-output i:o; i I (alphabet d’input) et o O (alphabet d’output), ε (epsilon) pouvant être dans I et dans O  Un état initial q 0  F: un ensemble d’états finaux (F inclus dans Q)  δ(q,i:o): la fonction/matrice de transition entre états, de Qx Σ vers Q 12/11/2014 Speech and Language Processing - Jurafsky and Martin 28

29 12/11/2014 Speech and Language Processing - Jurafsky and Martin 29 Applications Le genre d'analyse dont nous parlons est communément appelé analyse morphologique ou de l'analyse (parsing) Ceci peut être  Une composante autonome importante de nombreuses applications (correction d'orthographe, recherche d'information)  Ou simplement une étape dans une chaîne d'analyse linguistique plus avancée

30 12/11/2014 Speech and Language Processing - Jurafsky and Martin 30 Transitions c:c veut dire lire un c sur un ruban et écrire un c sur l’autre +N:ε veut dire lire un symbole +N sur un ruban et ne rien écrire sur l’autre +PL:s veut dire lire +PL et écrire un s c:ca:at:t +N: ε + PL:s

31 12/11/2014 Speech and Language Processing - Jurafsky and Martin 31 Utilisations Typiques En règle générale, nous allons lire à partir d'un ruban en utilisant le 1 er symbole sur les transitions de la machine (comme dans un simple FSA). Et nous allons écrire sur le 2 ème ruban en utilisant les autres symboles sur les transitions

32 12/11/2014 Speech and Language Processing - Jurafsky and Martin 32 Ambiguité Rappelons que dans la reconnaissance non- déterministe de multiples chemins peuvent conduire à un état final Pas important quel chemin a été en fait parcouru Dans les FST le chemin vers un état final n’importe pas puisque des chemins différents représentent des analyses différentes ce qui se traduira par différents résultats

33 12/11/2014 Speech and Language Processing - Jurafsky and Martin 33 Ambiguité Quelle est la meilleure analyse (segmentation) de Unionizable Union-ize-able? Un-ion-ize-able? Chacune représente un chemin valide dans la machine d’analyse de morphologie dérivationnelle et un sens différent

34 12/11/2014 Speech and Language Processing - Jurafsky and Martin 34 Ambiguité Il ya différentes façons de faire face à ce problème  prendre la première sortie trouvée Retrouver toutes les sorties possibles (tous les chemins) et les retourner (sans choix) Biaiser la recherche de telle sorte que seulement une ou quelques pistes probables sont explorées

35 12/11/2014 Speech and Language Processing - Jurafsky and Martin 35 Les Détails de l’Histoire Bien sûr, tout n’est pas aussi facile que “cat +N +PL” “cats” Il y a aussi geese, mice et oxen Mais il ya aussi toute une série de changements d'orthographe/ de prononciation qui vont de paire avec les changements flexionnels Cats vs Dogs Fox et Foxes

36 12/11/2014 Speech and Language Processing - Jurafsky and Martin 36 Machines à Plusieurs Bandes (Multi-Tape Machines) Pour faire face à ces complications, nous allons ajouter d'autres rubans et utiliser la sortie de l’une comme entrée de la suivante Donc, pour gérer les changements irréguliers d'orthographe, nous allons ajouter des rubans intermédiaires avec des symboles intermédiaires

37 12/11/2014 Speech and Language Processing - Jurafsky and Martin 37 Machines à Plusieurs Bandes Nous utilisons  une machine pour la transduction entre le niveau lexical et le niveau intermédiaire, et  une autre pour gérer les changements d'orthographe pour la bande de surface

38 12/11/2014 Speech and Language Processing - Jurafsky and Martin 38 Du niveau lexical au niveau intermédiare

39 12/11/2014 Speech and Language Processing - Jurafsky and Martin 39 Du niveau intermédiare au niveau de surface Ajouter une règle d’orthographe pour le “e” comme dans fox^s# foxes# ( ^ frontière de morphème; # frontière de mot) L’implémenter en tant que transducteur

40 Exemples de règles d’orthographe 12/11/2014 Speech and Language Processing - Jurafsky and Martin 40 NomDescription de la RègleExemple Doublement de consonne consonne doublée avant ~ing et ~ed beg / begging Suppression de E« silent » e supprimé avant ~ing et ~ed make / making Insertion de EE inséré après ~s, ~z, ~x,watch / watches Remplacement de Ytry / tries Insertion de Kpanic / panicking

41 12/11/2014 Speech and Language Processing - Jurafsky and Martin 41 Foxes

42 12/11/2014 Speech and Language Processing - Jurafsky and Martin 42 Foxes

43 12/11/2014 Speech and Language Processing - Jurafsky and Martin 43 Foxes

44 12/11/2014 Speech and Language Processing - Jurafsky and Martin 44 Note Une des principales caractéristiques de cette machine inférieure est qu‘elle doit faire ce qu’il faut pour les entrées auxquelles elle ne s'applique pas vraiment. Alors...  Fox -> foxes mais bird -> birds

45 12/11/2014 Speech and Language Processing - Jurafsky and Martin 45 Schéma Global Nous avons maintenant un FST qui contient des informations explicites sur le lexique (mots réels, leur orthographe, des faits sur les classes de mots et les régularités). Formes du niveau lexical au niveau intermediaire Nous avons un ensemble plus large de machines qui captent les règles d'orthographe Formes intermédiaires aux formes de surface

46 12/11/2014 Speech and Language Processing - Jurafsky and Martin 46 Schéma Global

47 12/11/2014 Speech and Language Processing - Jurafsky and Martin 47 Cascades Il s'agit d'une architecture que nous allons voir fréquemment  Le traitement d'ensemble est divisé en étapes de réécritures distinctes  Les bandes intermédiaires peuvent s’avérer utiles ou pas individuellement


Télécharger ppt "Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis."

Présentations similaires


Annonces Google