Traitement Automatique du Langage Naturel

Slides:



Advertisements
Présentations similaires
Le Nom L’adjectif Le verbe Objectif: Orthogram
Advertisements

ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
LES NOMBRES PREMIERS ET COMPOSÉS
[number 1-100].
A l’issue des conseils de classe de 3ème,
Licence pro MPCQ : Cours
Distance inter-locuteur
Les numéros
Cours MIAGE « Architectures Orientées Services » Henry Boccon-Gibod 1 Architectures Orientées Services Composants de Service Exemple pratique de développement.
1. 2 Informations nécessaires à la création dun intervenant 1.Sa désignation –Son identité, ses coordonnées, son statut 2.Sa situation administrative.
Chap 1 Grammaires et dérivations.
Description du fonctionnement d'un système 1 Clic Clic
1 7 Langues niveaux débutant à avancé. 2 Allemand.
ORTH 1 CE2 Je sais écrire sans erreur les pluriels des noms se terminant par s, x, z.
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
-17 Anticipations économiques en Europe Septembre 2013 Indicateur > +20 Indicateur 0 a +20 Indicateur 0 a -20 Indicateur < -20 Union européenne total:
1 5 octobre 2011 / paw Présentation du 7 octobre 2011.
Développement d’applications web
Interagir avec un objet mixte Propriétés physiques et numériques Céline Coutrix, Laurence Nigay Équipe Ingénierie de lInteraction Homme-Machine (IIHM)
1 Cours numéro 3 Graphes et informatique Définitions Exemple de modélisation Utilisation de ce document strictement réservée aux étudiants de l IFSIC.
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 1 : La notion de système.
Cours de physique générale I Ph 11
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
1.2 COMPOSANTES DES VECTEURS
Titre : Implémentation des éléments finis sous Matlab
1 Journée de regroupement des correspondants "Egalité et genre" - 21 novembre 2011 Rectorat de Rouen - SAIO - CD-HD Résultats scolaires, appréciations.
Bases de données lexicales
Tableaux de distributions
Tableaux de distributions
Académie de Créteil - B.C Quest-ce quune Inscription 1)1 action + 1 stagiaire + 1 client 2)Parcours individuel (avec son Prix de Vente) 3)Un financement.
22 janvier 2013 Commercialiser en 2013 ! Que de variables à ajuster ! 1.
LES NOMBRES PREMIERS ET COMPOSÉS
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
La Saint-Valentin Par Matt Maxwell.
1 INETOP
RACINES CARREES Définition Développer avec la distributivité Produit 1
Expressions régulières et hash tables
Représentation des systèmes dynamiques dans l’espace d’état
Représentation des systèmes dynamiques dans l’espace d’état
Représentation des systèmes dynamiques dans l’espace d’état
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
1 CSI3525: Concepts des Languages de Programmation Notes # 3: Description Syntaxique des Languages.
1.1 LES VECTEURS GÉOMÉTRIQUES
Tournoi de Flyball Bouin-Plumoison 2008 Tournoi de Flyball
Chapitre 3 Syntaxe et sémantique.
(A. Meurant - UCL )1 Chapitre Quatrième Quelques définitions de base.
1 INETOP
Introduction à l’algèbre
Rappel Modèle analyse-synthèse de la compilation
Atelier de formation : MAT optimisation II (les graphes).
Équipe 2626 Octobre 2011 Jean Lavoie ing. M.Sc.A.
ASI 3 Méthodes numériques pour l’ingénieur
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Mise en forme en Mathématiques
Elaboré par M. NUTH Sothan 1. 2 Soit x, y et z des coordonnées cartésiennes à 3 dimension. G un ensemble de points dans le plan (u, v). Déf. : On appelle.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
* Source : Étude sur la consommation de la Commission européenne, indicateur de GfK Anticipations.
chapitre -1- OPERATIONS [B] REGLES DE PRIORITE (f n°103) lundi 15 septembre 2014  rappels de 6°  du nouveau en 5°  applications  exercices  Page.
Equation différentielle de 2ème ordre
Création et présentation d’un tableau avec Word 2007
Nom:____________ Prénom: ___________
Paradigmes des Langages de Programmation
Exercice de vérification 1 p
Les Chiffres Prêts?
1 Formation à l’usage éco-performant de votre pc 1 ère Partie.
Introduction à SolidWorks
Transcription de la présentation:

Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

Les Mots Les AEF (FSA) sont particulièrement utiles pour les lexiques De nombreuses périphériques, dont certaines avec des ressources mémoire limitées, ont besoin d'accéder à de longues listes de mots Besoin d’effectuer des tâches assez sophistiquées avec ces listes Donc, nous allons d'abord parler de certains faits sur les mots et ensuite revenir aux méthodes de calcul/traitement 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Morphologie de l’Anglais La morphologie est l'étude de la façon dont les mots sont construits à partir de plus petites unités significatives appelées morphèmes: e.g. « fox » (1 morphème), « cats » (2 morphèmes « cat » et « s ») Les morphèmes peuvent êtres divisés en deux classes Radicaux (stems): Les unités de base portant le sens principal du mot (« cat ») Affixes: des pièces qui sont ajoutées aux radicaux pour + de détails sur le sens ou changer leurs sens et fonctions grammaticales (« -ization », « de-») 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Affixes Préfixes: précèdent le radical undo Suffixes: placés après le radical ionization Circonfixes (circumfixes): les 2 à la fois En Allemand le verbe sagen (dire) au participe passé gesagt (a dit) Infixes: ajoutés à l’intérieur du radical En Arabe ل اع ب Affixes combinées: unbelievably (un-, -able, -ly) 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Morphologie Morphologie Concatenative Utilisation de préfixes et suffixes Morphologie non-concatenative basée sur des racines et patrons (Templatic morphology, root-and-pattern morphology) Arabe, Hébreu et langues sémitiques 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Morphologie de l’Anglais Nous pouvons diviser encore plus la morphologie en deux grandes catégories Flexionnelle (Inflectional) Dérivationnelle (Derivational) 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Classe / catégorie de mots Par catégories de mots, nous viennent à l'esprit des notions familières comme « nom » et « verbe » Importance des « catégories de mots »: catégorie de mot du radical affecte largement la façon avec laquelle les radicaux et les affixes peuvent se combiner 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Morphologie Flexionnelle La morphologie flexionnelle concerne la combinaison des radicaux et des affixes où le mot résultant: a la même catégorie de mot que l'original sert un but grammatical ou sémantique qui est différent de l'original mais n'en est pas moins lié à l'original de façon claire 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Noms et Verbes Anglais 2 types pour la morphologie flexionnelle des noms anglais: les noms sont de simples marqueurs pour le pluriel et le possessif cat  cats butterfly  butterflies man  man’s Les verbes ne sont que légèrement plus complexes Des marqueurs appropriés pour le temps du verbe play  played play  playing play  plays 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Réguliers et Irréguliers Problème compliqué par le fait que certains mots se conduisent mal (refusent de suivre les règles) mouse/mice, goose/geese (oie), ox/oxen (boeuf) go/went, fly/flew Les mots réguliers et irréguliers sont utilisés pour désigner les mots qui suivent les règles et ceux qui ne le font pas 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Verbes Réguliers et Irréguliers Walk, walks, walking, walked, walked Play, plays, playing, played, played Irréguliers Eat, eats, eating, ate, eaten Catch, catches, catching, caught, caught Cut, cuts, cutting, cut, cut 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Morphologie Flexionnelle Ainsi, la morphologie flexionnelle de l'anglais est assez simple Mais est compliquée par le fait qu’il existe des irrégularités 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Morphologie Dérivationnelle La morphologie dérivationnelle concerne la combinaison des radicaux et des affixes où le mot résultant: Appartient à une catégorie de mots différente de celle de l'original A un sens généralement difficile à prédire de façon précise 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Exemples de Dérivations Formation de noms à partir de verbes et d’adjectifs -ation computerize computerization -ee appoint appointee -er kill killer -ness fuzzy fuzziness 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Exemples de Dérivations Formation d’adjectifs à partir de verbes et de Noms -al computation computational -able embrace embraceable -less clue clueless 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Morphologie Dérivationnelle La morphologie dérivationnelle est le travail « sale » (complexe) que personne ne vous a appris. Quasi-systématicité Computation localisation * eatation * spellation Changements irréguliers de sens Changements de classes de mots 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Exemple: Compute Plusieurs chemins sont possibles… Commencer avec compute Computer -> computerize -> computerization Computer -> computerize -> computerizable Computer -> computable Mais les chemins (opérations) ne sont pas nécessairement tous/toutes permis(es) Clue Clue -> *clueable 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Morphologie et AEFs (FSAs) Nous aimerions utiliser les mécanismes prévus par les FSA pour capturer ces aspects de la morphologie Accepter les chaînes qui sont dans le langage Rejeter les chaînes qui ne le sont pas Et le faire d'une manière qui ne nous oblige pas à lister tous les mots de la langue traitée  Analyseur morphologique (morphological parser/analyser) 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Construction d’un analyseur morphologique Besoin de 3 composantes: Lexique (lexicon): listes des radicaux et affixes et informations de base Règles morpho-tactiques (morphotactics) : règles spécifiant quelle(s) classe(s) de morphèmes peut/peuvent suivre quelle(s) autre(s). E.g. Morphème du pluriel suit le nom et pas l’inverse Règles d’orthographe (orthographic/spelling rules): changements d’orthographe dus aux combinaisons de morphèmes: city  cities 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Commencer de façon simple Noms réguliers singuliers: ok Noms réguliers pluriels prennent un -s à la fin Les irréguliers sont acceptés tels quels 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Règles Simples Règles flexionnelles nominales 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Maintenant Injecter les mots Remplacer les noms de classes telle que “reg-noun” par les FSAs qui reconnaissent tous les mots de cette classe là. 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Règles de Morphologie Dérivationnelle de l’Anglais Si tout est état final, comment certaines chaînes peuvent elle être rejetées? 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Lexiques et Analyse Morphologique Ainsi, la vue d'ensemble est de stocker un lexique (liste de mots que vous aimez) sous forme de FSA. Le lexique de base est intégré dans des automates plus vastes qui capturent la morphologie flexionnelle et dérivationnelle de la langue. Et alors? Eh bien la chose la plus simple que vous pouvez faire est la vérification d’orthographe 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Génération vs. Analyse/Reconnaissance Nous pouvons maintenant lancer des chaînes de caractères dans ces machines pour reconnaître celles de la langue Mais la reconnaissance n'est généralement pas tout à fait ce que nous voulons Souvent, si nous trouvons une chaîne de caractères dans la langue nous pourrions vouloir lui attribuer une structure (analyse) Nous pourrions aussi avoir une structure et vouloir lui produire une forme (production / génération) 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Finite State Transducers (Transducteurs d’E.F.) L’idée simple est comme suit: ajouter un autre ruban (bande) ajouter des symboles additionnels aux transitions E.g.: sur une bande nous lisons “cats”, et nous écrivons sur l’autre “cat +N +PL” FST Fait la correspondance entre les deux niveaux via un automate FST visualisé comme un automate à 2 rubans 4/7/2017 Speech and Language Processing - Jurafsky and Martin

FST 4/7/2017 Speech and Language Processing - Jurafsky and Martin

FST: Définition Formelle Un FST peut être défini comme suit: Q : ensemble de N états Σ: un alphabet fini de symboles complexes sous forme de paires input-output i:o; i ϵ I (alphabet d’input) et o ϵ O (alphabet d’output), ε (epsilon) pouvant être dans I et dans O Un état initial q0 F: un ensemble d’états finaux (F inclus dans Q) δ(q,i:o): la fonction/matrice de transition entre états, de QxΣ vers Q 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Applications Le genre d'analyse dont nous parlons est communément appelé analyse morphologique ou de l'analyse (parsing) Ceci peut être Une composante autonome importante de nombreuses applications (correction d'orthographe, recherche d'information) Ou simplement une étape dans une chaîne d'analyse linguistique plus avancée 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Transitions c:c a:a t:t +N: ε +PL:s c:c veut dire lire un c sur un ruban et écrire un c sur l’autre +N:ε veut dire lire un symbole +N sur un ruban et ne rien écrire sur l’autre +PL:s veut dire lire +PL et écrire un s 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Utilisations Typiques En règle générale, nous allons lire à partir d'un ruban en utilisant le 1er symbole sur les transitions de la machine (comme dans un simple FSA). Et nous allons écrire sur le 2ème ruban en utilisant les autres symboles sur les transitions 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Ambiguité Rappelons que dans la reconnaissance non-déterministe de multiples chemins peuvent conduire à un état final Pas important quel chemin a été en fait parcouru Dans les FST le chemin vers un état final n’importe pas puisque des chemins différents représentent des analyses différentes ce qui se traduira par différents résultats 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Ambiguité Quelle est la meilleure analyse (segmentation) de Unionizable Union-ize-able? Un-ion-ize-able? Chacune représente un chemin valide dans la machine d’analyse de morphologie dérivationnelle et un sens différent 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Ambiguité Il ya différentes façons de faire face à ce problème prendre la première sortie trouvée Retrouver toutes les sorties possibles (tous les chemins) et les retourner (sans choix) Biaiser la recherche de telle sorte que seulement une ou quelques pistes probables sont explorées 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Les Détails de l’Histoire Bien sûr, tout n’est pas aussi facile que “cat +N +PL” <-> “cats” Il y a aussi geese, mice et oxen Mais il ya aussi toute une série de changements d'orthographe/ de prononciation qui vont de paire avec les changements flexionnels Cats vs Dogs Fox et Foxes 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Machines à Plusieurs Bandes (Multi-Tape Machines) Pour faire face à ces complications, nous allons ajouter d'autres rubans et utiliser la sortie de l’une comme entrée de la suivante Donc, pour gérer les changements irréguliers d'orthographe, nous allons ajouter des rubans intermédiaires avec des symboles intermédiaires 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Machines à Plusieurs Bandes Nous utilisons une machine pour la transduction entre le niveau lexical et le niveau intermédiaire, et une autre pour gérer les changements d'orthographe pour la bande de surface 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Du niveau lexical au niveau intermédiare 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Du niveau intermédiare au niveau de surface Ajouter une règle d’orthographe pour le “e” comme dans fox^s# <-> foxes# (^ frontière de morphème; # frontière de mot) L’implémenter en tant que transducteur 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Exemples de règles d’orthographe Nom Description de la Règle Exemple Doublement de consonne consonne doublée avant ~ing et ~ed beg / begging Suppression de E « silent » e supprimé avant ~ing et ~ed make / making Insertion de E E inséré après ~s, ~z, ~x, watch / watches Remplacement de Y try / tries Insertion de K panic / panicking 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Foxes 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Foxes 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Foxes 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Note Une des principales caractéristiques de cette machine inférieure est qu‘elle doit faire ce qu’il faut pour les entrées auxquelles elle ne s'applique pas vraiment. Alors ... Fox -> foxes mais bird -> birds 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Schéma Global Nous avons maintenant un FST qui contient des informations explicites sur le lexique (mots réels, leur orthographe, des faits sur les classes de mots et les régularités). Formes du niveau lexical au niveau intermediaire Nous avons un ensemble plus large de machines qui captent les règles d'orthographe Formes intermédiaires aux formes de surface 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Schéma Global 4/7/2017 Speech and Language Processing - Jurafsky and Martin

Cascades Il s'agit d'une architecture que nous allons voir fréquemment Le traitement d'ensemble est divisé en étapes de réécritures distinctes Les bandes intermédiaires peuvent s’avérer utiles ou pas individuellement 4/7/2017 Speech and Language Processing - Jurafsky and Martin