La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Modèles pour le Traitement Automatique des Langues

Présentations similaires


Présentation au sujet: "Modèles pour le Traitement Automatique des Langues"— Transcription de la présentation:

1 Modèles pour le Traitement Automatique des Langues
Alain Lecomte M1-ICPS

2 Le Traitement Automatique des Langues
Traduction automatique (ou assistée) Interfaces en langue naturelle Dialogue homme – machine Indexation automatique de documents Web sémantique Par exemple, quand je tape dans Google « Statistical NLP », il n’est pas fichu de me renvoyer les documents concernant « Statistical Natural Language Processing »!!! Recherche d’information Aide à la rédaction dans des langues simplifiées

3 Exemples dans les stages soutenus en 2005
Sur six mémoires soutenus en septembre, quatre portaient sur du TAL: Extraction des entités nommées (Digimind, veille technologique) Indexation sémantique de documents (Xerox, projet «document intelligent ») Moteur d’interrogation synchrone de plusieurs dictionnaires en ligne (sté Babeling) Mémoires de traduction (sté Babeling) Un site pour les apprenants du chinois (U. Stendhal)

4 Groupe NLP de Microsoft (1)
The goal of the Natural Language Processing (NLP) group is to design and build software that will analyze, understand, and generate languages that humans use naturally, so that eventually you will be able to address your computer as though you were addressing another person. This goal is not easy to reach. "Understanding" language means, among other things, knowing what concepts a word or phrase stands for and knowing how to link those concepts together in a meaningful way. It's ironic that natural language, the symbol system that is easiest for humans to learn and use, is hardest for a computer to master. Long after machines have proven capable of inverting large matrices with speed and grace, they still fail to master the basics of our spoken and written languages.

5 Groupe NLP de Microsoft (2)
The challenges we face stem from the highly ambiguous nature of natural language. As an English speaker you effortlessly understand a sentence like "Flying planes can be dangerous". Yet this sentence presents difficulties to a software program that lacks both your knowledge of the world and your experience with linguistic structures. Is the more plausible interpretation that the pilot is at risk, or that the danger is to people on the ground? Should "can" be analyzed as a verb or as a noun? Which of the many possible meanings of "plane" is relevant? Depending on context, "plane" could refer to, among other things, an airplane, a geometric object, or a woodworking tool. How much and what sort of context needs to be brought to bear on these questions in order to adequately disambiguate the sentence?

6 Groupe NLP de Microsoft (3)
We address these problems using a mix of knowledge-engineered and statistical/machine-learning techniques to disambiguate and respond to natural language input. Our work has implications for applications like text critiquing, information retrieval, question answering, summarization, gaming, and translation. The grammar checkers in Office for English, French, German, and Spanish are outgrowths of our research; Encarta uses our technology to retrieve answers to user questions; Intellishrink uses natural language technology to compress cellphone messages; Microsoft Product Support uses our machine translation software to translate the Microsoft Knowledge Base into other languages. As our work evolves, we expect it to enable any area where human users can benefit by communicating with their computers in a natural way.

7 Y a-t-il un modèle universel de traitement des langues?
Principales difficultés: La très grande variété des solutions choisies par les langues pour exprimer le « sens » Modèles existants développés surtout à partir des langues dominantes :langues indo-européennes (surtout l’anglais!), japonais, chinois… La très grande complexité du langage humain Problème NP-dur, voire indécidable?

8 Langue et système de communication
À quoi sert le langage? Insuffisance de la thèse selon laquelle il « sert à communiquer » La langue n’est pas un simple « code » Le rôle de la langue pour : Argumentation (Dessalles) Narration (Victorri)

9 des structures universelles?
On s’accorde pour reconnaître l’importance de plusieurs types de structure: Structure en constituants (ou syntagmatique) Structure thématique Structure morphologique

10 Structure syntagmatique (1)
Importance de la décomposition en syntagmes Concept syntaxique ou concept sémantique? Rôle de la structure en constituants dans la détermination d’une entité

11 Structure syntagmatique (2)
Offre la possibilité de regrouper les prédicats qui se rapportent à la même variable Un syntagme = une tête + des compléments + (éventuellement) un spécifieur ou sujet A l’intérieur d’un même syntagme : partage d’argument La notion d’arbre rend bien compte de ces notions

12 Ex: syntagme nominal Le petit chat de Marie N’’ Det N’ N SP Adj N
petit(x) Adj N chat(x)

13 Syntagme nominal Le petit chat de Marie N’’ Det N’ N SP Adj N
petit(x)&chat(x) petit(x) Adj N chat(x)

14 Syntagme nominal Le petit chat de Marie N’’ Det N’ N SP Adj N
petit(x)&chat(x) possède(Marie, x) petit(x) Adj N chat(x)

15 Syntagme nominal Le petit chat de Marie N’’ Det N’ N SP Adj N
petit(x)&chat(x)& possède(Marie, x) Det N’ N SP petit(x)&chat(x) possède(Marie, x) petit(x) Adj N chat(x)

16 Syntagme nominal Le petit chat de Marie N’’ Det N’ N SP Adj N
Le x tel que petit(x)&chat(x)& possède(Marie, x) N’’ petit(x)&chat(x)& possède(Marie, x) Det N’ N SP petit(x)&chat(x) possède(Marie, x) petit(x) Adj N chat(x)

17 Tous les noeuds ont une variable commune,
Le syntagme a trois niveaux : Niveau 0 : position de la tête, possibilité d’insertion lexicale d’un N Niveau 1 : la tête + ses compléments (eux-mêmes des syntagmes « complets ») Niveau 2 : le syntagme de niveau 1 + son spécifieur

18 phrase Analyse classique: Pourquoi? S SV SN V SN Peter likes Mary

19 phrase Analyse classique: S SUJET SV SN OBJET V SN Peter likes Mary

20 phrase (2) X-barre? une solution: S = IP I’ SV Infl V’ V

21 phrase (2) X-barre? une solution: S = IP I’ SV ? Infl V’ SN sujet ? V

22 phrase (2) X-barre? une solution: S = IP I’ SV Infl V’ SN V

23 phrase (2) X-barre? une solution: S = IP I’ SN SV Infl V’ MOVE t V

24 phrase (2) X-barre? une solution: S = IP cas nominatif I’ SN SV Infl
MOVE t V

25 Profondeur des arbres Est-ce que les arbres élémentaires ont toujours trois niveaux? Qu’est-ce qui sert de tête dans le cas de la « phrase » (nœud S)? Le nœud SV est-il toujours nécessaire? Y a-t-il des langues plus «plates» que d’autres?

26 Cas du latin Tullius vidit Paulum Paulum vidit Tullius
Tullium vidit Paulus Paulus vidit Tullium Mettre un nœud SV est inutile, puisque le sujet est reconnu par sa marque morphologique S SN V SN

27 Rôles thématiques On appelle rôles thématiques les rôles joués par les entités mises en jeu dans le discours J.L. Dessalles appelle segmentation thématique le processus visant à présenter une situation sous la forme d’un énoncé linéaire mettant en évidence ces rôles

28 exemple Pierre va de Paris à Londres
Trois entités mises en jeu : Pierre, Paris, Londres Pierre est l’entité qui se déplace : le « thème » Paris est l’origine du déplacement : la « source » Londres en est : « le but »

29 suite Noter que ce n’est pas si simple…
Le nuage (chimique!) va de Pont-de-Claix à Echirolles Ici, rien ne se déplace à proprement parler On peut néanmoins continuer d’attribuer ces rôles thématiques à le nuage, Pt-de-Claix et Echirolles

30 rôles thématiques (2) Pierre coupe la viande avec son couteau
AGENT PATIENT INSTRUMENT sujet objet complément ind. Pierre utilise son couteau pour couper la viande AGENT INSTR. BUT PATIENT sujet objet compl. objet La viande se coupe facilement avec un couteau PATIENT INSTR. sujet compl. Le couteau coupe bien la viande INSTRUMENT PATIENT sujet objet

31 rôles thématiques (3) cas du sanskrit – Pânini (500 av JC)
les six karaka agent (kartr), objet (karman), intrument (karana), destinataire (sampradana), origine (apadana), location (adhikarana) Devadattah pacati odanam indique que le nom avec –h est agent AGENT ACTION OBJET Devadatta cuisine le riz Devadattena pacyata odanah indique que le nom avec –h est objet Le riz est cuisiné par devadattena

32 Autonomie relative de la syntaxe
Le lien fonction grammaticale – rôle thématique n’est pas systématique (cf. passif). Le gardien de but relance le ballon sujet = agent Le ballon est relancé par le gardien de but sujet = patient « la part d’arbitraire dans le rapport entre grammaire et sens contribue à conférer une autonomie à la syntaxe ».

33 Structure morphologique ex. d’une langue bantoue
Le mot Nàïkimiyiïà : « II le mange pour elle », comporte 8 parties : n- : marqueur de focus -à- : accord de classe avec le sujet (il existe 16 classes : humain singulier, humain pluriel, objets fins, objets étendus, objets en paquets, objets allant par paires, paires elles-mêmes, paquets, instruments, animaux, parties du corps, diminutifs de petitesse et d'affection, qualités abstraites, localisations précises, localisations vagues). Ici: humain singulier -î- : temps présent (temps : aujourd'hui, plus tôt aujourd'hui, hier, pas plus tôt qu'hier, hier ou avant, dans le passé lointain, habituellement, en train, consécutivement, hypothétique, futur, temps indéterminé, pas encore, parfois). -kî-: accord avec l'objet, classe animaux (classe 10) - m - : marqueur indiquant que le bénéficiaire de l'action est de la classe 1 -lyi -: verbe manger -1- : modification du verbe pour indiquer la présence d'un rôle de bénéficiaire -à : mode indicatif

34 n à ï ki m iyi ï à nàïkimiyiïà focus accord suj. hum.sing. présent
accord obj. animaux benef racine verbale manger modif verbale mode indicatif

35 Différentes propriétés des langues
Accusativité et ergativité Exemple du tibétain: Les constructions ergatives peuvent paraître surprenantes au début dans la mesure où elles fonctionnent à l’inverse des constructions accusatives dans les langues européennes. Dans ces dernières ainsi qu’en chinois, le sujet n’est pas marqué tandis que l’objet l’est, soit par un cas spécial, l’accusatif (cf. latin , russe), soit par sa position, en étant rejeté après le verbe. Le tibétain, lui, choisit de marquer non pas l’objet mais le sujet par un cas, l’ergatif. Le sujet marqué par l’ergatif correspond presque toujours à un agent humain. Le cas de l’objet correspond à l’absence de marque formelle et est appelé « absolutif ».

36 ergativité Latin : ego ill-um libr-um legi
Russe : ja èt-u knig-u procëi (nom) (ce+acc) (livre+acc) lire (passé) Chinois: wo kan-guo zhe-ben shu Français: j’ ai lu ce livre Anglais : I read this book (nom) lire (passé) (ce) (livre) Tibétain : ngä thep tä-payin (erg) (livre+abs) (lire-passé)

37 Langues isolantes vs agglutinantes
Inuit (inuktitut) : Je pense lui donner un kayak qajaqartinniarpara (un seul mot) qajaq : kayak qar : avoir ti : le faire niar : vouloir pa : but ra : mon Conséquence : Difficulté de définir ce que l’on entend par « un mot »

38 Pro-drop Français : il pleut Anglais : it rains Italien : piove
Espagnol : llueve Italien : Verrà Gianni / Gianni verrà Français : Jean vient / *vient Jean mais : il est arrivé quelqu’un Anglais: which book did you think that Mary read? *who did you think that read those books? Français: quel livre crois-tu que Marie a lu? *qui crois-tu que a lu ces livres? Italien: chi credi che verra?

39 Ordre des constituants
Ordre pourcentage exemples des langues SVO anglais, edo, indonésien SOV japonais, turc, quetchua VSO zapotec, gallois VOS totzil, malagasy OVS hixkaryana OSV 0

40 Structure en constituants vs marquage morphologique
Français : La sœur de Yann a retrouvé le petit chat noir Warlpiri : La(SU) de Yann(SU) a retrouvé chat(OB) sœur(SU) petit(OB) noir(OB)

41 récursivité Récursivité évidente du système de branchement en syntagmes un, un plus un, un plus un plus un, etc. Marquage morphologique non récursif? Allemand : Der Vater des Schülers shämt sich Der Vater schämt sich des Schülers

42 L’ancien géorgien igi sisxl-i saxl-isa-j m-is Saül-is-isa-j
le-nom sang-nom maison-gen-nom la-gen Saül-gen-gen-nom N1-nom N2-gen-nom N3-gen2-nom - … - Nk-genk-nom

43 à différencier du… sumérien
maison du roi (king’s house) é lugal-ak maison roi-GEN dans la maison du roi é lugal-ak-a maison roi-GEN-LOC dans la maison du frère du roi é ses lugal-ak-ak-a maison frère roi-GEN-GEN-LOC

44 relativisation Paul achète un livre que Jean a acquis
c’est grâce à ‘que’ que le deuxième argument de acquérir peut être partagé avec livre ainsi que effectue un déplacement qui permet de rapprocher cet argument de la tête livre.

45 Le SN un livre que Jean a acquis
Det N’ un *** N livre I’’ que I’ SN Jean I V’’ a SN V’ t SN V acquis t’

46 Le SN un livre que Jean a acquis
Det N’ un *** a_acquis(Jean, y) & x = y N livre(x) I’’ a_acquis(Jean, y) que I’ a_acquis(z, y) SN Jean I V’’ a SN V’ t z SN V acquis t’ y

47 Paul achète un livre que Jean a acquis
x achète(Paul, x) & livre(x) & a_acquis(Jean, x)

48 commentaire que transporte la variable qui tient lieu de deuxième argument du verbe enchâssé vers une position où elle devient visible pour le prédicat livre(x) Le lien x = y résulte alors de la relation de gouvernement qui existe entre la position occupée par livre et celle occupée par que, et qui traduit la notion de proximité au sein d’un syntagme, C’est le système mouvement-trace qui permet à un argument de se hisser à l’extérieur de son prédicat pour être visible depuis le prédicat supérieur.

49 relativisation (2) Tibétain : J’ai acheté-NOM GEN chemise
nominalisateur + génitif

50 Formation de questions
En oui/non : Pierre est-il parti en vacances ? Did Peter go in holidays ? Fait-il beau là où tu es ? Is the weather fine, at the place you are presently ? Chinois: ni shi faguo ren  ni shi faguo ren ma ? tu es français  tu es français – interr (es-tu français ?) Tibétain: thep yö  thep yö-pä tu as des livres  as-tu des livres ?

51 Formation de question (2)
Quel livre m’as-tu recommandé de lire ? Which book did you recommand me to read ? Déplacement, traces [Quel livre]i m’as-tu recommandé de lire ti ? [Which book]i did you recommand me to read ti ? Chinois: ni kan-shu-le shenme ben shu ? tu as lu quel (classif) livre?

52 Sujet / Objet Français, anglais : ordre des mots Japonais : o et ga
John frappe Marie, : John-ga Mary-o butta Mary-o John-ga butta Mohawk : John likes Mary Sak Uwary shako-nùhwe’s Mary likes John Sak Uwary ruwa- nùhwe’s 45 différents préfixes!

53 Modèles classiques (1) Grammaires hors-contexte Amélioration :
Limitations (néerlandais, suisse allemand…) Empêche de faire des généralisations « entre les langues » Amélioration : GPSG (Gazdar, Klein, Pullum, Sag) autour de 1985

54 Modèles classiques (1) rappels
Type 0 (Turing-reconnaissables) Type 1 (contextuels) Type 2 (hors-contexte) Type 3 (réguliers)

55 Modèles classiques (1) rappels
Type 0 (Turing-reconnaissables) Type 1 (contextuels) Type 2 (hors-contexte) Type 3 (réguliers) LN?

56 Modèles classiques (1) ou….
Type 0 (Turing-reconnaissables) Type 1 (contextuels) Type 2 (hors-contexte) Type 3 (réguliers) LN?

57 Ordre des mots dans les subordonnées
Anglais: I said that Jan saw Mary let hans teach the children to swim Allemand: Ich sagte, dass Jan Marie Hans das Kind schwimmen lehren lassen sah Néerlandais: Ik zei dat Jan Marie Hans het kind zag laten leren zwemmen

58 Ordre des mots dans les subordonnées
Anglais: that Jan saw Mary let Hans teach the children to swim Allemand: dass Jan Marie Hans das Kind schwimmen lehren lassen sah Néerlandais: dat Jan Marie Hans het kind zag laten leren zwemmen

59 Ordre des mots dans les subordonnées
Anglais: that Jan saw Mary let Hans teach the children to swim Allemand: dass Jan Marie Hans das Kind schwimmen lehren lassen sah Néerlandais: dat Jan Marie Hans het kind zag laten leren zwemmen

60 anglais S  SN SV SI  SN SVI SV  V SI | Vb SVI  VI SI | VbI
SN  jan | marie | hans | the child VI  see | teach | let VbI  swim V  saw | let | taught Vb  swam

61 S SV SN Jan V SI SN SVI saw Mary VI SI let SN SVI Hans VI SI teach

62 allemand S  SN SV SI  SN SVI SV  SI V | Vb SVI SI VI | VbI
SN  jan | marie | hans | das Kind VI  sehen | lehren | lassen VbI  schwimmen V  sah | liess | lehrte Vb  schwamm

63 S SV SN Jan SI V SN SVI sah Marie SI VI SN SVI lassen Hans SI VI lehren

64 néerlandais? S1  SN Vb | SN SV1 SV1  S2 VbI S2  SN SV2
SV2  S2 VI | SN V SN  jan | marie | hans | het kind VI  zien | laten | leren VbI  zwemmen V  zag | liet | lerte Vb  zwam

65 S1 SV1 SN Jan S2 VbI SN SV2 zwemmen Marie S2 VI SN SV2 leren Hans S2 VI laten

66 Structure incorrecte ! S1 SV1 SN Jan S2 VbI SN SV2 zwemmen Marie S2 VI
leren ? Hans S2 VI laten

67 Exercice Faire une grammaire hors-contexte de l’anglais qui s’applique aux phrases suivantes avec auxiliaire : I did prepare one meal He will prepare one meal Ajouter ce qu’il faut à cette grammaire pour obtenir aussi des phrases comme: Did he prepare one meal? Who did prepare this meal? What did he prepare? Comment résoudre le cas de phrases comme: I prepared this meal Que faut-il changer à la grammaire obtenue en (1) pour avoir une grammaire qui s’applique à la phrase tibétaine: nga neka ci sö payin [je plat-un préparé AUX] Décrire avec des déplacements la phrase: I did prepare the meal that you are eating

68 Modèles classiques (2) Les langues naturelles seraient-elles « mildly context-sensitive »? Grammaires d’arbres adjoints (A. Joshi) Vers une « lexicalisation »: Grammaires d’arbres adjoints lexicalisées Grammaire catégorielle combinatoire (M. Steedman)

69 Modèles classiques (3) Prolog  les vertus de l’unification
Grammaires d’unification DCG LFG HPSG

70 exemple chien ::= CAT : N GE : masc AGR : NBR : sing

71 exemple un ::= CAT : Det GE : masc AGR : NBR : sing

72 exemple aboie ::= CAT : V SUBCAT : nil AGR : NBR : sing

73 exemple mange ::= CAT : V SUBCAT : 1er : CAT: SN queue : nil AGR :
NBR : sing

74 exemple donne ::= CAT : V SUBCAT : 1er : CAT: SN queue : : AGR :
Cat : SP PFORM: à queue : nil AGR : NBR : sing

75 représentation sous forme de graphe
chien ::= CAT AGR N GE NBR masc sing

76 un ::= CAT AGR det GE NBR masc sing

77 aboie ::= CAT AGR SUBCAT V nil NBR sing

78 mange ::= CAT AGR SUBCAT V NBR queue 1er CAT nil sing SN

79 donne ::= CAT AGR SUBCAT V NBR queue 1er CAT sing queue 1er nil SN CAT PFORM SP à

80 structures de traits D’une façon générale, on appelle ces objets: structures de traits

81 structure de traits associée à une règle
soit la règle s ---> sn, sv, avec l’accord entre sn et sv On peut la traduire par une règle (schéma de concaténation) et un ensemble d’équations entre valeurs de traits : Règle : X ---> Y, Z Equations: cat(X) = s cat(Y) = sn cat(Z) = sv agr(Y) = agr(Z)

82 ou par la structure de traits:
CAT: S X : Y : CAT: SN AGR: #1 Z : CAT: SV AGR: #1

83 cette règle ne peut s’appliquer:
Qu’à deux objets A et B qui peuvent s’unifier respectivement à: et à: CAT: SN AGR: #1 CAT: SV AGR: #1

84 Exemple: Médor aboie

85 On utilise le schéma de règle :
X Y Z cat s agr sv agr sn

86 Voici la structure de traits associée dans le lexique à
/Médor/ cat agr sn ge nbr masc sing Médor

87 Voici la structure de traits associée dans le lexique à
/aboie/ cat agr sv nbr sing aboie

88 Insertion de /aboie/ dans le schéma de règle
X Y Z cat cat cat agr agr sv s sn nbr sing aboie

89 Insertion de /Médor/ dans le schéma de règle
X Y Z cat s agr sv cat agr sv sn ge nbr masc sing Médor aboie

90 Il y a réussite car les trois structures :
schéma de règle (partie bleue) entrée lexicale /Médor/ entrée lexicale /aboie/ se sont unifiées

91 Autre exemple : *Médor aboient
Entrée lexicale associée à /aboient/ cat agr sv nbr plur aboient

92 Insertion de /aboient/ dans le schéma de règle
X Y Z cat cat cat agr agr sv s sn nbr plur aboient

93 Echec de l’insertion de /Médor/ dans le schéma de règle
X Y Z cat s agr sv cat agr sv sn ge nbr masc plur sing Médor aboient

94 Exercice Faire une grammaire d’unification sur le modèle précédent qui accepte les phrases suivantes (à condition que l’accord soit respecté): Nous achetons nos livres Ils achètent des livres usagés Il vend une armoire usagée En refusant bien sûr: *Nous achètent nos livre *Ils achète des livre usagés *Il vend un armoire usagé *Il vends son livres Compléter cette grammaire de manière à ce que les phrases suivantes soient acceptées : Nous regardons nos livres Il donne son livre à sa copine Il plaisante mais pas les suivantes: *nous regardons *nous regardons nos livres à un inconnu *il plaisante sa copine

95 Modèles classiques (4) Thèses chomskyennes
Grammaires minimalistes (Stabler) Formalismes équivalents : Multi-Context Free Grammars (Seki) Grammaires catégorielles multimodales (Moortgat, Vermaat)

96 Algorithmes Analyseurs descendants (LL(k))
Analyseurs ascendants (LR(k)) Cocke-Younger-Kasami Earley Chart-parsing

97 Le problème de la représentation du sens
En général: sens « logique » Conditions de vérité Utilisation de la LPO Utilisation d’une logique intensionnelle Mais le sens est aussi dynamique…

98 TP Réaliser en PROLOG une petite interface d’interrogation d’une base de données en langue naturelle Ex: quels sont les romans écrits par Flaubert? Qui a écrit « Le Rouge et le Noir »? Quels romans ont été écrits par Stendhal entre 1820 et 1830?


Télécharger ppt "Modèles pour le Traitement Automatique des Langues"

Présentations similaires


Annonces Google