La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS.

Présentations similaires


Présentation au sujet: "Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS."— Transcription de la présentation:

1 Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS

2 Le Traitement Automatique des Langues Traduction automatique (ou assistée) Interfaces en langue naturelle Dialogue homme – machine Indexation automatique de documents Web sémantique –Par exemple, quand je tape dans Google « Statistical NLP », il nest pas fichu de me renvoyer les documents concernant « Statistical Natural Language Processing »!!! Recherche dinformation Aide à la rédaction dans des langues simplifiées

3 Exemples dans les stages soutenus en 2005 Sur six mémoires soutenus en septembre, quatre portaient sur du TAL: –Extraction des entités nommées (Digimind, veille technologique) –Indexation sémantique de documents (Xerox, projet «document intelligent ») –Moteur dinterrogation synchrone de plusieurs dictionnaires en ligne (sté Babeling) –Mémoires de traduction (sté Babeling) –Un site pour les apprenants du chinois (U. Stendhal)

4 Groupe NLP de Microsoft (1) The goal of the Natural Language Processing (NLP) group is to design and build software that will analyze, understand, and generate languages that humans use naturally, so that eventually you will be able to address your computer as though you were addressing another person. This goal is not easy to reach. "Understanding" language means, among other things, knowing what concepts a word or phrase stands for and knowing how to link those concepts together in a meaningful way. It's ironic that natural language, the symbol system that is easiest for humans to learn and use, is hardest for a computer to master. Long after machines have proven capable of inverting large matrices with speed and grace, they still fail to master the basics of our spoken and written languages.

5 The challenges we face stem from the highly ambiguous nature of natural language. As an English speaker you effortlessly understand a sentence like "Flying planes can be dangerous". Yet this sentence presents difficulties to a software program that lacks both your knowledge of the world and your experience with linguistic structures. Is the more plausible interpretation that the pilot is at risk, or that the danger is to people on the ground? Should "can" be analyzed as a verb or as a noun? Which of the many possible meanings of "plane" is relevant? Depending on context, "plane" could refer to, among other things, an airplane, a geometric object, or a woodworking tool. How much and what sort of context needs to be brought to bear on these questions in order to adequately disambiguate the sentence? Groupe NLP de Microsoft (2)

6 We address these problems using a mix of knowledge-engineered and statistical/machine-learning techniques to disambiguate and respond to natural language input. Our work has implications for applications like text critiquing, information retrieval, question answering, summarization, gaming, and translation. The grammar checkers in Office for English, French, German, and Spanish are outgrowths of our research; Encarta uses our technology to retrieve answers to user questions; Intellishrink uses natural language technology to compress cellphone messages; Microsoft Product Support uses our machine translation software to translate the Microsoft Knowledge Base into other languages. As our work evolves, we expect it to enable any area where human users can benefit by communicating with their computers in a natural way. Groupe NLP de Microsoft (3)

7 Y a-t-il un modèle universel de traitement des langues? Principales difficultés: –La très grande variété des solutions choisies par les langues pour exprimer le « sens » Modèles existants développés surtout à partir des langues dominantes :langues indo-européennes (surtout langlais!), japonais, chinois… –La très grande complexité du langage humain Problème NP-dur, voire indécidable?

8 Langue et système de communication À quoi sert le langage? –Insuffisance de la thèse selon laquelle il « sert à communiquer » –La langue nest pas un simple « code » –Le rôle de la langue pour : Argumentation (Dessalles) Narration (Victorri)

9 des structures universelles? On saccorde pour reconnaître limportance de plusieurs types de structure: –Structure en constituants (ou syntagmatique) –Structure thématique –Structure morphologique

10 Structure syntagmatique (1) Importance de la décomposition en syntagmes –Concept syntaxique ou concept sémantique? –Rôle de la structure en constituants dans la détermination dune entité

11 Structure syntagmatique (2) Offre la possibilité de regrouper les prédicats qui se rapportent à la même variable Un syntagme = une tête + des compléments + (éventuellement) un spécifieur ou sujet A lintérieur dun même syntagme : partage dargument La notion darbre rend bien compte de ces notions

12 Ex: syntagme nominal Le petit chat de Marie N NDet Adj N N SP petit(x)chat(x)

13 Syntagme nominal Le petit chat de Marie N NDet Adj N N SP petit(x)chat(x) petit(x)&chat(x)

14 Syntagme nominal Le petit chat de Marie N NDet Adj N N SP petit(x)chat(x) petit(x)&chat(x)possède(Marie, x)

15 Syntagme nominal Le petit chat de Marie N NDet Adj N N SP petit(x)chat(x) petit(x)&chat(x)possède(Marie, x) petit(x)&chat(x)& possède(Marie, x)

16 Syntagme nominal Le petit chat de Marie N NDet Adj N N SP petit(x)chat(x) petit(x)&chat(x)possède(Marie, x) petit(x)&chat(x)& possède(Marie, x) Le x tel que petit(x)&chat(x)& possède(Marie, x)

17 Tous les noeuds ont une variable commune, Le syntagme a trois niveaux : –Niveau 0 : position de la tête, possibilité dinsertion lexicale dun N –Niveau 1 : la tête + ses compléments (eux- mêmes des syntagmes « complets ») –Niveau 2 : le syntagme de niveau 1 + son spécifieur

18 phrase Analyse classique: Pourquoi? S SN SV VSN Peterlikes Mary

19 phrase Analyse classique: S SN SV VSN Peterlikes Mary SUJET OBJET

20 phrase (2) X-barre? une solution: S = IP I Infl SV V V

21 phrase (2) X-barre? une solution: S = IP I Infl SV V V SN sujet ? ?

22 phrase (2) X-barre? une solution: S = IP I Infl SV V V SN

23 phrase (2) X-barre? une solution: S = IP I Infl SV V V SN MOVEt

24 phrase (2) X-barre? une solution: S = IP I Infl SV V V SN MOVE cas nominatif t

25 Profondeur des arbres Est-ce que les arbres élémentaires ont toujours trois niveaux? Quest-ce qui sert de tête dans le cas de la « phrase » (nœud S)? Le nœud SV est-il toujours nécessaire? –Y a-t-il des langues plus «plates» que dautres?

26 Cas du latin Tullius vidit Paulum Paulum vidit Tullius Tullium vidit Paulus Paulus vidit Tullium Mettre un nœud SV est inutile, puisque le sujet est reconnu par sa marque morphologique S VSN

27 Rôles thématiques On appelle rôles thématiques les rôles joués par les entités mises en jeu dans le discours J.L. Dessalles appelle segmentation thématique le processus visant à présenter une situation sous la forme dun énoncé linéaire mettant en évidence ces rôles

28 exemple Pierre va de Paris à Londres –Trois entités mises en jeu : Pierre, Paris, Londres Pierre est lentité qui se déplace : le « thème » Paris est lorigine du déplacement : la « source » Londres en est : « le but »

29 suite Noter que ce nest pas si simple… Le nuage (chimique!) va de Pont-de-Claix à Echirolles –Ici, rien ne se déplace à proprement parler –On peut néanmoins continuer dattribuer ces rôles thématiques à le nuage, Pt-de-Claix et Echirolles

30 rôles thématiques (2) Pierre coupe la viande avec son couteau AGENT PATIENT INSTRUMENT sujetobjet complément ind. Pierre utilise son couteau pour couper la viande AGENTINSTR.BUTPATIENT sujetobjetcompl.objet La viande se coupe facilement avec un couteau PATIENTINSTR. sujetcompl. Le couteau coupe bien la viande INSTRUMENTPATIENT sujetobjet

31 rôles thématiques (3) cas du sanskrit – Pânini (500 av JC) les six karaka –agent (kartr), objet (karman), intrument (karana), destinataire (sampradana), origine (apadana), location (adhikarana) –Devadattah pacati odanam indique que le nom avec –h est agent –AGENTACTIONOBJET –Devadatta cuisine le riz –Devadattena pacyata odanah indique que le nom avec –h est objet –Le riz est cuisiné par devadattena

32 Autonomie relative de la syntaxe Le lien fonction grammaticale – rôle thématique nest pas systématique (cf. passif). –Le gardien de but relance le ballon sujet = agent –Le ballon est relancé par le gardien de but sujet = patient « la part darbitraire dans le rapport entre grammaire et sens contribue à conférer une autonomie à la syntaxe ».

33 Structure morphologique ex. dune langue bantoue Le mot Nàïkimiyiïà : « II le mange pour elle », comporte 8 parties : n- : marqueur de focus -à- : accord de classe avec le sujet (il existe 16 classes : humain singulier, humain pluriel, objets fins, objets étendus, objets en paquets, objets allant par paires, paires elles-mêmes, paquets, instruments, animaux, parties du corps, diminutifs de petitesse et d'affection, qualités abstraites, localisations précises, localisations vagues). Ici: humain singulier -î- : temps présent (temps : aujourd'hui, plus tôt aujourd'hui, hier, pas plus tôt qu'hier, hier ou avant, dans le passé lointain, habituellement, en train, consécutivement, hypothétique, futur, temps indéterminé, pas encore, parfois). -kî-: accord avec l'objet, classe animaux (classe 10) - m - : marqueur indiquant que le bénéficiaire de l'action est de la classe 1 -lyi -: verbe manger -1- : modification du verbe pour indiquer la présence d'un rôle de bénéficiaire -à : mode indicatif

34 n à ï ki m iyi ï à focus accord suj. hum.sing. présent accord obj. animaux benefracine verbale manger mode indicatifmodif verbale

35 Différentes propriétés des langues Accusativité et ergativité –Exemple du tibétain: –Les constructions ergatives peuvent paraître surprenantes au début dans la mesure où elles fonctionnent à linverse des constructions accusatives dans les langues européennes. Dans ces dernières ainsi quen chinois, le sujet nest pas marqué tandis que lobjet lest, soit par un cas spécial, laccusatif (cf. latin, russe), soit par sa position, en étant rejeté après le verbe. Le tibétain, lui, choisit de marquer non pas lobjet mais le sujet par un cas, lergatif. Le sujet marqué par lergatif correspond presque toujours à un agent humain. Le cas de lobjet correspond à labsence de marque formelle et est appelé « absolutif ».

36 ergativité Latin :egoill-umlibr-umlegi Russe :jaèt-uknig-u procëi (nom)(ce+acc)(livre+acc)lire (passé) Chinois:wokan-guozhe-benshu Français:jai lucelivre Anglais :Ireadthisbook (nom)lire (passé)(ce)(livre) Tibétain :ngätheptä-payin (erg)(livre+abs)(lire-passé)

37 Langues isolantes vs agglutinantes Inuit (inuktitut) : –Je pense lui donner un kayak –qajaqartinniarpara(un seul mot) qajaq : kayak qar : avoir ti : le faire niar : vouloir pa : but ra : mon Conséquence : –Difficulté de définir ce que lon entend par « un mot »

38 Pro-drop Français : il pleut Anglais : it rains Italien : piove Espagnol : llueve Italien : Verrà Gianni / Gianni verrà Français : Jean vient / *vient Jean mais : il est arrivé quelquun Anglais: which book did you think that Mary read? *who did you think that read those books? Français: quel livre crois-tu que Marie a lu? *qui crois-tu que a lu ces livres? Italien: chi credi che verra?

39 Ordre des constituants Ordrepourcentageexemples des langues SVO42anglais, edo, indonésien SOV45japonais, turc, quetchua VSO 9zapotec, gallois VOS 3totzil, malagasy OVS 1hixkaryana OSV 0

40 Structure en constituants vs marquage morphologique Français : La sœur de Yann a retrouvé le petit chat noir Warlpiri : La(SU) de Yann(SU) a retrouvé chat(OB) sœur(SU) petit(OB) noir(OB)

41 récursivité Récursivité évidente du système de branchement en syntagmes –un, un plus un, un plus un plus un, etc. Marquage morphologique non récursif? –Allemand : Der Vater des Schülers shämt sich Der Vater schämt sich des Schülers

42 Lancien géorgien igisisxl-isaxl-isa-jm-isSaül-is-isa-j le-nom sang-nommaison-gen-nomla-genSaül-gen-gen- nom N 1 -nom N 2 -gen-nom N 3 -gen 2 -nom - … - N k -gen k -nom

43 à différencier du… sumérien –maison du roi (kings house) –élugal-ak –maisonroi-GEN –dans la maison du roi –élugal-ak-a –maisonroi-GEN-LOC –dans la maison du frère du roi –éseslugal-ak-ak-a –maisonfrèreroi-GEN-GEN-LOC

44 relativisation Paul achète un livre que Jean a acquis cest grâce à que que le deuxième argument de acquérir peut être partagé avec livre ainsi que effectue un déplacement qui permet de rapprocher cet argument de la tête livre.

45 Le SN un livre que Jean a acquis N DetN N *** I I IV V V SN un livre t SN Jean a acquist que

46 Le SN un livre que Jean a acquis N DetN N *** I I IV V V SN un livre(x) t SN Jean a acquist que z y a_acquis(z, y) a_acquis(Jean, y) a_acquis(Jean, y) & x = y

47 Paul achète un livre que Jean a acquis x achète(Paul, x) & livre(x) & a_acquis(Jean, x)

48 commentaire que transporte la variable qui tient lieu de deuxième argument du verbe enchâssé vers une position où elle devient visible pour le prédicat livre(x) Le lien x = y résulte alors de la relation de gouvernement qui existe entre la position occupée par livre et celle occupée par que, et qui traduit la notion de proximité au sein dun syntagme, Cest le système mouvement-trace qui permet à un argument de se hisser à lextérieur de son prédicat pour être visible depuis le prédicat supérieur.

49 relativisation (2) Tibétain : –Jai acheté-NOM GEN chemise –nominalisateur + génitif

50 Formation de questions En oui/non : –Pierre est-il parti en vacances ? –Did Peter go in holidays ? –Fait-il beau là où tu es ? –Is the weather fine, at the place you are presently ? Chinois: –ni shi faguo ren ni shi faguo ren ma ? –tu es français tu es français – interr (es-tu français ?) Tibétain: –thep yö thep yö-pä –tu as des livres as-tu des livres ?

51 Formation de question (2) –Quel livre mas-tu recommandé de lire ? –Which book did you recommand me to read ? Déplacement, traces –[Quel livre]i mas-tu recommandé de lire ti ? –[Which book]i did you recommand me to read ti ? Chinois: –ni kan-shu-le shenme ben shu ? –tu as luquel(classif) livre?

52 Sujet / Objet Français, anglais : ordre des mots Japonais : o et ga –John frappe Marie, : –John-ga Mary-o butta –Mary-o John-ga butta Mohawk : –John likes Mary –Sak Uwary shako-nùhwes –Mary likes John –Sak Uwary ruwa- nùhwes –45 différents préfixes!

53 Modèles classiques (1) Grammaires hors-contexte –Limitations (néerlandais, suisse allemand…) –Empêche de faire des généralisations « entre les langues » Amélioration : –GPSG (Gazdar, Klein, Pullum, Sag) autour de 1985

54 Modèles classiques (1) rappels Type 0 (Turing-reconnaissables) Type 1 (contextuels) Type 2 (hors-contexte) Type 3 (réguliers)

55 Modèles classiques (1) rappels Type 0 (Turing-reconnaissables) Type 1 (contextuels) Type 2 (hors-contexte) Type 3 (réguliers) LN?

56 Modèles classiques (1) ou…. Type 0 (Turing-reconnaissables) Type 1 (contextuels) Type 2 (hors-contexte) Type 3 (réguliers) LN?

57 Ordre des mots dans les subordonnées Anglais: –I said that Jan saw Mary let hans teach the children to swim Allemand: –Ich sagte, dass Jan Marie Hans das Kind schwimmen lehren lassen sah Néerlandais: –Ik zei dat Jan Marie Hans het kind zag laten leren zwemmen

58 Ordre des mots dans les subordonnées Anglais: –that Jan saw Mary let Hans teach the children to swim Allemand: –dass Jan Marie Hans das Kind schwimmen lehren lassen sah Néerlandais: –dat Jan Marie Hans het kind zag laten leren zwemmen

59 Ordre des mots dans les subordonnées Anglais: –that Jan saw Mary let Hans teach the children to swim Allemand: –dass Jan Marie Hans das Kind schwimmen lehren lassen sah Néerlandais: –dat Jan Marie Hans het kind zag laten leren zwemmen

60 anglais S SN SV SI SN SVI SV V SI | Vb SVI VI SI | VbI SN jan | marie | hans | the child VI see | teach | let VbI swim V saw | let | taught Vb swam

61 S SN SV VSI SNSVI VISI Jan saw Mary let SNSVI Hans VISI teach

62 allemand S SN SV SI SN SVI SV SI V | Vb SVI SI VI | VbI SN jan | marie | hans | das Kind VI sehen | lehren | lassen VbI schwimmen V sah | liess | lehrte Vb schwamm

63 S SN SV VSI SNSVI VISI Jan sah lehren SNSVI Marie VISI lassen Hans

64 néerlandais? S1 SN Vb | SN SV1 SV1 S2 VbI S2 SN SV2 SV2 S2 VI | SN V SN jan | marie | hans | het kind VI zien | laten | leren VbI zwemmen V zag | liet | lerte Vb zwam

65 S1 SN SV1 VbIS2 SNSV2 VIS2 Jan zwemmen laten SNSV2 Marie VIS2 leren Hans

66 S1 SN SV1 VbIS2 SNSV2 VIS2 Jan zwemmen laten SNSV2 Marie VIS2 leren Hans Structure incorrecte ! ?

67 Exercice Faire une grammaire hors-contexte de langlais qui sapplique aux phrases suivantes avec auxiliaire : –I did prepare one meal –He will prepare one meal Ajouter ce quil faut à cette grammaire pour obtenir aussi des phrases comme: –Did he prepare one meal? –Who did prepare this meal? –What did he prepare? Comment résoudre le cas de phrases comme: –I prepared this meal Que faut-il changer à la grammaire obtenue en (1) pour avoir une grammaire qui sapplique à la phrase tibétaine: –nga neka ci sö payin –[je plat-un préparé AUX] Décrire avec des déplacements la phrase: –I did prepare the meal that you are eating

68 Modèles classiques (2) Les langues naturelles seraient-elles « mildly context-sensitive »? –Grammaires darbres adjoints (A. Joshi) Vers une « lexicalisation »: –Grammaires darbres adjoints lexicalisées –Grammaire catégorielle combinatoire (M. Steedman)

69 Modèles classiques (3) Prolog les vertus de lunification Grammaires dunification –DCG –LFG –HPSG

70 exemple chien ::= CAT :N AGR : GE :masc NBR : sing

71 exemple un ::= CAT :Det AGR : GE :masc NBR : sing

72 exemple aboie ::= CAT :V AGR : NBR : sing SUBCAT :nil

73 exemple mange ::= CAT :V AGR :NBR : sing SUBCAT :1er : queue : nil CAT: SN

74 exemple donne ::= CAT :V AGR :NBR : sing SUBCAT :1er : queue : CAT: SN 1er : queue : nil Cat : SP PFORM: à

75 représentation sous forme de graphe chien ::= CAT AGR N GENBR mascsing

76 un ::= CAT AGR det GENBR mascsing

77 aboie ::= CAT AGR V NBR sing SUBCAT nil

78 mange ::= CAT AGR V NBR sing SUBCAT 1er CAT SN queue nil

79 donne ::= CAT AGR V NBR sing SUBCAT 1er CAT SN queue 1er CAT PFORM queue nil SPà

80 structures de traits Dune façon générale, on appelle ces objets: structures de traits

81 structure de traits associée à une règle soit la règle s ---> sn, sv, avec laccord entre sn et sv On peut la traduire par une règle (schéma de concaténation) et un ensemble déquations entre valeurs de traits : Règle : X ---> Y, Z Equations: cat(X) = s cat(Y) = sn cat(Z) = sv agr(Y) = agr(Z)

82 ou par la structure de traits: X : Y : Z : CAT:S CAT: SN AGR:#1 CAT:SV AGR:#1

83 cette règle ne peut sappliquer: Quà deux objets A et B qui peuvent sunifier respectivement à: –et à: CAT:SN AGR:#1 CAT:SV AGR:#1

84 Exemple: Médor aboie

85 agr sn XY Z cat s agr sv On utilise le schéma de règle :

86 catagr sn mascsing genbr Médor Voici la structure de traits associée dans le lexique à /Médor/

87 sing nbr aboie cat agr svVoici la structure de traits associée dans le lexique à /aboie/

88 XY Z cat agr ssn sv sing nbr aboie Insertion de /aboie/ dans le schéma de règle

89 mascsing genbr aboie cat agr sv XYZ cat s agr sv Médor sn Insertion de /Médor/ dans le schéma de règle

90 Il y a réussite car les trois structures : –schéma de règle (partie bleue) –entrée lexicale /Médor/ –entrée lexicale /aboie/ se sont unifiées

91 plur nbr aboient cat agr sv Autre exemple : *Médor aboient Entrée lexicale associée à /aboient/

92 XY Z cat agr ssn sv plur nbr aboient Insertion de /aboient/ dans le schéma de règle

93 mascplur genbr aboient cat agr sv XY Z cat s agr sv Médor sn sing Echec de linsertion de /Médor/ dans le schéma de règle

94 Exercice Faire une grammaire dunification sur le modèle précédent qui accepte les phrases suivantes (à condition que laccord soit respecté): –Nous achetons nos livres –Ils achètent des livres usagés –Il vend une armoire usagée En refusant bien sûr: –*Nous achètent nos livre –*Ils achète des livre usagés –*Il vend un armoire usagé –*Il vends son livres Compléter cette grammaire de manière à ce que les phrases suivantes soient acceptées : –Nous regardons nos livres –Il donne son livre à sa copine –Il plaisante mais pas les suivantes: –*nous regardons –*nous regardons nos livres à un inconnu –*il plaisante sa copine

95 Modèles classiques (4) Thèses chomskyennes –Grammaires minimalistes (Stabler) –Formalismes équivalents : Multi-Context Free Grammars (Seki) Grammaires catégorielles multimodales (Moortgat, Vermaat)

96 Algorithmes Analyseurs descendants (LL(k)) Analyseurs ascendants (LR(k)) Cocke-Younger-Kasami Earley Chart-parsing

97 Le problème de la représentation du sens En général: sens « logique » –Conditions de vérité Utilisation de la LPO Utilisation dune logique intensionnelle Mais le sens est aussi dynamique…

98 TP Réaliser en PROLOG une petite interface dinterrogation dune base de données en langue naturelle Ex: quels sont les romans écrits par Flaubert? Qui a écrit « Le Rouge et le Noir »? Quels romans ont été écrits par Stendhal entre 1820 et 1830?


Télécharger ppt "Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS."

Présentations similaires


Annonces Google