La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Une méthode pour l'analyse descendante et calculatoire de corpus multilingues : application au calcul des relations sujet-verbe Jacques Vergne GREYC -

Présentations similaires


Présentation au sujet: "Une méthode pour l'analyse descendante et calculatoire de corpus multilingues : application au calcul des relations sujet-verbe Jacques Vergne GREYC -"— Transcription de la présentation:

1 Une méthode pour l'analyse descendante et calculatoire de corpus multilingues : application au calcul des relations sujet-verbe Jacques Vergne GREYC - Université de Caen http://www.info.unicaen.fr/~jvergne TALN 2002

2 24/6/2002 © Jacques Vergne TALN 2002 -2- - Caractéristiques de l'expérience expérimenter, explorer, expliquer, transmettre les méthodes calculatoires choix d'une tâche classique, limitée et (apparemment) simple : détecter et relier sujets et verbes des propositions avec le plus petit logiciel possible (programme + ressources)

3 24/6/2002 © Jacques Vergne TALN 2002 -3- - Relier sujet verbe relier pronom ou chunk sujet au chunk verbal dans chaque proposition corpus multilingue (anglais, allemand, français, italien, espagnol) avec diagnostic de langue : généricité de la méthode ? descendant : document — > proposition et chunk, (avec chunking partiel, sans descendre jusqu'au mot) écrit en perl : - analyse de phrase : 40 Ko - ressources : 20 Ko pour l'ensemble des 5 langues

4 24/6/2002 © Jacques Vergne TALN 2002 -4- Avec les débuts de proposition, les débuts de chunks - Comment se passer de dictionnaire ? || | L'euro | rend déjà d'éminents services | Dans les deux cas | ces systèmes | d'armes | disposent de radars || | Questo tema | rischia di essere la questione sociale del futuro || | La Bolsa de Tokio | cerró ayer a su nivel más bajo en 17 años Avec les couples déterminant - terminaison verbale

5 24/6/2002 © Jacques Vergne TALN 2002 -5- - Comment se passer de dictionnaire ? || | Das Sternbild nämlich | steht in dieser Jahreszeit besonders tief am Himmel || Bis Ende Oktober | schließt sich | der Reigen in Connecticut, Massachusetts und Rhode Island || | The costs | mount rapidly, || But | the Pentagon move | represents the first significant federal call-up Avec les couples déterminant - terminaison verbale

6 24/6/2002 © Jacques Vergne TALN 2002 -6- - Les ressources : toutes celles du français "à condition que|à condition qu|ainsi que|ainsi qu|auquel|auxquels|combien|comme|comment|dont|dés que|dés qu|lorsque|lorsqu|même si|où| parce que |parce qu|pourquoi|quand|alors que|alors qu|bien que|bien qu|quoi que|quoi qu|tandis que|tandis qu|tant que|tant qu|puisque|puisqu|sans que|sans qu|que|qu|qui|sauf si|si" "et donc|et encore|et ensuite|et même|et non|et pas|et pourtant| et |ou bien|ou même|ou encore|ou|mais aussi|mais|car|mais|or|puis" "quant à|quant au|quant aux|grâce à|grâce au|grâce aux|face à|face au|face aux|à partir de|à partir du|à partir d|à|À|afin de|afin d|aprés|au-delà d|au-delà de|au-delà du|au-delà des|au|aux|auprés d|auprés de|auprés du|auprés des|autour d|autour de|autour du|autour des|avant| avec |chez|contre|dans|de par|d'entre|d'où|d|de|des|du|depuis|devant|dés|durant| en tant que|en tant qu|en|entre|hors d|hors de|hors du|hors des|jusque|jusqu'à|jusqu'au|jusqu'aux|lors d|lors de|lors du|lors des|malgré|outre|par|parmi|pendant|pour|près de|près d|sans|sauf|sous|selon|sur|vers|via|voire" "un|une|le|la|l|ce|cet| cette |sa|son|notre|leur|tout|toute|chaque|aucun|aucune| Un|Une|Le|La|L|Ce|Cet|Cette|Sa|Son|Notre|Leur|Tout|Toute|Chaque|Aucun|Aucune" "les| ces |ses|leurs|nos|tous|toutes|plusieurs|deux|trois|quatre|cinq|six|sept|huit|neuf|dix|d'autres|certains|quelques| Les|Ces|Ses|Leurs|Nos|Tous|Toutes|Plusieurs|Deux|Trois|Quatre|Cinq|Six|Sept|Huit|Neuf|Dix|D'autres|Certains|Quelques" "je|j|tu| il |elle|l'on|on|c|ça|cela|ceci" " ils |elles|nous|vous" "a|avait|aura|ait|aurait|est|était| sera |serait|va|allait|ira|faisait|fera" "ont|avaient|auront|aient|auraient|sont|étaient|seront|seraient|vont|allaient|iront|font|faisaient|feront" "e| a |ed|pand|end|ond|erd|ord|oud|et|it|ît|tient|vient|pent|sent|eint|ort|ut|ût" "ent|ont" "n'| ne |m'|me |t'|te |s'|se |s'en |s'y |lui |leur |en |y |le |la |les |l'" débuts de propos. débuts de chunks pronoms sujets auxiliaires term. verbales clitiques

7 24/6/2002 © Jacques Vergne TALN 2002 -7- 1 document Analyse et Hiérarchies de grains grains intermédiaires grains calculés zones textuelles proto-propositions extraire valider, segmenter, relier propositions analyseur purement descendant phrases segmenter / ponctuation segmenter / graphies proto-chunks baliser / graphies descente dans la hiérarchie des grains physiques chunks grains physiques

8 24/6/2002 © Jacques Vergne TALN 2002 -8- proto-propositions (= hypothèses de prop.) post- traitement processus standard - Processus d'analyse couper, relier les proto-propositions propositions (= 1 proto-propos.) 1 phrase segmentation / graphies diagnostic propositions (= 1/2 proto-propos. 2 proto-propos.) débuts de proposition auxiliaires, pronoms sujet, terminaisons verbales chunking partiel sujet & verbe ? phrase ? relier sujet - verbe débuts de chunks non

9 24/6/2002 © Jacques Vergne TALN 2002 -9- - Processus standard : exemple 1 0 : Je n'ai jamais dit que 1 : que l'euro allait remplacer le dollar. 2 :. Je n'ai jamais dit que l'euro allait remplacer le dollar. (Ouest-France du 18/10/2001) balisage des débuts de proto-propositions — > segmentation en proto-propositions : proto-proposition = proposition

10 24/6/2002 © Jacques Vergne TALN 2002 -10- - Processus standard : exemple 1 0 : Je n'ai jamais dit [nbpp=1 nbV=1] que 1 : que l'euro allait remplacer le dollar [nbpp=0 nbV=0]. 2 :. balisage des débuts de chunks — > chunking partiel dans la graphie de la proto-proposition balisage des pronoms, auxiliaires — > comptage des pronoms et des auxiliaires

11 24/6/2002 © Jacques Vergne TALN 2002 -11- - Processus standard : exemple 1 || 0 : | Je | n'ai jamais dit [nbV=1 saturS=1] que|| 1 : que | l'euro | allait remplacer le dollar [nbV=1 saturS=1]. 2 :. pour chaque proto-proposition : détecter et relier sujet et verbe

12 24/6/2002 © Jacques Vergne TALN 2002 -12- - Processus standard : exemple 1 || 0 : | Je | n'ai jamais dit [nbV=1 saturS=1] que|| 1 : que | l'euro | allait remplacer le dollar [nbV=1 saturS=1]. 2 :. diagnostic de chaque proposition et de la phrase chaque proposition a son sujet et son verbe et la phrase a une proposition principale (non marquée)

13 24/6/2002 © Jacques Vergne TALN 2002 -13- - Processus standard : exemple 2 Eine spektakuläre Operation gelang ihm im November 1974, als er ein Spenderherz transplantierte, ohne das Herz des Empfängers zu entfernen. (Der Spiegel du 2/9/2001) 0 : Eine spektakuläre Operation gelang ihm im November 1974, als 1 : als er ein Spenderherz transplantierte, ohne 2 : ohne das Herz des Empfängers zu entfernen. 3 :. balisage des débuts de proto-propositions — > segmentation en proto-propositions :

14 24/6/2002 © Jacques Vergne TALN 2002 -14- - Processus standard : exemple 2 0 : Eine spektakuläre Operation gelang ihm im November 1974, [nbpp=0 nbV=0] als 1 : als er ein Spenderherz transplantierte, [nbpp=1 nbV=0] ohne 2 : ohne das Herz des Empfängers zu entfernen. 3 :. balisage des débuts de chunks — > chunking partiel dans la graphie de la proto-proposition balisage des pronoms, auxiliaires — > comptage des pronoms et des auxiliaires

15 24/6/2002 © Jacques Vergne TALN 2002 -15- - Processus standard : exemple 2 pour chaque proto-proposition : détecter et relier sujet et verbe || 0 : | Eine spektakuläre Operation | gelang ihm im November 1974, [nbV=1 saturS=1] als|| 1 : als | er ein Spenderherz | transplantierte, [nbV=1 saturS=1] ohne 2 : ohne das Herz des Empfängers zu entfernen. 3 :.

16 24/6/2002 © Jacques Vergne TALN 2002 -16- - Processus standard : exemple 2 || 0 : | Eine spektakuläre Operation | gelang ihm im November 1974, [nbV=1 saturS=1] als|| 1 : als | er ein Spenderherz | transplantierte, [nbV=1 saturS=1] ohne 2 : ohne das Herz des Empfängers zu entfernen. 3 :. diagnostic de chaque proposition et de la phrase chaque proposition a son sujet et son verbe et la phrase a une proposition principale (non marquée)

17 24/6/2002 © Jacques Vergne TALN 2002 -17- - Post-traitement : proto-proposition  proposition 2 opérations sont possibles : couper 1 proto-proposition => 2 propositions relier 2 proto-propositions => 1 proposition

18 24/6/2002 © Jacques Vergne TALN 2002 -18- - Post-traitement : couper une proto-proposition en 2 Résultat du processus standard : 2 verbes dans 1 proto-proposition => rechercher un point de coupure Although|| 0 : Although | they | have not ruled out a possibility [nbV=1 saturS=1] that 1 : that another criminal could be behind the anthrax attacks, investigators are intensely looking at evidentiary threads linking the letters to the hijackers [nbV=2]. 2 :.

19 24/6/2002 © Jacques Vergne TALN 2002 -19- - Post-traitement : couper une proto-proposition en 2 Although|| 0 : Although | they | have not ruled out a possibility [nbV=1 saturS=1] that||, 1 : that | another criminal | could be behind the anthrax attacks, [nbV=1 saturS=1] || 2 : |investigators | are intensely looking at evidentiary threads linking the letters to the hijackers [nbV=1 saturS=1]. 3 :. Coupure sur la virgule : chaque proposition a maintenant son sujet et son verbe et la phrase a une proposition principale (non marquée)

20 24/6/2002 © Jacques Vergne TALN 2002 -20- 0 : Les tueurs, [nbV=0] |qui| 1 : |qui | ont assassiné Rehavam Zeevi, ministre israélien du Tourisme, appartiennent au camp des ennemis de la paix [nbV=1 saturS=1]. 2 :. - Post-traitement : couper une proto-proposition en 2 + relier 2 proto-propositions Résultat du processus standard : 1 proto-proposition n'a pas de verbe => tenter de couper - relier

21 24/6/2002 © Jacques Vergne TALN 2002 -21- Processus ping-pong : ping du sujet = mettre un candidat sujet en attente - 0 : | Les tueurs, [nbV=0 S_en_attente=plur] (ping du sujet?) |qui|, 1 : |qui | ont assassiné Rehavam Zeevi, ministre israélien du Tourisme, appartiennent au camp des ennemis de la paix [nbV=1 saturS=1] Couper la proto-proposition 1 en 2 proto-propositions : Post-traitement : couper une proto-proposition en 2 + relier 2 proto-propositions

22 24/6/2002 © Jacques Vergne TALN 2002 -22- - 0 : | Les tueurs, [nbV=0 S_en_attente=plur] (ping du sujet?) |qui|, 1 : |qui | ont assassiné Rehavam Zeevi, ministre israélien du Tourisme, [nbV=1 saturS=1] 2 : appartiennent au camp des ennemis de la paix [nbV=0] Post-traitement : couper une proto-proposition en 2 + relier 2 proto-propositions Couper la proto-proposition 1 en 2 proto-propositions :

23 24/6/2002 © Jacques Vergne TALN 2002 -23- | 0 : | Les tueurs, [nbV=0 S_en_attente=0 lienS=2] (ping du sujet?) |qui| 1 : |qui | ont assassiné Rehavam Zeevi, ministre israélien du Tourisme, [nbV=1 saturS=1] | 2 : | appartiennent au camp des ennemis de la paix [nbV=1 saturS=1 lienS=0] (pong du verbe) -. 3 :. chaque proposition a maintenant son sujet et son verbe et la phrase a une proposition principale (non marquée) Post-traitement : couper une proto-proposition en 2 + relier 2 proto-propositions Processus ping-pong : pong du verbe =  un candidat sujet en attente & terminaison verbale accordée

24 24/6/2002 © Jacques Vergne TALN 2002 -24- - Implantation du modèle linguistique grains physiques grains calculés propositions phrases proto-chunks grains représentés dans une structure répétitive grains balisés dans la graphie des (proto-)propositions proto-propositions chunks grains intermédiaires dans la structure répétitive des (proto-)propositions

25 24/6/2002 © Jacques Vergne TALN 2002 -25- - Objectifs du Groupe Syntaxe du GREYC recherche de solutions minimales : pour une tâche donnée, minimiser les moyens utilisés - tout petits programmes - algorithmes très simples - solutions calculatoires (sans exploration combinatoire) :. calcul sur des formes et leurs positions - bases linguistiques minimales :. utilisation de très peu de propriétés, seulement celles qui servent aux calculs. très peu de ressources (typographiques, morphologiques)

26 24/6/2002 © Jacques Vergne TALN 2002 -26- - Des petits programmes ! comment ? en utilisant des propriétés linguistiques définies en compréhension et non pas en extension pourquoi ? parce que ces propriétés sont intéressantes : en petit nombre, abstraites opératoires efficaces comprendreagir

27 24/6/2002 © Jacques Vergne TALN 2002 -27- Conclusions (provisoires) des tâches classiques sont faisables avec des moyens minimaux (quasi absence de dictionnaire) d'autres tâches : calcul du discours rapporté, recherche des explications cf. Nadine Lucas (GREYC) et Emmanuel Giguet (LATTICE) l'économie de moyens facilite le travail : - on fait l'économie des ressources lexicales (coût inférieur) - facilité d'ajout d'une nouvelle langue - toujours au dessus du mot débuts d'une voie prometteuse encore du chemin... -

28 24/6/2002 © Jacques Vergne TALN 2002 -28- vos questions ? - Fin de l'exposé

29 24/6/2002 © Jacques Vergne TALN 2002 -29- à télécharger vous pouvez télécharger cette présentation sur http://www.info.unicaen.fr/~jvergne/TALN2002_JVergne.dia voir aussi ma présentation à TALN 2001 " Analyse syntaxique automatique de langues : du combinatoire au calculatoire " sur http://www.info.unicaen.fr/~jvergne/TALN2001_JV.ppt voir aussi mon tutoriel du Coling 2000 "Trends in Robust Parsing" sur http://www.info.unicaen.fr/~jvergne/tutorialColing2000.html (présentation et références) -

30 24/6/2002 © Jacques Vergne TALN 2002 -30- -

31 24/6/2002 © Jacques Vergne TALN 2002 -31- - 1 document Analyse et Hiérarchies de grains analyseurs classiques syntagmes récursifs, phrase grains physiques grains calculés phrases tokens segmenter regrouper tokens et synt. descente dans la hiérarchie des grains physiques montée dans la hiérarchie des grains calculés

32 24/6/2002 © Jacques Vergne TALN 2002 -32- - 1 document Analyse et Hiérarchies de grains analyseur 98 chunks grains physiques grains calculés phrases tokens segmenter regrouper les tokens relier les chunks descente dans la hiérarchie des grains physiques montée dans la hiérarchie des grains calculés

33 24/6/2002 © Jacques Vergne TALN 2002 -33- - 1 document Analyse et Hiérarchies de grains analyseur du GREYC chunks grains physiques grains calculés zones textuelles tokens extraire segmenter regrouper et relier propositions phrases regrouper et relier descente dans la hiérarchie des grains physiques montée dans la hiérarchie des grains calculés

34 24/6/2002 © Jacques Vergne TALN 2002 -34- - Post-traitement : relier 2 proto-propositions 0 : Eine junge Südafrikanerin, [nbV=0] |die| 1 : |die 1969 ein neues Herz | erhielt, [nbV=1 saturS=1] 2 : überlebte damit zwölf Jahre [nbV=0]. 3 :. Résultat du processus standard : 2 proto-propositions n'ont pas de verbe => tenter de les relier

35 24/6/2002 © Jacques Vergne TALN 2002 -35- - Post-traitement : relier 2 proto-propositions 0 : | Eine junge Südafrikanerin, [nbV=0 S_en_attente=1] (ping du sujet) |die| 1 : |die 1969 ein neues Herz | erhielt, [nbV=1 saturS=1] 2 : überlebte damit zwölf Jahre [nbV=0] Relier la proto-proposition 0 à la proto-proposition 2 par le processus ping-pong :

36 24/6/2002 © Jacques Vergne TALN 2002 -36- | 0 : | Eine junge Südafrikanerin, [nbV=0 S_en_attente=0 lienS=2] (ping du sujet) |die| 1 : |die 1969 ein neues Herz | erhielt, [nbV=1 saturS=1] | 2 : | überlebte damit zwölf Jahre [nbV=1 saturS=1 lienS=0] (pong du verbe) - Post-traitement : relier 2 proto-propositions Relier la proto-proposition 0 à la proto-proposition 2 par le processus ping-pong :. 3 :. chaque proposition a maintenant son sujet et son verbe et la phrase a une proposition principale (non marquée)


Télécharger ppt "Une méthode pour l'analyse descendante et calculatoire de corpus multilingues : application au calcul des relations sujet-verbe Jacques Vergne GREYC -"

Présentations similaires


Annonces Google