La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Annotation automatique des citations catégorisées,

Présentations similaires


Présentation au sujet: "Annotation automatique des citations catégorisées,"— Transcription de la présentation:

1 Annotation automatique des citations catégorisées,
Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées, en arabe et en français Motasem Alrahabi Université de Paris-Sorbonne LaLIC (Langages, Logiques, Informatique et Cognition) Lyon, 26 et 27 mars 2010 Je vais commencer par la présentation de l'objectif de mon travail, pour aborder directement le cœur du sujet, à savoir la plateforme d'annotation automatique EXCOM‑2 Je donnerai ensuite un exemple détaillé d'application que j'ai réalisé dans cet outil, avec une démonstration, et je terminerai par la présentation des perspectives de mon travail.

2 Importance des citations
le DR est une opération discursive de mise en texte permettant à un énonciateur prend en charge les propos dits ou écrits d'un locuteur. Une citation est : Tout segment entouré de guillemets et introduit par un marqueur qui dénote un acte de locution. Le locuteur (source) peut être implicite ou explicite.

3 Importance des citations
Intérêt grandissant : En linguistique: Modalités, médiatif, prise en charge, dialogisme, polyphonie, autonymie, classification des verbe, typographie... En TAL : [Mourad 2001), [Krestel et al., 2008], InQuotes de Google, [Pouliquen et al., 2008], [Audebert et al., 2009], [De la Clergerie et al. 2009]... En veille : savoir ce qui a été dit, éventuellement de manière « précise ». pour l'identification des citations OU DR-I, souvent avec leur source (pas ou peu de catégorisation) différents types du DR selon la «forme» du propos rapporté

4 La presse

5 La presse

6 La presse

7 La presse

8 La presse

9 La presse

10 La presse

11 La presse

12 Notre approche : Les citations catégorisées
le DR est une opération discursive de mise en texte permettant à un énonciateur prend en charge les propos dits ou écrits d'un locuteur. Une citation est : Tout segment entouré de guillemets et introduit par un marqueur qui dénote un acte de locution. Le locuteur (source) peut être implicite ou explicite.

13 Notre approche : Les citations catégorisées
Différents types de discours rapporté : DR direct ou indirect, DR indirect libre, DR nominalisé, conditionnel journalistique, DR hybrides (ilôts textuels, style direct introduit par que...) [Rosier, 1999] Principes [Alrahabi et Desclés, 2009] Définir les citations Catégoriser les citations identifiés selon les modalités de prise en charge énonciatives Cadre d'analyse : linguistique de l'énonciation Traitement en différentes langues (français et arabe) le DR est une opération discursive de mise en texte permettant à un énonciateur prend en charge les propos dits ou écrits d'un locuteur. Une citation est : Tout segment entouré de guillemets et introduit par un marqueur qui dénote un acte de locution. Le locuteur (source) peut être implicite ou explicite.

14 Les citations catégorisées
L'énonciateur peut rapporter un discours de trois manière (au moins): En rapportant à un locuteur un acte explicite : Locution (X dit...), Interlocution (X informe Y...)... En rapportant à un locuteur un propos, par un acte de « réception » J'ai entendu... En rapportant à un locuteur un acte de locution implicite Selon X... L'idée du « repérage » du propos par rapport aux différentes instances énonciatives impliquées dans le DR-D (énonciateur, locuteur, co-énonciateur, co-locuteur, transmetteur)

15 Les citations catégorisées
L'idée du « repérage » du propos par rapport aux différentes instances énonciatives impliquées dans le DR-D (énonciateur, locuteur, co-énonciateur, co-locuteur, transmetteur)

16 Les citations catégorisées
Analyser les marqueurs dans la formule introductrice d'une citation : ≈ 600 marqueurs pour le français et 700 marqueurs pour l’arabe Deux types de marqueurs : Les « Introducteurs » : acte de locution (déclarer, selon, affirmation, en ajoutant...) Les « Modalisateurs » : marqueurs de modalités énonciatives (franchement, mensonge, ennuyeux, aborder, encourager...) Différentes catégories lexicales : verbes, noms, gérondifs, adverbes, locutions adverbiales... Nous pouvons d’ailleurs effectuer une catégorisation au sein de ces modalisateurs, selon qu’ils dénotent ou non un acte de locution : des marqueurs non énonciatifs (franchement, avec élégance, sourire, aborder, ., comme dans X a abordé Y en disant... X a souri en ajoutant...) et des indices énonciatifs polysémiques (se moquer, encourager, saluer, etc.). Ces derniers peuvent dénoter un acte de locution (saluer la parole) ou non (saluer par un geste ou un regard).

17 Les citations catégorisées
Carte sémantique du DR-D : Modalités de prise en charge Engagement (assertion), simple énonciation, désengagement (médiatif), rumeur, opinion, distance... Deux niveaux : énonciateur et locuteur Deux types de marqueurs : introducteurs et modalisateurs Multilinguisme Arabe, français [Alrahabi et Desclés, 2008] Coréen [Alrahabi, Suh et Desclés, 2010] Dire ici que cette carte est indépendante de la langue (Elle a été adaptée au coréen!!! transfert facile...) les marqueurs sont indépendant des domaines, qu'elle se situe dans une théorie contrairement par exemple à la connexion. Les modalités de prise en charge énonciative peuvent alors être analysées comme des opérateurs qui participent à la construction du modus: Engagement (assertion), désengagement (médiatif), non engagement, opinion, distance, rumeur...

18 Carte sémantique Dire :
Pour décrire cette carte, il me faudrait beaucoup plus de temps... Je prendrai donc quelques fragments de cette carte, qqes catégories Formules : lambda calcul : opérateurs et opérandes

19 Exemple de catégorie (I)
Simple énonciation : Il s’agit d’une énonciation négociable entre l’énonciateur et le co- énonciateur Schème énonciatif : JE-DIS (X-DIT(ce qui est dit)) Exemples (dire, ajouter, conversation, en discutant...) Elle a dit : « plus tard, j’ai retiré plus de cinquante pièces de ces cartons. »

20 Exemple de catégorie (II)
Assertion Prise en charge de la « vérité », engagement L’assertion engage complètement la responsabilité du locuteur vis-à-vis de la vérité de ce qu’il énonce. Schème énonciatif : JE-DIS (X-DIT(EST-VRAI(ce qui est dit))) Exemples (confirmer, asserter, affirmer / nier, réfuter...) Ce que Materazzi a démenti catégoriquement, affirmant qu'il ne savait "même pas ce que ce mot veut dire".

21 Exemple de catégorie (III)
Jugement sur la valeur de vérité du propos du locuteur (vrai / non vrai) X prétend, X présume, X ment, X exagère... Ms Jin [...] a prononcé ces mots sincères : “Divine Performing Arts est l’espoir de l’humanité...” (correct / non corrext) X a raison quand il dit... / X croit à tort... … le poète se trompait en disant : “Il y a plus de choses entre le ciel et la terre que notre philosophie n'en peut concevoir.”

22 Annotation automatique : EXCOM-2
le DR est une opération discursive de mise en texte permettant à un énonciateur prend en charge les propos dits ou écrits d'un locuteur. Une citation est : Tout segment entouré de guillemets et introduit par un marqueur qui dénote un acte de locution. Le locuteur (source) peut être implicite ou explicite.

23 Annotation automatique : EXCOM-2
--- ---- Corpus brut Format : texte Codage : UTF-8 Segmentation automatique 1 Format XML DTD (DocBook) 2 Annotation automatique Dans la chaine de traitement d'EXCOM‑2, une seule étape est nécessaire pour l'annotation, celle-ci consiste à segmenter les textes à traiter. Le cœur du système procède ensuite à l'annotation des textes segmentés, Selon les pdv construits. Les textes annotés servent alors à des applications finalisées comme le Résumé, la RI, les fiches de synthèse ou la veille. Indicateurs / indices (pos / nég.) Cartes sémantiques Trois types de règles Priorité entre règles Corpus annoté selon un ou plusieurs points de vue Applications : RI, veille, résumé...

24 Les règles d'annotation
Une règle peut être décrite sous forme déclarative : Si les indices Ip sont identifiés dans le contexte Cp de l’indicateur Ki alors prendre la décision Dj Exemple La représentation d’une règle d’EC réunit ainsi des informations relatives : aux conditions de déclenchement de règles (prémisses de la règle) au contexte (espace de recherche) aux effets résultant de ce déclenchement (action de la règle) DONC ON PEUT DEFINIR UN ORDRE ENTRE LES INDICES La place de l’indice positif détermine celle de l’indice négatif.

25 Les règles d'annotation: Type 1 (exemple)
أسرتنا الكاتبة وهي تطرح علينا هذه العبارة الساخرة : "كل الشموس تشرق من طاقة الحاجة أديبة, شمس الضفة الغربية وشمس الـ 48 وشمس بوش" ! The writer fascinated us by giving to us this mocking sentence: "all suns rise from the dormer window of Hajja Adiba, the sun of the West Bank, the sun of 48th and the sun of Bush"!

26 Les règles d'annotation: Type 1 (exemple)
أسرتنا الكاتبة وهي تطرح علينا هذه العبارة الساخرة : "كل الشموس تشرق من طاقة الحاجة أديبة, شمس الضفة الغربية وشمس الـ 48 وشمس بوش" ! The writer fascinated us by giving to us this mocking sentence: "all suns rise from the dormer window of Hajja Adiba, the sun of the West Bank, the sun of 48th and the sun of Bush"! Indicateur de la citation

27 Les règles d'annotation: Type 1 (exemple)
أسرتنا الكاتبة وهي تطرح علينا هذه العبارة الساخرة : "كل الشموس تشرق من طاقة الحاجة أديبة, شمس الضفة الغربية وشمس الـ 48 وشمس بوش" ! The writer fascinated us by giving to us this mocking sentence: "all suns rise from the dormer window of Hajja Adiba, the sun of the West Bank, the sun of 48th and the sun of Bush"! Indices de la citation (introducteur) Première catégorisation : « Relation interlocutive »

28 Les règles d'annotation: Type 2 (exemple I)
أسرتنا الكاتبة وهي تطرح علينا هذه العبارة الساخرة : "كل الشموس تشرق من طاقة الحاجة أديبة, شمس الضفة الغربية وشمس الـ 48 وشمس بوش" ! The writer fascinated us by giving to us this mocking sentence: "all suns rise from the dormer window of Hajja Adiba, the sun of the West Bank, the sun of 48th and the sun of Bush"! Indices de modalités énonciatives : « Attitude de l'énonciateur »

29 Les règles d'annotation: Type 2 (exemple I)
أسرتنا الكاتبة وهي تطرح علينا هذه العبارة الساخرة : "كل الشموس تشرق من طاقة الحاجة أديبة, شمس الضفة الغربية وشمس الـ 48 وشمس بوش" ! The writer fascinated us by giving to us this mocking sentence: "all suns rise from the dormer window of Hajja Adiba, the sun of the West Bank, the sun of 48th and the sun of Bush"! Annotations attribuées au segment : « Citation » « Relation interlocutive » « Attitude de l'énonciateur » « Qualité du propos » Indice de modalité énonciative : « Qualité du propos »

30 Scénario de traitement
1 Choix du pdv (carte sémantique)

31 Scénario de traitement
Choix du corpus 2

32 Scénario de traitement
Annoter 3

33 Évaluation le DR est une opération discursive de mise en texte permettant à un énonciateur prend en charge les propos dits ou écrits d'un locuteur. Une citation est : Tout segment entouré de guillemets et introduit par un marqueur qui dénote un acte de locution. Le locuteur (source) peut être implicite ou explicite.

34 Évaluation (catégories I & II)
Corpus : 250 textes par langue (arabe et français) [Alrahabi et Desclés, 2008] Évaluateurs : 15 personnes pour le français et 9 pour l'arabe L'annotation correcte : l'annotation la plus fréquente attribuée par les sujets. Résultat sur corpus arabe : Catégorie I : 0,71 de précision et 0,75 de rappel Catégorie II : 0,73 de précision et 0,79 de rappel Résultat sur corpus français Catégorie I : 0,65 de précision et 0,92 de rappel Catégorie II : 0,87 de précision et 1 de rappel Corpus français : LMD, le Figaro, l’Humanité et Libération ; Corpus arabe : Al-Nahar, Tishreen, AL-Ahram, Al-Jazeera... Nous avons alors effectué des tests sur 80% de ces articles. À partir de l’annotation du corpus de l’évaluation (20% de la taille totale), nous avons retenu pour chaque langue 39 segments annotés en rapport avec les trois catégories choisies. Le test a consisté alors à demander à des évaluateurs de choisir, à la main, pour chaque segment de l’ensemble retenu, une ou plusieurs parmi les trois catégories du test. Nous avons ensuite comparé les résultats obtenus par la machine avec ceux des évaluateurs.

35 Évaluation (catégorie III)
Corpus [Alrahabi, Suh et Desclés, 2010] : 34 citations par langue (arabe, français et coréen) 30 citations pour catégorie III 4 segments non citationnels Évaluateurs : 11 pour l'arabe, 23 por le français et 18 pour le coréen Résultats : À partir d’articles choisis au hasard de ce corpus et annoté par EXCOM‑2, nous avons choisi pour chaque langue 51 phrases, de manière à couvrir le maximum de cas difficiles et d’ambiguïté : utilisation de toutes les constructions possibles du DR‑D (l’introducteur étant avant, après ou au milieu des guillemets) ; utilisation d’introducteurs de différentes catégories lexicales (verbes, gérondifs, groupes nominaux, locutions adverbiales) ; etc. Nous avons alors retenu 15 phrases par catégorie, et nous y avons ajouté 6 autres phrases problématiques : une citation qui n’est pas introduite : une phrase qui contient des guillemets non citationnelles une citation non introduites par un indice énonciatif : une auto‑citation : une citation fictive : une citation reformulée : ------ Ces tests nous ont permis de dresser une comparaison entre les trois langues par rapport au cas du DR‑D. D’abord, nous constatons que les formes de surface en arabe sont plus polysémiques qu’en français et en coréen surtout les formes trilitères, à cause notamment de l’ambiguïté morphologique en arabe, causée par l’absence de vocalisation, par l’ordre relativement libre des mots dans la phrase et l’agglutination (voir [Dichy, 1990], [Beesley, 2001], [Alrahabi, 2006], [Alrahabi et al., 2006], [Roth et al., 2008]...). Pour résoudre ce problème, nous avons utilisé des indices négatifs pour lever l’ambiguïté sur certaines formes polysémiques. Nous avons observé également que la pratique du DR‑D est moins fréquente dans les articles journalistiques en arabe qu’en français. ,

36 Quelques cas pour la discussion
le DR est une opération discursive de mise en texte permettant à un énonciateur prend en charge les propos dits ou écrits d'un locuteur. Une citation est : Tout segment entouré de guillemets et introduit par un marqueur qui dénote un acte de locution. Le locuteur (source) peut être implicite ou explicite.

37 Quelques cas pour la discussion
Les citations sans introducteurs L'avocat, ravi de son effet : « Et c'est signé Nicolas Sarkozy, sous l'en-tête » Introducteurs non attribués à un locuteur Voici la déclaration : « Nous déclarons, chefs d’Etat et chefs de Gouvernement, que chacun d’entre nous prendra [...] » Aux cris de "Mort au Danemark ! Mort aux Pays-Bas!", Afghans ont défilé vendredi dans la capitale pour dénoncer... À partir d’articles choisis au hasard de ce corpus et annoté par EXCOM‑2, nous avons choisi pour chaque langue 51 phrases, de manière à couvrir le maximum de cas difficiles et d’ambiguïté : utilisation de toutes les constructions possibles du DR‑D (l’introducteur étant avant, après ou au milieu des guillemets) ; utilisation d’introducteurs de différentes catégories lexicales (verbes, gérondifs, groupes nominaux, locutions adverbiales) ; etc. Nous avons alors retenu 15 phrases par catégorie, et nous y avons ajouté 6 autres phrases problématiques : une citation qui n’est pas introduite : une phrase qui contient des guillemets non citationnelles une citation non introduites par un indice énonciatif : une auto‑citation : une citation fictive : une citation reformulée : ------ Ces tests nous ont permis de dresser une comparaison entre les trois langues par rapport au cas du DR‑D. D’abord, nous constatons que les formes de surface en arabe sont plus polysémiques qu’en français et en coréen surtout les formes trilitères, à cause notamment de l’ambiguïté morphologique en arabe, causée par l’absence de vocalisation, par l’ordre relativement libre des mots dans la phrase et l’agglutination (voir [Dichy, 1990], [Beesley, 2001], [Alrahabi, 2006], [Alrahabi et al., 2006], [Roth et al., 2008]...). Pour résoudre ce problème, nous avons utilisé des indices négatifs pour lever l’ambiguïté sur certaines formes polysémiques. Nous avons observé également que la pratique du DR‑D est moins fréquente dans les articles journalistiques en arabe qu’en français. ,

38 Quelques cas pour la discussion
Les citations « déracinées » " C'est Big Brother, ici. " Les non citations Lire « L'Aurore » et le dossier « Comment l'OMC fut vaincue », Le Monde diplomatique, janvier 2000. Et on conclut que le prix de la viande "consommée" n'a pas augmenté… À partir d’articles choisis au hasard de ce corpus et annoté par EXCOM‑2, nous avons choisi pour chaque langue 51 phrases, de manière à couvrir le maximum de cas difficiles et d’ambiguïté : utilisation de toutes les constructions possibles du DR‑D (l’introducteur étant avant, après ou au milieu des guillemets) ; utilisation d’introducteurs de différentes catégories lexicales (verbes, gérondifs, groupes nominaux, locutions adverbiales) ; etc. Nous avons alors retenu 15 phrases par catégorie, et nous y avons ajouté 6 autres phrases problématiques : une citation qui n’est pas introduite : une phrase qui contient des guillemets non citationnelles une citation non introduites par un indice énonciatif : une auto‑citation : une citation fictive : une citation reformulée : ------ Ces tests nous ont permis de dresser une comparaison entre les trois langues par rapport au cas du DR‑D. D’abord, nous constatons que les formes de surface en arabe sont plus polysémiques qu’en français et en coréen surtout les formes trilitères, à cause notamment de l’ambiguïté morphologique en arabe, causée par l’absence de vocalisation, par l’ordre relativement libre des mots dans la phrase et l’agglutination (voir [Dichy, 1990], [Beesley, 2001], [Alrahabi, 2006], [Alrahabi et al., 2006], [Roth et al., 2008]...). Pour résoudre ce problème, nous avons utilisé des indices négatifs pour lever l’ambiguïté sur certaines formes polysémiques. Nous avons observé également que la pratique du DR‑D est moins fréquente dans les articles journalistiques en arabe qu’en français. ,

39 Quelques cas pour la discussion
Les auto-citations : J'étais au Danemark, en octobre, avant que la polémique ne commence, et j'avais alors dit : "Il faut prendre une distance intellectuelle critique et réagir calmement [...]" Les citations fictives : Elle aurait aimé qu’il lui dise « alors ma petite dame, qu’est-ce que je vous donne ce matin ? » Tu vas me répondre : « Mais ce n’est pas ma souffrance qui me fait peur [...] » À partir d’articles choisis au hasard de ce corpus et annoté par EXCOM‑2, nous avons choisi pour chaque langue 51 phrases, de manière à couvrir le maximum de cas difficiles et d’ambiguïté : utilisation de toutes les constructions possibles du DR‑D (l’introducteur étant avant, après ou au milieu des guillemets) ; utilisation d’introducteurs de différentes catégories lexicales (verbes, gérondifs, groupes nominaux, locutions adverbiales) ; etc. Nous avons alors retenu 15 phrases par catégorie, et nous y avons ajouté 6 autres phrases problématiques : une citation qui n’est pas introduite : une phrase qui contient des guillemets non citationnelles une citation non introduites par un indice énonciatif : une auto‑citation : une citation fictive : une citation reformulée : ------ Ces tests nous ont permis de dresser une comparaison entre les trois langues par rapport au cas du DR‑D. D’abord, nous constatons que les formes de surface en arabe sont plus polysémiques qu’en français et en coréen surtout les formes trilitères, à cause notamment de l’ambiguïté morphologique en arabe, causée par l’absence de vocalisation, par l’ordre relativement libre des mots dans la phrase et l’agglutination (voir [Dichy, 1990], [Beesley, 2001], [Alrahabi, 2006], [Alrahabi et al., 2006], [Roth et al., 2008]...). Pour résoudre ce problème, nous avons utilisé des indices négatifs pour lever l’ambiguïté sur certaines formes polysémiques. Nous avons observé également que la pratique du DR‑D est moins fréquente dans les articles journalistiques en arabe qu’en français. ,

40 Quelques cas pour la discussion
Les citations non fidèles : Tapie dit en substance : « Je suis victime d’un règlement de comptes, d’une machination politique. Je veux parler, me défendre. » « Il est temps que vous veniez », lui dit une passante en alsacien. Les citations issues d'inférences (médiatif, abduction) Materazzi aurait donc dit : "Je préfère ta putain de soeur" après que « Zizou » lui ai demandé s’il voulait son maillot. À partir d’articles choisis au hasard de ce corpus et annoté par EXCOM‑2, nous avons choisi pour chaque langue 51 phrases, de manière à couvrir le maximum de cas difficiles et d’ambiguïté : utilisation de toutes les constructions possibles du DR‑D (l’introducteur étant avant, après ou au milieu des guillemets) ; utilisation d’introducteurs de différentes catégories lexicales (verbes, gérondifs, groupes nominaux, locutions adverbiales) ; etc. Nous avons alors retenu 15 phrases par catégorie, et nous y avons ajouté 6 autres phrases problématiques : une citation qui n’est pas introduite : une phrase qui contient des guillemets non citationnelles une citation non introduites par un indice énonciatif : une auto‑citation : une citation fictive : une citation reformulée : ------ Ces tests nous ont permis de dresser une comparaison entre les trois langues par rapport au cas du DR‑D. D’abord, nous constatons que les formes de surface en arabe sont plus polysémiques qu’en français et en coréen surtout les formes trilitères, à cause notamment de l’ambiguïté morphologique en arabe, causée par l’absence de vocalisation, par l’ordre relativement libre des mots dans la phrase et l’agglutination (voir [Dichy, 1990], [Beesley, 2001], [Alrahabi, 2006], [Alrahabi et al., 2006], [Roth et al., 2008]...). Pour résoudre ce problème, nous avons utilisé des indices négatifs pour lever l’ambiguïté sur certaines formes polysémiques. Nous avons observé également que la pratique du DR‑D est moins fréquente dans les articles journalistiques en arabe qu’en français. ,

41 Quelques cas pour la discussion
Les marqueurs de titres, de réputation... Rodière était fier de son aptitude mais ne tolérait pas la moindre critique, aussi modeste soit-elle, et était réputé pour son caractère «très difficile». La négation combinée avec d'autres marqueurs : Le professeur Rémy Leveau ne disait pas autre chose : " Une gestion mesurée des risques électoraux …" N’a-t-il pas affirmé : « Ce n’est pas en me disant : Seigneur ! Seigneur ! qu’on entrera au Royaume des Cieux mais en faisant la volonté de mon Père. » ? À partir d’articles choisis au hasard de ce corpus et annoté par EXCOM‑2, nous avons choisi pour chaque langue 51 phrases, de manière à couvrir le maximum de cas difficiles et d’ambiguïté : utilisation de toutes les constructions possibles du DR‑D (l’introducteur étant avant, après ou au milieu des guillemets) ; utilisation d’introducteurs de différentes catégories lexicales (verbes, gérondifs, groupes nominaux, locutions adverbiales) ; etc. Nous avons alors retenu 15 phrases par catégorie, et nous y avons ajouté 6 autres phrases problématiques : une citation qui n’est pas introduite : une phrase qui contient des guillemets non citationnelles une citation non introduites par un indice énonciatif : une auto‑citation : une citation fictive : une citation reformulée : ------ Ces tests nous ont permis de dresser une comparaison entre les trois langues par rapport au cas du DR‑D. D’abord, nous constatons que les formes de surface en arabe sont plus polysémiques qu’en français et en coréen surtout les formes trilitères, à cause notamment de l’ambiguïté morphologique en arabe, causée par l’absence de vocalisation, par l’ordre relativement libre des mots dans la phrase et l’agglutination (voir [Dichy, 1990], [Beesley, 2001], [Alrahabi, 2006], [Alrahabi et al., 2006], [Roth et al., 2008]...). Pour résoudre ce problème, nous avons utilisé des indices négatifs pour lever l’ambiguïté sur certaines formes polysémiques. Nous avons observé également que la pratique du DR‑D est moins fréquente dans les articles journalistiques en arabe qu’en français. ,

42 Quelques cas pour la discussion
Les guillemets imbriqués Et Hitchcock de constater : " Je vous parie que neuf personnes sur dix, si elles voient de l'autre côté de la cour une femme qui se déshabille avant d'aller se coucher, ou simplement un homme qui fait du rangement dans sa chambre, ne pourront pas s'empêcher de regarder. Elles pourraient détourner le regard en disant : "Cela ne me concerne pas ", elles pourraient fermer leurs volets, eh bien ! elles ne le feront pas, elles s'attarderont pour regarder (12). " 1 2 À partir d’articles choisis au hasard de ce corpus et annoté par EXCOM‑2, nous avons choisi pour chaque langue 51 phrases, de manière à couvrir le maximum de cas difficiles et d’ambiguïté : utilisation de toutes les constructions possibles du DR‑D (l’introducteur étant avant, après ou au milieu des guillemets) ; utilisation d’introducteurs de différentes catégories lexicales (verbes, gérondifs, groupes nominaux, locutions adverbiales) ; etc. Nous avons alors retenu 15 phrases par catégorie, et nous y avons ajouté 6 autres phrases problématiques : une citation qui n’est pas introduite : une phrase qui contient des guillemets non citationnelles une citation non introduites par un indice énonciatif : une auto‑citation : une citation fictive : une citation reformulée : ------ Ces tests nous ont permis de dresser une comparaison entre les trois langues par rapport au cas du DR‑D. D’abord, nous constatons que les formes de surface en arabe sont plus polysémiques qu’en français et en coréen surtout les formes trilitères, à cause notamment de l’ambiguïté morphologique en arabe, causée par l’absence de vocalisation, par l’ordre relativement libre des mots dans la phrase et l’agglutination (voir [Dichy, 1990], [Beesley, 2001], [Alrahabi, 2006], [Alrahabi et al., 2006], [Roth et al., 2008]...). Pour résoudre ce problème, nous avons utilisé des indices négatifs pour lever l’ambiguïté sur certaines formes polysémiques. Nous avons observé également que la pratique du DR‑D est moins fréquente dans les articles journalistiques en arabe qu’en français. ,

43 Merci


Télécharger ppt "Annotation automatique des citations catégorisées,"

Présentations similaires


Annonces Google