La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Sémantique et Corpus, Toulouse, juin 20041 La sémantique des connecteurs: de lanalyse manuelle à lanalyse automatisée de corpus Liesbeth Degand FNRS/Université

Présentations similaires


Présentation au sujet: "Sémantique et Corpus, Toulouse, juin 20041 La sémantique des connecteurs: de lanalyse manuelle à lanalyse automatisée de corpus Liesbeth Degand FNRS/Université"— Transcription de la présentation:

1 Sémantique et Corpus, Toulouse, juin 20041 La sémantique des connecteurs: de lanalyse manuelle à lanalyse automatisée de corpus Liesbeth Degand FNRS/Université catholique de Louvain

2 Sémantique et Corpus, Toulouse, juin 20042 Relations causales et connecteurs Son prochain objectif: le record du monde d'apnée statique d'Andy Le Sauce qui, en piscine, retient sa respiration pendant 7 minutes 35 secondes. Pour inscrire son nom sur les tablettes Jean-Pol François devra gagner plus de deux minutes puisque son record de Belgique est fixé à cinq minutes vingt-deux secondes. (Le Soir, 1997)

3 Sémantique et Corpus, Toulouse, juin 20043 Relations causales et connecteurs Apparemment, le président Mobutu est rentré, vendredi, à Kinshasa. Apparemment, puisque personne - des membres du gouvernement venus l'accueillir ni des représentants de la presse accourus pour l'événement - ne l'a vu descendre de l'avion dans lequel on l'avait vu embarquer, en matinée, à Nice. (Le soir, 1997)

4 Sémantique et Corpus, Toulouse, juin 20044 Relations causales et connecteurs (…) je crois que ça s'appelle en français mais excusez-moi parce que je vais peut- être (…) estropier le mot hein / un goupillon là (Valibel)

5 Sémantique et Corpus, Toulouse, juin 20045 Relations causales et connecteurs Ce transfert de souveraineté est génial, parce que je vais fièrement pouvoir dire à l' avenir que je suis une vraie Chinoise. (Le soir, 1997)

6 Sémantique et Corpus, Toulouse, juin 20046 Relations causales et connecteurs A l' occasion de leurs retrouvailles, les deux cousins - qui ont pratiquement le même âge : 62 et 60 ans - auront tout le loisir de parler de leurs souvenirs communs et de leur progéniture, car il n' y a pas l' ombre d' un nuage dans les relations bilatérales entre les deux pays, même si les Belges préféreraient, évidemment, voir les Norvégiens les accompagner dans la grande fratrie européenne. (Le soir, 1997)

7 Sémantique et Corpus, Toulouse, juin 20047 Léchelle dImplication du Locuteur Conceptualisation scalaire des connecteurs en termes dimplication du locuteur. Les connecteurs sont ordonnés sur une échelle allant dun implication minimale (relation objective) à une implication maximale (relation subjective). IdL fait référence au degré avec lequel le locuteur joue implicitement un rôle actif dans la construction de la relation (causale)

8 Sémantique et Corpus, Toulouse, juin 20048 Léchelle dImplication du Locuteur Speaker Involvement increases with the degree to which both the causal relation and the related segments vehicle actions and assumptions of the present speaker (Pander Maat & Degand 2001) NVCVCCep NCEp CSA

9 Sémantique et Corpus, Toulouse, juin 20049 Détermination du niveau dIdL Degré diconicité de la relation causale Présence dun protagoniste conscient dans la situation causale Caractère plus ou moins implicite du protagoniste Distance par rapport au locuteur et au temps présent

10 Sémantique et Corpus, Toulouse, juin 200410 Connecteurs et Implication du Locuteur Tout connecteur encode un certain niveau dIdL quil contribue à linterprétation de son environnement discursif. Lorsque ce niveau est trop bas ou trop élevé pour être combinable avec cet environnement, lusage du connecteur est inapproprié, ou il impose une nouvelle interprétation.

11 Sémantique et Corpus, Toulouse, juin 200411 Connecteurs et Implication du Locuteur Jétais pressé, monsieur lagent, cest pourquoi jai pris le sens interdit. Jétais pressé, monsieur lagent, donc jai pris le sens interdit.

12 Sémantique et Corpus, Toulouse, juin 200412 Connecteurs, IdL et corpus Connecteurs causaux en néerlandais et en français Néerlandais: daardoor, daarom, dus, omdat, want, aangezien Français: de ce fait, cest pourquoi, dès lors, donc, parce que, car, puisque

13 Sémantique et Corpus, Toulouse, juin 200413 Connecteurs, IdL et corpus Analyse manuelle de 50 occurrences de chacun des connecteurs dans corpus écrits (presse) et oraux (Valibel, CGN). Deux juges Codage linguistique des marqueurs dIdl –Type de relation –Modalité de S1 et S2 –Présence dun protagoniste conscient –Expression linguistique du protagoniste –Continuïté du protagoniste entre S1 et S2 –Temps verbal –…–…

14 Sémantique et Corpus, Toulouse, juin 200414 Codage linguistique (…) On a pardonné à certains d'avoir collaboré parce qu'il ne fallait pas affaiblir le camp anticommuniste. (…) 7 14 08 5 2 9 1 3 6 3 1 11 11 1 6 Corpus: Le Soir1997 Connecteur: parce que Fragment: #08 Modalité S1: Action Modalité S2: Opinion Type de relation: volitif Réalisation du pp en S1: explicite Réalisation du pp en S2: implicite …

15 Sémantique et Corpus, Toulouse, juin 200415 Difficultés Choix des catégories et des traits sémantiques –Combien de catégories? Théorie(s) et hypothèses –Combien de traits sémantiques? Ni trop, ni trop peu…

16 Sémantique et Corpus, Toulouse, juin 200416 Difficultés Accord inter-juges?! –Détermination de la modalité Scène 2 : suite à un accident, la voiture de Madame P. est déclarée en perte totale car le coût de la réparation dépasse la valeur intrinsèque du véhicule. S1 = fait, expérience ou action?

17 Sémantique et Corpus, Toulouse, juin 200417 Difficultés Accord inter-juges?! –Détermination de la relation causale Si j' accepte aujourd'hui de sortir ces dossiers cachés au fond des tiroirs, c' est parce que le formidable travail qui a été fait ne peut rester oublié. Relation volitive ou épistémique?

18 Sémantique et Corpus, Toulouse, juin 200418 Difficultés Les difficultés sont sémantiques, pas syntaxiques –Ex. Détermination de S1 et S2 & Modification du connecteur –C' est donc surtout parce qu' il estime qu' il convient sur ces sujets délicats d' éviter la précipitation dans la généralisation, que le corps médical de l' hôpital de l' ULB n' assurera pendant quatre jours que les urgences. –C' est parfois difficile parce qu' il y a ce côté tri- dimensionnel alors que malgré tout, nous ne sommes pas dans l' eau et nous subissons le poids de la pesanteur.

19 Sémantique et Corpus, Toulouse, juin 200419 Difficultés Les difficultés sont sémantiques, pas syntaxiques –Ex. Détermination de S1 et S2 & Modification du connecteur –C' est donc surtout parce qu' il estime qu' il convient sur ces sujets délicats d' éviter la précipitation dans la généralisation (P), que le corps médical de l' hôpital de l' ULB n' assurera pendant quatre jours que les urgences (Q). –C' est parfois difficile (Q) parce qu' il y a ce côté tri- dimensionnel alors que malgré tout, nous ne sommes pas dans l' eau et nous subissons le poids de la pesanteur (P).

20 Sémantique et Corpus, Toulouse, juin 200420 Solutions … Opérationaliser!!! –Explicitation du processus interprétatif Au moins deux juges Taille des échantillons (min. 50?)

21 Sémantique et Corpus, Toulouse, juin 200421 var4 modalité S1 1 = fait Description dun état ou dun événement localisable dans le temps (attribution possible de VdV ; extrait imaginable au passé). Le segment ne contient pas de conceptualiseur, il ny a pas de protagoniste conscient impliqué dans situation causale, seul un auteur/locuteur responsable du récit. Ex. … Papraphrase: Cest un fait que … + spécification de temps et lieu

22 Sémantique et Corpus, Toulouse, juin 200422 var4 modalité S1 3 = Expérience Il y a un conceptualiseur, qui est non-agentif. Lexpérience est localisable dans le temps, VdV possible. Il sagit dévénéments individuels, vrais à un moment donné. Différent dun fait par la présence dun conceptualiseur, ou une autre forme de représentation mentale. Ex. … Paraphrase: je me souviens que …, jai appris/découvert que… »

23 Sémantique et Corpus, Toulouse, juin 200423 Connecteurs causaux et IdL Le potentiel expressif de chacun des connecteurs causaux peut être représenté comme une zone continue sur léchelle. Les connecteurs les plus fréquents doivent diverger significativement sur léchelle. Léchelle est constante pour des langues différentes, les connecteurs peuvent diverger par les zones quils occupent.

24 Sémantique et Corpus, Toulouse, juin 200424 Contiguïté relationnelle (NL)

25 Sémantique et Corpus, Toulouse, juin 200425 Contiguïté relationnelle (FR)

26 Sémantique et Corpus, Toulouse, juin 200426 Divergences dIdL Français: parce que < car < puisque de ce fait < cest pourquoi < donc/dès lors Néerlandais: omdat < want/aangezien daardoor < daarom < dus

27 Sémantique et Corpus, Toulouse, juin 200427 Distance entre protagoniste et locuteur: donc/dès lors

28 Sémantique et Corpus, Toulouse, juin 200428 Expression linguistique du protagoniste: donc/dès lors

29 Sémantique et Corpus, Toulouse, juin 200429 Echelle dIdL contrastive Français: parce que < car < puisque de ce fait < cest pourquoi < dès lors <donc Néerlandais: omdat < aangezien < want daardoor < daarom < dus

30 Sémantique et Corpus, Toulouse, juin 200430 Premières conclusions L'IdL peut rendre compte de la variété d'usage des connecteurs causaux et des effets de substitution d'un connecteur par un connecteur de niveau différent. L'IdL peut mettre au jour des divergences très fines entre connecteurs. L'IdL permet de contraster des "équivalents" dans des langues différentes.

31 Sémantique et Corpus, Toulouse, juin 200431 Vers une analyse automatisée… Yves Bestgen, FNRS/UCL Wilbert Spooren, VU Amsterdam

32 Sémantique et Corpus, Toulouse, juin 200432 Connecteurs et Analyses de Corpus Approches classiques: –analyses manuelles d'échantillons relativement restreints (25-50) –analyst-dependent Vers une approche automatisée –vastes corpus –analyst-independent

33 Sémantique et Corpus, Toulouse, juin 200433 Connecteurs causaux en NL et FR Aangezien, omdat, want, doordat Puisque, parce que, car Hypothèses linguistiques doordat < omdat < aangezien < want parce que < car < puisque Techniques TAL identification et extraction du matériel linguistique pertinent analyse du matériel linguistique en fonction des hypothèses

34 Sémantique et Corpus, Toulouse, juin 200434 Matériel (NL) Corpus presse écrite néerlandaise de +/- 30 millions de mots POS-taggé & lemmatisé Essai sur 6 premiers mois –exclusion des rubriques à faible contenu sémantique Données: 16.5 millions de mots

35 Sémantique et Corpus, Toulouse, juin 200435 Techniques d'extraction d'information sémantique Analyse sémantique latente ET Analyse de contenu thématique

36 Sémantique et Corpus, Toulouse, juin 200436 Analyse sémantique latente Technique statistique permettant de calculer la proximité sémantique de deux mots (segments) sur base de la probabilité de les retrouver dans un contexte textuel similaire. Deux mots sont similaires s'ils apparaissent dans des paragraphes similaires.

37 Sémantique et Corpus, Toulouse, juin 200437 Analyse sémantique latente Contexte textuel représenté par une base sémantique (énorme réseau multidimensionnel). La signification d'un mot est représentée par un vecteur à N dimensions. Pour calculer la proximité sémantique entre deux mots, on calcule le cosinus entre les deux vecteurs qui les représentent.

38 Sémantique et Corpus, Toulouse, juin 200438 Cos. = 0 Cos. > 0 Cos. = 1 singe – lettre ordinateur – mémoire policier - gendarme

39 Sémantique et Corpus, Toulouse, juin 200439 Analyse sémantique latente Identification des mots avec lesquels les connecteurs sont sémantiquement associés, i.e. determination de la similarité sémantique entre les segments, phrases, paragraphes contenant want, omdat, aangezien, doordat.

40 Sémantique et Corpus, Toulouse, juin 200440 Analyse de contenu thématique Technique d'analyse de contenu permettant de déterminer si un concept donné survient +/- fréquemment dans un type de segment donné (Popping 2000) Le concept X est plus fréquent dans les segments A que dans les segments B

41 Sémantique et Corpus, Toulouse, juin 200441 Analyse de contenu thématique: première étape Construction du dictionnaire Identification des segments, p.ex. avec want, omdat, doordat, aangezien … ConceptEntrées lexicales Pronom personnel Verbes d'opinion Termes de couleurs je, tu, il, elle, nous, vous, ils … croire, penser, estimer, sembler … rouge, bleu, vert, jaune, violet..

42 Sémantique et Corpus, Toulouse, juin 200442 Analyse de contenu thématique: seconde étape Construction d'une matrice avec les segments contenant des instances lexicales des concepts X, Y, Z wantdoordataangezien concept X312954102 concept Y1128956 concept Z230115465

43 Sémantique et Corpus, Toulouse, juin 200443 Fréquence des connecteurs dans le corpus ConnectiveRaw frequency Relative frequency (per million words) aangezien doordat omdat want 248 826 7689 5621 30 101 938 686

44 Sémantique et Corpus, Toulouse, juin 200444 Préalable: Analyse « syntaxique » Identification des segments de et de dans les phrases Règles heuristiques pour distinguer: –Conn. Antécédent: Puisque cest ainsi, je reviendrai mardi. –Conn. Médial 1: Je suis venue parce que tu me lavais demandé. –Conn. Médian 2: Je reviendrai mardi. Car cétait délicieux.

45 Sémantique et Corpus, Toulouse, juin 200445 Analyse syntaxique: difficultés Hiérarchisation des règles par défaut et règles « prioritaires » Détermination des frontières des segments Taille minimale des segments pour une analyse sémantique Pour le français cest en cours, pour le néerlandais cest fait!

46 Sémantique et Corpus, Toulouse, juin 200446 Analyse automatique du niveau dIdL (analyse sémantique) Les connecteurs diffèrent les uns des autres par le niveau dIdL quils encodent –doordat: niveau d'IdL bas (non-volitif, objectif, factuel) –want: niveau d'Idl élevé (épistémique- interactionnel, subjectif, opinion-argument) –omdat & aangezien: position intermédiaire (volitif, épistémique)

47 Sémantique et Corpus, Toulouse, juin 200447 Dictionnaire de subjectivité ConceptsEntrées lexicales faitExister, cellule, économie, décéder, procédure, événement … actionAider, fabriquer, choisir, appeler, annoncer, écrire, battre, diriger, … opinionCroire, estimer, probablement, horrible, très, exceptionnel, magnifique, …

48 Sémantique et Corpus, Toulouse, juin 200448 IdL (modalité de S1): Hypothèse Les segments de liés par doordat contiennent des mots factuels, ceux liés par omdat contiennent des mots daction et dopinion, et ceux liés par aangezien et want contiennent des mots dopinion.

49 Sémantique et Corpus, Toulouse, juin 200449 IdL: Résultats Lanalyse automatique confirme les analyses de corpus manuelles: doordat co- occure significativement plus avec des segments factuels que les autres connecteurs, omdat plus avec des segments daction et want et aangezien plus avec des segments dopinion.

50 Sémantique et Corpus, Toulouse, juin 200450 IdL et pronoms personnels Les pronoms personnels font référence à un protagoniste conscient dans lévénement causal, de ce fait on peut les considérer comme des marqueurs linguistiques de subjectivité (Degand & Pander Maat 2003, Pit 2003)

51 Sémantique et Corpus, Toulouse, juin 200451 Pronoms personnels: Hypothèses Les connecteurs subjectifs (à IdL élevé) devraient survenir plus avec des pronoms personnels que les connecteurs objectifs (à IdL basse). Les connecteurs subjectifs devraient être plus fréquents avec des pronoms personnels à la 1ère personne et les connecteurs objectifs plus fréquents avec des pronoms à la troisième personne.

52 Sémantique et Corpus, Toulouse, juin 200452 Pronoms personnels: analyse de contenu thématique Dictionnaire pour le concept « pronom personnel » –Entrées lexicales: ik, jij, je, hij, zij, ze, u, wij, we, jullie.

53 Sémantique et Corpus, Toulouse, juin 200453 Pronoms personnels: Résultats La première hypothèse se vérifie: doordat < aangezien < omdat < want

54 Sémantique et Corpus, Toulouse, juin 200454 Pronoms personnels: Résultats Confirmation partielle de la seconde hypothèse: Tous les connecteurs sont plus fréquents avec des pronoms personnels à la troisième personne, mais la proportion de segments liés par want contenant des pronoms à la première personne est plus élevée. Want est le connecteur le plus subjectif, les autres connecteurs se retrouvent dans la partie plus objective de léchelle.

55 Sémantique et Corpus, Toulouse, juin 200455 Rupture de perspective (LSA) La perspectivisation rend compte du fait quun texte peut être polyphonique. Elle joue un rôle dans les divergences de sens entre want (rupture de perspective) et omdat (pas de rupture) Aucune confirmation empirique univoque

56 Sémantique et Corpus, Toulouse, juin 200456 Rupture de perspective (LSA) Conception de la rupture de perspective comme une rupture dans la cohésion sémantique des segments liés par les connecteurs. Une rupture de perspective devrait impliquer une diminution de la cohésion sémantique entre les segments connectés.

57 Sémantique et Corpus, Toulouse, juin 200457 Rupture de perspective: Hypothèse 1 Le cosinus entre Q & P liés par des connecteurs monophoniques (omdat) sera plus élevé que le cosinus entre Q & P liés par des connecteurs polyphoniques (want). Q conn-mono P vs.Q conn-poly P Cosinus > Cosinus

58 Sémantique et Corpus, Toulouse, juin 200458 Rupture de perspective: Hypothèse 2 Le cosinus entre la phrase précédente et la phrase suivante sera plus élévé pour les connecteurs monophoniques que pour les connecteurs polyphoniques. PRIOR Q mono P NEXT vs. PRIOR Q poly P NEXT Cosinus > Cosinus

59 Sémantique et Corpus, Toulouse, juin 200459 Rupture de perspective: Résultats LSA Les deux hypothèses se vérifient –Les segments reliés par omdat (monophonique) sont sémantiquement plus proches que les segments reliés par want (polyphonique). –Le connecteur omdat va de pair avec une continuité topicale entre la phrase précédente et la phrase suivante, ceci est moins le cas pour want.

60 Sémantique et Corpus, Toulouse, juin 200460 Rupture de perspective: Confirmation par ACT Construction dun dictionnaire d«Indicateurs de perspective » (adverbes dattitude, « intensifieurs », « évaluateurs », …) sur base dun thésaurus.

61 Sémantique et Corpus, Toulouse, juin 200461 Rupture de perspective: Hypothèse ACT Si les segments causaux sont reliés par want, les segment Q contient des indicateurs de perspective, P nen contiendra pas. Les segments reliés par omdat, doordat, aangezien ne présentent pas une telle rupture (perspective uniforme ou absence de perspective). Lhypothèse est vérifiée…

62 Sémantique et Corpus, Toulouse, juin 200462 Conclusions Lanalyse sémantique latente et lanalyse de contenu thématique sont des techniques permettant létude automatisée des facteurs linguistiques déterminant le sens et lusage des connecteurs. Une analyse automatisée na des sens que si lon dispose dhypothèses linguistiques solides (avec premiers résultats « manuels »).

63 Sémantique et Corpus, Toulouse, juin 200463 Conclusions Usage de VASTES corpus Confirmation « automatique » des résultats manuels Complémentarité entre analyses qualitatives et quantitatives, avec « quantification » du « qualitatif ». Objectivation du processus interprétatif.

64 Sémantique et Corpus, Toulouse, juin 200464 Travaux futurs Automatisation (?) de lanalyse syntaxique préalable (identification des segments P&Q) Extension de lanalyse afin d identifier les différents environnements discursifs de différents connecteurs causaux (en néerlandais et en français), dans des genres différents. Etude de séquences implicites et sous-spécifiées.


Télécharger ppt "Sémantique et Corpus, Toulouse, juin 20041 La sémantique des connecteurs: de lanalyse manuelle à lanalyse automatisée de corpus Liesbeth Degand FNRS/Université"

Présentations similaires


Annonces Google