Sémantique et Corpus, Toulouse, juin La sémantique des connecteurs: de lanalyse manuelle à lanalyse automatisée de corpus Liesbeth Degand FNRS/Université catholique de Louvain
Sémantique et Corpus, Toulouse, juin Relations causales et connecteurs Son prochain objectif: le record du monde d'apnée statique d'Andy Le Sauce qui, en piscine, retient sa respiration pendant 7 minutes 35 secondes. Pour inscrire son nom sur les tablettes Jean-Pol François devra gagner plus de deux minutes puisque son record de Belgique est fixé à cinq minutes vingt-deux secondes. (Le Soir, 1997)
Sémantique et Corpus, Toulouse, juin Relations causales et connecteurs Apparemment, le président Mobutu est rentré, vendredi, à Kinshasa. Apparemment, puisque personne - des membres du gouvernement venus l'accueillir ni des représentants de la presse accourus pour l'événement - ne l'a vu descendre de l'avion dans lequel on l'avait vu embarquer, en matinée, à Nice. (Le soir, 1997)
Sémantique et Corpus, Toulouse, juin Relations causales et connecteurs (…) je crois que ça s'appelle en français mais excusez-moi parce que je vais peut- être (…) estropier le mot hein / un goupillon là (Valibel)
Sémantique et Corpus, Toulouse, juin Relations causales et connecteurs Ce transfert de souveraineté est génial, parce que je vais fièrement pouvoir dire à l' avenir que je suis une vraie Chinoise. (Le soir, 1997)
Sémantique et Corpus, Toulouse, juin Relations causales et connecteurs A l' occasion de leurs retrouvailles, les deux cousins - qui ont pratiquement le même âge : 62 et 60 ans - auront tout le loisir de parler de leurs souvenirs communs et de leur progéniture, car il n' y a pas l' ombre d' un nuage dans les relations bilatérales entre les deux pays, même si les Belges préféreraient, évidemment, voir les Norvégiens les accompagner dans la grande fratrie européenne. (Le soir, 1997)
Sémantique et Corpus, Toulouse, juin Léchelle dImplication du Locuteur Conceptualisation scalaire des connecteurs en termes dimplication du locuteur. Les connecteurs sont ordonnés sur une échelle allant dun implication minimale (relation objective) à une implication maximale (relation subjective). IdL fait référence au degré avec lequel le locuteur joue implicitement un rôle actif dans la construction de la relation (causale)
Sémantique et Corpus, Toulouse, juin Léchelle dImplication du Locuteur Speaker Involvement increases with the degree to which both the causal relation and the related segments vehicle actions and assumptions of the present speaker (Pander Maat & Degand 2001) NVCVCCep NCEp CSA
Sémantique et Corpus, Toulouse, juin Détermination du niveau dIdL Degré diconicité de la relation causale Présence dun protagoniste conscient dans la situation causale Caractère plus ou moins implicite du protagoniste Distance par rapport au locuteur et au temps présent
Sémantique et Corpus, Toulouse, juin Connecteurs et Implication du Locuteur Tout connecteur encode un certain niveau dIdL quil contribue à linterprétation de son environnement discursif. Lorsque ce niveau est trop bas ou trop élevé pour être combinable avec cet environnement, lusage du connecteur est inapproprié, ou il impose une nouvelle interprétation.
Sémantique et Corpus, Toulouse, juin Connecteurs et Implication du Locuteur Jétais pressé, monsieur lagent, cest pourquoi jai pris le sens interdit. Jétais pressé, monsieur lagent, donc jai pris le sens interdit.
Sémantique et Corpus, Toulouse, juin Connecteurs, IdL et corpus Connecteurs causaux en néerlandais et en français Néerlandais: daardoor, daarom, dus, omdat, want, aangezien Français: de ce fait, cest pourquoi, dès lors, donc, parce que, car, puisque
Sémantique et Corpus, Toulouse, juin Connecteurs, IdL et corpus Analyse manuelle de 50 occurrences de chacun des connecteurs dans corpus écrits (presse) et oraux (Valibel, CGN). Deux juges Codage linguistique des marqueurs dIdl –Type de relation –Modalité de S1 et S2 –Présence dun protagoniste conscient –Expression linguistique du protagoniste –Continuïté du protagoniste entre S1 et S2 –Temps verbal –…–…
Sémantique et Corpus, Toulouse, juin Codage linguistique (…) On a pardonné à certains d'avoir collaboré parce qu'il ne fallait pas affaiblir le camp anticommuniste. (…) Corpus: Le Soir1997 Connecteur: parce que Fragment: #08 Modalité S1: Action Modalité S2: Opinion Type de relation: volitif Réalisation du pp en S1: explicite Réalisation du pp en S2: implicite …
Sémantique et Corpus, Toulouse, juin Difficultés Choix des catégories et des traits sémantiques –Combien de catégories? Théorie(s) et hypothèses –Combien de traits sémantiques? Ni trop, ni trop peu…
Sémantique et Corpus, Toulouse, juin Difficultés Accord inter-juges?! –Détermination de la modalité Scène 2 : suite à un accident, la voiture de Madame P. est déclarée en perte totale car le coût de la réparation dépasse la valeur intrinsèque du véhicule. S1 = fait, expérience ou action?
Sémantique et Corpus, Toulouse, juin Difficultés Accord inter-juges?! –Détermination de la relation causale Si j' accepte aujourd'hui de sortir ces dossiers cachés au fond des tiroirs, c' est parce que le formidable travail qui a été fait ne peut rester oublié. Relation volitive ou épistémique?
Sémantique et Corpus, Toulouse, juin Difficultés Les difficultés sont sémantiques, pas syntaxiques –Ex. Détermination de S1 et S2 & Modification du connecteur –C' est donc surtout parce qu' il estime qu' il convient sur ces sujets délicats d' éviter la précipitation dans la généralisation, que le corps médical de l' hôpital de l' ULB n' assurera pendant quatre jours que les urgences. –C' est parfois difficile parce qu' il y a ce côté tri- dimensionnel alors que malgré tout, nous ne sommes pas dans l' eau et nous subissons le poids de la pesanteur.
Sémantique et Corpus, Toulouse, juin Difficultés Les difficultés sont sémantiques, pas syntaxiques –Ex. Détermination de S1 et S2 & Modification du connecteur –C' est donc surtout parce qu' il estime qu' il convient sur ces sujets délicats d' éviter la précipitation dans la généralisation (P), que le corps médical de l' hôpital de l' ULB n' assurera pendant quatre jours que les urgences (Q). –C' est parfois difficile (Q) parce qu' il y a ce côté tri- dimensionnel alors que malgré tout, nous ne sommes pas dans l' eau et nous subissons le poids de la pesanteur (P).
Sémantique et Corpus, Toulouse, juin Solutions … Opérationaliser!!! –Explicitation du processus interprétatif Au moins deux juges Taille des échantillons (min. 50?)
Sémantique et Corpus, Toulouse, juin var4 modalité S1 1 = fait Description dun état ou dun événement localisable dans le temps (attribution possible de VdV ; extrait imaginable au passé). Le segment ne contient pas de conceptualiseur, il ny a pas de protagoniste conscient impliqué dans situation causale, seul un auteur/locuteur responsable du récit. Ex. … Papraphrase: Cest un fait que … + spécification de temps et lieu
Sémantique et Corpus, Toulouse, juin var4 modalité S1 3 = Expérience Il y a un conceptualiseur, qui est non-agentif. Lexpérience est localisable dans le temps, VdV possible. Il sagit dévénéments individuels, vrais à un moment donné. Différent dun fait par la présence dun conceptualiseur, ou une autre forme de représentation mentale. Ex. … Paraphrase: je me souviens que …, jai appris/découvert que… »
Sémantique et Corpus, Toulouse, juin Connecteurs causaux et IdL Le potentiel expressif de chacun des connecteurs causaux peut être représenté comme une zone continue sur léchelle. Les connecteurs les plus fréquents doivent diverger significativement sur léchelle. Léchelle est constante pour des langues différentes, les connecteurs peuvent diverger par les zones quils occupent.
Sémantique et Corpus, Toulouse, juin Contiguïté relationnelle (NL)
Sémantique et Corpus, Toulouse, juin Contiguïté relationnelle (FR)
Sémantique et Corpus, Toulouse, juin Divergences dIdL Français: parce que < car < puisque de ce fait < cest pourquoi < donc/dès lors Néerlandais: omdat < want/aangezien daardoor < daarom < dus
Sémantique et Corpus, Toulouse, juin Distance entre protagoniste et locuteur: donc/dès lors
Sémantique et Corpus, Toulouse, juin Expression linguistique du protagoniste: donc/dès lors
Sémantique et Corpus, Toulouse, juin Echelle dIdL contrastive Français: parce que < car < puisque de ce fait < cest pourquoi < dès lors <donc Néerlandais: omdat < aangezien < want daardoor < daarom < dus
Sémantique et Corpus, Toulouse, juin Premières conclusions L'IdL peut rendre compte de la variété d'usage des connecteurs causaux et des effets de substitution d'un connecteur par un connecteur de niveau différent. L'IdL peut mettre au jour des divergences très fines entre connecteurs. L'IdL permet de contraster des "équivalents" dans des langues différentes.
Sémantique et Corpus, Toulouse, juin Vers une analyse automatisée… Yves Bestgen, FNRS/UCL Wilbert Spooren, VU Amsterdam
Sémantique et Corpus, Toulouse, juin Connecteurs et Analyses de Corpus Approches classiques: –analyses manuelles d'échantillons relativement restreints (25-50) –analyst-dependent Vers une approche automatisée –vastes corpus –analyst-independent
Sémantique et Corpus, Toulouse, juin Connecteurs causaux en NL et FR Aangezien, omdat, want, doordat Puisque, parce que, car Hypothèses linguistiques doordat < omdat < aangezien < want parce que < car < puisque Techniques TAL identification et extraction du matériel linguistique pertinent analyse du matériel linguistique en fonction des hypothèses
Sémantique et Corpus, Toulouse, juin Matériel (NL) Corpus presse écrite néerlandaise de +/- 30 millions de mots POS-taggé & lemmatisé Essai sur 6 premiers mois –exclusion des rubriques à faible contenu sémantique Données: 16.5 millions de mots
Sémantique et Corpus, Toulouse, juin Techniques d'extraction d'information sémantique Analyse sémantique latente ET Analyse de contenu thématique
Sémantique et Corpus, Toulouse, juin Analyse sémantique latente Technique statistique permettant de calculer la proximité sémantique de deux mots (segments) sur base de la probabilité de les retrouver dans un contexte textuel similaire. Deux mots sont similaires s'ils apparaissent dans des paragraphes similaires.
Sémantique et Corpus, Toulouse, juin Analyse sémantique latente Contexte textuel représenté par une base sémantique (énorme réseau multidimensionnel). La signification d'un mot est représentée par un vecteur à N dimensions. Pour calculer la proximité sémantique entre deux mots, on calcule le cosinus entre les deux vecteurs qui les représentent.
Sémantique et Corpus, Toulouse, juin Cos. = 0 Cos. > 0 Cos. = 1 singe – lettre ordinateur – mémoire policier - gendarme
Sémantique et Corpus, Toulouse, juin Analyse sémantique latente Identification des mots avec lesquels les connecteurs sont sémantiquement associés, i.e. determination de la similarité sémantique entre les segments, phrases, paragraphes contenant want, omdat, aangezien, doordat.
Sémantique et Corpus, Toulouse, juin Analyse de contenu thématique Technique d'analyse de contenu permettant de déterminer si un concept donné survient +/- fréquemment dans un type de segment donné (Popping 2000) Le concept X est plus fréquent dans les segments A que dans les segments B
Sémantique et Corpus, Toulouse, juin Analyse de contenu thématique: première étape Construction du dictionnaire Identification des segments, p.ex. avec want, omdat, doordat, aangezien … ConceptEntrées lexicales Pronom personnel Verbes d'opinion Termes de couleurs je, tu, il, elle, nous, vous, ils … croire, penser, estimer, sembler … rouge, bleu, vert, jaune, violet..
Sémantique et Corpus, Toulouse, juin Analyse de contenu thématique: seconde étape Construction d'une matrice avec les segments contenant des instances lexicales des concepts X, Y, Z wantdoordataangezien concept X concept Y concept Z
Sémantique et Corpus, Toulouse, juin Fréquence des connecteurs dans le corpus ConnectiveRaw frequency Relative frequency (per million words) aangezien doordat omdat want
Sémantique et Corpus, Toulouse, juin Préalable: Analyse « syntaxique » Identification des segments de et de dans les phrases Règles heuristiques pour distinguer: –Conn. Antécédent: Puisque cest ainsi, je reviendrai mardi. –Conn. Médial 1: Je suis venue parce que tu me lavais demandé. –Conn. Médian 2: Je reviendrai mardi. Car cétait délicieux.
Sémantique et Corpus, Toulouse, juin Analyse syntaxique: difficultés Hiérarchisation des règles par défaut et règles « prioritaires » Détermination des frontières des segments Taille minimale des segments pour une analyse sémantique Pour le français cest en cours, pour le néerlandais cest fait!
Sémantique et Corpus, Toulouse, juin Analyse automatique du niveau dIdL (analyse sémantique) Les connecteurs diffèrent les uns des autres par le niveau dIdL quils encodent –doordat: niveau d'IdL bas (non-volitif, objectif, factuel) –want: niveau d'Idl élevé (épistémique- interactionnel, subjectif, opinion-argument) –omdat & aangezien: position intermédiaire (volitif, épistémique)
Sémantique et Corpus, Toulouse, juin Dictionnaire de subjectivité ConceptsEntrées lexicales faitExister, cellule, économie, décéder, procédure, événement … actionAider, fabriquer, choisir, appeler, annoncer, écrire, battre, diriger, … opinionCroire, estimer, probablement, horrible, très, exceptionnel, magnifique, …
Sémantique et Corpus, Toulouse, juin IdL (modalité de S1): Hypothèse Les segments de liés par doordat contiennent des mots factuels, ceux liés par omdat contiennent des mots daction et dopinion, et ceux liés par aangezien et want contiennent des mots dopinion.
Sémantique et Corpus, Toulouse, juin IdL: Résultats Lanalyse automatique confirme les analyses de corpus manuelles: doordat co- occure significativement plus avec des segments factuels que les autres connecteurs, omdat plus avec des segments daction et want et aangezien plus avec des segments dopinion.
Sémantique et Corpus, Toulouse, juin IdL et pronoms personnels Les pronoms personnels font référence à un protagoniste conscient dans lévénement causal, de ce fait on peut les considérer comme des marqueurs linguistiques de subjectivité (Degand & Pander Maat 2003, Pit 2003)
Sémantique et Corpus, Toulouse, juin Pronoms personnels: Hypothèses Les connecteurs subjectifs (à IdL élevé) devraient survenir plus avec des pronoms personnels que les connecteurs objectifs (à IdL basse). Les connecteurs subjectifs devraient être plus fréquents avec des pronoms personnels à la 1ère personne et les connecteurs objectifs plus fréquents avec des pronoms à la troisième personne.
Sémantique et Corpus, Toulouse, juin Pronoms personnels: analyse de contenu thématique Dictionnaire pour le concept « pronom personnel » –Entrées lexicales: ik, jij, je, hij, zij, ze, u, wij, we, jullie.
Sémantique et Corpus, Toulouse, juin Pronoms personnels: Résultats La première hypothèse se vérifie: doordat < aangezien < omdat < want
Sémantique et Corpus, Toulouse, juin Pronoms personnels: Résultats Confirmation partielle de la seconde hypothèse: Tous les connecteurs sont plus fréquents avec des pronoms personnels à la troisième personne, mais la proportion de segments liés par want contenant des pronoms à la première personne est plus élevée. Want est le connecteur le plus subjectif, les autres connecteurs se retrouvent dans la partie plus objective de léchelle.
Sémantique et Corpus, Toulouse, juin Rupture de perspective (LSA) La perspectivisation rend compte du fait quun texte peut être polyphonique. Elle joue un rôle dans les divergences de sens entre want (rupture de perspective) et omdat (pas de rupture) Aucune confirmation empirique univoque
Sémantique et Corpus, Toulouse, juin Rupture de perspective (LSA) Conception de la rupture de perspective comme une rupture dans la cohésion sémantique des segments liés par les connecteurs. Une rupture de perspective devrait impliquer une diminution de la cohésion sémantique entre les segments connectés.
Sémantique et Corpus, Toulouse, juin Rupture de perspective: Hypothèse 1 Le cosinus entre Q & P liés par des connecteurs monophoniques (omdat) sera plus élevé que le cosinus entre Q & P liés par des connecteurs polyphoniques (want). Q conn-mono P vs.Q conn-poly P Cosinus > Cosinus
Sémantique et Corpus, Toulouse, juin Rupture de perspective: Hypothèse 2 Le cosinus entre la phrase précédente et la phrase suivante sera plus élévé pour les connecteurs monophoniques que pour les connecteurs polyphoniques. PRIOR Q mono P NEXT vs. PRIOR Q poly P NEXT Cosinus > Cosinus
Sémantique et Corpus, Toulouse, juin Rupture de perspective: Résultats LSA Les deux hypothèses se vérifient –Les segments reliés par omdat (monophonique) sont sémantiquement plus proches que les segments reliés par want (polyphonique). –Le connecteur omdat va de pair avec une continuité topicale entre la phrase précédente et la phrase suivante, ceci est moins le cas pour want.
Sémantique et Corpus, Toulouse, juin Rupture de perspective: Confirmation par ACT Construction dun dictionnaire d«Indicateurs de perspective » (adverbes dattitude, « intensifieurs », « évaluateurs », …) sur base dun thésaurus.
Sémantique et Corpus, Toulouse, juin Rupture de perspective: Hypothèse ACT Si les segments causaux sont reliés par want, les segment Q contient des indicateurs de perspective, P nen contiendra pas. Les segments reliés par omdat, doordat, aangezien ne présentent pas une telle rupture (perspective uniforme ou absence de perspective). Lhypothèse est vérifiée…
Sémantique et Corpus, Toulouse, juin Conclusions Lanalyse sémantique latente et lanalyse de contenu thématique sont des techniques permettant létude automatisée des facteurs linguistiques déterminant le sens et lusage des connecteurs. Une analyse automatisée na des sens que si lon dispose dhypothèses linguistiques solides (avec premiers résultats « manuels »).
Sémantique et Corpus, Toulouse, juin Conclusions Usage de VASTES corpus Confirmation « automatique » des résultats manuels Complémentarité entre analyses qualitatives et quantitatives, avec « quantification » du « qualitatif ». Objectivation du processus interprétatif.
Sémantique et Corpus, Toulouse, juin Travaux futurs Automatisation (?) de lanalyse syntaxique préalable (identification des segments P&Q) Extension de lanalyse afin d identifier les différents environnements discursifs de différents connecteurs causaux (en néerlandais et en français), dans des genres différents. Etude de séquences implicites et sous-spécifiées.