La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice

Présentations similaires


Présentation au sujet: "La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice"— Transcription de la présentation:

1 La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice

2 La linguistique textuelle à lorée du numérique Jean-Marie Viprey 1996 Thèse de III ème cycle : Dynamique du vocabulaire des Fleurs du mal Dir. : Jean Peytard Jury : Jean-Michel Adam, Etienne Brunet, Claude Condé, Pierre Malandain, Jean-Philippe Massonie 2002 : HDR Jury : Jean-Michel Adam, Claude Blum, Claude Condé, Georges Molinié, André Salem, Max Silberztein Linguistique informatique Linguistique textuelle Philologie Statistique Statistique textuelle Stylistique littéraire _____________________________________________________________ Dir.Adjoint de lEquipe dAccueil 3817 Archives, Textes, Sciences des Textes (ATST) Membre associé de lEA 2181 Laboratoire de Sémio-linguistique, Didactique, Informatique (LASELDI) Coordonnateur du pôle Archive, Bases, Corpus de la MSHE de Franche-Comté (USR CNRS) En délégation ( ?) au CNRS, UMR Bases Corpus Langages – Nice.

3 Lausanne, 2004 : Sciences du Texte et Analyse de Discours Adam J.-M. & Heidmann U. (2005). Sciences du texte et analyse de discours. Slatkine

4 J.-M. Adam, 2005 : Introduction à l Analyse Textuelle du Discours ATD Adam J.-M. (1997). Linguistique textuelle : des genres de discours aux textes. Nathan Adam J.-M. (2005). La linguistique textuelle : introduction à lanalyse textuelle des discours. Colin

5 Redéfinir le texte ? Le texte [est-il] le véritable objet de la linguistique [?] (Rastier Sens et textualité – 1989) Rastier François 1989 : Sens et textualité, Paris, Hachette

6 Redéfinir le texte ? Si oui, la linguistique textuelle naurait guère lieu dêtre. La linguistique serait constamment textuelle… Le texte est-il lobjet de la linguistique textuelle ?

7 Redéfinir le texte ? Lobjet de la linguistique textuelle, telle quelle sest développée historiquement, cest l énoncé suivi. cf Halliday & Hasan, Weinrich, le premier Rastier, Adam Le principal point dappui de la LT historique, cest la critique de la linguistique de la phrase cf Benveniste Benveniste E. (1974) Problèmes de linguistique générale. Gallimard.

8 Redéfinir le texte ? Malgré lautorité de la tradition grammaticale, tout engage la linguistique à prendre les textes pour objet : elle affronte alors des phénomènes dune tout autre échelle, en vraie grandeur pourrait-on dire. Rastier (2001 : 13) (souligné par nous) Rastier François 2001 : Arts et sciences du texte, Paris, Seuil

9 Redéfinir le texte ? […] un texte est une suite linguistique empirique attestée, produite dans une pratique sociale déterminée, et fixée sur un support quelconque. Rastier (2001 : 21) Objectivité, écologie, empirie

10 Redéfinir le texte ? Un texte est-il un « être » ? Avons-nous intérêt à lui donner une définition « ontique » ? Par qui/quoi est-il « attesté » ?

11 Redéfinir le texte ? Textuel(le)(s) Textualité(s) Dimension(s) textuelle(s) Configuration(s) textuelle(s)

12 Redéfinir le texte ? Déficit philologique de lAnalyse du Discours >>>> Analyse Textuelle du Discours

13 Redéfinir le texte ? Le texte serait un DISPOSITIF construit pour être une voie daccès au discours quil matérialise, non pas a priori ou par « production », mais par construction.

14 Redéfinir le texte ? Ainsi, il nest pas « produit » par le discours. Il est construit en vue de permettre un accès second à lactivité discursive (accès répétable et/ou critique, (re)mise en discours, ordinaire ou savante)

15 Redéfinir le texte ? Adam à partir de 1999 et surtout de 2004 modifie le positionnement de la LT. La phrase nest pas un constituant du texte. Certains constituants ne sont pas des phrases, voire pas des organisations verbales. Surtout : il y a (au moins) un palier intermédiaire.

16 Redéfinir le texte ? Texte (étymologiquement parlant) : assemblage, couture, configuration…

17 Redéfinir le texte ? Texte (étymologiquement parlant) : assemblage, couture, configuration… de phrases ?

18 Redéfinir le texte ? Texte (étymologiquement parlant) : assemblage, couture, configuration… de phrases ? dénoncés (plurisémiotiques : miniatures, tableaux… )

19 Redéfinir le texte ? Texte (étymologiquement parlant) : assemblage, couture, configuration… dénoncés eux-mêmes assemblés dans des documents (plurisémiotiques : miniatures, tableaux, touches sonores des livres pour enfants… notes de bas de pages, liens intertextuels, listes, figures…)

20 Redéfinir le texte ? Ainsi la séquence pourrait être considérée comme un cas particulier, un type dénoncé (partie logico-rhétorique) assemblé selon un type de modalité (séquentielle).

21 Redéfinir le texte ? Question fréquemment posée : (dans loptique lexicométrique, notamment) « Le titre fait-il partie du texte ? Et les notes de bas de page ?... »

22 Redéfinir le texte ? Question fréquemment posée : (dans loptique lexicométrique, notamment) « Le titre fait-il partie du texte ? Et les notes de bas de page ?... - Oui, et du document aussi. Mais ce sont des énoncés distincts. » (comme peuvent lêtre, selon les angles dapproche, les répliques des personnages en discours direct, mais aussi des parties successives que toute analyse est susceptible de distinguer) (et nous ne sommes plus ici dans une optique strictement lexicométrique !)

23 Redéfinir le texte ? Les variantes… En édition scientifique : indication/indexation, dans lappareil critique, de lieux où deux documents divergent variation « écrasée », décontextualisée (cf Adam 2005, Paveau-Sarfaty 2006)

24 Redéfinir le texte ? Les variantes… En édition scientifique : indication/indexation, dans lappareil critique, de lieux où deux documents divergent variation « écrasée », décontextualisée « en droit » : Mise en parallèle de N documents du texte considéré, et observation de cette variation en multi-contexte

25 Redéfinir le texte ? Même chose à propos de tous les aspects de cette variation ramifiée quest le texte : réécritures, intertexte, traduction bien sûr… mais aussi…

26 Redéfinir le texte ? Même chose à propos de tous les aspects de cette variation ramifiée quest le texte : réécritures, intertexte, traduction bien sûr… mais aussi… transcription de loral, productions colingues …sans oublier…

27 Redéfinir le texte ? Même chose à propos de tous les aspects de cette variation ramifiée quest le texte : réécritures, intertexte, traduction bien sûr… mais aussi… transcription de loral, productions colingues …sans oublier… feuilleton, séries, rubriques de presse, performances théâtrales, tests de lecture …

28 Redéfinir le texte ? Conclusion ? Un texte serait une constellation de documents eux-mêmes constitués d énoncés agencés. Constellation ouverte.

29 Redéfinir le texte ? Foucault (Dits et écrits – 1994 : 708) « Jappellerai archive, non pas la totalité des textes qui ont été conservés par une civilisation […] mais le jeu des règles qui déterminent dans une culture lapparition et la disparition des énoncés, leur rémanence et leur effacement, leur existence paradoxale dévénements et de choses » Cité par Paveau & Serfati (2005 : 199)

30 Redéfinir le texte ? Foucault (Dits et écrits – 1994 : 708) « Jappellerai archive, non pas la totalité des textes qui ont été conservés par une civilisation […] mais le jeu des règles qui déterminent dans une culture lapparition et la disparition des énoncés, leur rémanence et leur effacement, leur existence paradoxale dévénements et de choses » Cité par Paveau & Serfati (2005 : 199) Où lon peut lire (sans solliciter à lexcès) que le texte ne vaut (en AD) quen tant quil (recueille) sertit lénoncé (authentique objet de la quête de sens et dhistoire), configure et archive ses rapports avec lensemble des autres énoncés. Paveau M.-A., Sarfati G.E : Les grandes théories de la linguistique, Paris, Colin

31 Redéfinir le texte ? TEXTE / CORPUS ?

32 Redéfinir le texte ? TEXTE / CORPUS ? TEXTE / BASE / CORPUS !

33 Redéfinir le texte ? TEXTE / CORPUS ? TEXTE / BASE / CORPUS ! Habert, Nazarenko, Salem ( 1997 : 11) : Nous employons le mot corpus dans une acception restreinte empruntée à J.Sinclair (1996 : 4) : « un corpus est une collection de données langagières qui sont sélectionnées et organisées selon des critères linguistiques explicites pour servir d échantillon du langage ». […] A cette aune, nombre de ressources textuelles perdent cette dénomination. Il sagit souvent de collections ou de rassemblements de textes électroniques plutôt que de corpus à proprement parler. Habert Benoît, Nazarenko Adeline, Salem André 1997 : Les linguistiques de corpus, Paris, Colin.

34 Redéfinir le texte ? TEXTE / CORPUS ? TEXTE / BASE / CORPUS ! Habert, Nazarenko, Salem (Les linguistiques de corpus : 11) : Nous employons le mot corpus dans une acception restreinte empruntée à J.Sinclair (1996 : 4) : « un corpus est une collection de données langagières qui sont sélectionnées et organisées selon des critères linguistiques explicites pour servir d échantillon du langage ». […] A cette aune, nombre de ressources textuelles perdent cette dénomination. Il sagit souvent de collections ou de rassemblements de textes électroniques plutôt que de corpus à proprement parler.

35 Redéfinir le texte ? Le texte est donc un élément constitutif darchive, matérialisable dans une base sous forme de documents reliés abstraitement et/ou matériellement. Son principe constitutif est dordre culturel (mythe, loi, rite, histoire, biographie, didactique, etc…)

36 Redéfinir le texte ? Le corpus est un prélèvement darchive, constitué dénoncés. Son principe constitutif est dordre hypothético-déductif ou mieux dit réflexif (Guilhaumou, Mayaffre) Mayaffre D. (2002) « Les corpus réflexifs : entre architextualité et hypertextualité » in Corpus n°1. Guilhaumou J. (2002) « Le corpus en analyse de discours. Perspective historique » ibid. Revue Corpus en ligne :

37 Redéfinir le texte ? La textualité ?

38 Redéfinir le texte ? La textualité ? Lensemble des aspects de « cet » agencement dénoncés en un texte, qui en font une unité cohésive et cohérente = texture (H & H) ? Halliday m.a.k., Hasan Ruqaiya 1976 : Cohesion in English, London, Longman

39 Redéfinir le texte ? La textualité ? Lensemble des aspects de « cet » agencement dénoncés en un texte, qui en font une unité cohésive et cohérente = texture (H & H) ? Oui, à condition den faire une lecture critique : *Un texte nest pas « directement » constitué de phrases ([…] If a passage of English containing more than one sentence is perceived as a text […] C.i.E. : 2) souligné par nous

40 Redéfinir le texte ? La textualité ? Lensemble des aspects de « cet » agencement dénoncés en un texte, qui en font une unité cohésive et cohérente = texture (H & H) ? Oui, à condition den faire une lecture critique : *Un texte nest pas « directement » constitué de phrases ([…] If a passage of English containing more than one sentence is perceived as a text […] C.i.E. : 2) *La texture ne relève pas intrinsèquement des ressources propres à une langue particulière ( What we are investigating […] are the resources that English has for creating texture. ibid.) souligné par nous

41 Redéfinir le texte ? Excursus : Langue et discours, langue(s) et texte(s) R.Balibar (1983, 85, 93)

42 Redéfinir le texte ? La textualité ? Les rapports entre les divers documents du texte relève en droit de la textualité, tout autant que les rapports entre énoncés dans lhypothèse dun texte « simple » (à un document).

43 Redéfinir le texte ? La textualité ? Le texte ainsi défini est un champ. Cela règle son rapport (multilatéral) à ses unités de toute échelle et les rapports de ces unités entre elles.

44 Redéfinir le texte ? La textualité ? Le texte ainsi défini est un champ. Cela règle son rapport (multilatéral) à ses unités de toute échelle et les rapports de ces unités entre elles. Cest ce que, relisant Rastier (1989) nous avons projeté dappliquer aux unités de très petite dimension, mots (Viprey 1997) et « phonèmes » (Viprey 1998) notamment.

45 Redéfinir le texte ? La textualité ? Le texte ainsi défini est un champ. Cela règle son rapport (multilatéral) à ses unités de toute échelle et les rapports de ces unités entre elles. Un mot (une occurrence) interagit certes avec lénoncé (perspective distributionnelle « classique », Harris). Mais linteraction productrice de sens sexerce et sanalyse au niveau du texte, comme « masse » et comme « configuration ».

46 Redéfinir le texte ? La textualité ? Le texte ainsi défini est un champ. Cela règle son rapport (multilatéral) à ses unités de toute échelle et les rapports de ces unités entre elles. Un mot (une occurrence) interagit certes avec lénoncé (perspective distributionnelle « classique », Harris). Mais linteraction productrice de sens sexerce et sanalyse au niveau du texte, comme « masse » et comme « configuration ». Cest ce que nous avions cru pouvoir nommer texture, négligeant lemploi H&H et leffet de traduction ; pour H&H texture désigne lensemble des effets de champ : The concept of TEXTURE is entirely appropriate to express the property of being a text (C.i.E. : 2)

47 Redéfinir le texte ? La textualité ? Le texte ainsi défini est un champ. Cela règle son rapport (multilatéral) à ses unités de toute échelle et les rapports de ces unités entre elles. Un mot (une occurrence) interagit certes avec lénoncé (perspective distributionnelle « classique », Harris). Mais linteraction productrice de sens sexerce et sanalyse au niveau du texte, comme « masse » et comme « configuration ». Cest ce que nous avions cru pouvoir nommer texture, négligeant lemploi H&H et leffet de traduction ; pour H&H texture désigne lensemble des effets de champ : The concept of TEXTURE is entirely appropriate to express the property of being a text (C.i.E. : 2) macro/méso/micro –textualité ?

48 Redéfinir le texte ? Quest-ce quun texte à lère numérique ? ou bien : Que nous dit lère numérique du statut du texte ?

49 Brève histoire (très orientée !) de linformatisation des « textes » [EXCURSUS] A toute « origine », la discrétisation graphique. cf Goody 1997 et 2007

50 Brève histoire (très orientée !) de linformatisation des « textes » Aux « origines » de linformatique « moderne » : des problèmes despace… Codage sur un octet (8 bits) : pas de distinction majuscules/minuscules, caractères accentués/non accentués perte de la disposition spatiale et de la mise en forme des caractères

51 Brève histoire (très orientée !) de linformatisation des « textes » Mais aussi (surtout ?) : élimination de tout élément de complexité textuelle : « Choix » de lédition Délimitation texte / « péritexte » (élimination de ce dernier) Valorisation de la seule surface graphique De ce point de vue, « TLF » et « Saint-Cloud » - par exemple – se rejoignent (et lensemble des entreprises de lépoque)

52 Brève histoire (très orientée !) de linformatisation des « textes » Facteurs dévolution : [sur fond de lévolution technologique] * La demande liée au traitement de texte : Mise en forme et interopérabilité > RTF * La demande liée au Web et à lhypertexte : Navigabilité (viabilisation) > HTML, XML.

53 Brève histoire (très orientée !) de linformatisation des « textes » Facteurs dévolution : [sur fond de lévolution technologique] * La demande liée au traitement de texte : Mise en forme et interopérabilité > RTF * La demande liée au Web et à lhypertexte : Navigabilité (viabilisation) > HTML, XML. Paradoxe : ces évolutions atteignent TARDIVEMENT le domaine encore inconstitué et innommé où vont se rencontrer les sciences et techniques du texte…

54 Brève histoire (très orientée !) de linformatisation des « textes » Facteurs dévolution : [sur fond de lévolution technologique] * La demande liée au traitement de texte : Mise en forme et interopérabilité > RTF * La demande liée au Web et à lhypertexte : Navigabilité (viabilisation) > HTML, XML. Paradoxe : ces évolutions atteignent TARDIVEMENT le domaine encore inconstitué et innommé où vont se rencontrer les sciences et techniques du texte… Exemple : les immenses ressources des grandes bibliothèques publiques sont longtemps numérisées et mises en ligne en mode image (PDF) à lexclusion du mode texte (Gallica-BNF).

55 Brève histoire (très orientée !) de linformatisation des « textes » Facteurs dévolution : [sur fond de lévolution technologique] * La demande liée au traitement de texte : Mise en forme et interopérabilité > RTF * La demande liée au Web et à lhypertexte : Navigabilité (viabilisation) > HTML, XML. Paradoxe : ces évolutions atteignent TARDIVEMENT le domaine encore inconstitué et innommé où vont se rencontrer les sciences et techniques du texte… Exemple : les immenses ressources des grandes bibliothèques publiques sont longtemps numérisées et mises en ligne en mode image (PDF) à lexclusion du mode texte (Gallica-BNF). et leur océrisation contrôlée nest toujours pas considérée comme une priorité des politiques publiques.

56 Brève histoire (très orientée !) de linformatisation des « textes » Text Encoding Initiative (TEI)

57 Brève histoire (très orientée !) de linformatisation des « textes » Text Encoding Initiative (TEI) Représentation XML exhaustive, standardisée, cumulative, interopérable, coopérative.

58 Brève histoire (très orientée !) de linformatisation des « textes » Un document TEI comporte : Un en-tête (header) dédié aux métadonnées communes : Instanciation, autorités, signatures, déclaration DTD Un corps (body) dédié au stockage des énoncés et de leurs annotations fines. La répartition de lannotation entre en-tête et corps est souple ; de même que la segmentation du texte en documents TEI.

59 Brève histoire (très orientée !) de linformatisation des « textes » Au Lecteur La sottise, l' erreur, le, la lésine,

60 Brève histoire (très orientée !) de linformatisation des « textes » Philologie numérique : Préparation et établissement des documents TEI décrivant un manuscrit (une paléographie), une édition, une annotation, un ensemble de signets, dans la perspective de leur intégration à un réseau de documents pouvant : -être reliés à la définition informatique (par adresses, arborescente) dun texte -être critiqués et commentés par dautres -être identifiés (historicisés) -… être explorés en corpus

61 Applications… Pôle Archive, Bases, Corpus : *Développement DIATAG : établissement et annotation de textes en français moderne et contemporain *Développement ASTARTEX : environnement danalyse textuelle et dexploration assistée *Ressources textuelles (acquisition + préparation) : Base « Presse comtoise » Base « Aveux de détenus politiques en RD de Guinée sous Sékou Touré » Base « Socialisme utopique – Proudhon, Fourier, Considérant… » Base « Claudel – théâtre, poésie, correspondance » Base « Presse vernaculaire contemporaine en Région – commandite Europe-Région » Base « Littérature orale des phnong du Cambodge » Base « Presse coloniale francophone en Indochine » …

62 Applications… Représentations de lEurope à travers la presse « vernaculaire » en Franche-Comté historique : La MSHE de Franche-Comté et ses tutelles financières; le SGAR Commandite / mise à lépreuve : « pourquoi notre région, copieusement arrosée de fonds structurants européens, vote-t-elle à 57% non au referendum TCE de mai 2005 ? »

63 Applications… Représentations de lEurope à travers la presse « vernaculaire » en Franche-Comté historique : La MSHE de Franche-Comté et ses tutelles financières; le SGAR Commandite / mise à lépreuve : « pourquoi notre région, copieusement arrosée de fonds structurants européens, vote-t-elle à 57% non au referendum TCE de mai 2005 ? » Notre réponse (proposition du pôle ABC) : A côté dun sondage classique dopinion, un volet d analyse du discours de presse. Recueillir lensemble des publications déposées au dépôt légal régional entre avril 2004 et mai 2006 Les océriser, les disposer en une base textuelle Constituer un corpus détude et le soumettre à une analyse exploratoire débouchant sur quelques conclusions Inscrire cette opération dans une durée (suivi des représentations)

64 Applications… [excursus « qui na rien à voir ?...] Bien souvent, dans le contexte universitaire contemporain, les moyens réduits nous conduisent à réduire (provisoirement) la base projetée aux dimensions du corpus adapté à lenquête en cours (commande institutionnelle, publication, thèse…)

65 Applications… [excursus « qui na rien à voir ?...] Bien souvent, dans le contexte universitaire contemporain, les moyens réduits nous conduisent à réduire (provisoirement) la base projetée aux dimensions du corpus adapté à lenquête en cours (commande institutionnelle, publication, thèse…) Ce nest pas une raison pour le « théoriser ».

66 Applications… Représentations de lEurope à travers la presse « vernaculaire » en Franche-Comté corpus : 942 titres de presse déposés (base) 282 titres « filtrés » par mots-clés 692 articles de longueurs variables (corpus)

67 Applications… Représentations de lEurope à travers la presse « vernaculaire » en Franche-Comté corpus : 692 fichiers PDF océrisés, corrigés, instanciés

68 Applications… Représentations de lEurope à travers la presse « vernaculaire » en Franche-Comté corpus : 692 fichiers balisés « mot à mot » (pseudo xml)

69 Applications… Représentations de lEurope à travers la presse « vernaculaire » en Franche-Comté corpus : « mots » (occurrences, tokens) formes graphiques (types) Opération de lemmatisation (étiquetage lexical et morphologique) Alternance dapplications automatiques de ressources (dictionnaires et scripts de levée contextuelle dambiguïtés graphiques) de phases de décision interactive pour les cas indécidables par automates Maintenance et enrichissement des ressources linguistiques (système DiaTag)

70 Applications… Représentations de lEurope à travers la presse « vernaculaire » en Franche-Comté corpus :

71 Applications… Représentations de lEurope à travers la presse « vernaculaire » en Franche-Comté corpus : occurrences lemmes (types)

72 Applications… Représentations de lEurope à travers la presse « vernaculaire » en Franche-Comté Une comparaison « exogène » : une base contemporaine (2002) de 5 quotidiens nationaux dinformation générale sur 5 mois – 30 millions de mots. Non lemmatisée. Occurrences, puis écarts-réduits à léquidistribution. Muller Ch. (1992). Initiation aux méthodes de la statistique linguistique. Champion

73 Applications… Représentations de lEurope à travers la presse « vernaculaire » en Franche-Comté Une comparaison « endogène » : la distribution dun item lexical repéré comme « mot-clé » parmi les parties structurelles du corpus. Perspective discursive. Ouvre sur linterprétation.

74 Applications… Représentations de lEurope à travers la presse « vernaculaire » en Franche-Comté Le tableau de la distribution générale des vocables dans les sous-corpus par groupes dénonciateurs se présente comme suit. LAnalyse Factorielle des Correspondances (AFC) permet de classer les profils des lignes et des colonnes dun tel tableau, et de projeter cette classification en un nuage de points (ici, un nuage dans lespace 3D dune boule, repris en planisphère). Lebart L. & Salem A. (1994). Statistique textuelle. Dunod Cibois Ph. (1994). LAnalyse factorielle. PUF

75 Applications… Représentations de lEurope à travers la presse « vernaculaire » en Franche-Comté Une comparaison « endogène » généralisée : la distribution dun grand nombre ditems lexicaux parmi les parties structurelles du corpus. (AFC projection 3 facteurs)

76 Applications… Représentations de lEurope à travers la presse « vernaculaire » en Franche-Comté Une comparaison « endogène » généralisée : la distribution dun grand nombre ditems lexicaux parmi les parties structurelles du corpus. Zoom.

77 PAUSE… Structures textuelles non séquentielles. Quest-ce que le vocabulaire (vs lexique) ? Quest-ce quun vocable (vs lexème) On peut « exprimer » le vocabulaire comme liste des vocables (avec indication de leur fréquence). On peut même utiliser ce « dictionnaire élémentaire » comme répertoire (cliquable en hypertexte).

78 PAUSE… Structures textuelles non séquentielles. Quest-ce que le vocabulaire (vs lexique) ? Quest-ce quun vocable (vs lexème) On peut « exprimer » le vocabulaire comme liste des vocables (avec indication de leur fréquence). On peut même utiliser ce « dictionnaire élémentaire » comme répertoire (cliquable en hypertexte). Mais on peut aussi concevoir quun vocable est une série doccurrences. Il détermine une série de contextes (phrases e.g.) Cette série de contextes est une espèce particulière - et particulièrement intéressante - de « sous-ensemble » textuel.

79 PAUSE… Structures textuelles non séquentielles. Quest-ce que le vocabulaire (vs lexique) ? Quest-ce quun vocable (vs lexème) Nous pouvons déterminer si, dans le contexte total – discontinu – dun vocable, tel autre vocable est significativement plus présent que dans lensemble du texte. (écart-réduit > 2)

80 PAUSE… Structures textuelles non séquentielles. Quest-ce que le vocabulaire (vs lexique) ? Quest-ce quun vocable (vs lexème) Nous pouvons déterminer, pour un vocable, quels sont ses cooccurrents les plus forts. (exemple : concurrence_SF)

81 PAUSE… Structures textuelles non séquentielles. Quest-ce que le vocabulaire (vs lexique) ? Quest-ce quun vocable (vs lexème) Nous pouvons généraliser cette observation, en comparant les profils de cooccurrence des principaux vocables dun ensemble textuel. On recueille les données dans une matrice lignes/colonnes :

82 PAUSE… Structures textuelles non séquentielles. Quest-ce que le vocabulaire (vs lexique) ? Quest-ce quun vocable (vs lexème) LAnalyse Factorielle des Correspondances (AFC) permet de classer les profils cooccurrentiels et de projeter cette classification en un nuage de points (ici, un nuage dans lespace 3D dune boule, repris en planisphère)

83 PAUSE… Structures textuelles non séquentielles. Quest-ce que le vocabulaire (vs lexique) ? Quest-ce quun vocable (vs lexème) La proximité (angulaire) des points du nuage est une fonction approchée de leur parenté de profil « (micro-)distributionnel ». Cette proximité définit ce que nous nommons ISOTROPIE.

84 PAUSE… Structures textuelles non séquentielles. Quest-ce que le vocabulaire (vs lexique) ? Quest-ce quun vocable (vs lexème) L ISOTROPIE, rapport d équivalence distributionnelle au sens harrissien, structure le vocabulaire en éclairant la signification (en contexte) ditems lexicaux pluri-occurrents. Elle donne à la fois un aperçu « thématique » sur lensemble et un aperçu « sémantique » sur le détail. Elle soppose conceptuellement à l ISOTOPIE, avec laquelle elle peut opérationnellement être en rapport de complémentarité.

85 Est-ce réellement encore… une PAUSE ? Structures textuelles non séquentielles. Quest-ce que le vocabulaire (vs lexique) ? Quest-ce quun vocable (vs lexème) Plus sophistiqué. On peut repérer dans le nuage les items sur-employés dans une partie discursive du corpus. Ici, en bleu, les vocables privilégiés par les syndicats dagriculteurs (princ. Confédération Paysanne )

86 Est-ce réellement encore… une PAUSE ? Structures textuelles non séquentielles. Quest-ce que le vocabulaire (vs lexique) ? Quest-ce quun vocable (vs lexème) On peut même affecter 4 couleurs distinctes aux vocables privilégiés par les 4 principaux groupes énonciateurs.

87 Est-ce réellement encore… une PAUSE ? Structures textuelles non séquentielles. Quest-ce que le vocabulaire (vs lexique) ? Quest-ce quun vocable (vs lexème) Ce nest pas toujours le cas, mais ici la structure isotropique est fortement homologue de la répartition par groupes dénonciateurs. Ce fut même un élément-clé de notre rapport dinterprétation.

88 Révisons… Profils micro-distributionnels

89 Révisons… Profils micro-distributionnels Comparaison par paires : deux profils voisins.

90 Révisons… Profils micro-distributionnels Comparaison par paires : deux profils opposés.

91 Révisons… Analyse multidimensionnelle (AFC) de lisotropie. (plan des 2 premiers facteurs)

92 Avançons… Une autre application : le lexique en discours. Eléments de description lexicologique dun vocable : REGARD,Nm Balzac, La Comédie humaine

93 Avançons… Une autre application : le lexique en discours. Balzac, La Comédie humaine Viprey 2005A

94 Avançons… Une autre application : le lexique en discours.

95 Avançons… Une autre application : le lexique en discours. Eléments de description lexicologique différentielle dun vocable : REGARD,Nm éclairé par REGARDER,V Balzac, La Comédie humaine

96 Généralisons… CONSTITUER, TRAITER… LIRE LES [GRANDS] CORPUS ? Un « grand » corpus, ce peut être des centaines de millions de mots (étude dun discours de presse)… mais aussi bien mots sils se répartissent dans 700 articles parfois très fastidieux (notre exemple au service du SGAR de Franche-Comté).

97 Généralisons… CONSTITUER, TRAITER… LIRE LES [GRANDS] CORPUS ? « Traiter » un grand corpus, cest bien sûr une question statistique. On fait monter ses régularités, ses saillances, on le cartographie. Cela, en vue dune meilleure pénétration dun discours. La question souvent éludée en sciences humaines, cest le choix des attestations. Lexpertise de lexpert se mord un peu la queue…

98 Généralisons… CONSTITUER, TRAITER… LIRE LES [GRANDS] CORPUS ? Certains logiciels prétendent extraire les phrases les plus représentatives, fabriquer des résumés, le tout automatiquement (« boîtes noires »). Lambition dune ATD « outillée » est daider le chercheur à explorer son corpus au plus près de ses compétences et de ses hypothèses, par un « retour au texte » aussi plénier que possible. Par lalternance des « états de texte » (plein texte, dictionnaires, listes, cartes, formules de requête…)

99 Généralisons… CONSTITUER, TRAITER… LIRE LES [GRANDS] CORPUS ? Lambition dune ATD « outillée » est de VIABILISER les corpus en vue dun travail constitutif, descriptif, réflexif et interprétatif élargi et approfondi. Cette ambition se rencontre avec le développement des concepts et des techniques de l HYPERTEXTE, dont HTML et XML sont les langages. Hyperbase depuis quinze ans, Astartex-DiaTag plus modestement, préfigurent cet environnement un peu « intégral » où se rejoignent le philologue et lherméneute.

100 Bibliographie… La bibliographie est donnée en notes sur les diapositives, à lexception des références de lauteur, qui suivent : 2008 avec Virginie Lethier (coordonnateurs) Semen n°25, Le Discours de presse au XIXème siècle : pratiques socio-discursives émergentes. – Besançon, Presses Universitaires de Franche-Comté 2008 avec Virginie Lethier «Annotation linguistique de corpus : vers lexhaustivité par la convialité.» in JADT09, 9èmes Journées internationales d'Analyse statistique des Données Textuelles. – Lyon, Presses Universitaires de Lyon 2006 (coordonnateur) JADT06, 8èmes Journées internationales d'Analyse statistique des Données Textuelles. – Besançon, Presses Universitaires de Franche-Comté « Philologie numérique et herméneutique intégrative » in Sciences du texte et analyse de discours : enjeux dune interdisciplinarité dir. Jean-Michel Adam & Ute Heidman. – Genève : Slatkine (pp ) 2006 « About Labbés intertextual distance » in Journal of Quantitatie Linguistics vol.13 n° 2-3 Août- Décembre 2006, Routledge (pp ) 2006 « …un de ces syntagmes qui… » in Corpus n°5, Corpus et stylistique, 2006, CNRS-UNSA « Quelle place pour les sciences des textes dans lAnalyse de Discours » in Semen n° 21 Catégories pour lanalyse du discours politique, Besançon, Presses Universitaires de Franche-Comté (pp ) 2006 « Ergonomiser la visualisation AFC dans un environnement dexploration textuelle : une projection géodésique » in JADT06, 8èmes Journées internationales d'Analyse statistique des Données Textuelles. – Besançon, Presses Universitaires de Franche-Comté « Méthodes pour la lecture des corpus » in Sémantique et corpus dir. Anne Condamines. – Hermès 2005 « Structure non séquentielle du texte » in Langages n° 161, Unité(s) du texte dir. Dominique Legallois. – Paris : Larousse. (pp ) 2002 Analyses textuelles et hypertextuelles des Fleurs du mal - Champion, Paris Dynamique du vocabulaire des Fleurs du mal - Champion, Paris. (Prix International de la Fondation Paul-Robert 1998).


Télécharger ppt "La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice"

Présentations similaires


Annonces Google