La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

La linguistique textuelle à l’orée du numérique

Présentations similaires


Présentation au sujet: "La linguistique textuelle à l’orée du numérique"— Transcription de la présentation:

1 La linguistique textuelle à l’orée du numérique
Jean-Marie Viprey Maison des Sciences de l’Homme de Franche-Comté UMR Bases Corpus Langages CNRS-Nice

2 La linguistique textuelle à l’orée du numérique
Jean-Marie Viprey 1996 Thèse de IIIème cycle : Dynamique du vocabulaire des Fleurs du mal Dir. : Jean Peytard Jury : Jean-Michel Adam, Etienne Brunet, Claude Condé, Pierre Malandain, Jean-Philippe Massonie 2002 : HDR Jury : Jean-Michel Adam, Claude Blum, Claude Condé, Georges Molinié, André Salem, Max Silberztein Linguistique informatique Linguistique textuelle Philologie Statistique Statistique textuelle Stylistique littéraire _____________________________________________________________ Dir.Adjoint de l’Equipe d’Accueil 3817 Archives, Textes, Sciences des Textes (ATST) Membre associé de l’EA 2181 Laboratoire de Sémio-linguistique, Didactique, Informatique (LASELDI) Coordonnateur du pôle Archive, Bases, Corpus de la MSHE de Franche-Comté (USR CNRS) En délégation ( ?) au CNRS, UMR Bases Corpus Langages – Nice.

3 Lausanne, 2004 : Sciences du Texte et Analyse de Discours
Adam J.-M. & Heidmann U. (2005). Sciences du texte et analyse de discours. Slatkine

4 Introduction à l’ Analyse Textuelle du Discours ATD
J.-M. Adam, 2005 : Introduction à l’ Analyse Textuelle du Discours ATD Adam J.-M. (1997). Linguistique textuelle : des genres de discours aux textes. Nathan Adam J.-M. (2005). La linguistique textuelle : introduction à l’analyse textuelle des discours. Colin

5 Le texte [est-il] le véritable objet de la linguistique [?]
Redéfinir le texte ? Le texte [est-il] le véritable objet de la linguistique [?] (Rastier Sens et textualité – 1989) Rastier François 1989 : Sens et textualité, Paris, Hachette

6 Le texte est-il l’objet de la linguistique textuelle ?
Redéfinir le texte ? Si oui, la linguistique textuelle n’aurait guère lieu d’être. La linguistique serait constamment textuelle… Le texte est-il l’objet de la linguistique textuelle ?

7 cf Halliday & Hasan, Weinrich, le premier Rastier, Adam 1999.
Redéfinir le texte ? L’objet de la linguistique textuelle, telle qu’elle s’est développée historiquement, c’est l’ énoncé suivi. cf Halliday & Hasan, Weinrich, le premier Rastier, Adam 1999. Le principal point d’appui de la LT historique, c’est la critique de la linguistique de la phrase cf Benveniste 1974. Benveniste E. (1974) Problèmes de linguistique générale. Gallimard.

8 Redéfinir le texte ? Malgré l’autorité de la tradition grammaticale, tout engage la linguistique à prendre les textes pour objet : elle affronte alors des phénomènes d’une tout autre échelle, en vraie grandeur pourrait-on dire. Rastier (2001 : 13) (souligné par nous) Rastier François 2001 : Arts et sciences du texte, Paris, Seuil

9 Redéfinir le texte ? […] un texte est une suite linguistique empirique attestée, produite dans une pratique sociale déterminée, et fixée sur un support quelconque. Rastier (2001 : 21) Objectivité, écologie, empirie

10 Un texte est-il un « être » ?
Redéfinir le texte ? Un texte est-il un « être » ? Avons-nous intérêt à lui donner une définition « ontique » ? Par qui/quoi est-il « attesté » ?

11 Dimension(s) textuelle(s) Configuration(s) textuelle(s)
Redéfinir le texte ? Textuel(le)(s) Textualité(s) Dimension(s) textuelle(s) Configuration(s) textuelle(s)

12 de l’Analyse du Discours Analyse Textuelle du Discours
Redéfinir le texte ? Déficit philologique de l’Analyse du Discours >>>> Analyse Textuelle du Discours

13 Redéfinir le texte ? Le texte serait un DISPOSITIF construit pour être une voie d’accès au discours qu’il matérialise, non pas a priori ou par « production », mais par construction.

14 Redéfinir le texte ? Ainsi, il n’est pas « produit » par le discours. Il est construit en vue de permettre un accès second à l’activité discursive (accès répétable et/ou critique, (re)mise en discours, ordinaire ou savante)

15 La phrase n’est pas un constituant du texte.
Redéfinir le texte ? Adam à partir de 1999 et surtout de 2004 modifie le positionnement de la LT. La phrase n’est pas un constituant du texte. Certains constituants ne sont pas des phrases, voire pas des organisations verbales. Surtout : il y a (au moins) un palier intermédiaire.

16 Texte (étymologiquement parlant) : assemblage, couture, configuration…
Redéfinir le texte ? Texte (étymologiquement parlant) : assemblage, couture, configuration…

17 Texte (étymologiquement parlant) : assemblage, couture, configuration…
Redéfinir le texte ? Texte (étymologiquement parlant) : assemblage, couture, configuration… de phrases ?

18 Texte (étymologiquement parlant) : assemblage, couture, configuration…
Redéfinir le texte ? Texte (étymologiquement parlant) : assemblage, couture, configuration… de phrases ? d’énoncés (plurisémiotiques : miniatures, tableaux… )

19 Texte (étymologiquement parlant) : assemblage, couture, configuration…
Redéfinir le texte ? Texte (étymologiquement parlant) : assemblage, couture, configuration… d’énoncés eux-mêmes assemblés dans des documents (plurisémiotiques : miniatures, tableaux, touches sonores des livres pour enfants… notes de bas de pages, liens intertextuels, listes, figures…)

20 (partie logico-rhétorique)
Redéfinir le texte ? Ainsi la séquence pourrait être considérée comme un cas particulier, un type d’énoncé (partie logico-rhétorique) assemblé selon un type de modalité (séquentielle).

21 Question fréquemment posée :
Redéfinir le texte ? Question fréquemment posée : (dans l’optique lexicométrique, notamment) « Le titre fait-il partie du texte ? Et les notes de bas de page ?... »

22 - Oui, et du document aussi. Mais ce sont des énoncés distincts. »
Redéfinir le texte ? Question fréquemment posée : (dans l’optique lexicométrique, notamment) « Le titre fait-il partie du texte ? Et les notes de bas de page ?... - Oui, et du document aussi. Mais ce sont des énoncés distincts. » (comme peuvent l’être, selon les angles d’approche, les répliques des personnages en discours direct, mais aussi des parties successives que toute analyse est susceptible de distinguer) (et nous ne sommes plus ici dans une optique strictement lexicométrique !)

23 Les variantes… variation « écrasée », décontextualisée
Redéfinir le texte ? Les variantes… En édition scientifique : indication/indexation, dans l’appareil critique, de lieux où deux documents divergent variation « écrasée », décontextualisée (cf Adam 2005, Paveau-Sarfaty 2006)

24 En édition scientifique : variation « écrasée », décontextualisée
Redéfinir le texte ? Les variantes… En édition scientifique : indication/indexation, dans l’appareil critique, de lieux où deux documents divergent variation « écrasée », décontextualisée « en droit » : Mise en parallèle de N documents du texte considéré, et observation de cette variation en multi-contexte

25 réécritures, intertexte, traduction
Redéfinir le texte ? Même chose à propos de tous les aspects de cette variation ramifiée qu’est le texte : réécritures, intertexte, traduction bien sûr… mais aussi…

26 Redéfinir le texte ? Même chose à propos de tous les aspects de cette variation ramifiée qu’est le texte : réécritures, intertexte, traduction bien sûr… mais aussi… transcription de l’oral, productions colingues …sans oublier…

27 Redéfinir le texte ? Même chose à propos de tous les aspects de cette variation ramifiée qu’est le texte : réécritures, intertexte, traduction bien sûr… mais aussi… transcription de l’oral, productions colingues …sans oublier… feuilleton, séries, rubriques de presse, performances théâtrales, tests de lecture

28 Constellation ouverte.
Redéfinir le texte ? Conclusion ? Un texte serait une constellation de documents eux-mêmes constitués d’ énoncés agencés. Constellation ouverte.

29 Foucault (Dits et écrits – 1994 : 708)
Redéfinir le texte ? Foucault (Dits et écrits – 1994 : 708) « J’appellerai archive, non pas la totalité des textes qui ont été conservés par une civilisation […] mais le jeu des règles qui déterminent dans une culture l’apparition et la disparition des énoncés, leur rémanence et leur effacement, leur existence paradoxale d’événements et de choses » Cité par Paveau & Serfati (2005 : 199)

30 configure et archive ses rapports avec l’ensemble des autres énoncés.
Redéfinir le texte ? Foucault (Dits et écrits – 1994 : 708) « J’appellerai archive, non pas la totalité des textes qui ont été conservés par une civilisation […] mais le jeu des règles qui déterminent dans une culture l’apparition et la disparition des énoncés, leur rémanence et leur effacement, leur existence paradoxale d’événements et de choses » Cité par Paveau & Serfati (2005 : 199) Où l’on peut lire (sans solliciter à l’excès) que le texte ne vaut (en AD) qu’en tant qu’il (recueille) sertit l’énoncé (authentique objet de la quête de sens et d’histoire), configure et archive ses rapports avec l’ensemble des autres énoncés. Paveau M.-A., Sarfati G.E. 2003 : Les grandes théories de la linguistique, Paris, Colin

31 Redéfinir le texte ? TEXTE / CORPUS ?

32 TEXTE / CORPUS ? TEXTE / BASE / CORPUS !
Redéfinir le texte ? TEXTE / CORPUS ? TEXTE / BASE / CORPUS !

33 Habert, Nazarenko, Salem ( 1997 : 11) :
Redéfinir le texte ? TEXTE / CORPUS ? TEXTE / BASE / CORPUS ! Habert, Nazarenko, Salem ( 1997 : 11) : Nous employons le mot corpus dans une acception restreinte empruntée à J.Sinclair (1996 : 4) : « un corpus est une collection de données langagières qui sont sélectionnées et organisées selon des critères linguistiques explicites pour servir d’ échantillon du langage ». […] A cette aune, nombre de ressources textuelles perdent cette dénomination. Il s’agit souvent de collections ou de rassemblements de textes électroniques plutôt que de corpus à proprement parler. Habert Benoît, Nazarenko Adeline, Salem André 1997 : Les linguistiques de corpus, Paris, Colin.

34 Habert, Nazarenko, Salem
Redéfinir le texte ? TEXTE / CORPUS ? TEXTE / BASE / CORPUS ! Habert, Nazarenko, Salem (Les linguistiques de corpus : 11) : Nous employons le mot corpus dans une acception restreinte empruntée à J.Sinclair (1996 : 4) : « un corpus est une collection de données langagières qui sont sélectionnées et organisées selon des critères linguistiques explicites pour servir d’ échantillon du langage ». […] A cette aune, nombre de ressources textuelles perdent cette dénomination. Il s’agit souvent de collections ou de rassemblements de textes électroniques plutôt que de corpus à proprement parler.

35 Redéfinir le texte ? Le texte est donc un élément constitutif d’archive, matérialisable dans une base sous forme de documents reliés abstraitement et/ou matériellement. Son principe constitutif est d’ordre culturel (mythe, loi, rite, histoire, biographie, didactique, etc…)

36 Le corpus est un prélèvement d’archive, constitué d’énoncés.
Redéfinir le texte ? Le corpus est un prélèvement d’archive, constitué d’énoncés. Son principe constitutif est d’ordre hypothético-déductif ou mieux dit réflexif (Guilhaumou, Mayaffre) Mayaffre D. (2002) « Les corpus réflexifs : entre architextualité et hypertextualité » in Corpus n°1. Guilhaumou J. (2002) « Le corpus en analyse de discours. Perspective historique » ibid. Revue Corpus en ligne :

37 Redéfinir le texte ? La textualité ?

38 Redéfinir le texte ? La textualité ? L’ensemble des aspects de « cet » agencement d’énoncés en un texte, qui en font une unité cohésive et cohérente = texture (H & H) ? Halliday m.a.k., Hasan Ruqaiya 1976 : Cohesion in English, London, Longman

39 Oui, à condition d’en faire une lecture critique :
Redéfinir le texte ? La textualité ? L’ensemble des aspects de « cet » agencement d’énoncés en un texte, qui en font une unité cohésive et cohérente = texture (H & H) ? Oui, à condition d’en faire une lecture critique : *Un texte n’est pas « directement » constitué de phrases ([…] If a passage of English containing more than one sentence is perceived as a text […] C.i.E. : 2) souligné par nous

40 Oui, à condition d’en faire une lecture critique :
Redéfinir le texte ? La textualité ? L’ensemble des aspects de « cet » agencement d’énoncés en un texte, qui en font une unité cohésive et cohérente = texture (H & H) ? Oui, à condition d’en faire une lecture critique : *Un texte n’est pas « directement » constitué de phrases ([…] If a passage of English containing more than one sentence is perceived as a text […] C.i.E. : 2) *La texture ne relève pas intrinsèquement des ressources propres à une langue particulière ( What we are investigating […] are the resources that English has for creating texture. ibid.) souligné par nous

41 Excursus : Langue et discours, langue(s) et texte(s)
Redéfinir le texte ? Excursus : Langue et discours, langue(s) et texte(s) R.Balibar (1983, 85, 93)

42 Redéfinir le texte ? La textualité ? Les rapports entre les divers documents du texte relève en droit de la textualité, tout autant que les rapports entre énoncés dans l’hypothèse d’un texte « simple » (à un document).

43 Le texte ainsi défini est un champ.
Redéfinir le texte ? La textualité ? Le texte ainsi défini est un champ. Cela règle son rapport (multilatéral) à ses unités de toute échelle et les rapports de ces unités entre elles.

44 Le texte ainsi défini est un champ.
Redéfinir le texte ? La textualité ? Le texte ainsi défini est un champ. Cela règle son rapport (multilatéral) à ses unités de toute échelle et les rapports de ces unités entre elles. C’est ce que, relisant Rastier (1989) nous avons projeté d’appliquer aux unités de très petite dimension, mots (Viprey 1997) et « phonèmes » (Viprey 1998) notamment.

45 Le texte ainsi défini est un champ.
Redéfinir le texte ? La textualité ? Le texte ainsi défini est un champ. Cela règle son rapport (multilatéral) à ses unités de toute échelle et les rapports de ces unités entre elles. Un mot (une occurrence) interagit certes avec l’énoncé (perspective distributionnelle « classique », Harris). Mais l’interaction productrice de sens s’exerce et s’analyse au niveau du texte, comme « masse » et comme « configuration ».

46 Le texte ainsi défini est un champ.
Redéfinir le texte ? La textualité ? Le texte ainsi défini est un champ. Cela règle son rapport (multilatéral) à ses unités de toute échelle et les rapports de ces unités entre elles. Un mot (une occurrence) interagit certes avec l’énoncé (perspective distributionnelle « classique », Harris). Mais l’interaction productrice de sens s’exerce et s’analyse au niveau du texte, comme « masse » et comme « configuration ». C’est ce que nous avions cru pouvoir nommer texture, négligeant l’emploi H&H et l’effet de traduction ; pour H&H texture désigne l’ensemble des effets de champ : The concept of TEXTURE is entirely appropriate to express the property of ‘being a text’ (C.i.E. : 2)

47 Le texte ainsi défini est un champ. macro/méso/micro –textualité ?
Redéfinir le texte ? La textualité ? Le texte ainsi défini est un champ. Cela règle son rapport (multilatéral) à ses unités de toute échelle et les rapports de ces unités entre elles. Un mot (une occurrence) interagit certes avec l’énoncé (perspective distributionnelle « classique », Harris). Mais l’interaction productrice de sens s’exerce et s’analyse au niveau du texte, comme « masse » et comme « configuration ». C’est ce que nous avions cru pouvoir nommer texture, négligeant l’emploi H&H et l’effet de traduction ; pour H&H texture désigne l’ensemble des effets de champ : The concept of TEXTURE is entirely appropriate to express the property of ‘being a text’ (C.i.E. : 2) macro/méso/micro –textualité ?

48 Qu’est-ce qu’un texte à l’ère numérique ?
Redéfinir le texte ? Qu’est-ce qu’un texte à l’ère numérique ? ou bien : Que nous dit l’ère numérique du statut du texte ?   

49 Brève histoire (très orientée !) de l’informatisation des « textes »
[EXCURSUS] A toute « origine », la discrétisation graphique. cf Goody 1997 et 2007

50 Brève histoire (très orientée !) de l’informatisation des « textes »
Aux « origines » de l’informatique « moderne » : des problèmes d’espace… Codage sur un octet (8 bits) : pas de distinction majuscules/minuscules, caractères accentués/non accentués perte de la disposition spatiale et de la mise en forme des caractères

51 Brève histoire (très orientée !) de l’informatisation des « textes »
Mais aussi (surtout ?) : élimination de tout élément de complexité textuelle : « Choix » de l’édition Délimitation texte / « péritexte » (élimination de ce dernier) Valorisation de la seule surface graphique De ce point de vue, « TLF » et « Saint-Cloud » - par exemple – se rejoignent (et l’ensemble des entreprises de l’époque)

52 Brève histoire (très orientée !) de l’informatisation des « textes »
Facteurs d’évolution : [sur fond de l’évolution technologique] * La demande liée au traitement de texte : Mise en forme et interopérabilité > RTF * La demande liée au Web et à l’hypertexte : Navigabilité (viabilisation) > HTML, XML.

53 Brève histoire (très orientée !) de l’informatisation des « textes »
Facteurs d’évolution : [sur fond de l’évolution technologique] * La demande liée au traitement de texte : Mise en forme et interopérabilité > RTF * La demande liée au Web et à l’hypertexte : Navigabilité (viabilisation) > HTML, XML. Paradoxe : ces évolutions atteignent TARDIVEMENT le domaine encore inconstitué et innommé où vont se rencontrer les sciences et techniques du texte…

54 Brève histoire (très orientée !) de l’informatisation des « textes »
Facteurs d’évolution : [sur fond de l’évolution technologique] * La demande liée au traitement de texte : Mise en forme et interopérabilité > RTF * La demande liée au Web et à l’hypertexte : Navigabilité (viabilisation) > HTML, XML. Paradoxe : ces évolutions atteignent TARDIVEMENT le domaine encore inconstitué et innommé où vont se rencontrer les sciences et techniques du texte… Exemple : les immenses ressources des grandes bibliothèques publiques sont longtemps numérisées et mises en ligne en mode image (PDF) à l’exclusion du mode texte (Gallica-BNF).

55 Brève histoire (très orientée !) de l’informatisation des « textes »
Facteurs d’évolution : [sur fond de l’évolution technologique] * La demande liée au traitement de texte : Mise en forme et interopérabilité > RTF * La demande liée au Web et à l’hypertexte : Navigabilité (viabilisation) > HTML, XML. Paradoxe : ces évolutions atteignent TARDIVEMENT le domaine encore inconstitué et innommé où vont se rencontrer les sciences et techniques du texte… Exemple : les immenses ressources des grandes bibliothèques publiques sont longtemps numérisées et mises en ligne en mode image (PDF) à l’exclusion du mode texte (Gallica-BNF). et leur océrisation contrôlée n’est toujours pas considérée comme une priorité des politiques publiques.

56 Brève histoire (très orientée !) de l’informatisation des « textes »
Text Encoding Initiative (TEI)

57 Brève histoire (très orientée !) de l’informatisation des « textes »
Text Encoding Initiative (TEI) Représentation XML exhaustive, standardisée, cumulative, interopérable, coopérative.

58 Brève histoire (très orientée !) de l’informatisation des « textes »
Un document TEI comporte : Un en-tête (header) dédié aux métadonnées communes : Instanciation, autorités, signatures, déclaration DTD Un corps (body) dédié au stockage des énoncés et de leurs annotations fines. La répartition de l’annotation entre en-tête et corps est souple ; de même que la segmentation du texte en documents TEI.

59 Brève histoire (très orientée !) de l’informatisation des « textes »
<title><w forme="Au" lemme="À_prep" ><w forme= lemme="le_artdef" flex="ms">Au <w forme="Lecteur" lemme="lecteur_sm" flex="s">Lecteur</title><BR><BR> <verse><w forme="La" lemme="le_artdef" flex="fs">La <w forme="sottise" lemme="sottise_sf" flex="s">sottise<pct forme="," lemme="vrgl">, <w forme="l'" lemme="le_artdef" flex="xs">l'<w forme="erreur" lemme="erreur_sf" flex="s">erreur<pct forme="," lemme="vrgl">, <w forme="le" lemme="le_artdef" flex="ms">le <w forme="péché" lemme="péché_sm" flex="s"><pct forme="," lemme="vrgl">, <w forme="la" lemme="le_artdef" flex="fs">la <w forme="lésine" lemme="lésine_sf" flex="s">lésine<pct forme="," lemme="vrgl">,<format d'appel de note vers Pichon-Pléiade></verse>

60 Brève histoire (très orientée !) de l’informatisation des « textes »
Philologie numérique : Préparation et établissement des documents TEI décrivant un manuscrit (une paléographie), une édition, une annotation, un ensemble de signets, dans la perspective de leur intégration à un réseau de documents pouvant : être reliés à la définition informatique (par adresses, arborescente) d’un texte être critiqués et commentés par d’autres être identifiés (historicisés) … être explorés en corpus

61 Pôle Archive, Bases, Corpus :
Applications… Pôle Archive, Bases, Corpus : *Développement DIATAG : établissement et annotation de textes en français moderne et contemporain *Développement ASTARTEX : environnement d’analyse textuelle et d’exploration assistée *Ressources textuelles (acquisition + préparation) : Base « Presse comtoise  » Base « Aveux de détenus politiques en RD de Guinée sous Sékou Touré » Base « Socialisme utopique – Proudhon, Fourier, Considérant… » Base « Claudel – théâtre, poésie, correspondance » Base « Presse vernaculaire contemporaine en Région – commandite Europe-Région » Base « Littérature orale des phnong du Cambodge » Base « Presse coloniale francophone en Indochine »

62 Applications… Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté historique : La MSHE de Franche-Comté et ses tutelles financières; le SGAR Commandite / mise à l’épreuve : « pourquoi notre région, copieusement arrosée de fonds structurants européens, vote-t-elle à 57% ‘non’ au referendum TCE de mai 2005 ? »

63 Notre réponse (proposition du pôle ABC) :
Applications… Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté historique : La MSHE de Franche-Comté et ses tutelles financières; le SGAR Commandite / mise à l’épreuve : « pourquoi notre région, copieusement arrosée de fonds structurants européens, vote-t-elle à 57% ‘non’ au referendum TCE de mai 2005 ? » Notre réponse (proposition du pôle ABC) : A côté d’un sondage classique d’opinion, un volet d’ analyse du discours de presse. Recueillir l’ensemble des publications déposées au dépôt légal régional entre avril 2004 et mai 2006 Les océriser, les disposer en une base textuelle Constituer un corpus d’étude et le soumettre à une analyse exploratoire débouchant sur quelques conclusions Inscrire cette opération dans une durée (suivi des représentations)

64 Applications… [excursus « qui n’a rien à voir ?...]
Bien souvent, dans le contexte universitaire contemporain, les moyens réduits nous conduisent à réduire (provisoirement) la base projetée aux dimensions du corpus adapté à l’enquête en cours (commande institutionnelle, publication, thèse…)

65 Applications… [excursus « qui n’a rien à voir ?...]
Bien souvent, dans le contexte universitaire contemporain, les moyens réduits nous conduisent à réduire (provisoirement) la base projetée aux dimensions du corpus adapté à l’enquête en cours (commande institutionnelle, publication, thèse…) Ce n’est pas une raison pour le « théoriser ».

66 Applications… Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté corpus : 942 titres de presse déposés (base) 282 titres « filtrés » par mots-clés 692 articles de longueurs variables (corpus)

67 Applications… Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté corpus : 692 fichiers PDF océrisés, corrigés, instanciés

68 Applications… Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté corpus : 692 fichiers balisés « mot à mot » (pseudo xml)

69 Applications… Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté corpus : « mots » (occurrences, tokens) formes graphiques (types) Opération de lemmatisation (étiquetage lexical et morphologique) Alternance d’applications automatiques de ressources (dictionnaires et scripts de levée contextuelle d’ambiguïtés graphiques) de phases de décision interactive pour les cas indécidables par automates Maintenance et enrichissement des ressources linguistiques (système DiaTag)

70 Applications… Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté corpus :

71 Applications… Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté corpus : occurrences lemmes (types)

72 Applications… Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté Une comparaison « exogène » : une base contemporaine (2002) de 5 quotidiens nationaux d’information générale sur 5 mois – 30 millions de mots. Non lemmatisée. Occurrences, puis écarts-réduits à l’équidistribution. Muller Ch. (1992). Initiation aux méthodes de la statistique linguistique. Champion

73 Applications… Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté Une comparaison « endogène » : la distribution d’un item lexical repéré comme « mot-clé » parmi les parties structurelles du corpus. Perspective discursive. Ouvre sur l’interprétation.

74 Applications… Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté Le tableau de la distribution générale des vocables dans les sous-corpus par groupes d’énonciateurs se présente comme suit. L’Analyse Factorielle des Correspondances (AFC) permet de classer les profils des lignes et des colonnes d’un tel tableau, et de projeter cette classification en un nuage de points (ici, un nuage dans l’espace 3D d’une boule, repris en planisphère). Lebart L. & Salem A. (1994). Statistique textuelle. Dunod Cibois Ph. (1994). L’Analyse factorielle. PUF

75 Applications… Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté Une comparaison « endogène » généralisée : la distribution d’un grand nombre d’items lexicaux parmi les parties structurelles du corpus. (AFC projection 3 facteurs)

76 Applications… Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté Une comparaison « endogène » généralisée : la distribution d’un grand nombre d’items lexicaux parmi les parties structurelles du corpus. Zoom.

77 Structures textuelles non séquentielles.
PAUSE… Structures textuelles non séquentielles. Qu’est-ce que le vocabulaire (vs lexique) ? Qu’est-ce qu’un vocable (vs lexème) On peut « exprimer » le vocabulaire comme liste des vocables (avec indication de leur fréquence). On peut même utiliser ce « dictionnaire élémentaire » comme répertoire (cliquable en hypertexte).

78 PAUSE… Structures textuelles non séquentielles. Qu’est-ce que le vocabulaire (vs lexique) ? Qu’est-ce qu’un vocable (vs lexème) On peut « exprimer » le vocabulaire comme liste des vocables (avec indication de leur fréquence). On peut même utiliser ce « dictionnaire élémentaire » comme répertoire (cliquable en hypertexte). Mais on peut aussi concevoir qu’un vocable est une série d’occurrences. Il détermine une série de contextes (phrases e.g.) Cette série de contextes est une espèce particulière - et particulièrement intéressante - de « sous-ensemble » textuel.

79 PAUSE… Structures textuelles non séquentielles. Qu’est-ce que le vocabulaire (vs lexique) ? Qu’est-ce qu’un vocable (vs lexème) Nous pouvons déterminer si, dans le contexte total – discontinu – d’un vocable, tel autre vocable est significativement plus présent que dans l’ensemble du texte. (écart-réduit > 2)

80 PAUSE… Nous pouvons déterminer, pour un vocable, quels
Structures textuelles non séquentielles. Qu’est-ce que le vocabulaire (vs lexique) ? Qu’est-ce qu’un vocable (vs lexème) Nous pouvons déterminer, pour un vocable, quels sont ses cooccurrents les plus forts. (exemple : concurrence_SF)

81 PAUSE… Structures textuelles non séquentielles. Qu’est-ce que le vocabulaire (vs lexique) ? Qu’est-ce qu’un vocable (vs lexème) Nous pouvons généraliser cette observation, en comparant les profils de cooccurrence des principaux vocables d’un ensemble textuel. On recueille les données dans une matrice lignes/colonnes :

82 PAUSE… Structures textuelles non séquentielles. Qu’est-ce que le vocabulaire (vs lexique) ? Qu’est-ce qu’un vocable (vs lexème) L’Analyse Factorielle des Correspondances (AFC) permet de classer les profils cooccurrentiels et de projeter cette classification en un nuage de points (ici, un nuage dans l’espace 3D d’une boule, repris en planisphère)

83 PAUSE… Structures textuelles non séquentielles. Qu’est-ce que le vocabulaire (vs lexique) ? Qu’est-ce qu’un vocable (vs lexème) La proximité (angulaire) des points du nuage est une fonction approchée de leur parenté de profil « (micro-)distributionnel ». Cette proximité définit ce que nous nommons ISOTROPIE.

84 PAUSE… Structures textuelles non séquentielles. Qu’est-ce que le vocabulaire (vs lexique) ? Qu’est-ce qu’un vocable (vs lexème) L’ ISOTROPIE, rapport d’ équivalence distributionnelle au sens harrissien, structure le vocabulaire en éclairant la signification (en contexte) d’items lexicaux pluri-occurrents. Elle donne à la fois un aperçu « thématique » sur l’ensemble et un aperçu « sémantique » sur le détail. Elle s’oppose conceptuellement à l’ ISOTOPIE, avec laquelle elle peut opérationnellement être en rapport de complémentarité.

85 Est-ce réellement encore… une PAUSE ?
Structures textuelles non séquentielles. Qu’est-ce que le vocabulaire (vs lexique) ? Qu’est-ce qu’un vocable (vs lexème) Plus sophistiqué. On peut repérer dans le nuage les items sur-employés dans une partie discursive du corpus. Ici, en bleu, les vocables privilégiés par les syndicats d’agriculteurs (princ. Confédération Paysanne )

86 Est-ce réellement encore… une PAUSE ?
Structures textuelles non séquentielles. Qu’est-ce que le vocabulaire (vs lexique) ? Qu’est-ce qu’un vocable (vs lexème) On peut même affecter 4 couleurs distinctes aux vocables privilégiés par les 4 principaux groupes énonciateurs.

87 Est-ce réellement encore… une PAUSE ?
Structures textuelles non séquentielles. Qu’est-ce que le vocabulaire (vs lexique) ? Qu’est-ce qu’un vocable (vs lexème) Ce n’est pas toujours le cas, mais ici la structure isotropique est fortement homologue de la répartition par groupes d’énonciateurs. Ce fut même un élément-clé de notre rapport d’interprétation.

88 Profils micro-distributionnels
Révisons… Profils micro-distributionnels

89 Révisons… Profils micro-distributionnels
Comparaison par paires : deux profils voisins.

90 Révisons… Profils micro-distributionnels
Comparaison par paires : deux profils opposés.

91 Révisons… Analyse multidimensionnelle (AFC) de l’isotropie.
(plan des 2 premiers facteurs)

92 Avançons… Une autre application : le lexique en discours.
Eléments de description lexicologique d’un vocable : REGARD,Nm Balzac, La Comédie humaine

93 Avançons… Une autre application : le lexique en discours. Balzac,
La Comédie humaine Viprey 2005A

94 Une autre application : le lexique en discours.
Avançons… Une autre application : le lexique en discours.

95 Une autre application : le lexique en discours.
Avançons… Une autre application : le lexique en discours. Eléments de description lexicologique différentielle d’un vocable : REGARD,Nm éclairé par REGARDER,V Balzac, La Comédie humaine

96 CONSTITUER, TRAITER… LIRE
Généralisons… CONSTITUER, TRAITER… LIRE LES [GRANDS] CORPUS ? Un « grand » corpus, ce peut être des centaines de millions de mots (étude d’un discours de presse)… mais aussi bien mots s’ils se répartissent dans 700 articles parfois très fastidieux (notre exemple au service du SGAR de Franche-Comté).

97 CONSTITUER, TRAITER… LIRE
Généralisons… CONSTITUER, TRAITER… LIRE LES [GRANDS] CORPUS ? « Traiter » un grand corpus, c’est bien sûr une question statistique. On fait monter ses régularités, ses saillances, on le cartographie. Cela, en vue d’une meilleure pénétration d’un discours. La question souvent éludée en sciences humaines, c’est le choix des attestations. L’expertise de l’expert se mord un peu la queue…

98 CONSTITUER, TRAITER… LIRE
Généralisons… CONSTITUER, TRAITER… LIRE LES [GRANDS] CORPUS ? Certains logiciels prétendent extraire les phrases les plus représentatives, fabriquer des résumés, le tout automatiquement (« boîtes noires »). L’ambition d’une ATD « outillée » est d’aider le chercheur à explorer son corpus au plus près de ses compétences et de ses hypothèses, par un « retour au texte » aussi plénier que possible. Par l’alternance des « états de texte » (plein texte, dictionnaires, listes, cartes, formules de requête…)

99 CONSTITUER, TRAITER… LIRE
Généralisons… CONSTITUER, TRAITER… LIRE LES [GRANDS] CORPUS ? L’ambition d’une ATD « outillée » est de VIABILISER les corpus en vue d’un travail constitutif, descriptif, réflexif et interprétatif élargi et approfondi. Cette ambition se rencontre avec le développement des concepts et des techniques de l’ HYPERTEXTE, dont HTML et XML sont les langages. Hyperbase depuis quinze ans, Astartex-DiaTag plus modestement, préfigurent cet environnement un peu « intégral » où se rejoignent le philologue et l’herméneute.

100 Bibliographie… La bibliographie est donnée en notes sur les diapositives, à l’exception des références de l’auteur, qui suivent : ● 2008 avec Virginie Lethier (coordonnateurs) Semen n°25, Le Discours de presse au XIXème siècle : pratiques socio-discursives émergentes. – Besançon, Presses Universitaires de Franche-Comté ● 2008 avec Virginie Lethier «Annotation linguistique de corpus : vers l’exhaustivité par la convialité.» in JADT’09, 9èmes Journées internationales d'Analyse statistique des Données Textuelles. – Lyon, Presses Universitaires de Lyon ● 2006 (coordonnateur) JADT’06 , 8èmes Journées internationales d'Analyse statistique des Données Textuelles. – Besançon, Presses Universitaires de Franche-Comté. ● 2006 « Philologie numérique et herméneutique intégrative » in Sciences du texte et analyse de discours : enjeux d’une interdisciplinarité dir. Jean-Michel Adam & Ute Heidman. – Genève : Slatkine (pp ) ● 2006 « About Labbé’s intertextual distance » in Journal of Quantitatie Linguistics vol.13 n° 2-3 Août-Décembre 2006, Routledge (pp ) ● 2006 « …un de ces syntagmes qui… » in Corpus n°5, Corpus et stylistique, 2006, CNRS-UNSA. ● 2006 « Quelle place pour les sciences des textes dans l’Analyse de Discours » in Semen n° 21 Catégories pour l’analyse du discours politique, Besançon, Presses Universitaires de Franche-Comté (pp ) ● 2006 « Ergonomiser la visualisation AFC dans un environnement d’exploration textuelle : une projection ‘géodésique’ » in JADT’06, 8èmes Journées internationales d'Analyse statistique des Données Textuelles. – Besançon, Presses Universitaires de Franche-Comté. ● 2005 « Méthodes pour la lecture des corpus » in Sémantique et corpus dir. Anne Condamines. – Hermès ● 2005 « Structure non séquentielle du texte » in Langages n° 161, Unité(s) du texte dir. Dominique Legallois. – Paris : Larousse. (pp ) ● 2002 Analyses textuelles et hypertextuelles des Fleurs du mal - Champion, Paris. ● 1997 Dynamique du vocabulaire des Fleurs du mal - Champion, Paris. (Prix International de la Fondation Paul-Robert 1998).


Télécharger ppt "La linguistique textuelle à l’orée du numérique"

Présentations similaires


Annonces Google