Semaine du Document Numérique Colloque International sur la Fouille de Textes La Rochelle – 22-24 juin 2004 Rey Christophe, Zaoui Corinne Université de Provence, Equipe DELIC Christophe.Rey@up.univ-aix.fr zaoui@up.univ-aix.fr Le balisage XML "ciblé": une nouvelle approche dans l'informatisation des corpus Christophe Rey/ Corinne Zaoui - Equipe DELIC
L’informatisation des corpus S’opposent non seulement sur le type de jalonnage à adopter pour informatiser, mais aussi sur le type de balises qui vont servir au jalonnage car opposition balisage propriétaire et balisage normatif (SGML). Christophe Rey/ Corinne Zaoui - Equipe DELIC
Une structure "molle" Exemple: Information étymologique « mouvante »: ACCENT, s.m. Ce mot vient d’accentum, supin du verbe accinere qui vient de ad & canere, […] (EM) (N.) GUTTURAL, E, adj. Appartenant à la gorge ou au gosier. Vaisseau guttural. Glande gutturale. Articulations, Consonnes gutturales. Ce mot, tiré immédiatement du latin Gutturalis, qui a le même sens, vient du nom Guttur (Gorge, Gosier). (EM) LABIAL, E, adj. Gram., qui appartient aux lèvres. Ce mot vient du latin labia (les lèvres). (EM) Bien que présentant déjà une certaine rigueur dans l’organisation de leurs champs informationnels, les dictionnaires anciens possèdent encore ce que l’on pourrait appeler « une structure molle » par opposition à une structure « rigide », puisque comme l’illustrent les exemples retenus, les champs informationnels peuvent se trouver à plusieurs endroits de la structure dictionnairique. Christophe Rey/ Corinne Zaoui - Equipe DELIC
Balisage Minimal <page n="589"> <col n="1"> Christophe Rey/ Corinne Zaoui - Equipe DELIC Information typographique sur la forme <page n="589"> <col n="1"> <p><lc>(N.) DENTAL, E.</lc> adj. Appartenant aux dents. Les articulations <i>dentales</i> sont des articulations linguales, dont l’explosion s’opère vers la pointe de la langue appuyée contre les dents. Il y en a des muettes, <i>d</i>, <i>t</i> ; & l’articulation <i>n</i>, outre ce qui la rend nasale, suppose d’ailleurs le même méchanisme que <i>d</i>, & doit être comptée parmi les <i>dentales</i>. Il y en a aussi des sifflantes, <i>z</i>, <i>s</i>. <i>Voyez ARTICULATION</i>. (M. BEAUZÉE.)</p> Localisation de la lexie dans la structure dictionnairique Balisage qui ne tient compte que l’aspect physique du document à informatiser. D’où succession de balises physiques. Aspect italique de certaines informations Restitution de la mise en page
Balisage Analytique Balisage typographique Christophe Rey/ Corinne Zaoui - Equipe DELIC Balisage Analytique Balisage typographique <Entry> <Form type=LEMMA> <Orth Rend=CAPS>(N. ) DENTAL, E</Orth>. <Form> <GramGrp> <Pos Type="ADJ">adj.</Pos> </GramGrp> <Sense> <Cdomain></Cdomain> <Def>Appartenant aux dents.</Def> <Ency>Les articulations dentales sont des articulations linguales, dont l'explosion s'opère vers la pointe de la langue appuyée contre les dents. Il y en a des muettes, d, t ; & l'articulation n, outre ce qui la rend nasale, suppose d'ailleurs le même méchanisme que d, & doit être comptée parmi les dentales. Il y en a aussi des sifflantes, z, s. Voyez <Ref Type="VEDETTE">ARTICULATION</Ref>.</Ency> </Sense> <Author>(M.BEAUZÉE.)</Author> </Entry> Définition Indication sur la forme Marque de domaine Partie du discours Délimitation du sens premier Note la totalité des champs informationnels, y compris les champs absents car repose sur la mise au point d’une structure type de l’article dictionnairique. Tous les champs sont bien emboîtés les uns dans les autres et rien n’est laissé sans être caractérisé. Développement encyclopédique Référence Auteur
Pourquoi le balisage Ciblé ? Pourquoi: pour répondre aux difficultés de découpage de certains champs informationnels Christophe Rey/ Corinne Zaoui - Equipe DELIC
Difficultés de découpage des champs informationnels (1) K, s.m. Grammaire. Si l’on confond à l’ordinaire l’i voyelle & l’i consonne, K est la dixième lettre & la septième consonne de notre alphabet ; mais si l’on distingue, comme je l’ai fait, la voyelle I & la consonne J, il faut dire que K est la onzième lettre & la huitième consonne de notre alphabet ; & c’est d’après cette hypothèse très-raisonnable, que désormais je coterai les autres lettres. K, Forme s.m. Information grammaticale Grammaire. Marque de domaine Si l’on confond à l’ordinaire l’i voyelle & l’i consonne, K est la dixième lettre & la septième consonne de notre alphabet ; mais si l’on distingue, comme je l’ai fait, la voyelle I & la consonne J, il faut dire que K est la onzième lettre & la huitième consonne de notre alphabet ; & c’est d’après cette hypothèse très-raisonnable, que désormais je coterai les autres lettres. Définition Pb différenciation DEF et DEV ENCY Développement encyclopédique Définition Christophe Rey/ Corinne Zaoui - Equipe DELIC
Difficultés de découpage des champs informationnels (2) Christophe Rey/ Corinne Zaoui - Equipe DELIC Difficultés de découpage des champs informationnels (2) (N.) OCULAIRE, adj. Relatif à l’œil. On appelle Diphthongue oculaire, une voyelle composée de deux voyelles simples réunies pour représenter une voix simple ; comme ai dans j’aimai, eu dans heureux, ou dans coucou, &c. Forme (N.) OCULAIRE, Information grammaticale adj. Relatif à l’œil. Définition On appelle Diphthongue oculaire, une voyelle composée de deux voyelles simples réunies pour représenter une voix simple ; Exemplification Développement encyclopédique comme ai dans j’aimai, eu dans heureux, ou dans coucou, &c. Exemplification
Caractéristiques du balisage Ciblé Balisage XML Balisage logique Balisage physique dissocié Balisage allégé Christophe Rey/ Corinne Zaoui - Equipe DELIC
Exemple de balisage ciblé Christophe Rey/ Corinne Zaoui - Equipe DELIC Exemple de balisage ciblé <Article> <Entree Tpe="EP"> <Forme>(N. ) OCULAIRE</Forme>, <Information_grammaticale Type="ADJECTIF"> <Partie_du_discours Type="ADJECTIF">adj. </Partie_du_discours> </Information_grammaticale> </Entree> <Corps> Relatif à l'œil. On appelle Diphthongue oculaire, une voyelle composée de deux voyelles simples réunies pour représenter une voix simple ; comme ai dans j'aimai, eu dans heureux, ou dans coucou, &c. La véritable <Reference type="VEDETTE">diphthongue</Reference> (voyez ce mot) fait entendre à l'oreille deux voix distinctes & consécutives en une seule émission ; & de là lui vient l'épithète d' <Reference Type="VEDETTE">auriculaire</Reference> (voyez ce mot) : les voyelles composées dont il s'agit ici, présentent bien aux ieux les signes de deux voix, mais n'en laissent entendre qu'une dans la prononciation ; & de là leur vient le nom de diphthongues oculaires ; parce qu'elles indiquent aux ieux deux sons, quoiqu'elles n'en expriment qu'un pour les oreilles. on les nomme encore fausses, par raport aux diphthongues vraies qui font entendre deux sons ; & orthographiques, par opposition avec les vraies, que l'on appelle alors <Reference Type="VEDETTE">syllabiques</Reference>. Voyez ce mot. <Signature Type="BEAUZEE">(M.BEAUZÉE.)</Signature> </Corps> </Article> Type d’entrée Forme Partie du discours Information grammaticale complète Type de référence Auteur
Balisage Ciblé de l’article DENTAL Christophe Rey/ Corinne Zaoui - Equipe DELIC <Article> <Entree Type="EP"> <Forme>(N. ) DENTAL, E</Forme>. <Information_grammaticale Type="ADJECTIF"> <Partie_du_discours Type="ADJECTIF">adj.</Partie_du_discours> </Information_grammaticale> </Entree> <Corps> Appartenant aux dents. Les articulations dentales sont des articulations linguales, dont l'explosion s'opère vers la pointe de la langue appuyée contre les dents. Il y en a des muettes, d, t ; & l'articulation n, outre ce qui la rend nasale, suppose d'ailleurs le même méchanisme que d, & doit être comptée parmi les dentales. Il y en a aussi des sifflantes, z, s. <Reference Type="VEDETTE"> Voyez ARTICULATION</Reference>. <Signature Type="BEAUZEE">(M.BEAUZÉE.)</Signature> </Corps> </Article> Type d’entrée Forme Information grammaticale complète Partie du discours On ne note pas la totalité des champs informationnels. Les champs principaux que sont la définition, la zone d’exemples et la zone de développement encyclopédique ne sont pas identifiés car leur repérage fait souvent appel à une part d’arbitraire. On ne repère ainsi que les champs les plus facilement identifiables et étant le moins soumis à des problèmes de repérage. Type de référence Auteur
Exploitation du balisage Ciblé Christophe Rey/ Corinne Zaoui - Equipe DELIC
Christophe Rey/ Corinne Zaoui - Equipe DELIC CorpXML http://www.up.univ-mrs.fr/delic/perso/rey/methodique/index.htm ( Christophe Rey/ Corinne Zaoui - Equipe DELIC
Références bibliographiques LEROY-TURCAN, Isabelle, WOOLDRIDGE, Terence. Russon, 1998, "L'informatisation du Dictionnaire de l'Académie française", Actes du colloque DictA1998, Table ronde sur l’informatisation des dictionnaires anciens, Limoges, 19-20 novembre 1998. LEROY-TURCAN, Isabelle,1996, "Modalités de mise en oeuvre de l’informatisation de la première édition du Dictionnaire de l’Académie française (1694)", Actes des Journées Dictionnaires électroniques des XVIe- XVIIe s, Clermont-Ferrand, 14-15 juin 1996. WIONET Chantal, TUTIN Agnès, 2001. Pour informatiser le Dictionnaire universel de Basnage (1702) et de Trévoux (1704) Approche théorique et pratique. Honoré Champion. WIONET Chantal, TUTIN Agnès, 1998, "Informatisation du Dictionnaire Universel de Furetière revu par Basnage de Bauval (1702) : premier bilan", Actes du colloque-atelier international DictA1998 organisé par le Groupe d'Études sur l'Histoire de la Langue Française (GEHLF) et la Société Internationale d'Études Historiques et Linguistiques des Dictionnaires Anciens (SIEHLDA), Université de Limoges, 19-20 novembre 1998. WOOLDRIDGE, T.R., 1994, "Projet d'informatisation du Dictionnaire de l'Académie (1694-1935)", Actes du Colloque international Le Dictionnaire de l'Académie française et la lexicographie institutionnelle européenne, Institut de France, novembre 1994; (ed. B. Quemada & J. Pruvost), Paris, Champion: 309-20. Christophe Rey/ Corinne Zaoui - Equipe DELIC