Groupe Corpus d'état anciens de la langue Groupe concerné par les thématiques de plusieurs autres groupes (1, 3 et 4, 6, 8, 9, 10, 11) Enjeux : Etat des pratiques et des ressources concernant le français ancien Modes de fonctionnement : 1 réunion physique + échanges électroniques Participants : UMR Atilf : S. Bazin, G. Petrequin, G. Souvay ; UMR CESM : M.-L. Demonet ; UMR Htl : B. Colombat ; UMR Icar : C. Guillot, S. Heiden, A. Lavrentiev, D. Vigier ; UMR Lattice : S. Prévost ; UMR Modyco : A. Bertin, M.-C. Pouder ; UMR Praxiling : A. Steuckardt ; EA Lilpa : D. Capin ; EA Stih : J. Ducos, T. Ponchon ; Ecole n. des Chartes : F. Duval ; et ponctuellement D. Trotter (U. du Pays de Galles) 1
Avancées: Délimitation de la période considérée : 9 ème -17 ème siècles Critère principal de ce choix : absence de norme tout au long de la période mais aussi les modalités d’édition des textes qui changent au fur et à mesure qu’on se rapproche de la période actuelle. Décision de recenser : les bases/corpus existants ET disponibles dont les textes sont en mode texte (versus image) les textes édités dans le cadre d’une thèse Remarque : décision de laisser de côté les français hors de France Etablissement d’une grille pour les bases/corpus et pour les textes Grille inspirée de celle élaborée par le Consortium international pour les Corpus de Français Médiéval : Définition des personnes responsables par période Mission : aider à recenser les bases existantes et se mettre en relation avec les responsables/gestionnaires pour les aider à recenser leurs ressources. 2
Critères retenus pour les bases/corpus ( * champs indispensables) : *Période couverte (terminus ab quo/ad quem) *Dialecte(s) *Nombre de mots *Textes intégraux / partiels *Forme (vers/prose/mixte) *Source de la numérisation *Format des textes (XML/TEI, autres) *Types d’enrichissement : lemmatisation, étiquetage, annotation, etc. ; enrichissement partiel/intégral *Domaine et genre textuel *Statut juridiques des textes : type de diffusion (libre/restreinte ; gratuite/payante ; licence) et types d’utilisateurs/d’usages ; nature des restrictions (téléchargement ou non, taille des contextes, etc.) ; possibilités de référence/citation La grille pour les textes (à l’intérieur des bases/corpus) comporte davantage de critères. 3
Critères retenus pour les textes ( * champs indispensables) : *Titre *Auteur *Identifiant (sigle DEAF si disponible) *Date de composition *Date du manuscrit *Dialecte de l’auteur *Dialecte du scribe Origine sociale de l’auteur Origine sociale du scribe *Editeur scientifique *Editeur commercial (maison d’édition, date, lieu) *Identification du manuscrit (ville, bibliothèque, cote) *Nombre de mots *Texte intégral / texte partiel *Forme (vers/prose/mixte) Structure du texte : type de vers (octosyllabe etc.), divisions internes (laisses, strophes, livres, chapitres, etc.) Relation (partie de recueil, corpus, collection, ensemble, compilation, traduction, version…) Caractérisation de l’édition / de la transcription : choix d’un ou de plusieurs mss, respect des graphies, de la ponctuation, etc. 4
*Source de la numérisation: numérisation d’une édition imprimée récente, d’une édition imprimée ancienne, édition numérique *Format des textes (XML/TEI, autres) *Outil d’interrogation *Types d’enrichissement : lemmatisation, étiquetage, annotation, etc. ; enrichissement partiel/intégral méta-informations : par ex. existence d’un glossaire,... *Domaine et genre textuel (cf. typologie établie par le projet Corptef) *Statut juridiques des textes : type de diffusion (libre/restreinte ; gratuite/payante ; licence) et types d’utilisateurs/d’usages ; nature des restrictions (téléchargement ou non, taille des contextes, etc.) ; possibilités de référence/citation Certains critères sont mieux adaptés au Moyen Age… ************************************************************************ Calendrier : recension et documentation : 15 décembre