Le logiciel HYPERBASE-LATIN : Un outil de traitement automatique des textes latins lemmatisés et étiquetés Sylvie Mellet
Le logiciel HYPERBASE-LATIN Logiciel HYPERBASE, d’exploration documentaire et de traitement quantitatif des grands corpus textuels : initialement conçu pour le français par É. Brunet au sein de l’UMR 6039 BCL (“Bases, Corpus et Langage”, Nice). Adaptation aux textes de la littérature latine classique : conçue et coordonnée par S. Mellet, BCL - UMR 6039. Fichiers latins : numérisés et lemmatisés au Laboratoire d’Analyse Statistique des Langues Anciennes (LASLA) de l’Univ. de Liège (J. Denooz, G. Purnelle).
Plan Les atouts de la lemmatisation pour la recherche documentaire Les traitements quantitatifs et les calculs statistiques - calculs de spécificités - graphiques de distribution - constitution et exploitation de listes La structuration de la base de données - deux contraintes - essai de compensation Conclusion
1. Les atouts de la lemmatisation pour la recherche documentaire Regroupement de toutes les formes graphiques relevant d’un même lemme (fero, tuli, latum) Levée d’homonymie (dico1 = dicare ; dico2 = dicere) et désambiguïsation de la catégorie grammaticale (ad1 = adverbe ; ad2 = préposition) Recherche en contexte de catégories grammaticales et de structures syntaxiques Possibilité de croiser les critères lexicaux et grammaticaux
1.1. Regroupement de toutes les formes graphiques relevant d’un même lemme (fero)
1. 2. Levée d’homonymie (dico, dicere vs 1.2. Levée d’homonymie (dico, dicere vs. dico, dicare; ad préposition vs. ad adverbe)
1.3. Recherche en contexte de catégories grammaticales et de structures syntaxiques Exemple de requête : pronom relatif + pronom réfléchi + verbe
1.3. Recherche en contexte de catégories grammaticales et de structures syntaxiques : résultats de la requête précédente
1.4. Croisement de critères : le lemme tandem dans la structure adverbe interrogatif + adverbe
2. Les traitements quantitatifs 2.1. Les calculs de spécificités sur codes grammaticaux: l’exemple des Annales de Tacite
2. Les traitements quantitatifs 2.2. Les graphiques: l’exemple de la distribution du subjonctif à travers le corpus
2. Les traitements quantitatifs 2. 3. Proximité des textes selon leur emploi des modes verbaux
Statistique linguistique et traitement des catégories grammaticales Des caractéristiques distributionnelles spécifiques - les catégories grammaticales majeures sont toujours largement représentées dans tous les textes - une catégorie à très faible effectif peut présenter des écarts particulièrement pertinents L’outil TAL devient un aiguillon méthodologique à valeur heuristique - calculer les distances textuelles sur les écarts de fréquence et non pas sur le ratio présence / absence de la variable - calculer les distances textuelles à partir d’un classement ordinal des textes effectué en fonction de la densité de la variable dans chacun d’eux Référence : Luong X. & Mellet S., 2003. « Mesures de distance grammaticale entre les textes », Corpus 2 : 141-166.
3. L’organisation de la base textuelle Deux contraintes : La propriété intellectuelle du LASLA qui fournit un corpus clos, non manipulable, difficile à personnaliser et à enrichir en raison de la lourdeur du codage morpho-syntaxique Le fonctionnement du logiciel HYPERBASE qui travaille sur des données numériques prétraitées, ce qui suppose : un corpus de référence fixe une partition préalable du corpus Essai de compensation : La multiplicité des bases La fonction « choix du corpus »
4. Conclusion Un logiciel performant qui a bénéficié de : - 40 ans de travail de lemmatisation au LASLA - 10 ans de développement logiciel à Nice Dont les performances les plus spécifiques sont : - d’associer les traitements quantitatifs aux recherches documentaires et même de les imbriquer étroitement - d’appliquer tous ses programmes aussi bien aux formes graphiques qu’aux lemmes et aux codes morpho-syntaxiques Mais qui a aussi des limites : - le caractère figé des corpus - l’unicité du support (PC sous Windows)