Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université de Rouen Laboratoire DySoLa (Dynamiques Sociales et Langagières) mahfoud.mahtout@yahoo.fr
Processus d’informatisation du Dictionnaire français-kabyle(1902-1903) de Gustave Huyghe Numérisation Récupération des données textuelles Structuration des données Constitution d’une base de donnée interrogeable
Notre étude Objectifs de l’étude Proposer une méthodologie de structuration de corpus lexicographiques bilingues Accès libre à une ressource linguistique difficilement consultable Valorisation du patrimoine écrits franco-algérien Constitution d’une base de données lexicales au service des recherches fondamentales Pourquoi le choix du dictionnaire bilingue de Huyghe Il n’existe aucune tentative d’informatisation de dictionnaires bilingues anciens Le dictionnaire français-kabyle foisonne d’exemples qu’il était souhaitable d’interroger séparément du texte Il est représentatif de l’idéologie véhiculée par le pouvoir colonial Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014
Caractéristiques du projet Un projet pluridisciplinaire faisant coopérer: Informaticiens (INSA de Rouen) Numérisation du dictionnaire papier au format électronique Extraction de données textuelles Structuration et gestion XML des données Constitution d’une base de données lexicales Linguistes Analyser et décrire la structure linguistique des articles du dictionnaire Annoter les informations microstructurelles Découper les articles en différents champs: vedettes, informations grammaticales, traduction, marques d’usages, exemples, etc. Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014
Numérisation et récupération des données textuelles Numérisation par la bibliothèque universitaire de Grenoble (SICD 2) Document scanné au format PDF-image Reconnaissance optique de caractères Conversion du format PDF-image en format texte Utilisation du logiciel OCR Omnipage 18 Vérification et contrôle du texte Relecture et correction des erreurs de reconnaissance Préservation des caractéristiques typographiques du texte original Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014
Structuration des données Codage du document textuel en XML Codage automatique Spécification typographique Vedettes (Bookman Old Style, gras, 14) Marques d’usage (h. [habitude], p. ou pl. [pluriel], litt. [littéralement], etc.) Exemples (Ex.: ) Tournures (Tourn.) Remarques (Rem.) Expressions (Expr.), Limites des articles, etc. Usage d’expressions régulières Annotation et pose de balises Conversion au format XML Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014
Structuration des données Codage semi-automatique Utilisation d’un éditeur XML (Adobe FrameMaker) Compléter le fichier XML issu du premier traitement Insérer des balises et marqueurs aux endroits voulus Balisage des éléments restants Blocs sémantiques Indicateurs sémantiques Contexte d’usage Vérification et validation du document XML Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014
L’interface utilisateur Trois modes de consultation Recherche simple S’effectue sur une entrée de la nomenclature Donne accès à l’article lui correspondant Recherche plein texte S’effectue dans le texte intégral Trouve toutes les occurrences du mot recherché Affiche à l’écran la liste des résultats trouvés Recherche avancée Effectuer des recherches expertes ciblées au moyen de critères multiples Possibilité de combiner plusieurs critères catégories grammaticales Exemples Expressions Equivalents kabyles Forme d’habitude, etc. Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014
Conclusion Ressources informatisées pour les langues africaines Base de données lexicales importantes du point de vue historique et patrimonial Soutien précieux aux recherches fondamentales, notamment en métalexicographie Accès au grand public à une ressource peu disponible Valorisation des langues peu dotées en ressources informatisées Possibilité d’actualisation des ressources lexicales anciennes pour constituer des outils lexicographiques modernes Beaussier De Foucauld Dallet
Merci de votre attention