La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

UNIVERSITÉ DE ROUEN Laboratoire DySoLa (Dynamiques Sociales et Langagières) Méthodologie pour la structuration semi- automatique d’un corpus lexicographique.

Présentations similaires


Présentation au sujet: "UNIVERSITÉ DE ROUEN Laboratoire DySoLa (Dynamiques Sociales et Langagières) Méthodologie pour la structuration semi- automatique d’un corpus lexicographique."— Transcription de la présentation:

1 UNIVERSITÉ DE ROUEN Laboratoire DySoLa (Dynamiques Sociales et Langagières) Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT

2 2

3 Notre étude Objectifs de l’étude Proposer une méthodologie de structuration de corpus lexicographiques bilingues – Accès libre à une ressource linguistique difficilement consultable – Valorisation du patrimoine écrits franco-algérien – Constitution d’une base de données lexicales au service des recherches fondamentales Pourquoi le choix du dictionnaire bilingue de Huyghe Il n’existe aucune tentative d’informatisation de dictionnaires bilingues anciens – Le dictionnaire français-kabyle foisonne d’exemples qu’il était souhaitable d’interroger séparément du texte – Il est représentatif de l’idéologie véhiculée par le pouvoir colonial 3 Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014

4 Caractéristiques du projet Un projet pluridisciplinaire faisant coopérer: Informaticiens (INSA de Rouen) – Numérisation du dictionnaire papier au format électronique – Extraction de données textuelles – Structuration et gestion XML des données – Constitution d’une base de données lexicales Linguistes – Analyser et décrire la structure linguistique des articles du dictionnaire – Annoter les informations microstructurelles Découper les articles en différents champs: vedettes, informations grammaticales, traduction, marques d’usages, exemples, etc. 4 Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014

5 Numérisation et récupération des données textuelles Numérisation par la bibliothèque universitaire de Grenoble (SICD 2) – Document scanné au format PDF-image Reconnaissance optique de caractères – Conversion du format PDF-image en format texte – Utilisation du logiciel OCR Omnipage 18 Vérification et contrôle du texte – Relecture et correction des erreurs de reconnaissance – Préservation des caractéristiques typographiques du texte original 5 Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014

6 Structuration des données Codage du document textuel en XML Codage automatique – Spécification typographique Vedettes (Bookman Old Style, gras, 14) Marques d’usage (h. [habitude], p. ou pl. [pluriel], litt. [littéralement], etc.) Exemples (Ex.: ) Tournures (Tourn.) Remarques (Rem.) Expressions (Expr.), Limites des articles, etc. – Usage d’expressions régulières Annotation et pose de balises Conversion au format XML 6 Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014

7 Structuration des données Codage semi-automatique Utilisation d’un éditeur XML (Adobe FrameMaker) Compléter le fichier XML issu du premier traitement Insérer des balises et marqueurs aux endroits voulus Balisage des éléments restants Blocs sémantiques Indicateurs sémantiques Contexte d’usage Vérification et validation du document XML 7 Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014

8 L’interface utilisateur Trois modes de consultation Recherche simple – S’effectue sur une entrée de la nomenclature – Donne accès à l’article lui correspondant Recherche plein texte – S’effectue dans le texte intégral – Trouve toutes les occurrences du mot recherché – Affiche à l’écran la liste des résultats trouvés Recherche avancée – Effectuer des recherches expertes ciblées au moyen de critères multiples – Possibilité de combiner plusieurs critères catégories grammaticales Exemples Expressions Equivalents kabyles Forme d’habitude, etc. 8 Mahfoud MAHTOUT Université de Rouen Atelier TALAF, Marseille, 1 juillet 2014

9 Conclusion Ressources informatisées pour les langues africaines – Base de données lexicales importantes du point de vue historique et patrimonial – Soutien précieux aux recherches fondamentales, notamment en métalexicographie – Accès au grand public à une ressource peu disponible – Valorisation des langues peu dotées en ressources informatisées Possibilité d’actualisation des ressources lexicales anciennes pour constituer des outils lexicographiques modernes – Beaussier – De Foucauld – Dallet 9

10 Merci de votre attention 10


Télécharger ppt "UNIVERSITÉ DE ROUEN Laboratoire DySoLa (Dynamiques Sociales et Langagières) Méthodologie pour la structuration semi- automatique d’un corpus lexicographique."

Présentations similaires


Annonces Google