L’utilisation d’outils de traitement automatique de la langue naturelle dans le domaine de la terminologie: une voie d’optimisation de ressources 1.

Slides:



Advertisements
Présentations similaires
Qu’est-ce que LingPro ? LingPro est la branche ingénierie linguistique de i-KM La collaboration i-KM / LingPro est le résultat d’un partenariat sous forme.
Advertisements

Terminologie, glossaires et banques de données. Quest-ce que la terminologie? La terminologie est l'ensemble des termes relatifs à un système notionnel.
Les bonnes pratiques dhygiène dans la filière du café Formation – Comprendre le contexte dans sa globalité Module 5.1.
Recensement de la population et des unités domiciliaires Département de Statistique Ministère de Financement et de la Fonction publique Principauté dAndorre,
Amendements à la NIMP No Steward: John Hedley.
Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)
Rencontre avec… DICTIONNAIRES EN LIGNE ET OUTILS DE TRADUCTION
UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE
Glossaire Chapitre 1.
LA GESTION DE PROJETS APPLIQUÉE AU SECTEUR DE LA TRADUCTION
DE NOUVELLES RESSOURCES POUR LENSEIGNEMENT ET LA FORMATION : ENSEIGNER ET FORMER AUTREMENT André Paradis Vice-recteur aux services académiques et aux technologies.
- Qu'est ce qui te différencie d'autrui* ? (autrui = l'autre)
La politique de Sécurité
TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES
SYSTRAN Un outil du TAL Victoria AUPERT Marjorie LORSUNG.
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
LES METIERS ET LES DOMAINES DE LA RECHERCHE
La fonction Style Permet de créer des types de texte, par exemple
Dune part la gestion dune entreprise est lapplication dun ensemble de techniques et de concepts scientifiques fondamentaux, en se basant sur la bonne utilisation.
Reconnaissance et validation en Pologne
La mise en place du Règlement sur la diffusion de linformation Un travail déquipe.
LA POLITIQUE TERMINOLOGIQUE DU GOUVERNEMENT BASQUE Araceli Díaz de Lezana Sous-ministère de la Politique.
Bizerte Investment Day 17 AVRIL
ORG-2 : Classification juridique des entreprises
CSTI Groupe e-gouvernement
Initiation à la conception de systèmes d'information
FR/AGNA/2014/Pres/04 Présentation de la République de Guinée Equatorial.
FR/AGNA/2014/Pres/05 GOUVERNANCE ET COORDINATION
ENTREPRISE.
Outil dAnalyse Rapide de Situation en matière de Protection des Enfants Inter-agency Child Protection Working Group Picture by: Hani Mansourian.
La communication de ce document est soumise à autorisation de France Télécom R&D (Nom du fichier) - D1 - 01/03/2000 France Télécom R&D Énoncé Représentation.
Alain Gervais, directeur adjoint Décembre 2004 Modèles de conception et de production.
Colloque sur linsertion professionnelle des enseignants Présentation de la Commission Scolaire de Portneuf Lévaluation: un outil au profit du développement.
Gouvernement du Québec Présentation par : Alain Thibault : PDG Efoé Wallace : Directeur du développement.
Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.
1 DTSI / Service Cognitique Robotique et Interaction OUTILEX Démonstrateur du CEA-LIST : moteur d'interrogation crosslingue (français, anglais, espagnol)
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Forum des Industries de la Langue, 17 mars 2010
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
L’emploi et la qualité du français dans les sites Web
Définition du système de contrôle interne (SCI)
ORGANISATION DES ADMINISTRATIONS ET DE L’ÉTAT FRANÇAIS
1er janvier 2007 : nouveau cycle de programmation pour les Fonds structurels pour 27 États membres (avec la Roumanie et la Bulgarie). Cadre d'action les.
Direction de la normalisation terminologique (DNT) Mai 2010 La terminologie : une passion, des métiers !
L’EVOLUTION DE LA FONCTION RESSOURCES HUMAINES
L E CONTENU DE L ’ ENSEIGNEMENT A. E. ARCHAKIAN Université Linguisitique V. Brioussov Chaire de pédagogie et de méthodolgie de l’enseignement des langues.
Loi de finance Exposé sur Réalisé par : El bouroumi Yassine
Introduction L’entreprise Service de terminologie
Aide à la rédaction. Plan L’aide à la rédaction : principes et outils La correction orthographique –Historique –Modélisation linguistique –Evaluation.
Agenda de la présentation
Sciences sociales et politiques
au MAEDI PRÉSENTATION L’utilisation de l’outil de traduction automatique au ministère français des affaires étrangères et du développement.
BAD- BERD Conférence régionale sur les Marchés Publics Marrakech 22 et 23 Avril 2013 Délégation jordanienne.
Loi sur l’accès aux documents des organismes publics et sur la protection des renseignements personnels Me Isabelle Chvatal 25 septembre 2014 Réseau REPCAR.
Moteur de recherche sémantique basé sur les fonctions lexicales
Vers une intégration plus poussée de la recherche Web avec les Systèmes d’Information Géographiques Adapté de «Toward Tighter Integration of Web Search.
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Le Traitement Automatique des Langues (TAL)
Sciences du langage et de la communication Responsable du pilier : Corinne Rossari Professeure de linguistique française Présentation : Tobias von Waldkirch.
Présente L’ Institut de la sociétalogie. LA SOCIÉTALOGIE Sociétalogie jumèle les mots sociétal et logie. Sociétal = societas, association et logie = étudier.
effets sources  Il est préférable de baser une analyse sur les effets des erreurs que l’on peut détecter à partir du texte analysé, que de travailler.
LES BASES DE LA TRADUCTOLOGIE CONFERENCE XI Le marketing du métier de traducteur.
Évaluation sommative de la traduction pragmatique en dernière année de formation : expérience en cours à Lille III afin d’allier critères universitaires.
Travailler en français : est-ce un droit? Tous les employeurs du Québec sont tenus de respecter ce droit fondamental des travailleurs. (Article 4 de la.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
World café : La loi 10 (contexte des fusions) Résumé Atelier : La gouvernance des ressources informationnelles Présenté par: 17 juin
Formalisation de la temporalité en vietnamien pour la traduction automatique Nicolas Boffo Nicolas Boffo Directeurs de thèse : Jacques BRES (PRAXILING)
Charte de la langue française  La langue officielle du Québec (art. 1)  Les droits linguistiques fondamentaux (art. 2 à 6)  La langue de l’Administration.
Transcription de la présentation:

L’utilisation d’outils de traitement automatique de la langue naturelle dans le domaine de la terminologie: une voie d’optimisation de ressources 1

1. Situation et caracteristiques de la langue Euskara 2. UZEI centre de terminologie Euskalterm 3. Les outils et ressources de base Lemmatisateur, IDITE,… 4. Elaboration d’un dictionnaire Example 5. Futur Ressources en collaboration 2

Euskara Biscaye Gipuzkoa Araba Álava Labourd Soule Basse Navarre Sous-ministère de la Politique linguistique. Ministère de la Culture. Gouvernement Basque © Situation et caracteristiques de la langue

Euskara La langue basque a 15 cas de base et 22 variantes. Par rapport à l'espagnol, par exemple, un nom en espagnol a 2 variables, et en basque, 275. Dans un adjectif en espagnol vous pouvez avoir 4 variables et en basque 825. La langue basque ne fait pas de distinction entre les sexes. Actuellement, en processus de normalisation 4 1. Situation et caracteristiques de la langue

UZEI -UZEI, est une organisation à but non lucratif créée en 1977 standardisationmodernisation LexicographieTerminologie Les technologies de la langue Localisation et traduction 5 2. UZEI centre de terminologie

Standardisation Modernisation UZEI 6 2. UZEI centre de terminologie

La banque publique de termes 7 2. UZEI centre de terminologie

Outils de base 8 Lemmatisateur: application informatique analysant les formes d’un texte à partir de l’information d’un dictionnaire. La base de l’application est la morphologie à deux niveaux, Le dictionnaire est une base de données du lexique (euLEX) qui a environ entrées. 3. Les outils et ressources de base

Outils pour la désambiguïsation analyseur morphologique EUROVOC grammaire texte désambiguisation statistique HMM désambiguïsation par des règles MG SFST compilateur automates compilés morphotactiquerègles linguistiques es texte analysé et désambiguïsé 9 Lemmatisateur euLEX 3. Les outils et ressources de base

10 euLEX: base de données lexicales euLEX 3. Les outils et ressources de base

11 Analyse morphologique

12 Correcteur du lexique de l’euskera IDITE L'Académie de la langue basque utilise cet outil pour garantir le respect de ses propres règles d'utilisation 3. Les outils et ressources de base

13 3. Les outils et ressources de base Correcteur du lexique de l’euskera IDITE

UN EXEMPLE DE SUCCÈS: LA CRÉATION D’UN DICTIONNAIRE DE TRADUCTION A PARTIR D’UNE MT 14 Si nous pouvons analyser et étiqueter morphologiquement les textes en euskera et en espagnol, et si nous savons qu’une grande quantité de termes sont “multimots” (composés par plusieurs mots), nous pouvons obtenir des candidats à des termes multimots par l’usage de patrons de placement du lexique. 4. Elaboration d’un dictionnaire

base de données des documents traduits Elaboration d’un dictionnaire

Extraction de MT -MT unités de traduction -Entre 31/07/2008 y 31/07/2011 -Entité financière base de données de mémoires de traduction Analyse morphologique Espagnol et basque Elaboration d’un dictionnaire

17 Analyse morphologique 4. Elaboration d’un dictionnaire

+NC +SPS +NC +SPS +NC +NC +SPS +NC +SPC +NC +NC +SPC +NC +SPS +NC +NC +SPC +NC +SPC +NC +NC +AQ +SPS +DA +NC +NC +AQ +SPC +DA +NC +NC +AQ +SPS +NC +SPS +NC +NC +AQ +SPS +NC +SPC +NC +NC +AQ +SPC +NC +SPS +NC +NC +AQ +SPC +NC +SPC +NC +NC +SPS +DA +NC +SPS +NC +NC +SPS +DA +NC +SPC +NC Modèles basques de placements de lexique Modèles espagnols de placements de lexique 18 Identification de modèles de placement du lexique 4. Elaboration d’un dictionnaire

Résultats Elaboration d’un dictionnaire

830 entrées (en éiminant les inconsistances/ un même terme traduit de différentes manières) 849 entrées entrées devant être révisées par un terminologue Nous éliminons ceux qui ont un indice de confiance inférieure a 30% paires de possibles termes unités de traduction unités de traduction (documents complets) Création de MT Elaboration d’un dictionnaire

21 Capital fixe Creation brute Utilisation du capital Modèle néoclassique Equipement public Investissement en infraestructures Croissance économique Classification basée sur la fréquence des termes

22

23 Capital fiixe Utilisation du capital Modèle néoclassique Equipement public investissements en infrastructures Croissance économique Sciences sociales

24

Pour la fin de l’année 2012, la Banque Publique de Mémoires de Traduction (BPMT) du Gouvernement Basque, qu’UZEI est en train de développer, sera en marche. Cette Banque stockera les traductions réalisées par les différentes entités administratives du Pays Basque. Ce projet aurait été irréalisable sans les outils que nous avons mentionnés, car celui-ci devait remplir deux conditions fondamentales: 1. Respecter la Loi de Protection de Données. – En menant à bien différentes stratégies, nous pouvons éliminer dans des documents lemmatisés, les données et noms d’entités. 2. Publier les MT qui respectent des critères minimum de qualité. – Nous pouvons détecter le lexique non normalisé ainsi que les inconsistances de traduction dans des documents lemmatisés. A partir de cette Banque, des MTs “ad hoc” pourront être créées pour alimenter des traducteurs automatiques. 25 OUTILS DE COLLABORATION 5. Futur

L’utilisation d’outils de traitement automatique de la langue naturelle dans le domaine de la terminologie : une voie d’optimisation de ressources 1. Situation et caracteristiques de la langue Euskara 2. UZEI centre de terminologie Euskalterm 3. Les outils et ressources de base Lemmatisateur, IDITE,… 4. Elaboration d’un dictionnaire Example 5. Futur Ressources en collaboration 26

27 Imanol Urbieta - Tusen takk

28