ARIANE et son utilisation via l’interface CASH
INTRODUCTION
Propos centré sur l’utilisation d’ARIANE via son interface. Objectif : - non utilisateurs de TA : permettre de faire connaissance avec ARIANE en l’utilisant de façon élémentaire (envoi de textes à la traduction, visualisation des diverses phases du traitement, enrichissement des dictionnaires…) - utilisateurs de TA : proposer un outil de développement complémentaire du moniteur. Ce n’est donc pas un cours sur ARIANE, mais seulement sur son utilisation pratique. Le niveau d’utilisation dépendra des connaissances préalables sur ARIANE. Pour les néophytes complets, les éléments suffisants (?) pour une utilisation élémentaire seront donnés.
ARIANE : Un générateur de systèmes de TA Conçu pour le développement de systèmes de TA Utilise des langages spécialisés de programmation linguistique Traite l’unité de traduction sous forme d’arbre décoré Particulièrement adapté à la méthode de transfert Version actuelle implantée sur ordinateurs IBM
CASH : Une interface de commande d’ARIANE (Commande d’ARIANE Sous Hypertexte) Écrite dans l’environnement « REVOLUTION » Utilisable sous Mac, PC, Unix Offre pratiquement toutes les fonctionnalité du moniteur original d’ARIANE Utilisation plus simple que le moniteur Liaison par sockets avec ARIANE
Premier aperçu d’un traitement ARIANE vu à travers CASH
Principe d’un système de TA de Transfert construit avec ARIANE G E N R A T I O T R A N S F E R L Y S Arbre Sémantique cible Arbre Multiniveau source Arbre Multiniveau cible This is an overall view of a MT transfer system designed on ARIANE; Starting from the source text, the translation proce"ss is performed in 3 steps : The analysis steps elaborates a so called 'multilievel' tree. This tree reflects the syntagmatic structure of the input sentence, but bears 3 levels of information : the morphologic, syntactic and semantic ones. The transfer step is mainly lexical : it translate the source words into the target ones. The morphologic and syntactic informations are no more relevant in the target language, it is the reason I described the tre at the input of the generation step as a semantic tree. The generation step builds the multilevel target tree, and finally the target text. Texte source Texte cible Arbre multiniveau : structure syntagmatique, 3 niveaux d’info (morphologique, syntactique, logico-semantique)
Environnement Revolution : écriture du texte source et envoi à la carte de communication avec ARIANE
Choix du type de traitement et envoi à ARIANE
Retour du résultat de traitement et accès à la visualisation de la trace
Résultat de l’Analyse Morphologique (AM) « Arbre plat », chaque nœud terminal correspond à une occurrence et comporte le résultat de l’analyse morphologique. Module essentiel : le dictionnaire monolingue. Langage de programmation : ATEF.
Résultat de l’Analyse Structurale (AS) « Arbre structuré », voisin d’un arbre de dépendance. Structure syntagmatique. Trois niveaux de décoration (morphologique, syntactique, logico-sémantique). Module principal : grammaires. Langage de programmation : ROBRA.
Résultat du transfert lexical (TL) et structural (TS) TL : Noeuds de l’arbre d’entrée (en langue source) sont transformés en nœuds (ou sous-arbres) en langue cible. Module principal : dictionnaires. Langage de programmation : EXPANS. TS : Ajustements de structure. Grammaires. ROBRA
Résultat de la génération structurale (GS) Construction de l’arbre syntaxique cible. Les nœuds terminaux portent les mots (non fléchis) de la phrase cible, dans l’ordre de la phrase. Module principal : grammaires. Langage de programmation : ROBRA.
Résultat de la génération morphologique (GM) Extraction des nœuds terminaux et flexions. Module principal : dictionnaires. Langage de programmation : SYGMOR.
Visualisation/Edition des copies locales des modules de traitement (dictionnaires et grammaires)
La pile principale CASH.rev Boutons d’accès : Fenêtres de sélection : machine virtuelle couple de langues phase module (gram, dic, etc) chaîne d’exécu- tion corpus de textes
Visualisation/Edition de modules d’une phase de Transfert Lexical
Extrait d’un dictionnaire de TL Procédure de condition et accès à sa description.
Une procédure de condition en TL Procédure de condition et accès à sa description.
Extrait d’un dictionnaire de TL Procédure d’ affectation et accès à sa description.
Une procédure d’affectation en TL Procédure d’ affectation et accès à sa description.
Visualisation/Edition de modules d’une phase d’Analyse Structurale
Premières lignes du graphe de contrôle d’une grammaire d’Analyse Structurale Grammaire élémentaire Nom de règle, et accès à la règle
Visualisation d’une règle ROBRA Texte de la règle Arbre objet Arbre image
Visualisation d’une Procédure de Condition Intersommet Nom et accès à la PCIS Description de la PCIS
Utilisation des corpus
Principe des corpus ARIANE offre un système de gestion des corpus contenant les textes à traiter ou déjà traités. CASH utilise un système de corpus locaux plus rapide d’accès. On peut créer un nombre quelconque de corpus. Chaque corpus est attaché à une machine donnée et à un couple de langues donné. Bien que ce ne soit pas obligatoire, la méthode recommandée pour traiter un texte est de l’insérer préalablement dans un corpus. On se limite pour le moment à décrire l’utilisation des corpus. Leur création sera vue lorsque l’on décrira la structure de fichiers de CASH.
Accès à un corpus 2.Accès 1.Sélection : machine virtuelle couple de langues 1.Sélection : corpus
La carte d’index d’un corpus et l’entrée d’un nouveau texte Commande d’entrée d’un nouveau texte
Ecriture du nouveau texte et envoi à la carte de communication avec ARIANE
Choix du type de traitement et envoi à ARIANE
Rangement du résultat et accès à la trace
Exploitation d’une trace ROBRA : accès à une grammaire
Exploitation d’une trace ROBRA : accès à une règle
Enrichissement de dictionnaires
Accès à la pile d’échange de fichiers avec ARIANE 1. Sélection machine, langue, phase 2. Item up/downloading du menu « ARIANE »
La pile d’échange de fichiers avec ARIANE Accès au fichier pour édition Réception du fichier présent dans ARIANE Envoi à ARIANE de la copie locale Sélection du fichier
Aide à l’enrichissement des dictionnaires L’ajout d’un nouveau terme nécessite l’enrichissement d’au moins 3 dictionnaires dans la chaîne de traitement (dictionnaires d’AM, TL, GM), et éventuellement l’enrichissement des dictionnaires d’expansion lexicale (AX, AY,TX,TY,GX,GY). Ce travail peut être facilité dans l’environnement Revolution par la création d’une pile d’entrée de nouveaux termes. Cette pile, qui peut être associée à un dictionnaire classique bilingue, entre les caractéristiques du nouveau terme (entrée facilitée par l’utilisation d’un tableau de sélection), crée les nouveaux articles des différents dictionnaires, et les envoie à ARIANE. De telles piles n’ont été réalisées pour l’instant que dans le cadre du traitement UNL, pour lequel le nombre de dictionnaires est moindre.
Les chaînes d’exécution
Sélection des chaînes d’exécution dans la carte d’envoi d’une demande d’exécution
Accès à la visualisation d’une chaîne d’exécution 1. Sélection de la chaîne 2. Accès à la chaîne
Visualisation de la chaîne d’exécution
Accès à la préparation d’une chaîne d’exécution 1. Sélection 2. Accès
Préparation d’une chaîne d’exécution : choix des phases et des grammaires et dictionnaires Exemple : sélection des dictionnaires de TL en cliquant ici
Préparation d’une chaîne d’exécution : choix des paramètres d’exécution Exemple : demande d’une trace AS en cliquant ici