Traduction de l’Anglais vers l’Arabe

Slides:



Advertisements
Présentations similaires
Les présentateurs doivent souvent transmettre des informations techniques à des auditeurs qui connaissent moins bien le sujet et le vocabulaire spécifique.
Advertisements

APPRENDRE A LIRE Présentation par : Marie-Christine Ratez CPC Chauny Roselyne Cail CPC Guise.
Déductions logiques et calcul de représentations sémantiques Alain Lecomte UMR SFL Séminaire « Logique, Sémantique, Dialogue » - partie I.
Université de Ouagadougou
Urbanisation de Systèmes d'Information
Exemple : Itinéraire de lecture.
Ontologie, Méta-données, Sémiotiques
TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES
SYSTRAN Un outil du TAL Victoria AUPERT Marjorie LORSUNG.
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
EVALUATIONS NATIONALES CM2
Apprendre à lire.
Cours présentielle avec 1er année.
SFADA : Projet d’un Système de Formation à Distance de l’Arabe
L’observation réfléchie de la langue au cycle 3
Cours de français en PPS
Quelques exemples de situations de travail ritualisées brèves...
LES REGLES DE BASE DE L’ORTHOGRAPHE
Démarche de résolution de problèmes
Les mots invariables. ► L’Interjection
Initiation à la conception de systèmes d'information
Les types de phrases La phrase déclarative
La conjugaison Les Verbes.
Bases de données lexicales
Algorithmique et Programmation
Introduction à la structuration des documents: les techniques M2: Gestion des connaissances.
LA GRAMMAIRE I) Les textes de référence II) Le rapport « BENTOLILA »
Project de la langue française
SOCLE COMMUN LIRE ET COMPRENDRE
LES FICHES POUR METTRE EN OEUVRE DES DISPOSITIFS D'AIDE ET DE SOUTIEN
Maîtrise de la langue française
Nature ou fonction d’un mot
États du larynx Phonologie Théories et traits Règles phonologiques
La motivation et l’engagement dans les tâches de lecture
Forum des Industries de la Langue, 17 mars 2010
Chapitre 2 La description du langage
Chapitre 3 La cinématique à une dimension
(A. Meurant - UCL )1 Chapitre Quatrième Quelques définitions de base.
Présentation des objectifs de 2P
8èmes Journées INTEX/NooJ
LA DIFFÉRENCE ENTRE L’ÉTUDE D’UNE PHRASE ET D’UN ENONCÉ
la maîtrise de la langue française Inspection Pédagogique Régionale
LANGUE ET COMMUNICATION
6th INTEX Workshop - Sofia, Bulgarie, May 2003 La Conjugaison des verbes arabes avec Intex Ibtihal FARAWI Laboratoire LASELDI Université de Franche.
Le verbe.
Algorithmes et Programmation
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
Règles orthographiques de l’amazighe Cours n° 2 Préparé par: EL HOSSAIEN FARHAD.
Mon cahier de réussite Classe de CM
1 Management des unités commerciales Management des unités commerciales LANGUE VIVANTE ÉTRANGÈRE I - coefficient 3 L’usage d’un dictionnaire bilingue est.
Programmation annuelle: Etude de la langue
Introduction et Généralités sur l’Algorithmique
L’ordre alphabétique Pour classer des mots en ordre alphabétique, on regarde d’abord leur première l avion est avant bateau parce que A est avant B dans.
Correspondance - Équivalence
Références La lettre flash du 20 octobre La circulaire sur la rénovation de l’enseignement des langues vivantes étrangères du 08 juin Le Cadre.
Le Traitement Automatique des Langues (TAL)
EDL GRAMMAIRE GRAMMAIRE CONJUGAISON CE1 GRAM 11 GRAM 12 GRAM 13
Nouvelles Technologies Internet & Mobile
L’organisation de la matière
Règles d’or à suivre en rédaction
Pierre Malenfant Technologie 9 École du Carrefour
Progression/Programmation – Français (1/3)
LES TEXTES ET LES SHADOKS (Docs d’application et d’accompagnement)
MES STRATÉGIES DE LECTURE
Le syntagme prépositionnel
Le socle commun. Les langages pour penser et communiquer. Les méthodes et outils pour apprendre. La formation de la personne et du citoyen. Les systèmes.
Conçu et animé par Geneviève Cantin-Chartré et Nicolas Beaudry-Riendeau 2015 CONCENTRATION, LECTURE ET MÉMORISATION.
Le nouveau manuel de FLE allons-y!
Evaluation diagnostique
Transcription de la présentation:

Traduction de l’Anglais vers l’Arabe Intelligence Artificielle Traitement statistique des langues naturelles Traduction de l’Anglais vers l’Arabe Rabih Mustapha

Traduction de l’Anglais vers l’Arabe  Particularité de la langue arabe  Quelques travaux faits dans ce domaine

Particularité de la langue arabe L’alphabet de la langue arabe compte 29 lettres  25 consonnes  3 voyelles longues  une lettre particulière constituée de deux lettres (l’une consonne, l’autre voyelle longue) L’arabe s’écrit de droite à gauche nécessité d’algorithmes supplémentaires Changement de la forme des caractères Selon la position au début, au milieu ou à la fin du mot Les lettres généralement se lient entre elles sauf 6 qui ne se joignent pas à gauche

Particularité de la langue arabe Les unités significatives  Un texte se découpe en éléments significatifs ‘‘ mot ’’  Un mot en arabe est compris entre deux séparateurs (blancs , virgule, … )  Le mot arabe s’écrit avec les consonnes, les voyelles longues et les signes auxiliaires

Particularité de la langue arabe On a 5 signes auxiliaires (voyelles brèves)  qui s’écrivent au dessus et au dessous des lettres A= ــــَـ , I = ـــِـ , O = ــــُــ , ـــْــــ , ــــــّـ  sont nécessaires à la lecture et à la compréhension correcte d’un texte  Sans ces 5 signes on risque d’avoir beaucoup d’ambiguïté À l’intérieur du mot, ils permettent de différencier 2 mots ayant le même squelette consonantique كَتَبَ est différent de كُتِبَ  À la fin d’un mot, ils permettent de reconnaître son mode.

Particularité de la langue arabe Racines et schème  Un trait essentiel de la structure de l’arabe est que mis à part quelques particules, toute forme linguistique dépourvue de ses éléments flexionnels peut s’analyser fondamentalement en une racine et un schème.  Les racines des mots arabes sont constituées généralement de consonnes et exprimant la notion de base. À partir de cette racine tous les autres concepts liés à cette notion sont dérivés selon les schèmes qui sont finis.

Particularité de la langue arabe Racines et schème (suite)  Voyons un exemple Soit la racine de référence R1R2R3, et la racine qui exprime la notion ‘’écrire’’ كتب  Quand on ajoute A-A-A dans l’ordre à la racine, on peut exprimer le verbe au passé pour la troisième personne du singulier au masculin R1R2R3 كتب R1A-R2A-R3A كَتَبَ  Quand on ajoute A – I, on exprime l’agent ou l’acteur du verbe (ici écrivain) R1R2R3 كتب R1A-R2I-R3 كاتِب  Quand on ajoute MA-U, on exprime celui ou ce qui a subi l’action. A-A-A A-I

Particularité de la langue arabe Racines et schème (suite)  De cette façon on peut déduire presque tous les mots en arabe D’une façon générale, les étapes à suivre sont : 1- Choisir une racine 2- Choisir une notion parmi celles permises (acteurs par exemple) 3- Choisir la forme correspondante (schème) 4- Utiliser ce schème pour produire le mot voulu Cette caractéristique a été très utilisée par les équipes qui ont développé beaucoup de logiciels dans les domaines (automatisation de la langue arabe, conception des analyseurs automatiques pour la langue arabe et lemmatisation) et j’estime qu’ils ont bien profité de cette caractéristique pour la traduction de et vers l’arabe aussi. N.B. La majorité des verbes arabes ont une racine composée de 3 consonnes et rarement au delà de ce nombre.

Particularité de la langue arabe Structure d’un mot graphique maximal  Le mot graphique maximal est le segment graphique délimité par deux séparateurs successifs, portant toutes les marques formelles (éléments flexionnels) qu’il est capable de porter selon sa catégorie. N.B. Les éléments flexionnels sont des indices d’aspect, de mode, de voix, de personne, de nature, de genre, de nombre,… utilisés pour la conjugaison du verbe et pour la déclination du nom . Les Antéfixes sont des prépositions ou des conjonctions. Les préfixes et suffixes expriment les traits grammaticaux et indiquent les fonctions : cas du nom, mode du verbe et les modalités (nombre, genre, personne,…) Les post fixes sont des pronoms personnels. Antéfixe Préfixe Corps schématique Suffixe Post fixe

Structure d’un mot graphique maximal (suite) Exemple récapitulatif Particularité de la langue arabe Structure d’un mot graphique maximal (suite) Exemple récapitulatif أ تَتَذَكَّرُونَنَا Ce mot exprime la phrase en français : ‘’ Est-ce que vous vous souvenez de nous ? ’’ La segmentation de ce mot donne les constituants suivants : Antéfixe : أ conjonction d’interrogation Préfixe :ت préfixe verbal du temps de l’inaccompli. Suffixe : ون suffixe verbal exprimant le pluriel Post fixe : نَاpronom suffixe complément du nom Corps schématique : ‘’ تَذَكَّر ’’ dérivé de la racine : ذكر selon le schème ‘’ تفعّل’’

Particularité de la langue arabe Catégories des mots L’arabe considère 3 catégories de mots  Le verbe : entité exprimant un sens dépendant du temps, c’est un élément fondamental auquel se rattache directement ou indirectement les divers mots qui constituent l’ensemble  Le nom : l’élément désignant un être ou un objet qui exprime un sens indépendant du temps  Les particules : entités qui expriment un sens dépendant de leur compréhension

Particularité de la langue arabe Catégorie des verbes  On distingue deux grandes catégories du verbe arabe Le verbe ‘’original’’ : toutes ses lettres sont originales, c.a.d ses lettres sont des radicales fortes (ne subissent aucun changement lors de la déclination ou la formation des mots). Les verbes originaux se décomposent en deux grandes classes : - Les originaux terneres: ce sont des verbes dont la racine est composée de 3 lettres(6 schèmes différents) - Les originaux quadriliteres : ces verbes sont composés de 4 lettres et se présentent sous un seul schème. Le verbe ‘’augmenté’’ : dont une ou plusieurs lettres ne sont pas originales. Ils sont décomposés également en 2 classes. - Verbes augmentés à partir d’un verbe original ternere, - Verbes augmentés à partir d’un verbe original quadrilitere.

Particularité de la langue arabe La conjugaison des verbes  Les temps sont les formes que prend le verbe pour indiquer le moment de la durée ou se situe l’action. La langue arabe dispose de 3 temps de conjugaison. - L’accompli, - L’inaccompli, - L’impératif. La conjugaison des verbes dépend de plusieurs facteurs: - Le facteur temps (accompli, inaccompli, impératif). - Le nombre de sujet (singulier, duel, pluriel) - Le genre du sujet (masculin, féminin) - La personne(première, deuxième et troisième personne) - Le mode (actif, passif). Ces facteurs influencent sur la forme syntaxique du verbe, le corps schématique reste constant tandis que les éléments flexionnels changent d’un temps à un autre et d’un genre à un autre…

Particularité de la langue arabe Les noms  Sont de deux catégories : - Noms dérivés : dérivés de la racine verbale, - Noms primitifs : le cas de noms propres, noms communs, et des noms qui sont empruntés des langues étrangères.  Les noms arabes peuvent être déterminés ou non déterminés. Ils sont déterminés s’ils sont dotés d’un préfixe de détermination ou suivis d’un complément du nom.

Particularité de la langue arabe Les noms (Suite)  La déclination des noms arabes suit certaines règles qui sont : - le féminin est obtenu par l’ajout d’un suffixe ‘’ ة’’ - le duel est obtenu par ajout d’un suffixe de dualité ‘’ ين ان’’ - le pluriel des noms arabes est l’un des trois cas suivants: - pluriel du masculin sain, obtenu par l’ajout d’un suffixe ‘’ ون ين’’ - pluriel du féminin sain, obtenu par l’ajout d’un suffixe ‘’ ات’’ - pluriel ‘’brisé’’, suit une diversité de règles complexes.

Particularité de la langue arabe Classification des mots  On distingue 3 grandes classes des mots : 1- mot dérivé d’une racine : ces mots peuvent être soit des verbes soit des noms 2- mot outil : (préposition, conjonction, déterminent,…) 3- mot dit exceptionnel (nom propre, étranger,…) ce sont des mots qui ne sont pas issus d’une racine verbale

Particularité de la langue arabe Grammaire arabe  La langue arabe dispose de deux types de phrases - Les phrases verbales - Les phrases nominales Ces deux types différent par leur syntaxe et leur sémantique. La syntaxe : les phrases verbales renferment un verbe, les phrases nominales en sont dépourvues, en outre, les phrases verbales débutent effectivement par un verbe, ce qui les rend désormais aisément identifiables. La sémantique : en général, les phrases verbales décrivent des actions ou des états variants tandis que les phrases nominales introduisent des actions et des états qui sont relativement continus sur une certaine période de temps

Travaux réalisés Vue générale sur le marché Manque de ressources dans le domaine de traduction de et vers l’arabe : - Manque de spécialistes qui s’intéressent à ce domaine de recherche. - Manque de textes parallèles anglais/arabe

Travaux réalisés Quelques produits - Identificateur de la langue du texte : Rosette language identifier. - Dictionnaires : ‘’almisbar’’ - Traducteurs : ‘’An-Nakel’’, ‘’ajeeb’’, ‘’almisbar’’

Travaux réalisés Identificateur de la langue du texte : Rosette language identifier - Produit par BASIS Technology - peut identifier jusqu’à 35 langues dont la langue arabe - utilise l’analyse statistique, ne contient aucun dictionnaire.

Travaux réalisés Identificateur de la langue du texte : Rosette language identifier Exemple : Enter text: Result : Ranking Language Encoding Most likely Arabic UTF-8 2nd most likely Persian 3rd most likely English 4th most likely Danish 5th most likely Norwegian Input text (converted to Unicode UTF8 encoding): قصف سوق شعبية ببغداد يودي بحياة 55 شخصا، ووزير الدفاع الامريكي يتهم سورية بتقديم مساعدات للجيش العر

- Dictionnaires : ‘’almisbar’’ Travaux réalisés - Dictionnaires : ‘’almisbar’’

- Dictionnaire : ‘’almisbar’’

- Dictionnaire : ‘’almisbar’’

- Dictionnaire : ‘’almisbar’’

Traducteurs : ‘’An-Nakel’’ Produit par Translation.net aux états unis. - C’est un système payant (~1000 $) - capable de traduire 60.000 mots par heure selon la vitesse du processeur. - Il peut traduire un fichier complet, ou juste un paragraphe ou une phrase, traite les noms propres, manipule des abréviations et prend en considération les significations multiples. - Il a un dictionnaire de 150.000 entrées qui peuvent être étendues par l'utilisateur. - L'approche d'An-Nakel est différente de la traduction mot à mot. - Utilise la phrase comme unité de base de traduction dans un système de traitement basé sur le traitement des règles et une base de données de connaissances.

Traducteurs : ‘’An-Nakel’’ Pendant la traduction chaque phrase est analysée profondément, avec An-Nakel pour déterminer les différents syntagmes et des catégories des mots. - Les mots sont analysés dans le contexte et des liens sémantiques sont établis, ce qui donne une représentation interne de la phrase. - Le texte cible est produit en utilisant la méthode de transfert selon les règles de grammaire de la langue cible (arabe). - le texte arabe produit peut être écrit avec ou sans des voyelles.

Traducteurs : ‘’An-Nakel’’ Pendant la traduction chaque phrase est analysée profondément, avec An-Nakel pour déterminer les différents syntagmes et des catégories des mots. - Les mots sont analysés dans le contexte et des liens sémantiques sont établis, ce qui donne une représentation interne de la phrase. - Le texte cible est produit en utilisant la méthode de transfert selon les règles de grammaire de la langue cible (arabe). - le texte arabe produit peut être écrit avec ou sans des voyelles.

Traducteurs : ‘’An-Nakel’’

Traducteurs : ‘’almisbar’’

Traducteurs : ‘’almisbar’’ Traduction almisbar Traduction humaine

Traduction de l’anglais vers l’arabe Conclusion  L’arabe peut être analysé automatiquement comme les langues européennes (règles bien précises).  Peu de textes parallèles arabe-anglais, ce qui limite les travaux sur l’arabe surtout les méthodes statistiques.  La langue arabe contrairement à la langue anglaise possède un système dérivationnel très riche, et c’est dans cette caractéristique que réside la difficulté car la plupart des systèmes utilisent les règles complexes de l’arabe.  La communauté scientifique s’intéresse actuellement à l’arabe.

Traduction de l’anglais vers l’arabe Références  ‘’Système d’analyse syntaxico-semantique du langage arabe non voyellé ‘’, Youcef KADRI  ‘’Traitement automatique de la langue arabe ‘’, Chadia MOGHRABI.  ‘’Traitement automatique de l’arabe voyellé ou non’’Fathi DEBILI.  ‘’L'appariement : quels problèmes?’’ Fathi DEBILI  ‘’Recent developments in Machine Translation, a review of the last five years’’ W.John Hutchins  ‘’Contribution à l'étude et à la reconnaissance automatique de la parole en arabe standard.’’ M. DJOUDI  ‘’Système d'analyse morphologique automatique de langue arabe’’. M. HASSOUN  http://www.translation. net/an-nakel.html  http://www.almisbar.com/salam_trans.html  http://demos.basistech.com