La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Introduction au traitement automatique de l’arabe

Présentations similaires


Présentation au sujet: "Introduction au traitement automatique de l’arabe"— Transcription de la présentation:

1 Introduction au traitement automatique de l’arabe
Owen Rambow Columbia University Center for Computational Learning Systems

2 Remerciements CADIM (Columbia Arabic and its Dialects Modeling Group): Mona Diab et Nizar Habash Nizar Habash pour des transparents Geared towards non-arab researchers working on Arabic NLP Focus on MT! Orthography discussion is necessary to understand later concepts and phenomena

3 Plan Situation sociolinguistique Orthographe Morphologie Syntaxe
Available MT systems? slide on last mt eval arabic no asr discussed

4 لم يشتر نزار طاولة جديدة
lam jaʃtari nizār ţawilatan ζadīdatan لم يشتر نزار طاولة جديدة ne-pas acheter Nizar table nouvelle Nizar n’ a pas acheté la nouvelle table نزار ماشتراش طربيزة جديدة nizār maʃtarāʃ ţarabēza gidīda نزار ماشتراش طاولة جديدة nizār maʃtarāʃ ţawile ζdīde نزار ماشراش ميدة جديدة nizar maʃrāʃ mida ζdīda

5 Variation phonologique
ASM ā ʔ t b ʤ θ x ħ δ d z r s ʃ ʕ k ʁ q f l m ت ث ا ب ج ح خ د ذ ر ز س ش ص ض ط ظ ع غ ف ق ك ل م ن ه و ي ى ء أ آ إ ؤ ئ ة h n w j ū ī δ̣ LEV ت ث ا ب ج ح خ د ذ ر ز س ش ص ض ط ظ ع غ ف ق ك ل م ن ه و ي ى ء أ آ إ ؤ ئ ة Arabic 40 connections => Ambiguity of reading = 4/36 (11%) 2 each Ambig of writing = 3/40 (8%) each with 4 variants! Hebrew has 37 connections => Ambiguity of reading = 9/22 (41%) 3 each writing ambiguity = 10/24 (42%) .. Avergae of 2.6 each Dialects of hebrew sephardic… 24 phones, 22 -allophones -hamza -Morphophonemic كبيرة ♀ هوى هوا 31 phones 36 graphemes 2 ambiguous ī j ū w h n m l k q f ʁ ʕ δ̣ ʃ s z r δ d x ħ ʤ θ t b ā ʔ ē ō No dialect-specific standard orthography

6 Variation lexicale L’orthographe arabe permet de consolider quelques variations

7 Classification des dialectes
Dialectes Régionaux Arabe maghrébin (MAG) Arabe égyptien (EGY) Arabe levantin (LEV) Arabe du Golfe (GLF) Arabe iraqien, yéménite, sudanais; le maltais? Dialectes sociaux Citadin/paysan/bédouin Sexe Religion

8 La diglossie dans le monde arabe
Qu’est-ce qu’un ‘dialecte’? Facteurs politiques et religieux Arabe Standard Moderne (ASM, MSA en anglais): Documents écrits Discours officiels, médias traditionnels (lu) Pas de production orale spontanée Appris à l’école (règles) Dialectes: Oral spontanée Médias électroniques Appris à la maison

9 Le mélange des codes (code switching)
ASM LEV Discours sur Al-Jazeera phonologie, morphologie et syntaxe لا أنا ما بعتقد لأنه عملية اللي عم بيعارضوا اليوم تمديد للرئيس لحود هم اللي طالبوا بالتمديد للرئيس الهراوي وبالتالي موضوع منه موضوع مبدئي على الأرض أنا بحترم أنه يكون في نظرة ديمقراطية للأمور وأنه يكون في احترام للعبة الديمقراطية وأن يكون في ممارسة ديمقراطية وبعتقد إنه الكل في لبنان أو أكثرية ساحقة في لبنان تريد هذا الموضوع، بس بدي يرجع لحظة على موضوع إنجازات العهد يعني نعم نحكي عن إنجازات العهد لكن هل النظام في لبنان نظام رئاسي النظام في لبنان من بعد الطائف ليس نظام رئاسي وبالتالي السلطة هي عمليا بيد الحكومة مجتمعة والرئيس لحود أثبت خلال ممارسته الأخيرة بأنه لما بيكون في شخص مسؤول في منصب معين وأنا عشت هذا الموضوع شخصيا بممارستي في موضوع الاتصالات لما بياخد مواقف صالحة ضمن خطاب ومبادئ خطاب القسم هو إلى جانبه إنما مش مطلوب من رئيس جمهورية هو يكون رئيس السلطة التنفيذية لأنه منه بقى في لبنان ما بعد إتفاق الطائف رئيس السلطة التنفيذية عليه التوجيه عليه إبداء الملاحظات عليه القول ما هو خطأ وما هو صح عليه تثمير جهود الوطنية الشاملة كي يظل في مصالحة وطنية كي يظل في توافق ما بين المسلم والمسيحي في لبنان يحتضن أبناء هذا البلد ما يترك المسار يروح باتجاه الخطأ نعم إنما خطاب القسم كان موضوع مبادئ طرحت هو ملتزم فيها اللي مشيوا معه وآمنوا فيها التزموا فيها أنا أثبت خلال الأربع سنوات بالممارسة الحكومية أني التزمت فيها ولما التزمنا بهذا الموضوع كان الرئيس لحود إلى جنبنا في هذا الموضوع، أما الموضوع الديمقراطي أنا بتفهم تماما هذا هالوجهة النظر بس ما ممكن نقول إنه الدستور أو تعديله هو أو إمكانية فتح إعادة انتخاب ديمقراطي ضمن المجلس والتصويت إلى ما هنالك لرئيس جمهورية بولاية ثانية هو مسح هيئة في جوهر الديمقراطية هذا بالأقل يعني قناعتي في هذا الموضوع. Aljazeera Transcript

10 Les niveaux de Badawi Badawi: Polyglossie Arabe traditionnel
Arabe moderne Arabe vernaculaire éduqué Arabe vernaculaire moyen Arabe vernaculaire analphabète Polyglossie Arabe classique Dialecte Langue étrangère

11 Une situation unique? Suisse allemande Chine France?

12 Pourquoi s’intéresser aux dialectes en TAL?
Reconnaissance automatique de la parole Systèmes de dialogue Traduction automatique à partir de la parole, de textes écrits en dialecte Aides à l’apprentissages Pour étrangers (apprentissage des dialectes) Pour arabes (apprentissage de l’ASM)

13 La diglossie, la linguistique, et le TAL
L’ASM n’est pas « une langue naturelle » (?) Il y a peu de travaux linguistiques sur les dialectes Il y a peu de textes écrits dans les dialectes Les domaines dans lesquels sont employés ASM et dialectes sont complémentaires (il n’y a pas de corpus ASM-dialecte) Il y a peu d’intérêt dans le monde arabe à étudier les dialectes Pour TAL des dialectes, il faut: Commencer par l’ASM Employer des modèles et des connaissances venant de la linguistique théorique et descriptive « Scholar-seeded learning »

14 Plan Situation sociolinguistique Orthographe Morphologie Syntaxe
Available MT systems? slide on last mt eval arabic no asr discussed

15 L’arabe écrit L’arabe s’écrit avec un alphabète avec des variantes allographiques, des diacritiques optionnelles, et des ligatures spéciales L’alphabète arabe (variations) est aussi utilise pour écrire d’autres langues : le persan, le kurde,l’urdu, le pashto, etc الخَطُ العَرَبِي Letters Body Shape Connective Disconnective Dots Diacritics oblig/optiona; Vocalic/consonantal font others… Short/long writing Script feature

16 L’arabe écrit ﺪ د ﺎ ا ﺰ ز ﻦ ﻨ ﻧ ن ﻎ ﺶ ﻢ ﻚ ﺐ ﻐ ﺸ ﻤ ﻜ ﺒ ﻏ ﺷ ﻣ ﻛ ﺑ ﻍ ش م
Les lettres De droite a gauche Pas de majuscules 4 variantes par lettre د ا ز ن final medial initial isolé ش م ك ب Con / dis Similar shapes Very different forms

17 بً بٌ بٍ بَ بُ بِ L’arabe écrit Diacritiques optionelles
Nunation بً /ban/ بٌ /bun/ بٍ /bin/ Voyelle بَ /ba/ بُ /bu/ بِ /bi/ Diacritiques optionelles Sur ou sous les lettres Voyelles courtes Morphème de d’indétermination (« nunation ») كِتَابٌ /kitābun/ ‘un livre’ There are additional ones for koranic text that are not discussed here

18 بْ بّ L’arabe écrit بُّ بٍّ بًّ Diacritiques مَكْتَب /maktab/ ‘bureau’
Marqueur d’absence de voyelle (sukun) مَكْتَب /maktab/ ‘bureau’ Gémination (double consonne) (shadda) كَتَّب /kattab/ ‘dicter’ Combinable No Vowel بْ /b/ Double Consonant بّ /bb/ There are additional ones for koranic text that are not discussed here بُّ بٍّ بًّ /bbu/ /bbin/ /bban/

19  عَرَب = عرب  ع َر َب غَرْب = غرب  غ َر ْب سلام ﺳﻠﺎم  س ل ا م
L’arabe écrit Exemples de combinaison simple Ligatures عَرَب = عرب  ع َر َب Arabe /ʕarab/ غَرْب = غرب  غ َر ْب Ouest /ʁarb/ سلام ﺳﻠﺎم  س ل ا م Paix /salām/

20 Phonologie et orthographe de l’ASM
28 consonnes 3 voyelles courtes, 3 voyelles longues, 2 diphtongues L’orthographe arabe suit largement la phonologie My work on palestinian, arabic mt and arabic hebrew mt Highlight similarities and differences A lot of similarities/differences not included ā ʔ t b ʤ θ x ħ δ d z r s ʃ ʕ k ʁ q f l m ت ث ا ب ج ح خ د ذ ر ز س ش ص ض ط ظ ع غ ف ق ك ل م ن ه و ي ى ء أ آ إ ؤ ئ ة h n w j ū ī δ̣

21 Ambiguïté de l’orthographe arabe
Problème: absence de diacritiques بين (byn) /bayyana/ ‘il déclara’ /bayyanna/ ‘elles déclarèrent’ /bayyin/ ‘évident’ /bayna/ ‘parmi’ /bīn/ Ben (nom propre) Application TAL arabe: diacritisation, un système pour désambiguïser l’orthographe selon le contexte en ajoutant des diacritiques Indefiniteness (Nunation تنوين) (tashdid تشديد, dagesh דגש)

22 Plan Situation sociolinguistique Orthographe Morphologie Syntaxe
Faits linguistiques Analyseur morphologique (TAL) Désambiguïsation morphologique (TAL) Syntaxe Available MT systems? slide on last mt eval arabic no asr discussed

23 Morphologie Types Fonctions (universelles)
Concatenative: préfixe, suffixe, circonfixe -- universel « Radicale » (templatic): racine+gabarit – sémitique Fonctions (universelles) Dérivationelle Création de lexèmes nouveaux (nouveau sens lexical) Largement morphologie gabaritique Inflectionelle Variation des traits des mots (ne change pas le sens lexical) Temps, nombre, personne, aspect, mode Largement morphologie concatenative « Lexème »: ensemble de mots qui ne varient que dans leur morphologie inflectionelle

24 Morphologie dérivationelle gabaritique (par gabarits)
ب ت ك Racine b t k Patron 3 و 2 1 مَ 3 ِ2 ا 1 Psycholinguistic reality format  فرمت farmat Dictionary ordered Not all combinations possible ū ma i ā مكتوب كاتب Lexème maktūb écrit kātib écrivain

25 Morphologie dérivationelle La signification des radicales
ك ت ب KTB = notion: ‘écriture’ كتاب /kitāb/ book كتب /katab/ write مكتوب /maktūb/ written مكتبة /maktaba/ library مكتوب /maktūb/ letter مكتب /maktab/ office كاتب /kātib/ writer

26 Morphologie dérivationelle Signification des gabarits
La signification des gabarits est assez floue Patron (Forme) Signification du gabarit Exemple Traduction I 1a2a3 Sens de base ktb  katab écrire II 1a22a3 Intensification, causatif ktb  kattab dicter III 1aA2a3 Interaction avec d’autres ktb  kaAtab correspondre avec IV Aa12a3 Causatif jls  Ajlas Asseoir qq V ta1a22a3 Réflexif du gabarit II Elm  taEal~am apprendre VI ta1aA2a3 Réflexif du gabarit III ktb  takaAtab correspondre VII Ain1a2a3 Passif (de-accusatif) du gabarit I ktb  Ainkatab s’abonner, s’inscrire VIII Ai1ta2a3 Acquiescence, exagération ktb  Aiktatab S’inscrire IX Ai12a33 Transformation Hmr  AiHmarr rougir X Aista12a3 Besoin ktb  Aistaktab Demande d’écrire

27 Signification des lexèmes
Signification d’un lexème: Signification des radicales + Signification du gabarit + Idiosyncrasie lexicale La morphologie derivationelle n’est pas sémantiquement déterministe! Le paradigme n’est pas complet Contraste: morphologie inflectionelle

28 Morphologie inflectionelle
Définition de « mot »: orthographe Mot = lexème + traits Parties du discours Grammaires arabes traditionnelles: Nom, Verbe, Particule Grammaires modernes computationelles: N, NP, V, Adj, Adv, P, Pron, Nom, Conj, Det , Aux, Pon, IJ Traits Pour tous les mots Conjonctions clitiques Prépositions clitiques

29 Morphologie inflectionelle: Traits
Pour les noms Nombre: singulier, dual, pluriel, collectif Genre: masculin, féminin, neutre État: défini, indéfini, constructif (=tête de construction génitive) Cas: nominatif, accusatif, génitif Clitique possessive Pour les verbes Aspect: perfectif, imparfait Voix: actif, passif Mode: indicatif, subjonctif, jussif, impératif Sujet (personne, nombre, genre) Clitique objet

30 Morphologie inflectionelle: noms
conj prep noun poss plural article وكبيوتنا /wakabiyūtinā/ نا + بيوت + ك + و wa+ka+biyūt+nā and+like+houses+our ‘et comme nos maisons’ وللمكتبات /walilmaktabāt/ و+ل+ال+مكتبة+ات wa+li+al+maktaba+āt and+for+the+library+plural ‘et pour les bibliothèques’ Article or poss Case Arabic Broken Plurals Intersection of Derivational and Inflectional Morphology Règles morphologiques (exemple: ل+ال  لل) Pluriel « rompu » (irrégulier): se fait avec des gabarits, non pas avec des suffixes

31 Morphologie inflectionelle: verbes
objet suj verbe futur conj فقلناها /faqulnāhā/ ف+ قال+ نا+ ها fa+qul+na+hā so+said+we+it ‘ainsi nous le dîmes’ وسنقولها /wasanaqūluhā/ و+ س+ ن+ قول + ها wa+sa+na+qūl+u+hā and+will+we+say+it ‘et nous le dirons’ Aspect PA circumfix negation Object, iobj

32 Morphologie inflectionelle
Conjugaison de l’accord avec le sujet pour le perfectif Singular Dual Plural 1 كتبتُ katabtu كتبنا katabnā 2 كتبتَ katabta كتبتما katabtumā كتبتم katabtum 3 كتب َ kataba كتبا katabā كتبوا katabtū Conjugaison de l’accord avec le sujet pour l’imparfait Singular Dual Plural 1 اكتب ُ aktubu نكتب ُ naktubu 2 تكتب ُ taktubu تكتبان taktubān تكتبون taktubūn 3 يكتب ُ yaktubu يكتبان yaktubān يتكتبون yaktubūn Stems are different Distribution of features Feminine form and other verb moods not shown

33 Le lexème en arabe Lexème = radicales + classe de comportement morphologique Classe de comportement morphologique: Fonction qui associe des morphèmes à des traits linguistiques Ordre de généralisation: Radicales > lexème > mot

34 Classe de comportement morphologique
MBC::Verb-I-au ( katab/yaktub ) cnj=wa  wa+ tense=fut  sa+ per=1, num=sg  ‘+ per=1, num=pl  n+ mood=indic  +u mood=sub  +a aspect=imper  V12V3 aspect=perf  1V2V3 voice=act  a-u voice=pass  u-a obj=3FS  +hA obj=1P  +nA

35 Hiérarchie des classes de comportement morphologique
Word Verb Noun Form-I Form-II Form-X VerbTr VerbIntr Form-I-aa Form-I-ii Verb-I-aa-tr Verb-I-aa-Intr Verb-X-Intr Verb-X-tr

36 Hiérarchie des classes de comportement morphologique
Word Verb Noun Form-I Form-II Form-X VerbTr VerbIntr Form-I-aa Form-I-ii Verb-I-aa-tr Verb-I-aa-Intr Verb-X-Intr Verb-X-tr cnj:f CONJ:f cnj:w CONJ:w cnj:0 CONJ:nil prt:0 PART:nil

37 Hiérarchie des classes de comportement morphologique
Word Verb Noun Form-I Form-II Form-X VerbTr VerbIntr Form-I-aa Form-I-ii Verb-I-aa-tr Verb-I-aa-Intr Verb-X-Intr Verb-X-tr cnj:f CONJ:f cnj:w CONJ:w cnj:0 CONJ:nil prt:0 PART:nil prt:l PART:RESULT prt:s PART:FUT asp:P per:1 num:s  SUBJSUF_PV:1S

38 Hiérarchie des classes de comportement morphologique
Word Verb Noun Form-I Form-II Form-X VerbTr VerbIntr Form-I-aa Form-I-ii Verb-I-aa-tr Verb-I-aa-Intr Verb-X-Intr Verb-X-tr cnj:f CONJ:f cnj:w CONJ:w cnj:0 CONJ:nil prt:0 PART:nil prt:l PART:RESULT prt:s PART:FUT asp:P per:1 num:s  SUBJSUF_PV:1S pro:0 OBJ:nil pro:1S OBJ:1S Pro:1P OBJ:1P

39 Hiérarchie des classes de comportement morphologique
Word Verb Noun Form-I Form-II Form-X VerbTr VerbIntr Form-I-aa Form-I-ii asp:imp V12V3 asp:p 1V2V3 Verb-I-aa-tr Verb-I-aa-Intr Verb-X-Intr Verb-X-tr cnj:f CONJ:f cnj:w CONJ:w cnj:0 CONJ:nil prt:0 PART:nil prt:l PART:RESULT prt:s PART:FUT asp:P per:1 num:s  SUBJSUF_PV:1S pro:0 OBJ:nil pro:1S OBJ:1S Pro:1P OBJ:1P

40 La morphologie des dialectes
Morphologie gabaritique et concatenative, comme pour l’ASM Noms Perte des cas Perte de la distinction entre masculin & féminin au pluriel Verbes Perte des formes duales Perte de la distinction ndicatif/subjonctif/jussif Perte de la distinction entre masculin & féminin au pluriel (2e et 3e personnes) Clitiques pour l’objet indirecte Négation par préfixe, suffixe, ou circonfixe Formes pour le progressif, l’habituel

41 La morphologie des dialectes: exemple verbal
object subj verb tense conj IOBJ neg ASM ولم تكتبوها له walam taktubūhā lahu wa+lam taktubū+hā la+hu and+not_past write_you+it for+him EGY وماكتبتوهالوش wimakatabtuhalūʃ wi+ma+katab+tu+ha+lū+ʃ and+not+wrote+you+it+for_him+not Aspect PA circumfix negation Object, iobj ‘et tu ne le lui as pas écrit’

42 La morphologie des dialectes
Perfectif Imparfait ASM كتب kataba Past يكتب jaktubu Present سيكتب sajaktubu Future L E V katab jiktob 0-Tense بيكتب bjoktob habitual عم بيكتب ʕam bjoktob progressive حيكتب ħajiktob Tense variations Tense and negative interaction

43 Plan Situation sociolinguistique Orthographe Morphologie Syntaxe
Faits linguistiques Analyseur morphologique (TAL) Désambiguïsation morphologique (TAL) Syntaxe Available MT systems? slide on last mt eval arabic no asr discussed

44 Application TAL: Analyseur morphologique
Système qui: Prend en entrée un mot écrit, donc une forme fléchie Génère un lexème (=radicales, classe de comportement morphologique) et des traits linguistiques (+pluriel, +accusatif, …) Donne tous les analyses possible (sans égard au contexte) Nous voulons: Système bidirectionnel Fonctionne avec les dialectes

45 Travail précédent Problème: morphologie se fait avec automates ou transducteurs à états finis (FST) Insuffisant pour la morphologie gabaritique Beesley, Buckwalter & Newton 1989: two-level morphology with “detouring” Beesley & Karttunen 2000: compile-replace Buckwalter 2002: morphologie concatenative Comment adapter aux dialectes?

46 Notre implémentation: Automates à bandes multiples
MAGEAD, Habash & Rambow 2006 Suivant le travail de Kiraz (1996,2000) 5 bandes: Patron Radicales Vocalisme Forme de surface phonologique Forme de surface orthographique

47 Les étapes de la génération morphologique
Lexeme and Features Morpheme-Feature Mapping Dialect Independent Root + Abstract Morphemes Abstract Morpheme Ordering Dialect Independent Root + Ordered Abst. Morph. Abstract-Concrete Mapping Dialect Dependent Root + Concrete Morphemes Morphophonemic rules Dialect Dependent Phonemic Form Orthographic rules Orthography Dependent Orthographic Form

48 Exemple V 1 t 2 3 Pattern z h r Root i a Vocalism Phonology
Orthography

49 Exemple Règles générique pour la phonologie V 1 t 2 3 Pattern z h r
Root i a Vocalism i z t a h r Phonology Orthography

50 Exemple Règles morpho-phonémiques V 1 t 2 3 Pattern z h r Root i a
Vocalism i z d a h r Phonology Orthography

51 Exemple Copier au niveau orthographique V 1 t 2 3 Pattern z h r Root i
Vocalism i z d a h r Phonology i z d a h r Orthography

52 Example Règles orthographiques V 1 t 2 3 Pattern z h r Root i a
Vocalism i z d a h r Phonology A i z d a h r Orthography

53 Un analyseur pour un dialecte
Créer la relation morphèmes abstraits – morphèmes concrets pour le dialecte Créer les règles morpho-phonémiques Créer les règles orthographiques Créer le lexique: Ajuster la hiérarchie des classes de comportement morphologique Donner une liste de lexèmes: <radicales, CCM> Alternative: postuler des lexèmes, utiliser un modèle probabiliste base sur des règles de changement de sons (exemple: /q/  /’/) Fait pour les verbes levantins

54 Plan Situation sociolinguistique Orthographe Morphologie Syntaxe
Faits linguistiques Analyseur morphologique (TAL) Désambiguïsation morphologique (TAL) Syntaxe Available MT systems? slide on last mt eval arabic no asr discussed

55 Ambiguïté de la morphologie arabe
Exemple: analyses possible de بين (byn) Diac PdD Traits Lexème Signification bayyana V asp:pf g:m n:s bayyana ‘il déclara’ bayyanna V asp:pf g:f n:p bayyana ‘elles déclarèrent’ bayyinu Adj g:m n:s cas:nom bayyin ‘évident’ bayna P bayna ‘parmi’ biyini NP prep:b yin ‘en Yen’ biynu NP cas:nom biyn ‘Ben’ biyni NP cas:gen biyn ‘Ben’ Applications TAL arabe: Choix de la partie du discours et des traits morphologiques (= étiqueteur morphologique) Choix des diacritiques (=diacritisation) Choix du lexème (=lemmatisation) Indefiniteness (Nunation تنوين) (tashdid تشديد, dagesh דגש)

56 Ambiguïté de la morphologie arabe
Average overall ambiguity* is 2.5 analyses/word (sans cas/mode) Compare to English ENGTWOL ambiguity ( analyses/word) Ambiguity (depends on granularity!) The first module in the system is the preprocessor that identifies sentence boundaries and fixed syntagms - idioms, such as multiword prepositions, and compound nouns. The current list of fixed syntagms contains some 6,000 items. The ENGTWOL morphological analyser uses a lexicon which contains about 56,000 entries. It accounts for all inflections and central derivations, and the number of entries is adequate to cover the core vocabulary of English. Usually ENGTWOL is capable of recognising and analysing more than 95% of input word forms, and even in more technical texts the percentage is typically over 90%. The correctness of the readings produced by ENGTWOL is near 100% (see the test results reported in Section 3.1). For the analysis of those words not represented in the ENGTWOL description, there is a rule-based heuristic program that assigns ENGTWOL-style readings. Also this utility is highly reliable (see Section 3.1 and Voutilainen 1994b). Since many English word forms can belong to more than one part of speech in isolation, the morphological analysis produces ambiguity; on an average, the ENGTWOL analyser provides each word with alternative morphological readings. Ambiguity is, of course, highly dependent on the linguistic description adopted. The ENGTWOL description is mainly based on Quirk et al. (1985). We have systematically introduced categorial ambiguity, and we have also generously used other features to provide ample information - the total number of features used is approximately 150. Hence, ENGTWOL typically makes somewhat finer distinctions than the tag set of the Brown University Corpus. Uninflected verb forms, for example, are ambiguous over the present tense, imperative, infinitive and subjunctive readings, whereas the Brown tag set only gives one uninflected verb form reading. Also, pronoun/determiner ambiguities (e.g., much, this) have been spelt out in ENGTWOL, while the Brown tag set often subsumes these categories under the same tag. On the other hand, the Brown tag set divides -ing-forms into participles, nouns and adjectives - ENGTWOL subsumes these under the feature PCP1. The ENGTWOL feature system is well specified in the sense that linguists familiar with the ENGTWOL description tend to agree in virtually 100% of the cases when they (manually) apply the description to running text (Voutilainen 1994a). Without a well-specified `underlying' descriptive practice or parsing scheme, the development or evaluation of a parsing grammar could obviously not be satisfactory. * In Arabic Penn Treebank 1

57 Étiquetage morphologique
Jeu d’étiquettes pour l’anglais: 46 Jeu d’étiquettes pour l’arabe: 3000+ On ne peut pas simplement entraîner un étiqueteur traditionnel, par exemple basé sur machine de Markov cachée (HMM) 2 options: Réduire la taille du jeu d’étiquettes en éliminant des distinctions (Diab et al 2004) Utiliser un analyseur morphologique pour réduire les possibilités (Hajič 2001)

58 MADA (Habash & Rambow 2005) Utilise un analyseur morphologique (BAMA) qui produit les analyses possible du mot d’entrée, par exemple بين (byn) Diac PdD Traits Lexème Signification bayyana V asp:pf g:m n:s bayyana ‘il déclara’ bayna P bayna ‘parmi’ biyini NP prep:b yin ‘en Yen’ biyni NP cas:gen biyn ‘Ben’ MADA fait un choix parmi les analyses; en MEME TEMPS: Étiquetage morphologique Diacritisation Lemmatisation

59 Formatted Arabic Text (Buckwalter) Sets of Analyses & Features
MADA (Habash & Rambow 2005) Arabic Text Formatted Arabic Text (Buckwalter) Formatting Script Sets of Analyses & Features Morphological Analyzer SVM Classifiers Feature Predictions MADA Analysis Ranker Sets of Ranked Analyses & Features Tokenized Buckwalter Text TOKAN User Applications

60 Traits utilisés par MADA
Noms Nombre Genre Cas Défini/indéfini Clitique possessive Présence de ‘Al’ Tous les mots Clitique de conjonction Préposition/particule clitique Modèle 4-gram des lexèmes Verbes Aspect Voix Mode Accord sujet Clitique Objet

61 MADA: Choix de la meilleure analyse
W-4 W-3 W-2 W-1 W0 W1 W2 W3 W4 3rd 4th 5th 1st 2nd CLASSIFIEURS MORPHOLOGIQUES RANKER ANALYSEUR MORPHOLOGIQUE Entrainés sur corpus Entrainé sur corpus Créé a la main Règles

62 Performance des classificateurs
Classifiers: Art, Aspect, Case, Clitic, Conj, Def, Gen, Idafa, Mood, Num, Part, Per, Pos, Voice SVMTools does slightly worse than Yamcha, but is x13 faster

63 Diacritiques correctes (toutes les diac) Choix d’analyse correcte
Résultats pour MADA Métrique D’évaluation Correction de MADA (%) PdD correct 96.4 Lexème correct Diacritiques correctes (toutes les diac) 86.2 Choix d’analyse correcte 83.9 Note: si on exclut le cas et le mode, les résultats sont nettement meilleurs

64 Plan Situation sociolinguistique Orthographe Morphologie Syntaxe

65 Syntaxe de la Phrase Deux types de phrase en arabe Phrase verbale
[Verb Subject Object] (VSO) كتب الاولاد الاشعار Wrote the-boys the-poems The boys wrote the poems Phrase à copule [Topic Complement] الاولاد شعراء the-boys poets The boys are poets Traditional analysis

66 Phrases verbale Verb agreement with gender only
كتب الولد\الاولاد wrote3MascSing the-boy/the-boys كتبت البنت\البنات wrote3FemSing the-girl/the-girls Pronominal subjects are conjugated كتبتُ wrote-youMascSing كتبتم wrote-youMascPlur كتبوا wrote-theyMascPlur Passive verbs Same structure: Verbpassive SubjectunderlyingObject Agreement with surface subject

67 Phrases à copule [Topic Complement]
Definite Topic, Indefinite Complement الولد شاعر the-boy poet The boy is a poet [Auxiliary Topic Complement] Auxiliaries (kāna and her sisters) Tense, Negation, Transformation, Persistence كان الولد شاعرا was the-boy poet The boy was a poet ليس الولد شاعرا is-not the-boy poet The boy is not a poet Inverted order is expected in certain cases Indefinite topic عندي كتاب /ʕandi kitābun/ at-me a-book I have a book Past tense??

68 Phrases à copule: types de compléments
Nom/Adjectif الولد ذكي the-boy smart The boy is smart Syntagme prepositionnel الولد في المكتبة the-boy in the-library The boy is in the library Phrases à copule الولد كتابه كبير [the-boy [book-his big]] The boy, his book is big Phrase verbale الاولاد كتبوا الاشعار [the-boys [wrote-they poems]] The boys wrote the poems Full agreement in this order (SVO) الاشعار كتبها الاولاد (OVS) [the-poems [wrote-it the boys]] The poems, the boys wrote Past tense??

69 Syntaxe du nom La modification par adjectif:
N Adj Accord en nombre, genre, cas, définition La construction possessive « Idafa » (اضافة): ‘N1 de N2’ N1-constructif N2-génitif ملك الاردن roi Jordanie ‘le roi de Jordanie’ N1 hérite la définition de N2 (défini, indéfini) Chaines d’Idafa N1constr N2constr … Nn-1constr Nndef ou indef ابن عم جار رئيس مجلس ادارة الشركة fils oncle voisin chef comite administation l’entreprise Le cousin du voisin du PDG de l’entreprise

70 La syntaxe des dialectes: noms
Idafa construction Noun1 of Noun2 encoded structurally ملك الاردن king Jordan the king of Jordan / Jordan’s king Dialects have an additional common construct Noun1 <particle> Noun2 LEV: الملك تبع الاردن the-king belonging-to Jordan <particle> differs widely among dialects Pre/post-modifying demonstrative article MSA: هذا الرجل this the-man this man EGY: الراجل ده the-man this this man

71 La syntaxe des dialectes: phrases
The children wrote poems MSA Verb Subject Object (Partial agreement) كتب الاولاد الاشعار wrotemasc the-boys the-poems Subject Verb Object (Full agreement) الاولاد كتبوا الاشعار the-boys wrotemascPlural the-poems LEV, EGY Subject Verb Object الاولاد كتبو الاشعار The-boys wrotemascPlural the-poems Less present: Verb Subject Object كتبو الاولاد الاشعار wrotemascPlural the-boys the-poems Full agreement in both order

72 L’analyse des dialectes arabes: le problème pour le TAL
- ASM - الازلام بيحبو ش الشغل هادا Banque d’arbres Petit corpus ? بيحبو الازلام ش الشغل هادا men like work this not Parser Gros corpus

73 TAG = Tree Adjoining Grammar
La transduction de la grammaire (Chiang et al 2006, Chiang & Rambow 2006) - Dialect - - MSA - Probabilistic TAG Treebank الازلام بيحبو ش الشغل هادا Probabilistic TAG Parser Tree Transduction بيحبو الازلام ش الشغل هادا TAG = Tree Adjoining Grammar

74 La transduction de la grammaire
Transformer le modèle d;analyse pour ASM en un modèle d’analyse pour le dialecte Plus précisément: en un modèle d’analyse synchrone ASM-dialecte Le modèle d’analyse est défini en termes de dérivations en TAG (tree adjoining grammar)

75 Tree-Adjoining Grammar

76 La transformation d’une TAG
Nous spécifions des transformations sur des arbres elementaires

77 Les probabilités de transformation
Ajouter des probabilités de correspondance P(TLev|TMSA)

78 Appris dans la banque d’arbres pour l’ASM
Modèle de probabilité Pour analyser, trouver: arg max P(TLev) ≈ arg max P(TLev, TASM) = arg max P(TLev|TASM) P(TASM) Appris dans la banque d’arbres pour l’ASM Probas de correspondence

79 Modèle de probabilité La lexicalisation crée un ensemble de correspondences LEV > SMA qui est enorme Faire un backoff: modéliser independemment la correspondance de la partie non-lexicalisée et des mots

80 Transformations Transformation VSO à SVO Négation:

81 Transformations ‘want’

82 Resultats Recall Prec F1 Baseline 62.5 63.9 63.2 Petit lexique 67.0
VSO→SVO 66.7 66.9 66.8 negation ‘want’ 67.4 67.2 negation+‘want’ 67.1 67.3

83 Conclusion Pour faire le TAL de l’arabe, il faut:
comprendre les faits linguistiques; les modéliser de façon adéquate; et maîtriser des techniques formelles et computationelles diverses! La linguistique est importante!


Télécharger ppt "Introduction au traitement automatique de l’arabe"

Présentations similaires


Annonces Google