La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Ressources lexicales et grammaticales pour le russe Semaine NOOJ Inalco 31 janvier 2012 Vincent BÉNET CREE CERRUS - RAO Recherche assistée par ordinateur.

Présentations similaires


Présentation au sujet: "1 Ressources lexicales et grammaticales pour le russe Semaine NOOJ Inalco 31 janvier 2012 Vincent BÉNET CREE CERRUS - RAO Recherche assistée par ordinateur."— Transcription de la présentation:

1 1 Ressources lexicales et grammaticales pour le russe Semaine NOOJ Inalco 31 janvier 2012 Vincent BÉNET CREE CERRUS - RAO Recherche assistée par ordinateur Conception et réalisation Conception et réalisation de ressources lexicales et grammaticales pour le russe pour le logiciel Nooj de Max Silberztein

2 2 Historique des ressources existantes pour le russe Historique des ressources existantes pour le russe Principes de conception Principes de conception Descriptif de la réalisation Descriptif de la réalisation Travail restant à faire Travail restant à faire Conception et réalisation de ressources lexicales et grammaticales pour le russe pour le logiciel Nooj de Max Silberztein Conception et réalisation de ressources lexicales et grammaticales pour le russe pour le logiciel Nooj de Max Silberztein

3 3 Historique des ressources existantes en russe CORPUS RUSSES ACTUELS CORPUS RUSSES ACTUELS La bibliothèque de Moshkov Le fonds informatisé de la langue russe Le corpus national de la langue russe Le corpus national de la langue littéraire* russe

4 4 Corpus de textes russes La Bibliothèque de Moshkov

5 5 Corpus de textes russes Le fonds informatisé de la langue russe oeuvres littéraires (romans, poésies, théâtre du XIX et XX, environ 100 auteurs) Corpus de textes de journaux (années ) Dictionnaires avec logiciel intégré de recherche doccurrences

6 6 Машинный фонд русского языка

7 7 Машинный фонд русского языка

8 8 Национальный корпус русского языка Échantillon « représentatif » de la langue russe textes mots Corpus de formes étiquetées et désambiguïsées avec recherche doccurences

9 9 Национальный корпус русского языка Recherche dans le corpus : choix du sous-corpus Recherche dans le corpus : choix du sous-corpus

10 10 Национальный корпус русского языка Sélection morphosyntaxique dans le corpus Sélection morphosyntaxique dans le corpus

11 11 Национальный корпус русского языка Sélection sémantique dans le corpus Sélection sémantique dans le corpus

12 12 Национальный корпус русского языка Sélection sémantique dans le corpus Sélection sémantique dans le corpus

13 13 Национальный корпус русского языка Recherche dans le corpus Recherche dans le corpus

14 14 Национальный корпус русского языка Recherche dans le corpus Recherche dans le corpus

15 15 Historique des ressources existantes en russe DICTIONNAIRE ELECTRONIQUE DICTIONNAIRE ELECTRONIQUE pour la langue russe dictionnaire grammatical de ZALIZNIAK entrées avec codage morphosyntaxique version papier = dictionnaire a tergo version électronique (avec codage) alphabétique

16 16 Historique des ressources existantes en russe DICTIONNAIRE ELECTRONIQUE pour la langue russe DICTIONNAIRE ELECTRONIQUE pour la langue russe dictionnaire grammatical de ZALIZNIAK

17 17 Historique des ressources existantes en russe conjugueur-déclineur russe de STARLING

18 18 Historique des ressources existantes en russe LOGICIELS DE TRAITEMENT DE CORPUS LOGICIELS DE TRAITEMENT DE CORPUS pour la langue russe UNILEX ( sous DOS) MAK ( sous Windows ) avec un corpus denviron 4000 pages de textes russes lemmatisés

19 19 Historique des ressources existantes en russe LOGICIELS DE TRAITEMENT DE CORPUS LOGICIELS DE TRAITEMENT DE CORPUS pour la langue russe UNITEX avec un corpus denviron 100 pages ( Le joueur de Dostoevski) et un dictionnaire de 9000 mots correspondant au vocabulaire russe du texte

20 20 Historique des ressources existantes en russe UNITEX avec un corpus denviron 100 pages ( Le joueur de Dostoevski) et un dictionnaire de 9000 mots

21 21 Constituer des ressources Nooj pour la langue russe NOOJ NOOJ M. Silberztein

22 22 Ecrire un lemmatiseur du russe pour Nooj Prendre lUNILEX russe comme modèle ? étiquettes: С - substantif, П – adjectif … мр, жр, ср – masculin, féminin, neutre им, рд, дт, вн, тв, пр - cas : nominatif, génitif, datif, accusatif, instrumental, prépositif tableau de correspondances: аа A С мр, но, ед, им. aa= substantif, masc, inanimé, sing, nominatif аб A С мр, но, ед, рд. бд C С мр, од, ед, тв. dictionnaire: АРОТЛОП %0*эжэйэтэх « IMED TE NU » paradigmes: %ЙО*ад%У*аг%Ы*абажай Y=gén. sg fém, nom. pl. fém, acc. pl. inan

23 23 Ecrire un lemmatiseur du russe pour Nooj IMPOSSIBILITE DE RECUPERER LES LEMMATISEURS EXISTANTS Utiliser le dictionnaire ZALIZNIAK : entrées Problème du codage utilisé полный п 1*а/б // 1*a/c basé sur laccent de mot complété dannotations inutilisables non formalisée non-phonologique non-orthographique (écriture de la voyelle mobile, du jod) les modèles de Zalizniak ont dû être remaniés pour le traitement informatique

24 24 Ecrire un lemmatiseur du russe pour Nooj 1. reconstituer un dictionnaire 2. créer un jeu détiquettes lisibles 3. recoder le dictionnaire avec ces étiquettes 4. problème du ë / e 5. établir la liste des modèles types 6. écrire les paradigmes 7. affecter les modèles aux mots du dictionnaire 8. vérifier le paradigme 9. tester avec des textes 10. corriger les erreurs

25 25 Ecrire un lemmatiseur du russe pour Nooj 1. reconstituer un dictionnaire a tergo 2. créer un jeu détiquettes lisibles N, A, V, ADV etc. A_Forme = fc | fl | adv; A_Genre = m | f | n ; A_SGenr = an | inan ; A_Nombre = s | p; A_Cas = Im | Vi | Ro | Da | Tv | Pr | Zv; A_Deg = Comp | Sup ; ADV_Deg = Comp;

26 26 Ecrire un lemmatiseur du russe pour Nooj 2. jeu détiquettes DEFINITION DES PROPRIETES ET DES CARACTERISTIQUES AFFECTEES A_Forme = fc | fl | adv; A_Genre = m | f | n ; A_SGenr = an | inan ; A_Nombre = s | p; A_Cas = Im | Vi | Ro | Da | Tv | Pr | Zv; A_Deg = Comp | Sup ; ADV_Deg = Comp; N_Genre = m | f | n ; N_SGenr = an | inan ; N_Nombre = s | p; N_Cas = Im | Vi | Ro | R2 | Da | Tv | Pr | P2 | Zv ; N_Sem = Hum | Conc | Abstr | Org | Text | ConcColl + Cpmc | Immeub | Qual | Anim | Loc | Pdc | Sent | Quant | Mat | Liq | Alim | Vehicl | Pr | Tmp | Atm | Geom | CollHum | CollImmeub | Mach ; NUM_Cat = ord | card | coll NUM_Genre = m | f | n ; NUM_SGenr = an | inan ; NUM_Nombre = s | p; NUM_Cas = Im | Vi | Ro | Da | Tv | Pr ; PRON_Genre = m | f | n; PRON_SGenr = an | inan ; PRON_Nombre = s | p; PRON_Pers = 1 | 2 | 3; PRON_Cas = Im | Vi | Vip | Ro | Rop | Da | Dap | Tv | Tvp | Pr ; V_Pers = 1 | 2 | 3; V_Asp = Ipf | Pf; V_Temps = Pre | Pa | Fu; V_Mode = Inf | Ind | Imp | Cond | Ger | Prtp ; V_Voix = Act | Pss ; V_Genre = m | f | n ; V_Nombre = s | p ; V_Sem = Intr | Tr | Refl ; V_Cas = Im | Vi | Ro | Da | Tv | Pr ; PREP; CONJ; INTERJ; PART; INTRO;

27 27 Ecrire un lemmatiseur du russe pour Nooj 4. problème du ë / e (non résolu à ce jour par lAcadémie de Russie) 3. recoder le dictionnaire avec ces étiquettes

28 28 modèles types substantifs adjectifs verbes 2200 paradigmes Ecrire un lemmatiseur du russe pour Nooj 350 types flexionnels 60 types flexionnels 400 types verbaux Cardinaux

29 29 #j1a=karta #jo1a=korova #j2a=nedelja #jo2a=boginja #j3a=kniga #jo3a=sobaka #j4a=tuča #jo4a=kassirša #j5a=ulica #jo5a=volčica #j6a=statuja #jo6a=feja #j7a=linija #jo7a=furija 5. établir la liste des modèles types карта = /Im+f+s + у/Vi+f+s + ы/Ro+f+s + е/Da+f+s + ой/Tv+f+s + е/Pr+f+s + ы/Im+f+p + ы/Vi+f+p + /Ro+f+p + ам/Da+f+p + ами/Tv+f+p + ах/Pr+f+p ; 6. écrire les paradigmes Ecrire un lemmatiseur du russe pour Nooj 6b. écrire les dérivés ( patronymes)

30 30 7. affecter les modèles aux mots du dictionnaire Ecrire un lemmatiseur du russe pour Nooj abažur,N+m+inan+FLX=zavod abazinec,N+m+an+FLX=ukrainec abazin,N+m+an+FLX=artist abaz,N+m+inan+FLX=zavod abak,N+m+inan+FLX=čajnik abbat,N+m+an+FLX=artist 8. vérifier le paradigme

31 31 Ecrire un lemmatiseur du russe pour Nooj 9. tester avec des textes : « la dame au petit chien » de Tchekhov

32 32 Ecrire un lemmatiseur du russe pour Nooj 10. corriger les erreurs : -coquilles (mélange latin/cyrillique) A B E K M H O P C y X MOCKBA - erreurs dans lécriture paradigmes - mauvaise affectation des mots à leur type flexionnel surgénération de formes incongrues - mots inutiles dans le dictionnaire = source dambiguïtés supplémentaires -les noms des lettres a, б, в, и, к, о, с, у, я -les mots vieillis etc..

33 33 Désambiguïser un texte

34 34 Ecrire des ressources pour le russe pour Nooj concevoir des grammaires de désambiguisation concevoir des grammaires de désambiguisation - régime des prépositions - régime des verbes courants - accords adjectifs / substantifs - rection des numéraux - expression des dates / heures etc. - reconnaissance des toponymes, des prénoms, des diminutifs etc.

35 35 Ecrire des ressources pour le russe pour Nooj concevoir des grammaires de désambiguisation concevoir des grammaires de désambiguisation

36 36 Ecrire des ressources pour le russe pour Nooj concevoir des grammaires de désambiguisation concevoir des grammaires de désambiguisation

37 37 Constituer un corpus de textes vérifiés et désambiguïsés

38 38 Constituer un corpus de textes vérifiés NOOJ NOOJ

39 39 Ecrire des ressources pour le russe pour Nooj Pour aller plus loin…. dans une perspective ultérieure de constitution de ressources parallèles et alignées Harmonisation des étiquettes entre langues (slaves)

40 40 Ressources lexicales et grammaticales pour le russe Semaine NOOJ Inalco 31 janvier 2012 CREE Langue, linguistique et développement numérique Recherche assistée par ordinateur Conception et réalisation Conception et réalisation de ressources lexicales et grammaticales russes pour NOOJ


Télécharger ppt "1 Ressources lexicales et grammaticales pour le russe Semaine NOOJ Inalco 31 janvier 2012 Vincent BÉNET CREE CERRUS - RAO Recherche assistée par ordinateur."

Présentations similaires


Annonces Google