Télécharger la présentation
Publié parBrian Le floch Modifié depuis plus de 10 années
1
Ressources lexicales et grammaticales pour le russe
Conception et réalisation de ressources lexicales et grammaticales pour le russe pour le logiciel Nooj de Max Silberztein Semaine NOOJ Inalco 31 janvier 2012 Vincent BÉNET CREE CERRUS - RAO Recherche assistée par ordinateur
2
Historique des ressources existantes pour le russe
Conception et réalisation de ressources lexicales et grammaticales pour le russe pour le logiciel Nooj de Max Silberztein Historique des ressources existantes pour le russe Principes de conception Descriptif de la réalisation Travail restant à faire
3
Historique des ressources existantes en russe
CORPUS RUSSES ACTUELS La bibliothèque de Moshkov Le fonds informatisé de la langue russe Le corpus national de la langue russe Le corpus national de la langue littéraire* russe
4
Corpus de textes russes
La Bibliothèque de Moshkov
5
Corpus de textes russes
Le fonds informatisé de la langue russe 1600 oeuvres littéraires (romans, poésies, théâtre du XIX et XX, environ 100 auteurs) Corpus de textes de journaux (années ) Dictionnaires avec logiciel intégré de recherche d’occurrences
6
Машинный фонд русского языка http://cfrl.ru
Машинный фонд русского языка
7
Машинный фонд русского языка http://cfrl.ru
Машинный фонд русского языка
8
Национальный корпус русского языка http://www.ruscorpora.ru
Национальный корпус русского языка Échantillon « représentatif » de la langue russe textes mots Corpus de formes étiquetées et désambiguïsées avec recherche d’occurences
9
Национальный корпус русского языка http://www.ruscorpora.ru
Национальный корпус русского языка Recherche dans le corpus : choix du sous-corpus
10
Национальный корпус русского языка http://www.ruscorpora.ru
Sélection morphosyntaxique dans le corpus JEC
11
Национальный корпус русского языка http://www.ruscorpora.ru
Национальный корпус русского языка Sélection sémantique dans le corpus
12
Национальный корпус русского языка http://www.ruscorpora.ru
Национальный корпус русского языка Sélection sémantique dans le corpus
13
Национальный корпус русского языка http://www.ruscorpora.ru
Национальный корпус русского языка Recherche dans le corpus
14
Национальный корпус русского языка http://www.ruscorpora.ru
Национальный корпус русского языка Recherche dans le corpus
15
Historique des ressources existantes en russe
DICTIONNAIRE ELECTRONIQUE pour la langue russe dictionnaire grammatical de ZALIZNIAK entrées avec codage morphosyntaxique version papier = dictionnaire a tergo version électronique (avec codage) alphabétique
16
Historique des ressources existantes en russe
DICTIONNAIRE ELECTRONIQUE pour la langue russe dictionnaire grammatical de ZALIZNIAK
17
Historique des ressources existantes en russe
conjugueur-déclineur russe de STARLING
18
Historique des ressources existantes en russe
LOGICIELS DE TRAITEMENT DE CORPUS pour la langue russe UNILEX ( sous DOS) MAK ( sous Windows ) avec un corpus d’environ 4000 pages de textes russes lemmatisés
19
Historique des ressources existantes en russe
LOGICIELS DE TRAITEMENT DE CORPUS pour la langue russe UNITEX avec un corpus d’environ 100 pages ( Le joueur de Dostoevski) et un dictionnaire de 9000 mots correspondant au vocabulaire russe du texte
20
Historique des ressources existantes en russe
UNITEX avec un corpus d’environ 100 pages ( Le joueur de Dostoevski) et un dictionnaire de 9000 mots
21
Constituer des ressources Nooj pour la langue russe
M. Silberztein
22
Ecrire un lemmatiseur du russe pour Nooj
Prendre l’UNILEX russe comme modèle ? étiquettes: С - substantif, П – adjectif … мр, жр, ср – masculin, féminin, neutre им, рд, дт, вн, тв, пр - cas : nominatif, génitif, datif, accusatif, instrumental, prépositif tableau de correspondances: аа A С мр, но, ед, им. aa= substantif, masc, inanimé, sing, nominatif аб A С мр, но, ед, рд. бд C С мр, од, ед, тв. dictionnaire: АРОТЛОП%0*эжэйэтэх « IMED TE NU » paradigmes: %ЙО*ад%У*аг%Ы*абажай Y=gén. sg fém, nom. pl. fém , acc. pl. inan
23
Ecrire un lemmatiseur du russe pour Nooj
IMPOSSIBILITE DE RECUPERER LES LEMMATISEURS EXISTANTS Utiliser le dictionnaire ZALIZNIAK : entrées Problème du codage utilisé полный п 1*а/б // 1*a/c basé sur l’accent de mot complété d’annotations inutilisables non formalisée non-phonologique non-orthographique (écriture de la voyelle mobile, du jod) les modèles de Zalizniak ont dû être remaniés pour le traitement informatique
24
Ecrire un lemmatiseur du russe pour Nooj
1. reconstituer un dictionnaire 2. créer un jeu d’étiquettes lisibles 3. recoder le dictionnaire avec ces étiquettes 4. problème du ë / e 5. établir la liste des modèles types 6. écrire les paradigmes 7. affecter les modèles aux mots du dictionnaire 8. vérifier le paradigme 9. tester avec des textes 10. corriger les erreurs
25
Ecrire un lemmatiseur du russe pour Nooj
1. reconstituer un dictionnaire a tergo 2. créer un jeu d’étiquettes lisibles N, A, V, ADV etc. A_Forme = fc | fl | adv; A_Genre = m | f | n ; A_SGenr = an | inan ; A_Nombre = s | p; A_Cas = Im | Vi | Ro | Da | Tv | Pr | Zv; A_Deg = Comp | Sup ; ADV_Deg = Comp;
26
Ecrire un lemmatiseur du russe pour Nooj
2. jeu d’étiquettes NUM_Cat = ord | card | coll NUM_Genre = m | f | n ; NUM_SGenr = an | inan ; NUM_Nombre = s | p; NUM_Cas = Im | Vi | Ro | Da | Tv | Pr ; PRON_Genre = m | f | n; PRON_SGenr = an | inan ; PRON_Nombre = s | p; PRON_Pers = 1 | 2 | 3; PRON_Cas = Im | Vi | Vip | Ro | Rop | Da | Dap | Tv | Tvp | Pr ; V_Pers = 1 | 2 | 3; V_Asp = Ipf | Pf; V_Temps = Pre | Pa | Fu; V_Mode = Inf | Ind | Imp | Cond | Ger | Prtp ; V_Voix = Act | Pss ; V_Genre = m | f | n ; V_Nombre = s | p ; V_Sem = Intr | Tr | Refl ; V_Cas = Im | Vi | Ro | Da | Tv | Pr ; PREP; CONJ; INTERJ; PART; INTRO; DEFINITION DES PROPRIETES ET DES CARACTERISTIQUES AFFECTEES A_Forme = fc | fl | adv; A_Genre = m | f | n ; A_SGenr = an | inan ; A_Nombre = s | p; A_Cas = Im | Vi | Ro | Da | Tv | Pr | Zv; A_Deg = Comp | Sup ; ADV_Deg = Comp; N_Genre = m | f | n ; N_SGenr = an | inan ; N_Nombre = s | p; N_Cas = Im | Vi | Ro | R2 | Da | Tv | Pr | P2 | Zv ; N_Sem = Hum | Conc | Abstr | Org | Text | ConcColl + Cpmc | Immeub | Qual | Anim | Loc | Pdc | Sent | Quant | Mat | Liq | Alim | Vehicl | Pr | Tmp | Atm | Geom | CollHum | CollImmeub | Mach ;
27
Ecrire un lemmatiseur du russe pour Nooj
3. recoder le dictionnaire avec ces étiquettes 4. problème du ë / e (non résolu à ce jour par l’Académie de Russie)
28
Ecrire un lemmatiseur du russe pour Nooj
modèles types <N> 45000 substantifs <A> 20000 adjectifs <V> 27000 verbes <ADV> <PREP> <NUM> 2200 paradigmes <N> 350 types flexionnels <A> 60 types flexionnels <V> 400 types verbaux <NUM> Cardinaux
29
Ecrire un lemmatiseur du russe pour Nooj
5. établir la liste des modèles types #j1a=karta #jo1a=korova #j2a=nedelja #jo2a=boginja #j3a=kniga #jo3a=sobaka #j4a=tuča #jo4a=kassirša #j5a=ulica #jo5a=volčica #j6a=statuja #jo6a=feja #j7a=linija #jo7a=furija 6. écrire les paradigmes карта = <E>/Im+f+s + <B>у/Vi+f+s + <B>ы/Ro+f+s + <B>е/Da+f+s + <B>ой/Tv+f+s + <B>е/Pr+f+s + <B>ы/Im+f+p + <B>ы/Vi+f+p + <B>/Ro+f+p + <B>ам/Da+f+p + <B>ами/Tv+f+p + <B>ах/Pr+f+p ; 6b. écrire les dérivés ( patronymes)
30
Ecrire un lemmatiseur du russe pour Nooj
7. affecter les modèles aux mots du dictionnaire abažur,N+m+inan+FLX=zavod abazinec,N+m+an+FLX=ukrainec abazin,N+m+an+FLX=artist abaz,N+m+inan+FLX=zavod abak,N+m+inan+FLX=čajnik abbat,N+m+an+FLX=artist 8. vérifier le paradigme
31
Ecrire un lemmatiseur du russe pour Nooj
9. tester avec des textes : « la dame au petit chien » de Tchekhov
32
Ecrire un lemmatiseur du russe pour Nooj
10. corriger les erreurs : -coquilles (mélange latin/cyrillique) A B E K M H O P C y X MOCKBA erreurs dans l’écriture paradigmes <B><L> mauvaise affectation des mots à leur type flexionnel surgénération de formes incongrues - mots inutiles dans le dictionnaire = source d’ambiguïtés supplémentaires les noms des lettres a, б, в, и, к, о, с, у, я les mots vieillis etc..
33
Désambiguïser un texte
34
Ecrire des ressources pour le russe pour Nooj
concevoir des grammaires de désambiguisation - régime des prépositions régime des verbes courants accords adjectifs / substantifs rection des numéraux expression des dates / heures etc. reconnaissance des toponymes, des prénoms, des diminutifs etc.
35
Ecrire des ressources pour le russe pour Nooj
concevoir des grammaires de désambiguisation
36
Ecrire des ressources pour le russe pour Nooj
concevoir des grammaires de désambiguisation
37
Constituer un corpus de textes vérifiés et désambiguïsés
38
Constituer un corpus de textes vérifiés
NOOJ
39
Ecrire des ressources pour le russe pour Nooj
Pour aller plus loin…. dans une perspective ultérieure de constitution de ressources parallèles et alignées Harmonisation des étiquettes entre langues (slaves)
40
Ressources lexicales et grammaticales pour le russe
Conception et réalisation de ressources lexicales et grammaticales russes pour NOOJ CREE Langue , linguistique et développement numérique Recherche assistée par ordinateur Semaine NOOJ Inalco 31 janvier 2012
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.