Ressources lexicales et grammaticales pour le russe

Slides:



Advertisements
Présentations similaires
Le Nom L’adjectif Le verbe Objectif: Orthogram
Advertisements

ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
LES NOMBRES PREMIERS ET COMPOSÉS
[number 1-100].
Qualité du Premier Billot. 2 3 Défauts reliés à labattage.
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Licence pro MPCQ : Cours
Distance inter-locuteur
Le pluriel des noms
Classe : …………… Nom : …………………………………… Date : ………………..
Les numéros
Rover 14½ tables (24/26 étuis) Tables: 14 Rondes: 13 de 2 étuis Étuis au jeu: 28 Saut après: 7 rondes Paire Rover: 15 N-S (ou E-O) Select movement: 1 Mitchell.
Est Ouest Sud 11 1 Nord 1 Laval Du Breuil, Adstock, Québec I-17-17ACBLScore S0417 Allez à 1 Est Allez à 4 Sud Allez à 3 Est Allez à 2 Ouest RndNE
Est Ouest Sud 11 1 Nord 1 RondeNE SO
Sud Ouest Est Nord Individuel 36 joueurs
Les identités remarquables
Les Prepositions.
1. 2 Informations nécessaires à la création dun intervenant 1.Sa désignation –Son identité, ses coordonnées, son statut 2.Sa situation administrative.
Initiation et perfectionnement à lutilisation de la micro-informatique Publier des films sur DailyMotion (sur Mac et sur PC) ©Yves Roger Cornil
Sirop de Liège « industriel »
La diapo suivante pour faire des algorithmes (colorier les ampoules …à varier pour éviter le « copiage ») et dénombrer (Entoure dans la bande numérique.
2 1. Vos droits en tant quusagers 3 1. Vos droits en tant quusagers (suite) 4.
User management pour les entreprises et les organisations Auteur / section: Gestion des accès.
Travaux pratiques sur Nooj
1 7 Langues niveaux débutant à avancé. 2 Allemand.
PARTENARIAT ÉDUCATIF GRUNDTVIG PARTENARIAT ÉDUCATIF GRUNDTVIG REPERES COHESION CULTURELLE ET EXPANSION DES IDEES SUR LE TERRITOIRE EUROPEEN.
Commission Règlement Arbitrage Organisation – Présidente : Framboise Leclerc 3, rue Jacques Cartier – Montigny le Bretonneux –
ORTH 1 CE2 Je sais écrire sans erreur les pluriels des noms se terminant par s, x, z.
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
Interagir avec un objet mixte Propriétés physiques et numériques Céline Coutrix, Laurence Nigay Équipe Ingénierie de lInteraction Homme-Machine (IIHM)
1 Acteurs du Développement Durable Ecokids. Ecokids 2 Le Développement Durable, Cest quoi? 2.
LUNDI – MARDI – MERCREDI – JEUDI – VENDREDI – SAMEDI – DIMANCHE
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
1 SERVICE PUBLIC DE LEMPLOI REGION ILE DE France Tableau de bord Juillet- Août 2007.
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
PM18 MONTAGE DU BLINDAGE AUTOUR DE LA QRL F. DELSAUX - 25 JAN 2005
Le Concours de Conaissance Francais I novembre 2012.
Académie de Créteil - B.C Quest-ce quune Inscription 1)1 action + 1 stagiaire + 1 client 2)Parcours individuel (avec son Prix de Vente) 3)Un financement.
Projet poker 1/56. Introduction Présentation de léquipe Cadre du projet Enjeux Choix du sujet 2.
LES NOMBRES PREMIERS ET COMPOSÉS
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
Unit 4: Les animaux - Il y a - There is/are Unit 4: Les animaux.
La Saint-Valentin Par Matt Maxwell.
Unit 4: Les animaux Unit 4: Les animaux.
1 INETOP
Calculs et écritures fractionnaires
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
Tournoi de Flyball Bouin-Plumoison 2008 Tournoi de Flyball
Notre calendrier français MARS 2014
2. Théorie de la consommation (demande)
C'est pour bientôt.....
Les Nombres 0 – 100 en français.
Veuillez trouver ci-joint
F L T R Université catholique de Louvain-la-Neuve Faculté de philosophie et lettres FLTR Faculté de Philosophie et Lettres Présentation décembre 2002 Réalisation:
Réunion 29/11/20131 Projet L412 Nov Recherche dun ouvrage …. Sur Dieppe.
LA GESTION COLLABORATIVE DE PROJETS Grâce aux outils du Web /03/2011 Académie de Créteil - Nadine DUDRAGNE 1.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Nom:____________ Prénom: ___________
CALENDRIER-PLAYBOY 2020.
6 Nombres et Heures 20 vingt 30 trente 40 quarante.
Les Chiffres Prêts?
Médiathèque de Chauffailles du 3 au 28 mars 2009.
Les parties du corps By Haru Mehra Le Frehindi 1Haru Mehra, DELF, DALF,CFP.
Transcription de la présentation:

Ressources lexicales et grammaticales pour le russe Conception et réalisation de ressources lexicales et grammaticales pour le russe pour le logiciel Nooj de Max Silberztein Semaine NOOJ Inalco 31 janvier 2012 Vincent BÉNET CREE CERRUS - RAO Recherche assistée par ordinateur

Historique des ressources existantes pour le russe Conception et réalisation de ressources lexicales et grammaticales pour le russe pour le logiciel Nooj de Max Silberztein Historique des ressources existantes pour le russe Principes de conception Descriptif de la réalisation Travail restant à faire

Historique des ressources existantes en russe CORPUS RUSSES ACTUELS 2000-2010 La bibliothèque de Moshkov http://lib.ru Le fonds informatisé de la langue russe http://cfrl.ru Le corpus national de la langue russe http://www.ruscorpora.ru Le corpus national de la langue littéraire* russe http://www.narusco.ru

Corpus de textes russes La Bibliothèque de Moshkov http://lib.ru

Corpus de textes russes Le fonds informatisé de la langue russe http://cfrl.ru 1600 oeuvres littéraires (romans, poésies, théâtre du XIX et XX, environ 100 auteurs) Corpus de textes de journaux (années 1991-2000) Dictionnaires avec logiciel intégré de recherche d’occurrences

Машинный фонд русского языка http://cfrl.ru Машинный фонд русского языка http://cfrl.ru

Машинный фонд русского языка http://cfrl.ru Машинный фонд русского языка http://cfrl.ru

Национальный корпус русского языка http://www.ruscorpora.ru Национальный корпус русского языка http://www.ruscorpora.ru Échantillon « représentatif » de la langue russe 50 000 textes 150 000 000 mots Corpus de 5 000 000 formes étiquetées et désambiguïsées avec recherche d’occurences

Национальный корпус русского языка http://www.ruscorpora.ru Национальный корпус русского языка http://www.ruscorpora.ru Recherche dans le corpus : choix du sous-corpus

Национальный корпус русского языка http://www.ruscorpora.ru Sélection morphosyntaxique dans le corpus JEC

Национальный корпус русского языка http://www.ruscorpora.ru Национальный корпус русского языка http://www.ruscorpora.ru Sélection sémantique dans le corpus

Национальный корпус русского языка http://www.ruscorpora.ru Национальный корпус русского языка http://www.ruscorpora.ru Sélection sémantique dans le corpus

Национальный корпус русского языка http://www.ruscorpora.ru Национальный корпус русского языка http://www.ruscorpora.ru Recherche dans le corpus

Национальный корпус русского языка http://www.ruscorpora.ru Национальный корпус русского языка http://www.ruscorpora.ru Recherche dans le corpus

Historique des ressources existantes en russe DICTIONNAIRE ELECTRONIQUE pour la langue russe dictionnaire grammatical de ZALIZNIAK 96 000 entrées avec codage morphosyntaxique version papier = dictionnaire a tergo version électronique (avec codage) alphabétique

Historique des ressources existantes en russe DICTIONNAIRE ELECTRONIQUE pour la langue russe dictionnaire grammatical de ZALIZNIAK

Historique des ressources existantes en russe conjugueur-déclineur russe de STARLING http://starling.rinet.ru/cgi-bin/morphque.cgi?flags=endnnnn

Historique des ressources existantes en russe LOGICIELS DE TRAITEMENT DE CORPUS pour la langue russe 1980-2000 UNILEX ( sous DOS) MAK ( sous Windows ) avec un corpus d’environ 4000 pages de textes russes lemmatisés

Historique des ressources existantes en russe LOGICIELS DE TRAITEMENT DE CORPUS pour la langue russe 1980-2000 UNITEX avec un corpus d’environ 100 pages ( Le joueur de Dostoevski) et un dictionnaire de 9000 mots correspondant au vocabulaire russe du texte

Historique des ressources existantes en russe UNITEX avec un corpus d’environ 100 pages ( Le joueur de Dostoevski) et un dictionnaire de 9000 mots

Constituer des ressources Nooj pour la langue russe M. Silberztein

Ecrire un lemmatiseur du russe pour Nooj Prendre l’UNILEX russe comme modèle ? étiquettes: С - substantif, П – adjectif … мр, жр, ср – masculin, féminin, neutre им, рд, дт, вн, тв, пр - cas : nominatif, génitif, datif, accusatif, instrumental, prépositif tableau de correspondances: аа A С мр, но, ед, им. aa= substantif, masc, inanimé, sing, nominatif аб A С мр, но, ед, рд. бд C С мр, од, ед, тв. dictionnaire: АРОТЛОП%0*эжэйэтэх   « IMED TE NU » paradigmes: %ЙО*ад%У*аг%Ы*абажай Y=gén. sg fém, nom. pl. fém , acc. pl. inan

Ecrire un lemmatiseur du russe pour Nooj  IMPOSSIBILITE DE RECUPERER LES LEMMATISEURS EXISTANTS Utiliser le dictionnaire ZALIZNIAK : 96 000 entrées Problème du codage utilisé полный п 1*а/б // 1*a/c basé sur l’accent de mot complété d’annotations inutilisables non formalisée non-phonologique non-orthographique (écriture de la voyelle mobile, du jod) les modèles de Zalizniak ont dû être remaniés pour le traitement informatique

Ecrire un lemmatiseur du russe pour Nooj 1. reconstituer un dictionnaire 2. créer un jeu d’étiquettes  lisibles 3. recoder le dictionnaire avec ces étiquettes 4. problème du ë / e 5. établir la liste des modèles types 6. écrire les paradigmes 7. affecter les modèles aux mots du dictionnaire 8. vérifier le paradigme 9. tester avec des textes 10. corriger les erreurs

Ecrire un lemmatiseur du russe pour Nooj 1. reconstituer un dictionnaire a tergo 2. créer un jeu d’étiquettes  lisibles N, A, V, ADV etc. A_Forme = fc | fl | adv; A_Genre = m | f | n ; A_SGenr = an | inan ; A_Nombre = s | p; A_Cas = Im | Vi | Ro | Da | Tv | Pr | Zv; A_Deg = Comp | Sup ; ADV_Deg = Comp;

Ecrire un lemmatiseur du russe pour Nooj 2. jeu d’étiquettes NUM_Cat = ord | card | coll NUM_Genre = m | f | n ; NUM_SGenr = an | inan ; NUM_Nombre = s | p; NUM_Cas = Im | Vi | Ro | Da | Tv | Pr ;   PRON_Genre = m | f | n; PRON_SGenr = an | inan ; PRON_Nombre = s | p; PRON_Pers = 1 | 2 | 3; PRON_Cas = Im | Vi | Vip | Ro | Rop | Da | Dap | Tv | Tvp | Pr ; V_Pers = 1 | 2 | 3; V_Asp = Ipf | Pf; V_Temps = Pre | Pa | Fu; V_Mode = Inf | Ind | Imp | Cond | Ger | Prtp ; V_Voix = Act | Pss ; V_Genre = m | f | n ; V_Nombre = s | p ; V_Sem = Intr | Tr | Refl ; V_Cas = Im | Vi | Ro | Da | Tv | Pr ; PREP; CONJ; INTERJ; PART; INTRO; DEFINITION DES PROPRIETES ET DES CARACTERISTIQUES AFFECTEES A_Forme = fc | fl | adv; A_Genre = m | f | n ; A_SGenr = an | inan ; A_Nombre = s | p; A_Cas = Im | Vi | Ro | Da | Tv | Pr | Zv; A_Deg = Comp | Sup ;   ADV_Deg = Comp; N_Genre = m | f | n ; N_SGenr = an | inan ; N_Nombre = s | p; N_Cas = Im | Vi | Ro | R2 | Da | Tv | Pr | P2 | Zv ; N_Sem = Hum | Conc | Abstr | Org | Text | ConcColl + Cpmc | Immeub | Qual | Anim | Loc | Pdc | Sent | Quant | Mat | Liq | Alim | Vehicl | Pr | Tmp | Atm | Geom | CollHum | CollImmeub | Mach ;

Ecrire un lemmatiseur du russe pour Nooj 3. recoder le dictionnaire avec ces étiquettes 4. problème du ë / e (non résolu à ce jour par l’Académie de Russie)

Ecrire un lemmatiseur du russe pour Nooj modèles types <N> 45000 substantifs <A> 20000 adjectifs <V> 27000 verbes <ADV> <PREP> <NUM> 2200 paradigmes <N> 350 types flexionnels <A> 60 types flexionnels <V> 400 types verbaux <NUM> Cardinaux

Ecrire un lemmatiseur du russe pour Nooj 5. établir la liste des modèles types #j1a=karta #jo1a=korova #j2a=nedelja #jo2a=boginja #j3a=kniga #jo3a=sobaka #j4a=tuča #jo4a=kassirša #j5a=ulica #jo5a=volčica #j6a=statuja #jo6a=feja #j7a=linija #jo7a=furija 6. écrire les paradigmes карта = <E>/Im+f+s + <B>у/Vi+f+s + <B>ы/Ro+f+s + <B>е/Da+f+s + <B>ой/Tv+f+s + <B>е/Pr+f+s + <B>ы/Im+f+p + <B>ы/Vi+f+p + <B>/Ro+f+p + <B>ам/Da+f+p + <B>ами/Tv+f+p + <B>ах/Pr+f+p ; 6b. écrire les dérivés ( patronymes)

Ecrire un lemmatiseur du russe pour Nooj 7. affecter les modèles aux mots du dictionnaire abažur,N+m+inan+FLX=zavod abazinec,N+m+an+FLX=ukrainec abazin,N+m+an+FLX=artist abaz,N+m+inan+FLX=zavod abak,N+m+inan+FLX=čajnik abbat,N+m+an+FLX=artist 8. vérifier le paradigme

Ecrire un lemmatiseur du russe pour Nooj 9. tester avec des textes : « la dame au petit chien » de Tchekhov

Ecrire un lemmatiseur du russe pour Nooj 10. corriger les erreurs : -coquilles (mélange latin/cyrillique) A B E K M H O P C y X MOCKBA erreurs dans l’écriture paradigmes <B><L> mauvaise affectation des mots à leur type flexionnel surgénération de formes incongrues - mots inutiles dans le dictionnaire = source d’ambiguïtés supplémentaires les noms des lettres a, б, в, и, к, о, с, у, я les mots vieillis etc..

Désambiguïser un texte

Ecrire des ressources pour le russe pour Nooj concevoir des grammaires de désambiguisation - régime des prépositions régime des verbes courants accords adjectifs / substantifs rection des numéraux expression des dates / heures etc. reconnaissance des toponymes, des prénoms, des diminutifs etc.

Ecrire des ressources pour le russe pour Nooj concevoir des grammaires de désambiguisation

Ecrire des ressources pour le russe pour Nooj concevoir des grammaires de désambiguisation

Constituer un corpus de textes vérifiés et désambiguïsés

Constituer un corpus de textes vérifiés NOOJ

Ecrire des ressources pour le russe pour Nooj Pour aller plus loin…. dans une perspective ultérieure de constitution de ressources parallèles et alignées  Harmonisation des étiquettes entre langues (slaves)

Ressources lexicales et grammaticales pour le russe Conception et réalisation de ressources lexicales et grammaticales russes pour NOOJ vincent.benet@inalco.fr CREE Langue , linguistique et développement numérique Recherche assistée par ordinateur Semaine NOOJ Inalco 31 janvier 2012