Projet : Automatiser la découverte de moyens mnémotechniques

Slides:



Advertisements
Présentations similaires
RefWorks: Un outil de gestion en ligne de références bibliographiques. Bibliothèque Morisset Automne 2004 Présentation préparée par Ann Romeril Coordinatrice,
Advertisements

CRÉER UNE APPLICATION INTERNET RELIEE A UNE BASE DE DONNEES
FICHE BILAN 5 Organisation et réalisation d’un inventaire
A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS Brian L. TIERNEY, Jason LEE, Brian CROWLEY, Mason HOLDING Computing Sciences.
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Enseigner l'anglais : ce que préconisent les Instructions Officielles
Application de réseaux bayésiens à la détection de fumées polluantes
L’apprentissage de la lecture: Le CP
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Reconnaissance de la parole
Présentation des tables des matières j puis appuyez sur F5 ou cliquez sur Diaporama > Du début. Pour commencer le cours, dans la barre des messages, cliquez.
CREATION DE FEUILLE DE STYLE pour structuré le document XML
Traitement Co-Séquentiel: Appariment et Fusion de Plusieurs Listes
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Objectifs : Améliorer la compréhension orale Bibliothèque de films : Utilisation de wikipédia pour les résumés des films: Visualisation de films, séries.
Initiation au système d’information et aux bases de données
Initiation au système d’information et aux bases de données
INTELLIGENCE COLLECTIVE : RENCONTRES 2006Nîmes mai 2006 CENTRE DE RECHERCHE LGI2P 1- Doctorante Ecole des mines de Paris, 2- Maitre de Conférences.
Etude des Technologies du Web services
Cours 7 - Les pointeurs, l'allocation dynamique, les listes chaînées
Traitement de texte ++.
Algorithmes Branch & Bound
Chapitre 2: Les régularités et les relations
Décodage des informations
Python La structure itérative
Méthode des k plus proches voisins
Recherche Documentaire et traitement de l’information
Le langage oral en maternelle
LES FICHES POUR METTRE EN OEUVRE DES DISPOSITIFS D'AIDE ET DE SOUTIEN
Structures de données IFT-2000
Reconnaissance Vocale
Programmation linéaire en nombres entiers Algorithme de la subdivision successive («Branch and Bound Algorithm»)
Gestion de Fichiers Tri Interne Efficace et Tri Externe.
Efficacité des algorithmes
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Préparer son exposé SVT, exposés responsabilité humaine en matière de santé et d’environnement.
A la découverte de. Bienvenue dans ce tutoriel, qui vous expliquera en images comment utiliser Fury Language !
Tutorat 7 - Introduction au Routage et OSPF
Programmation linéaire en nombres entiers
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
1 BEP métiers de l’électronique Déroulement de l’examen (Candidats scolarisés)
Algorithmes Branch & Bound
SGBD Système de gestion de Base documentaire (Logiciel documentaire)
Concevoir une démarche d’apprentissage de l’orthographe.
GF-11: Tri Interne Efficace et Tri Externe
SMIL Synchronized Multimedia Integration Language
Dominique LAURENT Patrick SEGUELA
Mustapha Hamidou Vendredi 20 août Stage Contour Matching.
Introduction et Généralités sur l’Algorithmique
Comment se documenter sur un sujet Méthodologie de la traduction I.
Recherche de motifs par projections aléatoires
EXPLOITATION DES IMAGES
Hiver 2004SEG2501 Chapître 41 Chapître 4 SDL – structure d’un système et son comportement.
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Informatique TD 1 – Semestre 1
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Le Traitement Automatique des Langues (TAL)
Classification automatique des messages électroniques
1 Logiciels de confection automatique d’horaires.
Vers l’exploitation de grandes masses de données Encadré par : Mme L.Lamarini Présenté par: Rhaz Yassine Smiri Safae Un article de: Raphaeil Féraud,Maroc.
Mémoriser Plus facilement.
31/05/2007Projet Master 11 Présentation ludique de la recherche opérationnelle à la fête de la science Année universitaire 2006/2007 Sylvain FIX Julien.
Présentation de Facebook
Construire une leçon d’histoire
Algorithmes Branch & Bound Module IAD/RP/RO Master d ’informatique Paris 6 Philippe Chrétienne.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
BCDIBCDI 1)Qu’ est-ce que bcdi Bcdi est un logiciel de recherche documentaire ( qui contient des notices) c’est un catalogue des documents du cdi. On utilise.
CURSUL 9 VI. LES COMPÉTENCES DE L’APPRENANT Le Développement des compétences linguistiques, sociolinguistiques, pragmatiques.
Transcription de la présentation:

Projet : Automatiser la découverte de moyens mnémotechniques Philippe Gambette 21 mai 2005

Introduction  Un projet à intégrer au logiciel libre Fury Language d’apprentissage de fiches de vocabulaire.  L’objectif : faire trouver par le programme un ou des moyens mnémotechniques personnalisés pour l’utilisateur pour chaque faute lors du test.  Les outils informatiques : l’exploration de données et les graphes sémantiques.

Deux types de moyens mnémotechniques Supposons que je me teste de la façon suivante : j'ai le terme français, je dois trouver l'anglais correspondant. Deux types de moyens mnémotechniques :  L’analogie sémantique : je cherche un terme français, ou un terme anglais que je connais déjà - qui se rapproche du terme français sur le fond (le sens). - qui se rapproche du terme anglais correspondant sur la forme (lettres communes ou sons communs). Exemple : abri  to shield (protéger) + terre  shelter  La recréation du contexte : je cherche une phrase d’un texte que je connais un peu (proverbes, paroles de musique, de jeu vidéo, ou de film) qui contient le terme anglais. Exemple : shelter  Gimme shelter (titre d’une chanson des Rolling Stones, et d’un film documentaire sur le groupe)

La méthode d’analogie sémantique Les analogies de fond (sens) : Il s’agit de construire un graphe sémantique contenant tous les mots du dictionnaire français pour les nœuds et pour les arêtes une longueur dépendant de la proximité de sens de ces mots. A chaque nœud du graphe correspondant à un mot, on associe sa traduction en anglais, si l’utilisateur la connaît. Les analogies de forme (lettres communes ou sons communs) : On utilise un algorithme classique d’alignement de séquences, avec calcul de score.

La construction du graphe sémantique Les problèmes classiques de contruction de graphe sémantique (polysémie par exemple) nous importent peu pour ces graphes sémantiques (on s’autorise des moyens mnémotechniques capillotractés...). La littérature est fournie à propos de la construction de graphes sémantiques. Si cela suffit, on utilisera la méthode simple et rapide suivante : On utilise comme base la 8° édition du Dictionnaire de l’Académie, voire d’autres sources pour des index de définitions de mots plus récents. On construit tout d’abord une liste de tous les mots du dictionnaire. Puis on détermine pour chaque mot dans quel article il apparaît, et le nombre d’occurrences dans cet article. On effectue une phase de normalisation pour affecter des valeurs aux arêtes.

L’évaluation des mots connus par l’utilisateur Dans un premier temps, on ne fait qu’associer un mot anglais à sa traduction dès que l’utilisateur se teste correctement dessus. On peut envisager une méthode automatique pour évaluer le vocabulaire connu par l’utilisateur (déterminer son niveau), en commençant par lui faire passer un petit test de vocabulaire “échantillon”. Il s’agira alors de : - déterminer les mots à placer dans cet échantillon, afin de bien déterminer une gradation de difficulté. - faire un calibrage : faire passer ce test à plusieurs volontaires pour calibrer la méthode, et obtenir la liste de vocabulaire connu par ces volontaires (de forts utilisateurs de Fury Language). - mettre en relation les résultats des tests avec le vocabulaire connu (modèles de Markov cachés, analyse bayésienne ?), et stocker le modèle obtenu.

L’alignement de séquences On mène plutôt une recherche de plus grand sous-mot commun qu’un alignement optimal de séquences. Il faut toutefois créer une matrice de distance pour les lettres ou les sons. Il faudra éventuellement en faire une pour chaque langue.

L’algorithme de recherche d’analogie sémantique On peut exécuter cet algorithme de recherche de moyen mnémotechniques soit en cours de test, dès que l’utilisateur fait une faute, soit hors test, sur une des fiches d’erreurs de l’utilisateur. Pour chaque terme français dont la traduction en anglais n’est pas connue par l’utilisateur : Je trouve le noeud du graphe sémantique associé au terme français, et j’effectue, sur ce nœud et ses voisins (jusqu’à une certaine distance), une recherche de la plus grande analogie de forme entre le terme anglais non connu de l’utilisateur et l’étiquette du nœud (le mot français) ou sa traduction en anglais connue de l’utilisateur.  J’ai trouvé un moyen mnémotechnique d’analogie sémantique, ou plusieurs.

L’algorithme de recherche de contexte Il s’agit de construire une base de phrases (en anglais) connues ou retenues facilement (dont l’apprentissage est motivant pour l’utilisateur) : - paroles de chansons (avec rimes de préférences). - répliques de films. - messages de jeux vidéos. - proverbes. Il faut ensuite traiter cette base pour y effectuer des recherches rapides. Cette méthode est similaire à celle des programmes de desktop-search. Utiliser l’un d’entre eux serait peut-être plus simple.

Conclusion et contraintes Ainsi, le programme indique à l’utilisateur une liste de moyens mnémotechniques possibles pour retenir le terme de la langue étrangère. A lui de choisir le meilleur, ou de n’en choisir aucun. Contrainte de taille : Certainement plus que les 2 Mo de l’actuelle version de Fury Language -Lite-… Pour indication, le dictionnaire de l’Académie (base du grape sémantique) fait 20Mo en html. Contrainte de temps : Pas très important si on ne tient pas à rechercher le moyen mnémotechnique pendant la phase de test.

Références Nabil Hathout : Analogies morpho-synonymiques. Une méthode d’acquisition automatique de liens morphologiques à partir d’un dictionnaire de synonymes. http://www.li.univ-tours.fr/taln-recital-2001/Actes/tome1_PDF/ partie2_p30_322/art20_p223_232.pdf Mathieu Lafourcade, Violaine Prince : Modélisation de l’Hyperonymie via la combinaison de réseaux sémantiques et de vecteurs conceptuels. http://www.cavi.univ-paris3.fr/lexicometrica/jadt/jadt2004/pdf/JADT_065.pdf George A. Miller : WordNet: A Lexical Database for English. http://l2r.cs.uiuc.edu/~danr/Teaching/CS598-04/Papers/miller95.pdf Haïfa Zargayouna et Sylvie Salotti : Mesure de similarité sémantique pour l’indexation de documents semi-structurés. http://www-lipn.univ-paris13.fr/seminaires/AtelierRaPC/Articles/haifa.pdf Olivier Ferret : Découvrir des sens de mots à partir d’un réseau de cooccurrences lexicales. http://www.lpl.univ-aix.fr/jep-taln04/proceed/actes/taln2004-Fez/Ferret.pdf 8e édition du Dictionnaire de l'Académie française http://fr.wiktionary.org/wiki/Wiktionnaire:Dictionnaire de l'Académie française http://colet.uchicago.edu/cgi-bin/getobject_?p.0:0./projects/artflb/ databases/artfl/dicos/acad1932/IMAGE/