La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Projet : Automatiser la découverte de moyens mnémotechniques

Présentations similaires


Présentation au sujet: "Projet : Automatiser la découverte de moyens mnémotechniques"— Transcription de la présentation:

1 Projet : Automatiser la découverte de moyens mnémotechniques
Philippe Gambette 21 mai 2005

2 Introduction  Un projet à intégrer au logiciel libre Fury Language d’apprentissage de fiches de vocabulaire.  L’objectif : faire trouver par le programme un ou des moyens mnémotechniques personnalisés pour l’utilisateur pour chaque faute lors du test.  Les outils informatiques : l’exploration de données et les graphes sémantiques.

3 Deux types de moyens mnémotechniques
Supposons que je me teste de la façon suivante : j'ai le terme français, je dois trouver l'anglais correspondant. Deux types de moyens mnémotechniques :  L’analogie sémantique : je cherche un terme français, ou un terme anglais que je connais déjà - qui se rapproche du terme français sur le fond (le sens). - qui se rapproche du terme anglais correspondant sur la forme (lettres communes ou sons communs). Exemple : abri  to shield (protéger) + terre  shelter  La recréation du contexte : je cherche une phrase d’un texte que je connais un peu (proverbes, paroles de musique, de jeu vidéo, ou de film) qui contient le terme anglais. Exemple : shelter  Gimme shelter (titre d’une chanson des Rolling Stones, et d’un film documentaire sur le groupe)

4 La méthode d’analogie sémantique
Les analogies de fond (sens) : Il s’agit de construire un graphe sémantique contenant tous les mots du dictionnaire français pour les nœuds et pour les arêtes une longueur dépendant de la proximité de sens de ces mots. A chaque nœud du graphe correspondant à un mot, on associe sa traduction en anglais, si l’utilisateur la connaît. Les analogies de forme (lettres communes ou sons communs) : On utilise un algorithme classique d’alignement de séquences, avec calcul de score.

5 La construction du graphe sémantique
Les problèmes classiques de contruction de graphe sémantique (polysémie par exemple) nous importent peu pour ces graphes sémantiques (on s’autorise des moyens mnémotechniques capillotractés...). La littérature est fournie à propos de la construction de graphes sémantiques. Si cela suffit, on utilisera la méthode simple et rapide suivante : On utilise comme base la 8° édition du Dictionnaire de l’Académie, voire d’autres sources pour des index de définitions de mots plus récents. On construit tout d’abord une liste de tous les mots du dictionnaire. Puis on détermine pour chaque mot dans quel article il apparaît, et le nombre d’occurrences dans cet article. On effectue une phase de normalisation pour affecter des valeurs aux arêtes.

6 L’évaluation des mots connus par l’utilisateur
Dans un premier temps, on ne fait qu’associer un mot anglais à sa traduction dès que l’utilisateur se teste correctement dessus. On peut envisager une méthode automatique pour évaluer le vocabulaire connu par l’utilisateur (déterminer son niveau), en commençant par lui faire passer un petit test de vocabulaire “échantillon”. Il s’agira alors de : - déterminer les mots à placer dans cet échantillon, afin de bien déterminer une gradation de difficulté. - faire un calibrage : faire passer ce test à plusieurs volontaires pour calibrer la méthode, et obtenir la liste de vocabulaire connu par ces volontaires (de forts utilisateurs de Fury Language). - mettre en relation les résultats des tests avec le vocabulaire connu (modèles de Markov cachés, analyse bayésienne ?), et stocker le modèle obtenu.

7 L’alignement de séquences
On mène plutôt une recherche de plus grand sous-mot commun qu’un alignement optimal de séquences. Il faut toutefois créer une matrice de distance pour les lettres ou les sons. Il faudra éventuellement en faire une pour chaque langue.

8 L’algorithme de recherche d’analogie sémantique
On peut exécuter cet algorithme de recherche de moyen mnémotechniques soit en cours de test, dès que l’utilisateur fait une faute, soit hors test, sur une des fiches d’erreurs de l’utilisateur. Pour chaque terme français dont la traduction en anglais n’est pas connue par l’utilisateur : Je trouve le noeud du graphe sémantique associé au terme français, et j’effectue, sur ce nœud et ses voisins (jusqu’à une certaine distance), une recherche de la plus grande analogie de forme entre le terme anglais non connu de l’utilisateur et l’étiquette du nœud (le mot français) ou sa traduction en anglais connue de l’utilisateur  J’ai trouvé un moyen mnémotechnique d’analogie sémantique, ou plusieurs.

9 L’algorithme de recherche de contexte
Il s’agit de construire une base de phrases (en anglais) connues ou retenues facilement (dont l’apprentissage est motivant pour l’utilisateur) : - paroles de chansons (avec rimes de préférences). - répliques de films. - messages de jeux vidéos. - proverbes. Il faut ensuite traiter cette base pour y effectuer des recherches rapides. Cette méthode est similaire à celle des programmes de desktop-search. Utiliser l’un d’entre eux serait peut-être plus simple.

10 Conclusion et contraintes
Ainsi, le programme indique à l’utilisateur une liste de moyens mnémotechniques possibles pour retenir le terme de la langue étrangère. A lui de choisir le meilleur, ou de n’en choisir aucun. Contrainte de taille : Certainement plus que les 2 Mo de l’actuelle version de Fury Language -Lite-… Pour indication, le dictionnaire de l’Académie (base du grape sémantique) fait 20Mo en html. Contrainte de temps : Pas très important si on ne tient pas à rechercher le moyen mnémotechnique pendant la phase de test.

11 Références Nabil Hathout : Analogies morpho-synonymiques. Une méthode d’acquisition automatique de liens morphologiques à partir d’un dictionnaire de synonymes. partie2_p30_322/art20_p223_232.pdf Mathieu Lafourcade, Violaine Prince : Modélisation de l’Hyperonymie via la combinaison de réseaux sémantiques et de vecteurs conceptuels. George A. Miller : WordNet: A Lexical Database for English. Haïfa Zargayouna et Sylvie Salotti : Mesure de similarité sémantique pour l’indexation de documents semi-structurés. Olivier Ferret : Découvrir des sens de mots à partir d’un réseau de cooccurrences lexicales. 8e édition du Dictionnaire de l'Académie française de l'Académie française databases/artfl/dicos/acad1932/IMAGE/


Télécharger ppt "Projet : Automatiser la découverte de moyens mnémotechniques"

Présentations similaires


Annonces Google