La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

R2I –Tizi-Ouzou1 A.Hammache Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou M.Boughanem Laboratoire IRIT, Université Paul.

Présentations similaires


Présentation au sujet: "R2I –Tizi-Ouzou1 A.Hammache Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou M.Boughanem Laboratoire IRIT, Université Paul."— Transcription de la présentation:

1 R2I –Tizi-Ouzou1 A.Hammache Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou M.Boughanem Laboratoire IRIT, Université Paul Sabatier Toulouse R. Ahmed-Ouamer Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou. Un modèle de langage mixte combinant les termes composés et les termes simples Un modèle de langage mixte combinant les termes composés et les termes simples

2 R2I –Tizi-Ouzou2 Etat de lart Modèle de Langage (uni-gramme) Extensions du modèle Uni-gramme Approche proposée Expérimentation et évaluation Contexte du travail Plan Conclusion

3 R2I –Tizi-Ouzou3 Domaine Recherche dinformation Modèle mixte termes composés et termes simples Modèle de langage Meilleure représentation du contenu sémantique des documents et des requêtes Framework Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion

4 R2I –Tizi-Ouzou4 La Recherche dInformation Satisfaction dun besoin en information dun utilisateur, qui est exprimé par une requête, sur un ensemble de documents appelé collection ou corpus. Satisfaction dun besoin en information dun utilisateur, qui est exprimé par une requête, sur un ensemble de documents appelé collection ou corpus. Modèle de langage pour la RI cadre probabiliste pour la description du processus de la RI cadre probabiliste pour la description du processus de la RI Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion

5 R2I –Tizi-Ouzou5 Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion Formule de Ranking LM (uni-gramme) des performances équivalentes voir supérieurs à celles des modèles classiques (vectoriel, probabiliste). des performances équivalentes voir supérieurs à celles des modèles classiques (vectoriel, probabiliste). Limites de LM 1.Clairsemence de données () 1.Clairsemence de données ( Data Sparseness ) 2.Hypothèse dindépendance ( 2.Hypothèse dindépendance ( Terms independency assumption)

6 R2I –Tizi-Ouzou6 Réponses 1. Data Sparseness Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion

7 R2I –Tizi-Ouzou7 2.Terms independency assumption Utilisation de la dépendance entre termes. Idée : La requête est composée de plusieurs unités de termes (n-grammes) et utilise les occurrences des unités dans le document pour lappariement [Gao et al. SIGIR 2004], [Metzler, D and Croft, W.B. SIGIR, 2005], [Shi, L., Nie, J. Y., SIGIR, 2009] Réponses Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion Utilisation de la Proximité entre termes Idée : Utilisation des fonctions de proximités qui capturent la mesure dans laquelle les termes de recherche apparaissent proches les uns des autres dans un document [Tao, T., and Zhai, C. SIGIR, 2007], [Lv, Y., Zhai. C. SIGIR, 2009]. Utilisation dunités dindexation plus complexes Idée : Développement de modèles pour une représentation plus détaillée du contenu des documents et des requêtes, et cela par lutilisation dunités dindexation plus complexes en plus de lutilisation des termes simples. [Croft, W. B et al. SIGIR, 1991], [Mitra, C et al RIAO, 1997]

8 R2I –Tizi-Ouzou8 Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion Mieux représenter le contenu sémantique des documents et des requêtes en introduisant une certaine sémantique dans leurs représentations. Objectif de lapproche un modèle de langage mixte (LM_TC) qui combine les termes simples et les termes composés.

9 R2I –Tizi-Ouzou9 1.La pluparts des approches considèrent tous les n-grammes Seulement les termes composés sont considérés dans notre approche Seulement les termes composés sont considérés dans notre approche Pourquoi les termes composés ? moins ambigus moins ambigus Java Ile de java langage java Plus précis Plus précis voiture voiture électrique Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion Avantages de lapproche 2.Dans ces approches Les n-grammes sont pondérés dune manière uniforme Une nouvelle formule de pondération des termes composés : Une nouvelle formule de pondération des termes composés : 1.Fréquence de terme composé 2.Fréquence des termes composants Dominance entre termes composants Dominance entre termes composants

10 R2I –Tizi-Ouzou10 Formalisation (Modèle de langage mixte) Une requête Q et un document D son représentés dans le vocabulaire Une requête Q et un document D son représentés dans le vocabulaire terme simple terme composé Formule de Ranking (combinaison des deux modèles) : Formule de Ranking (combinaison des deux modèles) : Modèle document terme simple Modèle document terme composé 1- α 1-α Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion

11 R2I –Tizi-Ouzou11 Formules correspondantes Formules correspondantes estimation de estimation de Diapositive 15 Diapositive 15 Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion

12 R2I –Tizi-Ouzou12 Schéma de pondération des termes composé Schéma de pondération des termes composé Pas de schéma bien accepté pour la pondération des termes composés Pas de schéma bien accepté pour la pondération des termes composés Des adaptations de schéma de pondération TF-IDF Des adaptations de schéma de pondération TF-IDF Pas de prise en compte de limportance dun terme composant dans ces adaptation Pas de prise en compte de limportance dun terme composant dans ces adaptation dans la réalité un des termes composant peut être plus important que les autres dans la réalité un des termes composant peut être plus important que les autres Ordinateur personnel Ordinateur personnel estimation de limportance (dominance) dun terme estimation de limportance (dominance) dun terme Nombre de document contenant Nombre de document dans la collection probabilité de dominance probabilité de dominance Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion

13 R2I –Tizi-Ouzou13 intuition dans la pondération des termes composés : Nous supposons que lauteur dun document utilise les termes composants isolément pour exprimer le terme composé comme abréviation après un nombre doccurrences de terme composé. Nous supposons que lauteur dun document utilise les termes composants isolément pour exprimer le terme composé comme abréviation après un nombre doccurrences de terme composé. exemple : exemple : AP AP-NR EST a e AM-APArts:Oscars-Overlooked Adv AM-AP Arts: Oscars-Overlooked, Adv 28,0723 What do Charlie Chaplin, Greta Garbo, Cary Grant, Alfred Hitchcock and Steven Spielberg have in common? They have never won Academy Awards for their individual achievements. Such flagrant omissions are often cited by critics as evidence of the unfairness of Hollywood's highest prize. Oscar's 60-year history is filled with examples of the film world's highest achievers being overlooked by the Academy of Motion Picture Arts and Sciences. The latest casualties are directors James L. Brooks, whose movie ``Broadcast News'' was nominated though he wasn't, and Spielberg who was left out in the cold with his ``Empire of the Sun.'' Although ``Broadcast News'' won seven major nominations, including best picture and three acting categories, Brooks was strangely overlooked by the Academy's directing branch. Since no movie has ever won a best picture Oscar without its director at least being nominated, the chances of the once-favored ``Broadcast News'' to be a big winner at the awards ceremony on April 11 have been significantly reduced. Brooks did better in 1984 when his ``Terms of Endearment'' took the lion's share of Oscars, including best picture and director. Spielberg's ``Empire of the Sun'' won six nominations this year, none of them major and none for director. Two years ago, ``The Color Purple'' received 11 nominations but not for him as director. The Directors Guild nevertheless named him best director that year. ``I'm floored by this,'' Spielberg said upon receiving his DGA award. ``This is the last thing I expected to happen.... If some of you are making a statement _ thank God _ I thank you for that.'' Why the Spielberg slight? Some observers cite the fact that only 257 directors nominate for the Academy Awards, and many are veterans who might not look kindly on the young man whose films are the biggest moneymakers in history (``Jaws,'' ``E.T.,'' ``Raiders of the Lost Ark''). The Academy appeared to make amends last year by presenting Spielberg with the Irving Thalberg award for ``consistently high quality of production.'' There was no mention of the fact that Spielberg is primarily a director, not a producer. The Thalberg award has come in handy to acknowledge giants who were overlooked for individual awards. The recipients have included Cecil B. DeMille, Stanley Kramer, Alfred Hitchcock, Ingmar Bergman and Mervyn Leroy. The honorary award has also proved useful to salve the Academy's conscience. Charlie Chaplin received one at the first Academy Awards for his creation of ``The Circus'' and again at the 44 th awards for ``the incalculable effect he has had in making motion pictures the art form of this century.'' Douglas Fairbanks, Judy Garland, Noel Coward, Ernst Lubitsch, Fred Astaire, Gene Kelly, Harold Lloyd, Greta Garbo, Maurice Chevalier, Stan Laurel, Cary Grant, Lillian Gish, Edward G. Robinson, Groucho Marx, Howard Hawks and Jean Renoir are others who have received honorary awards. Cary Grant once remarked that he never expected to win an Academy Award. ``I'd have to blacken my teeth first,'' he quipped, alluding to the Academy's fondness for actors who portray bums and downtrodden characters. Alfred Hitchcock also had a End Adv for Mon AMs, March 28 Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion

14 R2I –Tizi-Ouzou14 Afin de prendre cette hypothèse (intuition), nous proposons de lisser la fréquence de terme composé en tenant en compte de la fréquence de ses termes composants relativement à leur dominance dans le terme composé. Afin de prendre cette hypothèse (intuition), nous proposons de lisser la fréquence de terme composé en tenant en compte de la fréquence de ses termes composants relativement à leur dominance dans le terme composé. la nouvelle fréquence (revisitée) de terme composé T la fréquence initiale de terme composé T la probabilité de dominance de dans le terme ti composé T La fréquence de terme ti dans le document Termes Initial Frequency Imp(t)P(t|T)New compound term Frequency (revisited) academy4N/13350,7 award5N/31150,3 academy award4--=4+0,3*5+0,7*4=8,3 award5N/31150,4315 ceremony0N/23640,5685 awards ceremony1--=1+5*0,4315=3,1575 Thalberg0N/140,9955 award5N/31150,0045 Thalberg award1--=2+4*0, *0,9942=3,017 … ….. Steven0N/14260,0172 Spielberg5N/870,9828 Steven Spielberg1=1+5*0,9828=5,9140 Document length with initial frequency | D T | =4+…+1 Document length with revisited frequency | D T |=8,3+…+5,9140 Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion

15 R2I –Tizi-Ouzou15 estimation de estimation de Dans cette formule, le passage dun terme simple à un document D est réalisé à travers tous les termes composés qui le contient. Modèle document terme composé Terme composés Hypothèse : l'auteur utilise un terme simple dans un document, il peut renvoyer à un terme composé donné, noté Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion

16 R2I –Tizi-Ouzou16 On obtient : exemple exemple = award, la liste des termes composés contenant ce terme est, L= { academy award, awards ceremony, Thalberg award} Termes composés academy award 0,3*4=1,2 awards ceremony0,4315*1=0,4315 Thalberg award0,0045*1=0,0045 Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion

17 R2I –Tizi-Ouzou17 Collection Parsing Mots-vides lemmatisation Text-NSP Comptage des bi-grammes (count.pl) Ordonnancement des bi-grammes (statistic.pl) Liste des termes composés Bigrams filtring (>freq_th) Bigrams filtring (>PMI_threshold) Terrier 1.Indexation 2.Recherche 3.Evaluation Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion

18 R2I –Tizi-Ouzou18 Collection#documentsTopics WSJ , AP8879, WT10G1,692, Statistiques sur les collections et les Topics utilisés Statistiques sur les collections et les Topics utilisés Comparison des différents modèles (ULM, MRF(FD), LM_CT) Comparison des différents modèles (ULM, MRF(FD), LM_CT) ULMFDLM_TC WSJ AP WT10G ULM : modèle Uni-gramme FD : Modèle proposé dans [Metzler, D and Croft, W.B. SIGIR, 2005] LM_TC : modèle Implémentant notre Approche Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion

19 R2I –Tizi-Ouzou19 Conclusion 1.Proposition dun nouveau modèle de langage combinant les termes composés et simples 2.Proposition dune nouvelle méthode de pondération des termes composés 3.Les expérimentations effectuées sur trois collection de test ont montré que notre modèle affiche de meilleurs résultats que le modèle uni-gramme ainsi que le modèle MRF (FD) Perspectives 1.Tester limpact des facteurs suivants: Adjacence des termes composant Directionalité Taille des termes composés Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion

20 R2I –Tizi-Ouzou20 Merci de votre attention


Télécharger ppt "R2I –Tizi-Ouzou1 A.Hammache Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou M.Boughanem Laboratoire IRIT, Université Paul."

Présentations similaires


Annonces Google