A.Hammache Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou

Slides:



Advertisements
Présentations similaires
Primary French Presentation 2 Saying How You Are.
Advertisements

Primary French PowerPoints What’s Your Name?.
Délit D’Amel Bent.
Quelle est la question?.
TIC au service de léducation, le portail Tarbiya.
Indexation textuelle : Systèmes de recherche d’informations
Université Mouloud Mammeri de Tizi-Ouzou
Aller. Sortez vos schémas dhier. Demadez aux autres: Quest-ce que tu as écrit? Quand on a fini, on sassoit Quand tout le monde a fini le schéma, on va.
Systeme Question-Reponse SQR
TAX & LAW M EMBRE DU R ÉSEAU E RNST & Y OUNG 25 March 2008 HEC International Business Seminar : Key Factors and Business Location Case Study Tuesday 25.
Vers un nouvel empirisme: l’ancien et le nouvel empirisme John Goldsmith Université de Chicago CNRS MoDyCo.
IB Language B French and German
Bonjour!! Pour être prêt: Répondez aux questions:
© Copyright Showeet.com S OCIAL M EDIA T HINKING.
Block 2A: le 17 Septembre  SILENTLY complete the spelling worksheet.  When you’re finished, study for your make-up alphabet quiz!!
Steps to Success: Be creative Be part of an experiment into spaced learning Pay close attention during the input sections -Do your best to learn from and.
Notes les novembre SAVOIR et CONNAÎTRE The verbs savoir and connaître both mean to know, but they are not interchangeable.
Les Pronoms Objet: indirect et direct Rachel Mojdehbakhsh AP French - 2.
Quelle force que celle de s’accepter comme on est !
Français III projet cinématique (votre film). les critères Create a 3 minute film with a 1 minute introduction. The introduction must explain briefly.
Le passé composé Review en short.
Improving large-scale search engines with semantic annotations Damaris Fuentes-Lorenzo, Norberto Fernández, Jesús A. Fisteus, Luis Sánchez.
Le Comparatif et le Superlatif
Cultural Comparison 1 minute for directions (in English and French, spoken consecutively): You will make an oral presentation to your class on a specific.
Sister Dalton Fireside Make the most of your BYU experience!
A. Le comparatif p.234 Comparative constructions are used to compare people or things. Cet hôtel est aussi moderne que l’autre. This hotel is as modern.
LA DATE MME YEE L'hôtel Français. Avant de lire 1. Have you ever stayed at a hotel? Where? 2. If not, what do you think it would be like? 3. What do you.
TitleIntroductionTaskProcessEvaluationRubricConclusion Un Voyage en France Français III Mlle Higgins.
Questions: -W-W-W-What are their main tasks? - What skills should laboratory technicians have? (quote at least 6) -W-W-W-Why is it important for a lab.
Les Mots Interrogatifs
Classroom vocabulary Review for Quarterly Exam. Martin, tu as un crayon de papier?
French 101 Important Verbs. The most important French verbs – avoir (to have), être (to be), and faire (to do/make) They are used in some of the ways.
Le pronom « On » pour éviter la voix passive.
Pile-Face 1. Parlez en français! (Full sentences) 2. One person should not dominate the conversation 3. Speak the entire time The goal: Practice! Get better.
Les verbes réfléchis au passé composé
Year 10. Bon appetit unit. Introducing ‘en’. ‘en’ – ‘some of it’ or ‘some of them’ ‘En’ is a small but important word in French that is commonly used.
Jeunes, qui êtes-vous? Using reading strategies for comprehension, comparisons, and preparation for Café français.
Warm-up Write six sentences in French showing the difference in life- style between a young girl living in a village in Tunisia and your life style in.
Les pronoms objets Mme Zakus. Les pronoms objets When dealing with sentences, subjects are part of the action of the verb. In other words, they “ do ”
Irregular Adjectives Not all adjectives are made the same.
4B at the English lesson.
Year 12 Grammar Review. Les objectfs Apprendre l’usage des pronoms relatifs.
Les Temps du Passé.
Warm up Share some news to a friend who left your neighborhood six month ago. You can use expressions such Tu sais qui ….?, or Tu connais la nouvelle…?
Faire + Infinitif I make my friends laugh.
1. Est-ce que Est-ce que, literally translated "is it that," can be placed at the beginning of any affirmative sentence to turn it into a question: Je.
La drogue: glossaire de base
Don’t Be Late part two With the Angry Family Right. Here we are and it’s only quarter past one!!! WE’RE EARLY!!! Voilà, nous sommes là et il est seulement.
Fiche méthodologique 1: How to understand a text? (Written comprehension) General remarks: 1.It is OK NOT to understand everything…….yes, it is!! 2. You.
Lundi 14 septembre Parle-moi de toi! la première activité: Vérifiez les devoirs. dé e st e e g a r d e h b i t e oy ag e doro ns am e ap pe le c o l e.
Introduction to philosophy Part 3. Problematization and conceptualization.
Many verbs that are irregular in the present also have irregular past participles. Therefore, no rule for formation, you need to memorize them. Each time.
We all ready know two French verbs. What are they?
The 4th Power Places and Forms of power How reliable are our sources of information today ? The media.
Unité 3 Le passé composé avec ÊTRE. Le passé composé The passé composé is a PAST TENSE used to tell what has happened in the past. As its name implies,
Journal Grade only – Introductory Journal Entry Mon week-end  Students were asked to write a paragraph detailing a minimum of 5 things they DID.
LES PRONOMS D’OBJET DIRECT. WHAT IS A SUBJECT? In a sentence, the person or thing that performs the action of the verb is called the SUBJECT.
O WHY IS IT IMPORTANT TO KNOW ABOUT THE CONTRIBUTIONS OF THE MEMBERS OF OUR COUNTRY?
L’imparfait/imperfect:. The imperfect is another past tense which is used in three different circumstances: 1)Descriptions in the past:  Descriptions.
Le Verbe Avoir L’Objectif: to learn the verb avoir in the present tense and to be able to use it in context By: B. Antoniazzi DDE French 1 U1 L2C AVOIR.
UNITÉ II: LEÇON 6 PARTIE B: LES MOIS ET LA DATE. LES MOIS DE L’ANNÉE janvier January.
Français 12/14/15 Ouvrez vos livres á la page 112. Ecrivez six phrases de sports et activités. What is worse than “raining cats and dogs?” Important(e)
Unité 9 : les repas Leçon 35 : Un Client Difficile Ordering food in a restaurant Partie B : les pronoms compléments à l’impératif.
Theme One Speaking Questions
Djimon Hounsou, who has twice been nominated for Academy Awards® for best supporting actor, was born in Benin.
F RIENDS AND FRIENDSHIP Project by: POPA BIANCA IONELA.
Bienvenue Au monde des Pronoms.
Question formation In English, you can change a statement into a question by adding a helping verb (auxiliary): does he sing? do we sing? did they sing.
Mardi 23 Octobre Français I
Double Vision the art of seeing more than one thing
Transcription de la présentation:

Un modèle de langage mixte combinant les termes composés et les termes simples A.Hammache Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou arezki20002002@yahoo.fr M.Boughanem Laboratoire IRIT, Université Paul Sabatier Toulouse bougha@irit.fr R. Ahmed-Ouamer Laboratoire LARI, Université Mouloud Mammeri Tizi-Ouzou. ahm_r@yahoo.fr R2I –Tizi-Ouzou

Plan Contexte du travail Etat de l’art Approche proposée Modèle de Langage (uni-gramme) Extensions du modèle Uni-gramme Approche proposée Expérimentation et évaluation Conclusion R2I –Tizi-Ouzou

Recherche d’information Modèle mixte termes composés Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion Recherche d’information Domaine Meilleure représentation du contenu sémantique des documents et des requêtes Modèle de langage Framework Modèle mixte termes composés et termes simples R2I –Tizi-Ouzou

La Recherche d’Information Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion La Recherche d’Information Satisfaction d’un besoin en information d’un utilisateur, qui est exprimé par une requête, sur un ensemble de documents appelé collection ou corpus. Modèle de langage pour la RI cadre probabiliste pour la description du processus de la RI R2I –Tizi-Ouzou

Formule de Ranking LM (uni-gramme) Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion Formule de Ranking LM (uni-gramme) des performances équivalentes voir supérieurs à celles des modèles classiques (vectoriel, probabiliste) . Limites de LM Clairsemence de données (Data Sparseness) Hypothèse d’indépendance (Terms independency assumption) R2I –Tizi-Ouzou

Réponses Data Sparseness Lissage (Smoothing) Techniques Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion Réponses Data Sparseness Lissage (Smoothing) Sources de données Collection Cluster Techniques Dirichelet Interpolation backoff  R2I –Tizi-Ouzou

Utilisation de la dépendance entre termes. Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion Réponses Terms independency assumption Utilisation de la dépendance entre termes. Idée : La requête est composée de plusieurs unités de termes (n-grammes) et utilise les occurrences des unités dans le document pour l’appariement [Gao et al. SIGIR 2004], [Metzler, D and Croft, W.B. SIGIR, 2005], [Shi, L., Nie, J. Y., SIGIR, 2009] Utilisation de la Proximité entre termes Idée : Utilisation des fonctions de proximités qui capturent la mesure dans laquelle les termes de recherche apparaissent proches les uns des autres dans un document [Tao, T., and Zhai, C. SIGIR, 2007], [Lv, Y., Zhai. C. SIGIR, 2009]. Utilisation d’unités d’indexation plus complexes Idée : Développement de modèles pour une représentation plus détaillée du contenu des documents et des requêtes, et cela par l’utilisation d’unités d’indexation plus complexes en plus de l’utilisation des termes simples. [Croft, W. B et al. SIGIR, 1991], [Mitra, C et al RIAO, 1997] R2I –Tizi-Ouzou

Objectif de l’approche Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion Objectif de l’approche Mieux représenter le contenu sémantique des documents et des requêtes en introduisant une certaine sémantique dans leurs représentations. un modèle de langage mixte (LM_TC) qui combine les termes simples et les termes composés. R2I –Tizi-Ouzou

Avantages de l’approche Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion Avantages de l’approche La pluparts des approches considèrent tous les n-grammes Seulement les termes composés sont considérés dans notre approche   Pourquoi les termes composés ? moins ambigus Java  Ile de java  langage java Plus précis voiture   voiture électrique Dans ces approches Les n-grammes sont pondérés d’une manière uniforme Une nouvelle formule de pondération des termes composés : Fréquence de terme composé Fréquence des termes composants Dominance entre termes composants R2I –Tizi-Ouzou

Formalisation (Modèle de langage mixte) Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion Formalisation (Modèle de langage mixte) Une requête Q et un document D son représentés dans le vocabulaire terme simple terme composé Formule de Ranking (combinaison des deux modèles) : Modèle document terme simple Modèle document terme composé 1-  1-α α R2I –Tizi-Ouzou

Formules correspondantes Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion Formules correspondantes estimation de estimation de estimation de Diapositive 15 R2I –Tizi-Ouzou

Schéma de pondération des termes composé Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion Schéma de pondération des termes composé Pas de schéma bien accepté pour la pondération des termes composés Des adaptations de schéma de pondération TF-IDF Pas de prise en compte de l’importance d’un terme composant dans ces adaptation dans la réalité un des termes composant peut être plus important que les autres Ordinateur personnel estimation de l’importance (dominance) d’un terme Nombre de document contenant Nombre de document dans la collection probabilité de dominance R2I –Tizi-Ouzou

intuition dans la pondération des termes composés : Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion intuition dans la pondération des termes composés  : Nous supposons que l’auteur d’un document utilise les termes composants isolément pour exprimer le terme composé comme abréviation après un nombre d’occurrences de terme composé. exemple : <DOC> <DOCNO> AP880325-0239 </DOCNO> <FILEID>AP-NR-03-25-88 0908EST</FILEID> <FIRST>a e AM-APArts:Oscars-Overlooked Adv28 03-25 0704</FIRST> <SECOND>AM-AP Arts: Oscars-Overlooked, Adv 28,0723</SECOND> <TEXT> What do Charlie Chaplin, Greta Garbo, Cary Grant, Alfred Hitchcock and Steven Spielberg have in common? They have never won Academy Awards for their individual achievements. Such flagrant omissions are often cited by critics as evidence of the unfairness of Hollywood's highest prize. Oscar's 60-year history is filled with examples of the film world's highest achievers being overlooked by the Academy of Motion Picture Arts and Sciences. The latest casualties are directors James L. Brooks, whose movie ``Broadcast News'' was nominated though he wasn't, and Spielberg who was left out in the cold with his ``Empire of the Sun.'' Although ``Broadcast News'' won seven major nominations, including best picture and three acting categories, Brooks was strangely overlooked by the Academy's directing branch. Since no movie has ever won a best picture Oscar without its director at least being nominated, the chances of the once-favored ``Broadcast News'' to be a big winner at the awards ceremony on April 11 have been significantly reduced. Brooks did better in 1984 when his ``Terms of Endearment'' took the lion's share of Oscars, including best picture and director. Spielberg's ``Empire of the Sun'' won six nominations this year, none of them major and none for director. Two years ago, ``The Color Purple'' received 11 nominations but not for him as director. The Directors Guild nevertheless named him best director that year. ``I'm floored by this,'' Spielberg said upon receiving his DGA award. ``This is the last thing I expected to happen. ... If some of you are making a statement _ thank God _ I thank you for that.'' Why the Spielberg slight? Some observers cite the fact that only 257 directors nominate for the Academy Awards, and many are veterans who might not look kindly on the young man whose films are the biggest moneymakers in history (``Jaws,'' ``E.T.,'' ``Raiders of the Lost Ark''). The Academy appeared to make amends last year by presenting Spielberg with the Irving Thalberg award for ``consistently high quality of production.'' There was no mention of the fact that Spielberg is primarily a director, not a producer. The Thalberg award has come in handy to acknowledge giants who were overlooked for individual awards. The recipients have included Cecil B. DeMille, Stanley Kramer, Alfred Hitchcock, Ingmar Bergman and Mervyn Leroy. The honorary award has also proved useful to salve the Academy's conscience. Charlie Chaplin received one at the first Academy Awards for his creation of ``The Circus'' and again at the 44th awards for ``the incalculable effect he has had in making motion pictures the art form of this century.'' Douglas Fairbanks, Judy Garland, Noel Coward, Ernst Lubitsch, Fred Astaire, Gene Kelly, Harold Lloyd, Greta Garbo, Maurice Chevalier, Stan Laurel, Cary Grant, Lillian Gish, Edward G. Robinson, Groucho Marx, Howard Hawks and Jean Renoir are others who have received honorary awards. Cary Grant once remarked that he never expected to win an Academy Award. ``I'd have to blacken my teeth first,'' he quipped, alluding to the Academy's fondness for actors who portray bums and downtrodden characters. Alfred Hitchcock also had a </TEXT> <NOTE>End Adv for Mon AMs, March 28</NOTE> </DOC> R2I –Tizi-Ouzou

Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion Afin de prendre cette hypothèse (intuition), nous proposons de lisser la fréquence de terme composé en tenant en compte de la fréquence de ses termes composants relativement à leur dominance dans le terme composé. la nouvelle fréquence (revisitée) de terme composé T la probabilité de dominance de dans le terme ti composé T la fréquence initiale de terme composé T La fréquence de terme ti dans le document Termes Initial Frequency Imp(t) P(t|T) New compound term Frequency (revisited) academy 4 N/1335 0,7 award 5 N/3115 0,3 academy award - =4+0,3*5+0,7*4=8,3 0,4315 ceremony N/2364 0,5685 awards ceremony 1 =1+5*0,4315=3,1575 Thalberg N/14 0,9955 0,0045 Thalberg award =2+4*0,0057+ 1*0,9942=3,017 … ….. Steven N/1426 0,0172 Spielberg N/87 0,9828 Steven Spielberg =1+5*0,9828=5,9140 Document length with initial frequency | DT| =4+…+1   Document length with revisited frequency | DT|=8,3+…+5,9140 R2I –Tizi-Ouzou

Modèle document terme composé Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion estimation de Dans cette formule, le passage d’un terme simple à un document D est réalisé à travers tous les termes composés qui le contient. Terme composés Modèle document terme composé Hypothèse : l'auteur utilise un terme simple dans un document, il peut renvoyer à un terme composé donné, noté R2I –Tizi-Ouzou

On obtient : exemple Termes composés Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion On obtient : exemple = “award”, la liste des termes composés contenant ce terme est , L= {“academy award”, “awards ceremony”, “Thalberg award”} Termes composés academy award ≈0,3*4=1,2 awards ceremony ≈0,4315*1=0,4315 Thalberg award ≈0,0045*1=0,0045 R2I –Tizi-Ouzou

Text-NSP Terrier Collection Parsing Mots-vides lemmatisation Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion Collection Text-NSP Parsing Mots-vides lemmatisation Comptage des bi-grammes (count.pl) Terrier Indexation Recherche Evaluation Bigrams filtring (>freq_th) Ordonnancement des bi-grammes (statistic.pl) Bigrams filtring (>PMI_threshold) Liste des termes composés R2I –Tizi-Ouzou

Statistiques sur les collections et les Topics utilisés Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion Statistiques sur les collections et les Topics utilisés Collection #documents Topics WSJ90-92 74,520 201-300 AP88 79,919 WT10G 1,692,096 451-550 Comparison des différents modèles (ULM, MRF(FD), LM_CT) ULM FD LM_TC WSJ90-92 0.1852 0.1964 0.2018 + AP88 0.2338 0.2479 0.2509 + WT10G 0.2085 0.2293 0.2331 + + ULM : modèle Uni-gramme FD : Modèle proposé dans [Metzler, D and Croft, W.B. SIGIR, 2005] LM_TC : modèle Implémentant notre Approche R2I –Tizi-Ouzou

Conclusion Perspectives Contexte RI et Modèle uni-gramme Extensions Approche Expérimentations Conclusion Conclusion Proposition d’un nouveau modèle de langage combinant les termes composés et simples Proposition d’une nouvelle méthode de pondération des termes composés Les expérimentations effectuées sur trois collection de test ont montré que notre modèle affiche de meilleurs résultats que le modèle uni-gramme ainsi que le modèle MRF (FD) Perspectives Tester l’impact des facteurs suivants: Adjacence des termes composant Directionalité Taille des termes composés R2I –Tizi-Ouzou

Merci de votre attention R2I –Tizi-Ouzou