INF L11 Langage et informatique 1 Cours 7 – Moteurs de recherche : Détection de la langue.

Slides:



Advertisements
Présentations similaires
Premier programme en C :
Advertisements

E-learning Evolutif Albarelli Corinne Behem Patrice Guillot Jérôme
Architecture de machines Codage des informations
Informatique Deug2 Sciences Eco S. Maabout 2004/2005.
Niveau Intermédiaire 12/01/ Visualiser votre groupe de TD ( Visualiser mon emploi du temps) 12/01/
Internet : serveurs Web
Reconnaissance de la parole
Le developpement web  Préparé par : ASSAL Lamiae JAMALI Zakarya
Le codage de l ’information
Correction contrôle.
Contrôle - Correction Contraction du mot latin « domus », la maison
Correction du contrôle
Les ressources numériques
Samedi 6 septembre 2008matériel informatique1 Codage de linformation.
Collège Anatole France – Cadillac Mise à jour: Questions sur cette charte à envoyer à: CHARTE INFORMATIQUE SIMPLIFIEE.
version Beta Marie Calberg Ninni Louhelainen SLFN7
SYSTRAN Un outil du TAL Victoria AUPERT Marjorie LORSUNG.
Par Aline Mahot et Charlyne Routier
Tutoriel XML – Première Partie F. Sajous & L. Tanguy ERSS – Sémantique et Corpus.
ESIEE Paris © Denis BUREAU I N Initiation à la programmation avec le langage Java.
INF L11 Langage et informatique 1
Cours Visual Basic pour Application
2) Les types simples en Python II-Variables 1) Notion de variable
COME Bernard Comeau Commerce électronique Les éléments retrouvés dans une page Web. COME 2001.
Nouveau blog. WordPress connexion Nommez votre blog.
L’ordinateur et les langues
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
INF L11 Langage et informatique 1 Cours 5 – Moteurs de recherche – Indexation et requêtes.
En avant 8 texte 2 page 14 Texte 2 Questions sur le texte 2.
Représentation numérique de l’information
1. Société à but lucratif 2 Trois étapes Traiter beaucoup d informations Stoker beaucoup de pages web Fonctionnement dun moteur de recherche Google Explorer.
Unicode Facilite la partage et édition des données.
TRANSMISSION DES DONNEES.
Algorithmique et programmation Informatique Cours 9 12/11/2001.
La communication de ce document est soumise à autorisation de France Télécom R&D (Nom du fichier) - D1 - 01/03/2000 France Télécom R&D Énoncé Représentation.
RECHERCHER AVEC BCDI WEB
Principes de programmation
ProfWeb Technopédagogie Élisabeth Lebel, bibl. prof. 7 octobre 2005.
Natalie Meystre Maciej Macowicz Conférence des Webmasters 22 mars 2005 Moteurs de recherche, meta-moteurs.
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
INFORMATIQUE INF1B Les principes de fonctionnement de l’ordinateur
Moteurs de recherche Modex Web Modex Web 441 professeur Go
Les formats Débutant – Semaine 4.
Quelle est la langue officielle de ce pays? japonais.
F L T R Université catholique de Louvain-la-Neuve Faculté de philosophie et lettres FLTR Faculté de Philosophie et Lettres Présentation décembre 2002 Réalisation:
Les chaînes de caractères
MONTRÉAL, October , 2014 Cliquez pour ajouter le titre de la présentation.
Informatique, Ordinateur & Programme ...
Les TICE à l’école L’équipement de base L’environnement Windows La gestion des fichiers Dominique Gouilly Animatrice informatique.
Série S spécialité ISN Informatique et Sciences du Numérique
Comment allez-vous? Bien Très bien Mal Très mal Comme ci comme ça
Le langage XML.
Internet : serveurs Web  Clients et serveurs : le navigateur  Sites Web et urls  Fichier source d’une page  Langage HTML 1.
REPRESENTATION DE L’INFORMATION
XHTML les fondamentaux M.DIENG Abdoulaye DTS 1 Réseaux & Données.
Traitement de texte (Premiers pas)
21/10/2008 SYSTEME INFORMATIQUE.
Points importants de la semaine Les caractères.
LYCEE VAN GOGH aUBERGENVILLE
Codage de l’information
Cours 8 La transmission.
HTML 4 et CSS 2 Cours 4 Faire acquérir à l'étudiant des connaissances de niveau intermédiaire en programmation HTML et de l'initier aux feuille de style.
Codage de l’information
Pierre Malenfant Technologie 9 École du Carrefour
Chapitre 5 La représentation des données
Le codage des nombres en informatique
Informatique et sciences du numérique
Département Informatique Codage de l’information Laurent JEANPIERRE IUT de CAEN – Campus 3.
Transcription de la présentation:

INF L11 Langage et informatique 1 Cours 7 – Moteurs de recherche : Détection de la langue

Problème Google (robots) Google (robots) détecter automatiquement la langue des documents pour indexer correctement détecter automatiquement la langue des documents pour indexer correctement Autre application Autre application traitement de texte traitement de texte

Statégie Codage des caractères Codage des caractères Critères statistiques Critères statistiques Fréquence des lettres Fréquence des lettres Fréquence des bigrammes, trigrammes Fréquence des bigrammes, trigrammes Fréquence des mots Fréquence des mots

- I - Codage des caractères - I - Codage des caractères

Code ASCII Débuts de linformatique Débuts de linformatique Codage sur 7 bits Codage sur 7 bits Maximum 127 caract. Maximum 127 caract. 32 caract. spéciaux 32 caract. spéciaux

Windows (occidental) Extension de lASCII Extension de lASCII 8 bits 8 bits 256 caractères 256 caractères

Windows Europe Centrale

Windows Grec

Unicode Lien Lien Consortium Unicode Consortium UnicodeUnicode Article Unicode sur Wikipedia Article Unicode sur Wikipedia Article Unicode sur Wikipedia Article Unicode sur Wikipedia Permet de représenter tous les caractères des toutes les langues du monde Permet de représenter tous les caractères des toutes les langues du monde à lheure actuelle (Unicode = caract.) à lheure actuelle (Unicode = caract.) Nécessite (pour linstant) 21 bits Nécessite (pour linstant) 21 bits

UTF-8 Codage « économique » pour Unicode Codage « économique » pour Unicode Certains caractères sur un octet (8 bits) Certains caractères sur un octet (8 bits) Dautres sur 2 octets (voire plus) Dautres sur 2 octets (voire plus) Exemple Exemple En français, le « é » est codé sur deux octets En français, le « é » est codé sur deux octets si logiciel mal régré, il apparaît comme « é » si logiciel mal régré, il apparaît comme « é »

- II - Critères statistiques

Français

Anglais

Différentes langues Ordre des lettres Ordre des lettres françaisesaitnrulodcpmévqfbghjàxyèêzwçùkîœïë anglaisetaoinshrdlcumwfgypbvkjxqz allemandenisrthdaulcgmowbfzkvüpäöjyxq espagnol aeosrnlidutcpmvgbfyhqójìàzñéxùkw italien aeiolnrtscdupmvgfbzhqòàùìéèóykwxô portugais aeosridntmucplvgfbhqãçáéìzjóêxàõyùkâôw Source

Grande variabilité Dépend de la taille du document Dépend de la taille du document Dépend du type de document Dépend du type de document Exemples Exemples style narratif (verbes à la 2e personne du pluriel) plus de « Z » style narratif (verbes à la 2e personne du pluriel) plus de « Z » chemins de fer plus de « W » (wagon) chemins de fer plus de « W » (wagon) personnage Loïs plus de « ï » personnage Loïs plus de « ï » petites annonces plus de petites annonces plus de

Exemples esaitnrulodcpmévqfbghjàxyèêzwçùkîœïë Wikipédia 2004 esaitnrulodmcpvéqfgbhàxèyêzçôùâûœkwïëüæñ Engwall 1984 esaitnrulodcmpévqfbghjàxèyêzâçîùôûïkëw Brunet 1881 eirtnsacouldmpéfhgvqxbèjyçkw Page daccueil www Véronis

Bigrammes Deux lettres consécutives Deux lettres consécutives bonjour bo on nj jo ou ur bonjour bo on nj jo ou ur

FrançaisAnglaisAllemandItalienEspagnolPortugais onthendide esoneronenes deanchrierto teheeieronda nterunalcios renddetoesre eninndtareen letigeneoser italreiniote erreinrelara etioieitrant tienteionaem ouringdeecdo ioofhelialdi laorneenadit oiathtnidaal neitictttoad metobelantco roeditllieei nsntscel as

Trigrammes Trois lettres consécutives Trois lettres consécutives bonjour bon onj njo jou our bonjour bon onj njo jou our

FrançaisAnglaisAllemandItalienEspagnolPortugais ionthederion ent tioandundziocioito entioneinellreceit oittioungoneeredir ati chtlladerire roiighichritienrei droghtschittchoção menrigchedelentade touentechiriechdad converdiediracimen resonerecessonante queallineentntedos leseveeitaziconess deserygenttoenecon emehisvereretod

Mots les plus fréquents FrançaisAnglaisAllemand detheder laofdie l'andund ettoin lesaden desinvon àthatzu lesisdas

Démos A tester : A tester : TextCat TextCat TextCat Xerox Xerox Xerox LexTex LexTex LexTex LangWitch LangWitch LangWitch