Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parMarceline Bour Modifié depuis plus de 10 années
1
INF L11 Langage et informatique 1 Cours 7 – Moteurs de recherche : Détection de la langue
2
Problème Google (robots) Google (robots) détecter automatiquement la langue des documents pour indexer correctement détecter automatiquement la langue des documents pour indexer correctement Autre application Autre application traitement de texte traitement de texte
3
Statégie Codage des caractères Codage des caractères Critères statistiques Critères statistiques Fréquence des lettres Fréquence des lettres Fréquence des bigrammes, trigrammes Fréquence des bigrammes, trigrammes Fréquence des mots Fréquence des mots
4
- I - Codage des caractères - I - Codage des caractères
5
Code ASCII Débuts de linformatique Débuts de linformatique Codage sur 7 bits Codage sur 7 bits Maximum 127 caract. Maximum 127 caract. 32 caract. spéciaux 32 caract. spéciaux 0000000 0000001 0000010 0000011 0000100 0000101 0000110 0000111...
6
Windows (occidental) Extension de lASCII Extension de lASCII 8 bits 8 bits 256 caractères 256 caractères
7
Windows Europe Centrale
8
Windows Grec
9
Unicode Lien Lien Consortium Unicode Consortium UnicodeUnicode Article Unicode sur Wikipedia Article Unicode sur Wikipedia Article Unicode sur Wikipedia Article Unicode sur Wikipedia Permet de représenter tous les caractères des toutes les langues du monde Permet de représenter tous les caractères des toutes les langues du monde à lheure actuelle (Unicode 4.0.0 = 96382 caract.) à lheure actuelle (Unicode 4.0.0 = 96382 caract.) Nécessite (pour linstant) 21 bits Nécessite (pour linstant) 21 bits
10
UTF-8 Codage « économique » pour Unicode Codage « économique » pour Unicode Certains caractères sur un octet (8 bits) Certains caractères sur un octet (8 bits) Dautres sur 2 octets (voire plus) Dautres sur 2 octets (voire plus) Exemple Exemple En français, le « é » est codé sur deux octets En français, le « é » est codé sur deux octets si logiciel mal régré, il apparaît comme « é » si logiciel mal régré, il apparaît comme « é »
11
- II - Critères statistiques
13
Français
14
Anglais
16
Différentes langues Ordre des lettres Ordre des lettres françaisesaitnrulodcpmévqfbghjàxyèêzwçùkîœïë anglaisetaoinshrdlcumwfgypbvkjxqz allemandenisrthdaulcgmowbfzkvüpäöjyxq espagnol aeosrnlidutcpmvgbfyhqójìàzñéxùkw italien aeiolnrtscdupmvgfbzhqòàùìéèóykwxô portugais aeosridntmucplvgfbhqãçáéìzjóêxàõyùkâôw Source
17
Grande variabilité Dépend de la taille du document Dépend de la taille du document Dépend du type de document Dépend du type de document Exemples Exemples style narratif (verbes à la 2e personne du pluriel) plus de « Z » style narratif (verbes à la 2e personne du pluriel) plus de « Z » chemins de fer plus de « W » (wagon) chemins de fer plus de « W » (wagon) personnage Loïs plus de « ï » personnage Loïs plus de « ï » petites annonces plus de petites annonces plus de
18
Exemples esaitnrulodcpmévqfbghjàxyèêzwçùkîœïë Wikipédia 2004 esaitnrulodmcpvéqfgbhàxèyêzçôùâûœkwïëüæñ Engwall 1984 esaitnrulodcmpévqfbghjàxèyêzâçîùôûïkëw Brunet 1881 eirtnsacouldmpéfhgvqxbèjyçkw Page daccueil www Véronis
19
Bigrammes Deux lettres consécutives Deux lettres consécutives bonjour bo on nj jo ou ur bonjour bo on nj jo ou ur
20
FrançaisAnglaisAllemandItalienEspagnolPortugais onthendide esoneronenes deanchrierto teheeieronda nterunalcios renddetoesre eninndtareen letigeneoser italreiniote erreinrelara etioieitrant tienteionaem ouringdeecdo ioofhelialdi laorneenadit oiathtnidaal neitictttoad metobelantco roeditllieei nsntscel as
21
Trigrammes Trois lettres consécutives Trois lettres consécutives bonjour bon onj njo jou our bonjour bon onj njo jou our
22
FrançaisAnglaisAllemandItalienEspagnolPortugais ionthederion ent tioandundziocioito entioneinellreceit oittioungoneeredir ati chtlladerire roiighichritienrei droghtschittchoção menrigchedelentade touentechiriechdad converdiediracimen resonerecessonante queallineentntedos leseveeitaziconess deserygenttoenecon emehisvereretod
23
Mots les plus fréquents FrançaisAnglaisAllemand detheder laofdie l'andund ettoin lesaden desinvon àthatzu lesisdas
24
Démos A tester : A tester : TextCat TextCat TextCat Xerox Xerox Xerox LexTex LexTex LexTex LangWitch LangWitch LangWitch
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.