INF L11 Langage et informatique 1 Cours 7 – Moteurs de recherche : Détection de la langue
Problème Google (robots) Google (robots) détecter automatiquement la langue des documents pour indexer correctement détecter automatiquement la langue des documents pour indexer correctement Autre application Autre application traitement de texte traitement de texte
Statégie Codage des caractères Codage des caractères Critères statistiques Critères statistiques Fréquence des lettres Fréquence des lettres Fréquence des bigrammes, trigrammes Fréquence des bigrammes, trigrammes Fréquence des mots Fréquence des mots
- I - Codage des caractères - I - Codage des caractères
Code ASCII Débuts de linformatique Débuts de linformatique Codage sur 7 bits Codage sur 7 bits Maximum 127 caract. Maximum 127 caract. 32 caract. spéciaux 32 caract. spéciaux
Windows (occidental) Extension de lASCII Extension de lASCII 8 bits 8 bits 256 caractères 256 caractères
Windows Europe Centrale
Windows Grec
Unicode Lien Lien Consortium Unicode Consortium UnicodeUnicode Article Unicode sur Wikipedia Article Unicode sur Wikipedia Article Unicode sur Wikipedia Article Unicode sur Wikipedia Permet de représenter tous les caractères des toutes les langues du monde Permet de représenter tous les caractères des toutes les langues du monde à lheure actuelle (Unicode = caract.) à lheure actuelle (Unicode = caract.) Nécessite (pour linstant) 21 bits Nécessite (pour linstant) 21 bits
UTF-8 Codage « économique » pour Unicode Codage « économique » pour Unicode Certains caractères sur un octet (8 bits) Certains caractères sur un octet (8 bits) Dautres sur 2 octets (voire plus) Dautres sur 2 octets (voire plus) Exemple Exemple En français, le « é » est codé sur deux octets En français, le « é » est codé sur deux octets si logiciel mal régré, il apparaît comme « é » si logiciel mal régré, il apparaît comme « é »
- II - Critères statistiques
Français
Anglais
Différentes langues Ordre des lettres Ordre des lettres françaisesaitnrulodcpmévqfbghjàxyèêzwçùkîœïë anglaisetaoinshrdlcumwfgypbvkjxqz allemandenisrthdaulcgmowbfzkvüpäöjyxq espagnol aeosrnlidutcpmvgbfyhqójìàzñéxùkw italien aeiolnrtscdupmvgfbzhqòàùìéèóykwxô portugais aeosridntmucplvgfbhqãçáéìzjóêxàõyùkâôw Source
Grande variabilité Dépend de la taille du document Dépend de la taille du document Dépend du type de document Dépend du type de document Exemples Exemples style narratif (verbes à la 2e personne du pluriel) plus de « Z » style narratif (verbes à la 2e personne du pluriel) plus de « Z » chemins de fer plus de « W » (wagon) chemins de fer plus de « W » (wagon) personnage Loïs plus de « ï » personnage Loïs plus de « ï » petites annonces plus de petites annonces plus de
Exemples esaitnrulodcpmévqfbghjàxyèêzwçùkîœïë Wikipédia 2004 esaitnrulodmcpvéqfgbhàxèyêzçôùâûœkwïëüæñ Engwall 1984 esaitnrulodcmpévqfbghjàxèyêzâçîùôûïkëw Brunet 1881 eirtnsacouldmpéfhgvqxbèjyçkw Page daccueil www Véronis
Bigrammes Deux lettres consécutives Deux lettres consécutives bonjour bo on nj jo ou ur bonjour bo on nj jo ou ur
FrançaisAnglaisAllemandItalienEspagnolPortugais onthendide esoneronenes deanchrierto teheeieronda nterunalcios renddetoesre eninndtareen letigeneoser italreiniote erreinrelara etioieitrant tienteionaem ouringdeecdo ioofhelialdi laorneenadit oiathtnidaal neitictttoad metobelantco roeditllieei nsntscel as
Trigrammes Trois lettres consécutives Trois lettres consécutives bonjour bon onj njo jou our bonjour bon onj njo jou our
FrançaisAnglaisAllemandItalienEspagnolPortugais ionthederion ent tioandundziocioito entioneinellreceit oittioungoneeredir ati chtlladerire roiighichritienrei droghtschittchoção menrigchedelentade touentechiriechdad converdiediracimen resonerecessonante queallineentntedos leseveeitaziconess deserygenttoenecon emehisvereretod
Mots les plus fréquents FrançaisAnglaisAllemand detheder laofdie l'andund ettoin lesaden desinvon àthatzu lesisdas
Démos A tester : A tester : TextCat TextCat TextCat Xerox Xerox Xerox LexTex LexTex LexTex LangWitch LangWitch LangWitch