La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

INF L11 Langage et informatique 1 Cours 7 – Moteurs de recherche : Détection de la langue.

Présentations similaires


Présentation au sujet: "INF L11 Langage et informatique 1 Cours 7 – Moteurs de recherche : Détection de la langue."— Transcription de la présentation:

1 INF L11 Langage et informatique 1 Cours 7 – Moteurs de recherche : Détection de la langue

2 Problème Google (robots) Google (robots) détecter automatiquement la langue des documents pour indexer correctement détecter automatiquement la langue des documents pour indexer correctement Autre application Autre application traitement de texte traitement de texte

3 Statégie Codage des caractères Codage des caractères Critères statistiques Critères statistiques Fréquence des lettres Fréquence des lettres Fréquence des bigrammes, trigrammes Fréquence des bigrammes, trigrammes Fréquence des mots Fréquence des mots

4 - I - Codage des caractères - I - Codage des caractères

5 Code ASCII Débuts de linformatique Débuts de linformatique Codage sur 7 bits Codage sur 7 bits Maximum 127 caract. Maximum 127 caract. 32 caract. spéciaux 32 caract. spéciaux 0000000 0000001 0000010 0000011 0000100 0000101 0000110 0000111...

6 Windows (occidental) Extension de lASCII Extension de lASCII 8 bits 8 bits 256 caractères 256 caractères

7 Windows Europe Centrale

8 Windows Grec

9 Unicode Lien Lien Consortium Unicode Consortium UnicodeUnicode Article Unicode sur Wikipedia Article Unicode sur Wikipedia Article Unicode sur Wikipedia Article Unicode sur Wikipedia Permet de représenter tous les caractères des toutes les langues du monde Permet de représenter tous les caractères des toutes les langues du monde à lheure actuelle (Unicode 4.0.0 = 96382 caract.) à lheure actuelle (Unicode 4.0.0 = 96382 caract.) Nécessite (pour linstant) 21 bits Nécessite (pour linstant) 21 bits

10 UTF-8 Codage « économique » pour Unicode Codage « économique » pour Unicode Certains caractères sur un octet (8 bits) Certains caractères sur un octet (8 bits) Dautres sur 2 octets (voire plus) Dautres sur 2 octets (voire plus) Exemple Exemple En français, le « é » est codé sur deux octets En français, le « é » est codé sur deux octets si logiciel mal régré, il apparaît comme « é » si logiciel mal régré, il apparaît comme « é »

11 - II - Critères statistiques

12

13 Français

14 Anglais

15

16 Différentes langues Ordre des lettres Ordre des lettres françaisesaitnrulodcpmévqfbghjàxyèêzwçùkîœïë anglaisetaoinshrdlcumwfgypbvkjxqz allemandenisrthdaulcgmowbfzkvüpäöjyxq espagnol aeosrnlidutcpmvgbfyhqójìàzñéxùkw italien aeiolnrtscdupmvgfbzhqòàùìéèóykwxô portugais aeosridntmucplvgfbhqãçáéìzjóêxàõyùkâôw Source

17 Grande variabilité Dépend de la taille du document Dépend de la taille du document Dépend du type de document Dépend du type de document Exemples Exemples style narratif (verbes à la 2e personne du pluriel) plus de « Z » style narratif (verbes à la 2e personne du pluriel) plus de « Z » chemins de fer plus de « W » (wagon) chemins de fer plus de « W » (wagon) personnage Loïs plus de « ï » personnage Loïs plus de « ï » petites annonces plus de petites annonces plus de

18 Exemples esaitnrulodcpmévqfbghjàxyèêzwçùkîœïë Wikipédia 2004 esaitnrulodmcpvéqfgbhàxèyêzçôùâûœkwïëüæñ Engwall 1984 esaitnrulodcmpévqfbghjàxèyêzâçîùôûïkëw Brunet 1881 eirtnsacouldmpéfhgvqxbèjyçkw Page daccueil www Véronis

19 Bigrammes Deux lettres consécutives Deux lettres consécutives bonjour bo on nj jo ou ur bonjour bo on nj jo ou ur

20 FrançaisAnglaisAllemandItalienEspagnolPortugais onthendide esoneronenes deanchrierto teheeieronda nterunalcios renddetoesre eninndtareen letigeneoser italreiniote erreinrelara etioieitrant tienteionaem ouringdeecdo ioofhelialdi laorneenadit oiathtnidaal neitictttoad metobelantco roeditllieei nsntscel as

21 Trigrammes Trois lettres consécutives Trois lettres consécutives bonjour bon onj njo jou our bonjour bon onj njo jou our

22 FrançaisAnglaisAllemandItalienEspagnolPortugais ionthederion ent tioandundziocioito entioneinellreceit oittioungoneeredir ati chtlladerire roiighichritienrei droghtschittchoção menrigchedelentade touentechiriechdad converdiediracimen resonerecessonante queallineentntedos leseveeitaziconess deserygenttoenecon emehisvereretod

23 Mots les plus fréquents FrançaisAnglaisAllemand detheder laofdie l'andund ettoin lesaden desinvon àthatzu lesisdas

24 Démos A tester : A tester : TextCat TextCat TextCat Xerox Xerox Xerox LexTex LexTex LexTex LangWitch LangWitch LangWitch


Télécharger ppt "INF L11 Langage et informatique 1 Cours 7 – Moteurs de recherche : Détection de la langue."

Présentations similaires


Annonces Google