L’ordinateur et les langues Installation des langues Codage des caractères Résolution des problèmes
Localisation et utilisation des langues LOCALISATION DE L’ORDINATEUR Matériel Système
Localisation matérielle Alimentation, type de prise Clavier « japonais»
Localisation matérielle Alimentation, type de prise Clavier «arabe»
Localisation logicielle Paramétrage linguistique de l’ordinateur Menus des applications en langue du pays Plusieurs Versions de Windows (environ 35 langues plus l’adaptation aux usages locaux):
Installation des langues Paramétrage linguistique de l’ordinateur « Options Régionales et Linguistiques » « Services de texte et langue d’entrée »
Utilisation des programmes bureautique Basculement du clavier Fr Langue Ecriture directe dans la langue souhaitée mais: Pas de correcteur orthographique Attention au problème de tri alphabétique
Utilisation des programmes localisés différemment Localisation = problème d’utilisation des logiciels étrangers!
Codage des caractères répertoire de caractères Un répertoire de caractères est un ensemble convenu, fini et non-ordonné de caractères que l’on considère comme étant complet pour une utilisation donnée
Codage des caractères jeux de caractères codés Un jeu de caractères codés est une application établissant une relation entre les éléments d’un répertoire de caractères et un ensemble d’entiers positifs : on assigne donc ainsi à chaque élément du répertoire un code numérique unique, sa position de codage (code numérique, élément de code, code, code point). Ex: a = U + 0061 LATIN SMALL LETTER A
formes d’encodage (Character Encoding Form – CEF) Codage des caractères formes d’encodage (Character Encoding Form – CEF) Représenter les caractères d’un jeu de caractères codés en transformant leur code numérique en une séquence d’octets. Dans le cas le plus simple, chaque caractère, par référence à une table de caractères, est mis en relation avec un entier compris entre 0 et 255 et cet entier est utilisé tel quel en représentation binaire sur un format d’un octet. Possible si répertoire restreint, comportant au maximum 256 éléments.
formes d’encodage pour Internet Codage des caractères formes d’encodage pour Internet Cas des navigateurs internet : choisir un jeu de caractères, un code caractères ou une forme d’encodage est présentée comme la possibilité de choisir une langue.
Codage des caractères caractères glyphes police (fonte) Le terme « caractère » désigne une notion abstraite : c’est une unité d’information qui permet d’organiser, de contrôler ou de représenter des données textuelles. Le caractère <lettre b minuscule> (pas de signification) b b b glyphes forme abstraite représentant une ou plusieurs formes (typo)graphiques synonyme d’image (typo)graphique police (fonte) collection de glyphes utilisée pour décrire visuellement des données caractères. Elle est associée à un ensemble de paramètres : taille, position, graisse…
Police de caractères police (fonte) collection de glyphes utilisée pour décrire visuellement des données caractères. Elle est associée à un ensemble de paramètres : taille, position, graisse … Les fontes Windows sont stockées dans le répertoire Windows / Fonts
Police de caractères police (fonte) PostScript True Type Open Type Système True Type Open Type PostScript (Adobe, pour l’impression)
Codage des caractères ASCII =128 caractères 0 à 9 , latin : A –Z a-z , signes de ponctuation. ASCII étendu = 256 caractères
Codage des caractères ANSI (pour Windows occidental) 0 à 9, latin : A-Z a-z , signes de ponctuation, + caractères accentués, À Á Â Ã Å Æ Ç È É ….
Codage des caractères ANSI (pour Windows cyrillique) 0 à 9, latin : A-Z a-z , signes de ponctuation, + à la place des caractères accentués latin se trouve les caractères de la langue voulue
Codage des caractères Unicode (avec Windows 2000, Xp, Vista) codage non-ambigu sur 16 bits (v 3.2), sur 20 bits depuis la version 4, qui n’a pas besoin de séquences de contrôle. Il permet l’échange, le traitement et la visualisation des caractères utilisés par la plupart des langues vivantes: scripts latin (occidental, Europe centrale,scandinave, turc,viêtnamien), grec, cyrillique, arménien, géorgien, hébreu, arabe, devanagari, bengali, gurmukhi, gujarati, oriya, tamoul, télougou, kannada, malaysien, siamois, lao, tibétain, kana, hangul, CJK (ensemble unifié des caractères idéographiques chinois, japonais, coréens).
Codage Unicode
Problèmes liés aux codages des caractères codage codage source visualisation apparence du texte solution KOИ 7 - ASCII q GOVOR@ PO RUSSKI transcodeur DOS 866 - Win 1252 DOS 866 - Win 1251 ƒ®¢®à¨«¨, çâ® ¡¥ Ÿ £®¢®àî ¯®-àãá᪨ cyrillisateur DOS police 8 bits transcodeur Win 1251 - Win1252 Win 1251 - Unicode ß ãîâîðþ ïî-ðóññêè ß ãîâîðþ ïî-ðóññêè police cyrillique 8 bits transcodeurs + police 16 bits (Arial) KOI 8 - Win 1252 KOИ 8 - Win 1251 ñ ÇÏ×ÏÒÀ ÐÏ-ÒÕÓÓËÉ с ЗПЧПТА РП-ТХУУЛЙ police KOI 8 et/ou transcodeur Мас Cyrillic - Win 1251 Мас Cyrillic - Win 1252 џ говорю по-русски Ÿ ãîâîðþ ïî-ðóññêè transcodeur transcodeur+ police Chiwriter - ASCII / ANSI W sjdjh : gj-heccrb macro complexe ou police spécifique Unicode - ANSI ? ? ? ? ? ? ? ? ?- ? ? ? ? ? ? texte définitivement perdu Unicode - ANSI _ _____ __-______ système russe, sinon fichier inutilisable Unicode - ANSI Я говорю по-русски police 8 bits UNICODE - source text Я говорю по-руÑÑкРInternet explorer UNICODE - text HTML Word Я ; г ;о ; в ;о ;р ;;си ; Internet Explorer ou macro Word
Problèmes liés aux codages des caractères
Problèmes liés aux codages des caractères
Codages des caractères: écritures du monde
Ecritures du monde
Ecritures du monde
Ecritures du monde
Récapitulatif des codages des caractères