PHP: Jeux de caractères supportés

**Jeux de caractères supportés**
Nom dans le registre IANA	Jeux de caractères	Description	Notes
ISO-10646-UCS-4	ISO 10646	Le jeu de caractères universel (`Universal Character Set`), avec 31 bits par caractère, au standard `UCS-4` par `ISO/IEC 10646`. Il est synchronisé avec la dernière version d'Unicode.	Si ce nom est utilisé dans l'outil de conversion, le convertisseur essaie de reconnaître le texte à partir du dernier BOM (`byte order mark`), pour connaître l'ordre des bits.
ISO-10646-UCS-4	UCS-4	Voir ci-dessus.	Contrairement à `UCS-4`, les chaînes sont supposées être au format big endian.
ISO-10646-UCS-4	UCS-4	Voir ci-dessus.	Contrairement à `UCS-4`, les chaînes sont supposées être au format little endian.
ISO-10646-UCS-2	UCS-2	Le jeu de caractères universel (`Universal Character Set`), avec 16 bits par caractère, au standard `UCS-2` par `ISO/IEC 10646`. Il est synchronisé avec la dernière version d'Unicode.	Si ce nom est utilisé dans l'outil de conversion, le convertisseur essaie de reconnaître le texte à partir du dernier BOM (`byte order mark`), pour connaître l'ordre des bits.
ISO-10646-UCS-2	UCS-2	Voir ci-dessus.	Contrairement à `UCS-2`, les chaînes sont supposées être au format big endian.
ISO-10646-UCS-2	UCS-2	Voir ci-dessus.	Contrairement à `UCS-2`, les chaînes sont supposées être au format little endian.
UTF-32	Unicode	Format de transformation d'Unicode, de 32 bits, dont les cartes correspondent au jeu standard Unicode. Ce jeu n'est pas identique à `UCS-4` car les caractères Unicode étaient limités à des valeurs de 21 bits.	Si ce nom est utilisé dans l'outil de conversion, le convertisseur essaie de reconnaître le texte à partir du dernier BOM (`byte order mark`), pour connaître l'ordre des bits.
UTF-32BE	Unicode	Voir ci-dessus.	Contrairement à `UTF-32`, les chaînes sont supposées être au format big endian.
UTF-32LE	Unicode	Voir ci-dessus.	Contrairement à `UTF-32`, les chaînes sont supposées être au format little endian.
UTF-16	Unicode	Format de transformation d'Unicode sur 16 bits. Il faut noter que `UTF-16` n'est plus identique à `UCS-2` car un mécanisme a été introduit en Unicode 2.0 et `UTF-16` fait maintenant référence à un codage de 21 bits.	Si ce nom est utilisé dans l'outil de conversion, le convertisseur essaie de reconnaître le texte à partir du dernier BOM (`byte order mark`), pour connaître l'ordre des bits.
UTF-16BE	Unicode	Voir ci-dessus.	Contrairement à `UTF-16`, les chaînes sont supposées être au format big endian.
UTF-16LE	Unicode	Voir ci-dessus.	Contrairement à `UTF-16`, les chaînes sont supposées être au format little endian.
UTF-8	Unicode / UCS	Format de transformation Unicode de 8 bits.	none
UTF-7	Unicode	Un format compatible avec le courrier électronique d'Unicode, spécifié dans » RFC2152.	none
aucun	Unicode	Une variante d'`UTF-7` qui est spécialement utilisée dans le » protocole IMAP.	none
US-ASCII (recommandé) / iso-ir-6 / ANSI_X3.4-1986 / ISO_646.irv:1991 / ASCII / ISO646-US / us / IBM367 / CP367 / csASCII	ASCII / ISO 646	ASCII, `American Standard Code for Information Interchange` est un format classique de 7 bits. Il est aussi normalisé internationalement, sous le nom `ISO 646`.	(none)
EUC-JP (recommandé) / Extended_UNIX_Code_Packed_Format_for_Japanese / csEUCPkdFmtJapanese	Composé d'US-ASCII / JIS X0201:1997 (hankaku kana) / JIS X0208:1990 / JIS X0212:1990	Comme on peut le voir, le nom est dérivé de l'abréviation de `Extended UNIX Code Packed Format for Japanese`, ce jeu est essentiellement utilisé sur les plates-formes Unix. Le jeu original, `Extended UNIX Code`, est conçu sur la base de `ISO 2022`.	Le jeu identifié par `EUC-JP` est différent de `IBM932 / CP932`, qui est utilisé par `OS/2®` et Microsoft® Windows®. Pour échanger des informations avec ces plates-formes, utiliser `EUCJP-WIN`.
Shift_JIS (recommandé) / MS_Kanji / csShift_JIS	Composé de JIS X0201:1997 / JIS X0208:1997	`Shift_JIS` a été développé au début des années 80, et, au même moment, les premiers traitements de textes étaient mis sur le marché. Il a été fait pour conserver la compatibilité avec le jeu `JIS X 0201:1976`. Selon la définition de l'IANA, le jeu de caractères `Shift_JIS` est légèrement différent de `IBM932 / CP932`. Cependant, les noms `"SJIS"` et `"Shift_JIS"` sont souvent utilisés à tort, pour ces jeux.	Pour `CP932`, utiliser `SJIS-WIN`.
(none)	Composé de JIS X0201:1997 / JIS X0208:1997 / IBM extensions / NEC extensions	Même si ce "jeu de caractères" utilise le même jeu que `EUC-JP`, il est en fait différent. Il a juste quelques caractères de différence.	none
Windows-31J / csWindows31J	Composé de JIS X0201:1997 / JIS X0208:1997 / IBM extensions / NEC extensions	Même si ce "jeu de caractères" utilise le même jeu que `Shift_JIS`, il est en fait différent. Il a juste quelques caractères de différence.	(none)
ISO-2022-JP (recommandé) / csISO2022JP	US-ASCII / JIS X0201:1976 / JIS X0208:1978 / JIS X0208:1983	» RFC1468	aucun
JIS
ISO-8859-1
ISO-8859-2
ISO-8859-3
ISO-8859-4
ISO-8859-5
ISO-8859-6
ISO-8859-7
ISO-8859-8
ISO-8859-9
ISO-8859-10
ISO-8859-13
ISO-8859-14
ISO-8859-15
ISO-8859-16
byte2be
byte2le
byte4be
byte4le
BASE64
HTML-ENTITIES
7bit
8bit
EUC-CN
CP936
HZ
EUC-TW
CP950
BIG-5
EUC-KR
UHC (CP949)
ISO-2022-KR
Windows-1251 (CP1251)
Windows-1252 (CP1252)
CP866 (IBM866)
KOI8-R
KOI8-U

ISO-10646-UCS-4

ISO 10646

Le jeu de caractères universel (Universal Character Set), avec 31 bits par caractère, au standard UCS-4 par ISO/IEC 10646. Il est synchronisé avec la dernière version d'Unicode.

Si ce nom est utilisé dans l'outil de conversion, le convertisseur essaie de reconnaître le texte à partir du dernier BOM (byte order mark), pour connaître l'ordre des bits.

ISO-10646-UCS-4

UCS-4

Voir ci-dessus.

Contrairement à UCS-4, les chaînes sont supposées être au format big endian.

ISO-10646-UCS-4

UCS-4

Voir ci-dessus.

Contrairement à UCS-4, les chaînes sont supposées être au format little endian.

ISO-10646-UCS-2

UCS-2

Le jeu de caractères universel (Universal Character Set), avec 16 bits par caractère, au standard UCS-2 par ISO/IEC 10646. Il est synchronisé avec la dernière version d'Unicode.

Si ce nom est utilisé dans l'outil de conversion, le convertisseur essaie de reconnaître le texte à partir du dernier BOM (byte order mark), pour connaître l'ordre des bits.

ISO-10646-UCS-2

UCS-2

Voir ci-dessus.

Contrairement à UCS-2, les chaînes sont supposées être au format big endian.

ISO-10646-UCS-2

UCS-2

Voir ci-dessus.

Contrairement à UCS-2, les chaînes sont supposées être au format little endian.

UTF-32

Unicode

Format de transformation d'Unicode, de 32 bits, dont les cartes correspondent au jeu standard Unicode. Ce jeu n'est pas identique à UCS-4 car les caractères Unicode étaient limités à des valeurs de 21 bits.

Si ce nom est utilisé dans l'outil de conversion, le convertisseur essaie de reconnaître le texte à partir du dernier BOM (byte order mark), pour connaître l'ordre des bits.

UTF-32BE

Unicode

Voir ci-dessus.

Contrairement à UTF-32, les chaînes sont supposées être au format big endian.

UTF-32LE

Unicode

Voir ci-dessus.

Contrairement à UTF-32, les chaînes sont supposées être au format little endian.

UTF-16

Unicode

Format de transformation d'Unicode sur 16 bits. Il faut noter que UTF-16 n'est plus identique à UCS-2 car un mécanisme a été introduit en Unicode 2.0 et UTF-16 fait maintenant référence à un codage de 21 bits.

Si ce nom est utilisé dans l'outil de conversion, le convertisseur essaie de reconnaître le texte à partir du dernier BOM (byte order mark), pour connaître l'ordre des bits.

UTF-16BE

Unicode

Voir ci-dessus.

Contrairement à UTF-16, les chaînes sont supposées être au format big endian.

UTF-16LE

Unicode

Voir ci-dessus.

Contrairement à UTF-16, les chaînes sont supposées être au format little endian.

UTF-8

Unicode / UCS

Format de transformation Unicode de 8 bits.

none

UTF-7

Unicode

Un format compatible avec le courrier électronique d'Unicode, spécifié dans » RFC2152.

none

aucun

Unicode

Une variante d'UTF-7 qui est spécialement utilisée dans le » protocole IMAP.

none

US-ASCII (recommandé) / iso-ir-6 / ANSI_X3.4-1986 / ISO_646.irv:1991 / ASCII / ISO646-US / us / IBM367 / CP367 / csASCII

ASCII / ISO 646

ASCII, American Standard Code for Information Interchange est un format classique de 7 bits. Il est aussi normalisé internationalement, sous le nom ISO 646.

(none)

EUC-JP (recommandé) / Extended_UNIX_Code_Packed_Format_for_Japanese / csEUCPkdFmtJapanese

Composé d'US-ASCII / JIS X0201:1997 (hankaku kana) / JIS X0208:1990 / JIS X0212:1990

Comme on peut le voir, le nom est dérivé de l'abréviation de Extended UNIX Code Packed Format for Japanese, ce jeu est essentiellement utilisé sur les plates-formes Unix. Le jeu original, Extended UNIX Code, est conçu sur la base de ISO 2022.

Le jeu identifié par EUC-JP est différent de IBM932 / CP932, qui est utilisé par OS/2® et Microsoft® Windows®. Pour échanger des informations avec ces plates-formes, utiliser EUCJP-WIN.

Shift_JIS (recommandé) / MS_Kanji / csShift_JIS

Composé de JIS X0201:1997 / JIS X0208:1997

Shift_JIS a été développé au début des années 80, et, au même moment, les premiers traitements de textes étaient mis sur le marché. Il a été fait pour conserver la compatibilité avec le jeu JIS X 0201:1976. Selon la définition de l'IANA, le jeu de caractères Shift_JIS est légèrement différent de IBM932 / CP932. Cependant, les noms "SJIS" et "Shift_JIS" sont souvent utilisés à tort, pour ces jeux.

Pour CP932, utiliser SJIS-WIN.

(none)

Composé de JIS X0201:1997 / JIS X0208:1997 / IBM extensions / NEC extensions

Même si ce "jeu de caractères" utilise le même jeu que EUC-JP, il est en fait différent. Il a juste quelques caractères de différence.

none

Windows-31J / csWindows31J

Composé de JIS X0201:1997 / JIS X0208:1997 / IBM extensions / NEC extensions

Même si ce "jeu de caractères" utilise le même jeu que Shift_JIS, il est en fait différent. Il a juste quelques caractères de différence.

(none)

ISO-2022-JP (recommandé) / csISO2022JP

US-ASCII / JIS X0201:1976 / JIS X0208:1978 / JIS X0208:1983

» RFC1468

aucun

JIS

ISO-8859-1

ISO-8859-2

ISO-8859-3

ISO-8859-4

ISO-8859-5

ISO-8859-6

ISO-8859-7

ISO-8859-8

ISO-8859-9

ISO-8859-10

ISO-8859-13

ISO-8859-14

ISO-8859-15

ISO-8859-16

byte2be

byte2le

byte4be

byte4le

BASE64

HTML-ENTITIES

7bit

8bit

EUC-CN

CP936

HZ

EUC-TW

CP950

BIG-5

EUC-KR

UHC (CP949)

ISO-2022-KR

Windows-1251 (CP1251)

Windows-1252 (CP1252)

CP866 (IBM866)

KOI8-R

KOI8-U

Jeux de caractères supportés

Found A Problem?

User Contributed Notes