PHP: サポートされるエンコーディングの概要

**サポートされるエンコーディングの概要**
IANA 文字セット登録名	依存する文字集合	説明	注記
ISO-10646-UCS-4	ISO 10646	31 ビットコード空間を使用するユニバーサル文字セットで、 ISO/IEC 10646 によって UCS-4 として標準化されています。最新版の Unicode コードマップと連動しています。	この名前をエンコーディング変換の際に使用すると、先頭の BOM (バイトオーダーマーク) にもとづいてそれ以降のバイト列のエンディアンを識別します。
ISO-10646-UCS-4	UCS-4	上を参照ください。	`UCS-4` とは対照的に、文字列が常にビッグエンディアン形式とみなされます。
ISO-10646-UCS-4	UCS-4	上を参照ください。	`UCS-4` とは対照的に、文字列が常にリトルエンディアン形式とみなされます。
ISO-10646-UCS-2	UCS-2	16 ビットコード空間を使用するユニバーサル文字セットで、 ISO/IEC 10646 によって UCS-2 として標準化されています。最新版の Unicode コードマップと連動しています。	この名前をエンコーディング変換の際に使用すると、先頭の BOM (バイトオーダーマーク) にもとづいてそれ以降のバイト列のエンディアンを識別します。
ISO-10646-UCS-2	UCS-2	上を参照ください。	`UCS-2` とは対照的に、文字列が常にビッグエンディアン形式とみなされます。
ISO-10646-UCS-2	UCS-2	上を参照ください。	`UCS-2` とは対照的に、文字列が常にリトルエンディアン形式とみなされます。
UTF-32	Unicode	32 ビット幅の Unicode 変換フォーマットで、そのエンコーディング空間は Unicode のコードセット標準を参照します。このエンコーディング体系は UCS-4 とは異なります。なぜなら、Unicode のコード空間は 21 ビットまでに制限されるからです。	この名前をエンコーディング変換の際に使用すると、先頭の BOM (バイトオーダーマーク) にもとづいてそれ以降のバイト列のエンディアンを識別します。
UTF-32BE	Unicode	上を参照ください。	`UTF-32` とは対照的に、文字列が常にビッグエンディアン形式とみなされます。
UTF-32LE	Unicode	上を参照ください。	`UTF-32` とは対照的に、文字列が常にリトルエンディアン形式とみなされます。
UTF-16	Unicode	16 ビット幅の Unicode 変換フォーマットです。注意すべき点は、UTF-16 の仕様が UCS-2 とは異なることです。なぜなら、Unicode 2.0 より導入されたサロゲート機能により、 UTF-16 は現在 21 ビットコード空間を参照しているからです。	この名前をエンコーディング変換の際に使用すると、先頭の BOM (バイトオーダーマーク) にもとづいてそれ以降のバイト列のエンディアンを識別します。
UTF-16BE	Unicode	上を参照ください。	`UTF-16` とは対照的に、文字列が常にビッグエンディアン形式とみなされます。
UTF-16LE	Unicode	上を参照ください。	`UTF-16` とは対照的に、文字列が常にリトルエンディアン形式とみなされます。
UTF-8	Unicode / UCS	8 ビット幅の Unicode 変換フォーマットです。	none
UTF-7	Unicode	メールで安全に使用できる Unicode 変換フォーマットです。 » RFC2152 で定義されています。	none
(none)	Unicode	UTF-7 の変化形です。 » IMAP プロトコルでの使用に特化しています。	none
US-ASCII (推奨される MIME 名) / iso-ir-6 / ANSI_X3.4-1986 / ISO_646.irv:1991 / ASCII / ISO646-US / us / IBM367 / CP367 / csASCII	ASCII / ISO 646	American Standard Code for Information Interchange は、一般的に使用される 7 ビットエンコーディングです。国際標準規格 ISO 646 として標準化されています。	(none)
EUC-JP (推奨される MIME 名) / Extended_UNIX_Code_Packed_Format_for_Japanese / csEUCPkdFmtJapanese	US-ASCII / JIS X0201:1997 (半角カナの部分) / JIS X0208:1990 / JIS X0212:1990 を合成したもの	この名前が Extended UNIX Code Packed Format for Japanese を短縮したものであることからわかるように、一般的に UNIX 系のプラットフォームで用いられます。もととなるエンコーディング方式である Extended UNIX Code は、ISO 2022 にもとづいて設計されています。	EUC-JP が参照している文字セットは IBM932 / CP932 のものとは異なります。これらはそれぞれ OS/2R および MicrosoftR WindowsR で用いられています。これらのプラットフォームとの間で情報をやり取りする場合は、代わりに EUCJP-WIN を使用してください。
Shift_JIS (推奨される MIME 名) / MS_Kanji / csShift_JIS	JIS X0201:1997 / JIS X0208:1997 を合成したもの	Shift_JIS が開発されたのは 80 年代初期です。当時は日本語ワープロが普及していたため、旧来のエンコーディング方式である JIS X 0201:1976 との互換性を保つために開発されました。 IANA の定義によると、Shift_JIS のコードセットは IBM932 / CP932 とは微妙に異なります。しかし、"SJIS" / "Shift_JIS" という名前は、これらのコードセットを表すものとしてしばしば誤用されています。	CP932 コードマップを使用するには、代わりに SJIS-WIN を使用してください。
(none)	JIS X0201:1997 / JIS X0208:1997 / IBM 拡張文字 / NEC 拡張文字を合成したもの	この "エンコーディング" は EUC-JP と同じエンコーディング方式を使用しますが、もととなる文字セットが異なります。つまり、EUC-JP とは異なる文字に対応するコードポイントがあるということです。	none
Windows-31J / csWindows31J	JIS X0201:1997 / JIS X0208:1997 / IBM 拡張文字 / NEC 拡張文字を合成したもの	この "エンコーディング" は Shift_JIS と同じエンコーディング方式を使用しますが、もととなる文字セットが異なります。つまり、Shift_JIS とは異なる文字に対応するコードポイントがあるということです。	(none)
ISO-2022-JP (推奨される MIME 名) / csISO2022JP	US-ASCII / JIS X0201:1976 / JIS X0208:1978 / JIS X0208:1983	» RFC1468	(none)
JIS
ISO-8859-1
ISO-8859-2
ISO-8859-3
ISO-8859-4
ISO-8859-5
ISO-8859-6
ISO-8859-7
ISO-8859-8
ISO-8859-9
ISO-8859-10
ISO-8859-13
ISO-8859-14
ISO-8859-15
ISO-8859-16
byte2be
byte2le
byte4be
byte4le
BASE64
HTML-ENTITIES
7bit
8bit
EUC-CN
CP936
HZ
EUC-TW
CP950
BIG-5
EUC-KR
UHC (CP949)
ISO-2022-KR
Windows-1251 (CP1251)
Windows-1252 (CP1252)
CP866 (IBM866)
KOI8-R
KOI8-U

ISO-10646-UCS-4

ISO 10646

31 ビットコード空間を使用するユニバーサル文字セットで、 ISO/IEC 10646 によって UCS-4 として標準化されています。最新版の Unicode コードマップと連動しています。

この名前をエンコーディング変換の際に使用すると、先頭の BOM (バイトオーダーマーク) にもとづいてそれ以降のバイト列のエンディアンを識別します。

ISO-10646-UCS-4

UCS-4

上を参照ください。

UCS-4 とは対照的に、文字列が常にビッグエンディアン形式とみなされます。

ISO-10646-UCS-4

UCS-4

上を参照ください。

UCS-4 とは対照的に、文字列が常にリトルエンディアン形式とみなされます。

ISO-10646-UCS-2

UCS-2

16 ビットコード空間を使用するユニバーサル文字セットで、 ISO/IEC 10646 によって UCS-2 として標準化されています。最新版の Unicode コードマップと連動しています。

この名前をエンコーディング変換の際に使用すると、先頭の BOM (バイトオーダーマーク) にもとづいてそれ以降のバイト列のエンディアンを識別します。

ISO-10646-UCS-2

UCS-2

上を参照ください。

UCS-2 とは対照的に、文字列が常にビッグエンディアン形式とみなされます。

ISO-10646-UCS-2

UCS-2

上を参照ください。

UCS-2 とは対照的に、文字列が常にリトルエンディアン形式とみなされます。

UTF-32

Unicode

32 ビット幅の Unicode 変換フォーマットで、そのエンコーディング空間は Unicode のコードセット標準を参照します。このエンコーディング体系は UCS-4 とは異なります。なぜなら、Unicode のコード空間は 21 ビットまでに制限されるからです。

この名前をエンコーディング変換の際に使用すると、先頭の BOM (バイトオーダーマーク) にもとづいてそれ以降のバイト列のエンディアンを識別します。

UTF-32BE

Unicode

上を参照ください。

UTF-32 とは対照的に、文字列が常にビッグエンディアン形式とみなされます。

UTF-32LE

Unicode

上を参照ください。

UTF-32 とは対照的に、文字列が常にリトルエンディアン形式とみなされます。

UTF-16

Unicode

16 ビット幅の Unicode 変換フォーマットです。注意すべき点は、UTF-16 の仕様が UCS-2 とは異なることです。なぜなら、Unicode 2.0 より導入されたサロゲート機能により、 UTF-16 は現在 21 ビットコード空間を参照しているからです。

この名前をエンコーディング変換の際に使用すると、先頭の BOM (バイトオーダーマーク) にもとづいてそれ以降のバイト列のエンディアンを識別します。

UTF-16BE

Unicode

上を参照ください。

UTF-16 とは対照的に、文字列が常にビッグエンディアン形式とみなされます。

UTF-16LE

Unicode

上を参照ください。

UTF-16 とは対照的に、文字列が常にリトルエンディアン形式とみなされます。

UTF-8

Unicode / UCS

8 ビット幅の Unicode 変換フォーマットです。

none

UTF-7

Unicode

メールで安全に使用できる Unicode 変換フォーマットです。 » RFC2152 で定義されています。

none

(none)

Unicode

UTF-7 の変化形です。 » IMAP プロトコルでの使用に特化しています。

none

US-ASCII (推奨される MIME 名) / iso-ir-6 / ANSI_X3.4-1986 / ISO_646.irv:1991 / ASCII / ISO646-US / us / IBM367 / CP367 / csASCII

ASCII / ISO 646

American Standard Code for Information Interchange は、一般的に使用される 7 ビットエンコーディングです。国際標準規格 ISO 646 として標準化されています。

(none)

EUC-JP (推奨される MIME 名) / Extended_UNIX_Code_Packed_Format_for_Japanese / csEUCPkdFmtJapanese

US-ASCII / JIS X0201:1997 (半角カナの部分) / JIS X0208:1990 / JIS X0212:1990 を合成したもの

この名前が Extended UNIX Code Packed Format for Japanese を短縮したものであることからわかるように、一般的に UNIX 系のプラットフォームで用いられます。もととなるエンコーディング方式である Extended UNIX Code は、ISO 2022 にもとづいて設計されています。

EUC-JP が参照している文字セットは IBM932 / CP932 のものとは異なります。これらはそれぞれ OS/2R および MicrosoftR WindowsR で用いられています。これらのプラットフォームとの間で情報をやり取りする場合は、代わりに EUCJP-WIN を使用してください。

Shift_JIS (推奨される MIME 名) / MS_Kanji / csShift_JIS

JIS X0201:1997 / JIS X0208:1997 を合成したもの

Shift_JIS が開発されたのは 80 年代初期です。当時は日本語ワープロが普及していたため、旧来のエンコーディング方式である JIS X 0201:1976 との互換性を保つために開発されました。 IANA の定義によると、Shift_JIS のコードセットは IBM932 / CP932 とは微妙に異なります。しかし、"SJIS" / "Shift_JIS" という名前は、これらのコードセットを表すものとしてしばしば誤用されています。

CP932 コードマップを使用するには、代わりに SJIS-WIN を使用してください。

(none)

JIS X0201:1997 / JIS X0208:1997 / IBM 拡張文字 / NEC 拡張文字を合成したもの

この "エンコーディング" は EUC-JP と同じエンコーディング方式を使用しますが、もととなる文字セットが異なります。つまり、EUC-JP とは異なる文字に対応するコードポイントがあるということです。

none

Windows-31J / csWindows31J

JIS X0201:1997 / JIS X0208:1997 / IBM 拡張文字 / NEC 拡張文字を合成したもの

この "エンコーディング" は Shift_JIS と同じエンコーディング方式を使用しますが、もととなる文字セットが異なります。つまり、Shift_JIS とは異なる文字に対応するコードポイントがあるということです。

(none)

ISO-2022-JP (推奨される MIME 名) / csISO2022JP

US-ASCII / JIS X0201:1976 / JIS X0208:1978 / JIS X0208:1983

» RFC1468

(none)

JIS

ISO-8859-1

ISO-8859-2

ISO-8859-3

ISO-8859-4

ISO-8859-5

ISO-8859-6

ISO-8859-7

ISO-8859-8

ISO-8859-9

ISO-8859-10

ISO-8859-13

ISO-8859-14

ISO-8859-15

ISO-8859-16

byte2be

byte2le

byte4be

byte4le

BASE64

HTML-ENTITIES

7bit

8bit

EUC-CN

CP936

HZ

EUC-TW

CP950

BIG-5

EUC-KR

UHC (CP949)

ISO-2022-KR

Windows-1251 (CP1251)

Windows-1252 (CP1252)

CP866 (IBM866)

KOI8-R

KOI8-U

サポートされるエンコーディングの概要 ¶

Found A Problem?

User Contributed Notes