html_entity_decode

(PHP 4 >= 4.3.0, PHP 5, PHP 7, PHP 8)

html_entity_decode — Convertit les entités HTML à leurs caractères correspondant

Description

function html_entity_decode(string $string, int $flags = ENT_QUOTES | ENT_SUBSTITUTE | ENT_HTML401, ?string $encoding = null): string

html_entity_decode() est la fonction contraire de htmlentities() : elle convertit les entités HTML de la chaîne string en leurs caractères correspondant.

De façon plus explicite, cette fonction décode toutes les entités (incluant les entités numériques) qui 1) sont nécessairement valides pour le type de document choisi - c.-à-d., pour XML, cette fonction ne décode pas les entités nommées qui peuvent être définies dans une DTD - et 2) et dont le caractère ou les caractères sont dans le jeu de caractères codé avec l'encodage choisi et sont autorisés dans le type de document choisi. Toutes les autres entités sont laissées telles quelles.

Liste de paramètres

string

La chaîne d'entrée.

flags

Un masque d'un ou plusieurs drapeaux suivants, qui spécifient la façon dont doivent être gérés les guillemets et quel type de document doit être utilisé. Par défaut, c'est ENT_QUOTES | ENT_SUBSTITUTE | ENT_HTML401.

**Constantes disponibles pour `flags`**
Constante	Description
`ENT_COMPAT`	Convertit les guillemets doubles et ignore les guillemets simples.
`ENT_QUOTES`	Convertit les guillemets doubles et les guillemets simples.
`ENT_NOQUOTES`	Ne convertit aucun guillemet.
`ENT_SUBSTITUTE`	Remplace les séquences de code invalide avec un caractère de remplacement Unicode U+FFFD (UTF-8) ou � (sinon) au lieu de retourner une chaîne vide.
`ENT_HTML401`	Gère le code comme étant du HTML 4.01.
`ENT_XML1`	Gère le code comme étant du XML 1.
`ENT_XHTML`	Gère le code comme étant du XHTML.
`ENT_HTML5`	Gère le code comme étant du HTML 5.

encoding

Un argument optionnel définissant l'encodage utilisé lors de la conversion des caractères. Si omis, la valeur par défaut du paramètre encoding est la valeur de l'option de configuration default_charset. Malgré le fait que cet argument soit techniquement optionnel, vous êtes vivement encouragé à spécifier la valeur correcte pour votre code si l'option de configuration default_charset a été définie de façon incorrecte pour l'entrée fournie.

Les jeux de caractères suivants sont supportés :

**Jeux de caractères supportés**
Jeux de caractères	Alias	Description
ISO-8859-1	ISO8859-1	Europe occidentale, Latin-1.
ISO-8859-5	ISO8859-5	Jeu de caractères cyrillique rarement utilisé (Latin/Cyrillic).
ISO-8859-15	ISO8859-15	Europe occidentale, Latin-9. Dispose du signe Euro, des caractères spéciaux français et finlandais, qui manquent au Latin-1 (ISO-8859-1).
UTF-8		Unicode 8 bits multioctets, compatible avec l'ASCII
cp866	ibm866, 866	Jeu de caractères Cyrillique spécifique à DOS.
cp1251	Windows-1251, win-1251, 1251	Jeu de caractères cyrillique spécifique à Windows.
cp1252	Windows-1252, 1252	Jeu de caractères spécifique de Windows pour l'Europe occidentale.
KOI8-R	koi8-ru, koi8r	Russe.
BIG5	950	Chinois traditionnel, principalement utilisé à Taïwan.
GB2312	936	Chinois simplifié, officiel.
BIG5-HKSCS		Big5 avec les extensions de Hong Kong, chinois traditionnel.
Shift_JIS	SJIS, SJIS-win, cp932, 932	Japonais
EUC-JP	EUCJP, eucJP-win	Japonais
MacRoman		Jeu de caractères utilisé par Mac OS.
`''`		Une chaîne vide active la détection de l'encodage depuis un script (multioctet Zend), default_charset et la locale courante (voir nl_langinfo() et setlocale()), dans cet ordre. Non recommandé.

Note: Les autres jeux de caractères ne sont pas reconnus. L'encodage par défaut sera utilisé à la place et une alerte sera émise.

Valeurs de retour

Retourne la chaîne décodée.

Historique

Version	Description
8.1.0	`flags` a changé de `ENT_COMPAT` à `ENT_QUOTES` \| `ENT_SUBSTITUTE` \| `ENT_HTML401`.
8.0.0	`encoding` est désormais nullable.

Exemples

Exemple #1 Décoder des entités HTML

<?php
$orig = 'J\'ai "sorti" le <b>chien</b> tout à l\'heure';
$a = htmlentities($orig);
$b = html_entity_decode($a);

echo $a, PHP_EOL; // J'ai &quot;sorti&quot; le &lt;b&gt;chien&lt;/b&gt; tout &amp;agrave; l'heure
echo $b, PHP_EOL; // J'ai "sorti" le <b>chien</b> tout à l'heure

?>

Notes

Note:
Il serait possible de se demander pourquoi trim(html_entity_decode(' ')); ne réduit pas la chaîne à la chaîne vide. C'est parce que l'entité   n'est pas un code ASCII 32 (qui serait supprimé par trim()), mais un code ASCII 160 (0xa0) dans l'encodage par défaut ISO 8859-1.

Voir aussi

htmlentities() - Convertit tous les caractères éligibles en entités HTML
htmlspecialchars() - Convertit les caractères spéciaux en entités HTML
get_html_translation_table() - Retourne la table de traduction des entités utilisée par htmlspecialchars et htmlentities
urldecode() - Décode une chaîne encodée URL

Found A Problem?

Learn How To Improve This Page • Submit a Pull Request • Report a Bug

＋add a note

User Contributed Notes 5 notes

down

136

Martin ¶

15 years ago

If you need something that converts &#[0-9]+ entities to UTF-8, this is simple and works:

<?php
/* Entity crap. /
$input = "Fovi&#269;";

$output = preg_replace_callback("/(&#[0-9]+;)/", function($m) { return mb_convert_encoding($m[1], "UTF-8", "HTML-ENTITIES"); }, $input);

/* Plain UTF-8. */
echo $output;
?>

down

txnull ¶

10 years ago

Use the following to decode all entities:
<?php html_entity_decode($string, ENT_QUOTES | ENT_XML1, 'UTF-8') ?>

I've checked these special entities: 
- double quotes (&#34;)
- single quotes (&#39; and &apos;) 
- non printable chars (e.g. &#13;)
With other $flags some or all won't be decoded.

It seems that ENT_XML1 and ENT_XHTML are identical when decoding.

down

aidan at php dot net ¶

21 years ago

This functionality is now implemented in the PEAR package PHP_Compat.

More information about using this function without upgrading your version of PHP can be found on the below link:

http://pear.php.net/package/PHP_Compat

down

-1

Daniel A. ¶

7 years ago

I wanted to use this function today and I found the documentation, especially about the flags, not particularly helpful.

Running the code below, for example, failed because the flag I used was the wrong one...

$string = 'Donna&#039;s Bakery';
$title = html_entity_decode($string, ENT_HTML401, 'UTF-8');
echo $title;

The correct flag to use in this case is ENT_QUOTES.

My understanding of the flag to use is the one that would correspond to the expected, converted outcome. So, ENT_QUOTES for a character that would be a single or double quote when converted... and so on.

Please help make the documentation a bit clearer.

down

-1

Benjamin ¶

13 years ago

The following function decodes named and numeric HTML entities and works on UTF-8. Requires iconv.

function decodeHtmlEnt($str) {
    $ret = html_entity_decode($str, ENT_COMPAT, 'UTF-8');
    $p2 = -1;
    for(;;) {
        $p = strpos($ret, '&#', $p2+1);
        if ($p === FALSE)
            break;
        $p2 = strpos($ret, ';', $p);
        if ($p2 === FALSE)
            break;
            
        if (substr($ret, $p+2, 1) == 'x')
            $char = hexdec(substr($ret, $p+3, $p2-$p-3));
        else
            $char = intval(substr($ret, $p+2, $p2-$p-2));
            
        //echo "$char\n";
        $newchar = iconv(
            'UCS-4', 'UTF-8',
            chr(($char>>24)&0xFF).chr(($char>>16)&0xFF).chr(($char>>8)&0xFF).chr($char&0xFF) 
        );
        //echo "$newchar<$p<$p2<<\n";
        $ret = substr_replace($ret, $newchar, $p, 1+$p2-$p);
        $p2 = $p + strlen($newchar);
    }
    return $ret;
}

＋add a note