看见 PHPChina 上转帖 andot 的一篇文章《 在任意字符集下正常显示网页的方法 》,非常的受用,于是将代码粘贴到这里收藏一下。
同个页面呈现不同语言字符的编码使用 UTF-8 是目前主流的应用方案。但是在一些极端的情况下,我们不得不在某些西方字符编码的页面上显示中文。
这时候,作者非常「取巧」地想到了使用 Numeric character reference 解决这一问题。原理引述原文:
原理很简单,就是把除了 ISO-8859-1 编码中前 128 个字符以外的所
有其他的编码都用 NCR(Numeric character reference) 来表示。比如
「汉字」这两个字,如果我们写成「汉字」这种形式,
那么它在任意字符集下都可以正确显示。
下面是我做的一些无关痛痒的修改,希望作者见谅:
/**
* nochaoscode - 转换字符串至 NCR
*
* @param string $str 原字符串
* @param string $encode 原字符串的编码,默认 UTF-8
* @return string 原字符串的 NCR 字符
* @see http://en.wikipedia.org/wiki/Numeric_character_reference
*/
function nochaoscode($str, $encode = "utf-8")
{
if (!function_exists("iconv") || !function_exists("mb_strlen")) {
return $str;
}
$str = iconv($encode, "utf-16", $str);
for ($i = 0; $i < mb_strlen($str); $i+=2) {
$code = ord($str{$i}) * 256 + ord($str{$i + 1});
if ($code < 128) {
$output .= chr($code);
} else if ($code != 65279) {
$output .= "&#" . $code . ";";
}
}
return $output;
}
原作者的 DEMO 在这里 ,但是不知道什么原因我打不开,请各位了解的告之。
汉字直接浏览的时候是很烦的
这种方式只能用于html代码中。
以前的lifetype就是用这种方式,结果数据库里面一团糟。
@Fwolf 感谢兄弟的回复。的确这是一种折中的做法,这种做法至少会增加文档容量并且不便管理。所以我还是建议使用 unicode 编码。
那个打不开的就是这里的代码
http://www.coolcode.cn/show-5-1.html
作者从wp换成sablog了
有些链接没改`
有关 Web 字符编码的问题,已经是老生常谈。今天看到 阮一峰 兄弟和 Lunatic Sun 不谋而合的谈到有关 UTF-8 的现状,谈谈我的看法。
上图是 Google 根据近年 Web 页面编码趋势的一个总结。我很欣喜的看到 UTF-8 编码已经成为了主流,而犹如 一峰 兄弟所言,让人堪忧的是中文字符编码还是呈现很平稳的趋势,这说明 UTF-8 并没有在中文网站中推广开来。
究其原因,本人认为会有如下几点:
第一,中文编码(无论是 GBK、GB2312、GB18030 等)都变成了“传统”