GD输出汉字的函数的分析

很早以前找到一个把GB码转化为UTF-8的函数,配合一个GB到UNICODE的对照表(gb2312.txt),用于在GD中输出汉字。后来发现在欲输出的内容中含有西文字符时,会出现混乱。后来找到了修改后的代码,解决了问题。现将两个函数做一对比分析如下。

首先,这是一个UNICODE到UTF-8编码转换的函数,这一部分修改前后没有变化:
function u2utf8($c)
{
for($i=0;$i

 1<count($c);$i++) $c="" $str="" $str.="(0xC0" ($c="" 0x80)="" 0x800)="" ;="" <="" else="" if="" {="" |="" }="">&gt;6);   
 2$str.=(0x80 | $c &amp; 0x3F);   
 3}   
 4else if ($c &lt; 0x10000) {   
 5$str.=(0xE0 | $c&gt;&gt;12);   
 6$str.=(0x80 | $c&gt;&gt;6 &amp; 0x3F);   
 7$str.=(0x80 | $c &amp; 0x3F);   
 8}   
 9else if ($c &lt; 0x200000) {   
10$str.=(0xF0 | $c&gt;&gt;18);   
11$str.=(0x80 | $c&gt;&gt;12 &amp; 0x3F);   
12$str.=(0x80 | $c&gt;&gt;6 &amp; 0x3F);   
13$str.=(0x80 | $c &amp; 0x3F);   
14}   
15return $str;   
16}   
17  
18这里完全是按照UTF-8编码的规则,通过判断字符属于不同的UNICODE编码段范围,进行不同的移位和位与操作,以转化为UTF-8编码。关于该规则可参考http://www.utf8.org/上的说明。   
19  
20这是修改前的GB转化为UTF-8编码的函数,其中调用了上面的u2utf8函数。   
21function gb2utf8($gb) /* Program writen by sadly www.phpx.com */   
22{   
23if(!trim($gb))   
24return $gb;   
25$filename="gb2312.txt";   
26$tmp=file($filename);   
27$codetable=array();   
28while(list($key,$value)=each($tmp))   
29$codetable[hexdec(substr($value,0,6))]=substr($value,7,6);   
30$utf8="";   
31while($gb)   
32{   
33if (ord(substr($gb,0,1))&gt;127)   
34{   
35$this=substr($gb,0,2);   
36$gb=substr($gb,2,strlen($gb));   
37$utf8.=u2utf8(hexdec($codetable[hexdec(bin2hex($this))-0x8080]));   
38}   
39else   
40{   
41$gb=substr($gb,1,strlen($gb));   
42$utf8.=u2utf8(substr($gb,0,1));   
43}   
44}   
45  
46$ret="";   
47for($i=0;$i<strlen($utf8);$i+=3) $codetable="array();" $codetable[hexdec(substr($value,0,6))]="substr($value,7,6);" $filename="gb2312.txt" $gb;="" $ret="" $ret.="chr(substr($utf8,$i,3));" $ret;="" $tmp="file($filename);" $utf8="" (ord(substr($gb,0,1))="" *="" ;="" agun="" by="" function="" gb2utf8($gb)="" if="" if(!trim($gb))="" modified="" program="" return="" sadly="" while($gb)="" while(list($key,$value)="each($tmp))" writen="" www.utf8.org="" {="" }="" 上的规则说明,每个汉字的utf-8编码为三字节),没有考虑到其中的西文字符(西文字符的utf-8编码为一字节)。所以,如果欲输出的内容中不论是开始时出现西文字符,或是汉字当中穿插西文字符,转化为utf-8后,都会被按照“每三个字节截取”的方式截开,导致乱码。="" 以下是修改后的函数:="" 函数中while循环部分,把汉字逐个按照“对照表”转化为unicode,再通过u2utf8函数转化为utf-8。但从中可以看出,while循环结束后,又用一个for循环,把每三个字节合成了一个utf-8字符(见http:="">127)   
48{   
49$this=substr($gb,0,2);   
50$gb=substr($gb,2,strlen($gb));   
51$utf8=u2utf8(hexdec($codetable[hexdec(bin2hex($this))-0x8080]));   
52for($i=0;$i&lt;strlen($utf8);$i+=3)   
53$ret.=chr(substr($utf8,$i,3));   
54}   
55else   
56{   
57$ret.=substr($gb,0,1);   
58$gb=substr($gb,1,strlen($gb));   
59}   
60}   
61return $ret;   
62}   
63  
64修改后的函数将 GB转化为UNICODE、UNICODE转化为UTF-8、几个字节合成一个UTF-8字符,这三个步骤在一个循环里完成,尤其是几个字节合成一个UTF-8字符这一步骤,放在判断了字符属于西文还是属于汉字的条件分支里,据此决定截取一个字节还是三个字节。于是结果正确了!</strlen($utf8);$i+=3)></count($c);$i++)>
Published At
Categories with Web编程
Tagged with
comments powered by Disqus