XMLHTTP Get HTML页面时的中文乱码之完全客户端Script解决方案

常有人说,他们在使用XMLHTTP过程中,总是为中文乱码的问题烦恼。本人查阅了一些资料,结果令我失望,大家都是使用ASP服务器端技术解决该问题。
先分析一下为何会出现中文乱码的问题。原因很简单:XMLHTTP得到Response时假定Response是UTF8编码的,它把含GB2312编码的HTML当成UTF8格式,因此,出现了中文乱码。
那么,除了使用ASP服务器端脚本技术外,就没有客户端的解决办法吗?答案是:有!
本人使用VBScript客户端脚本,成功实现了不使用ASP,解决了XMLHTTP 抓取 HTML页面时出现中文乱码的问题。
为何使用VBScript,而不是大家常用的JScript?XMLHTTP的responseBody返回的是一个unsigned bytes数组。VBScript提供了许多用于操作字符串和格式化数据的函数,以及访问安全数组的方法。这些函数或方法在JScript中并不存在。这里我们需要使用VBScript的内置函数:MidB、AscB、LenB等,来访问responseBody。
说句题外话,我不是在强调VBScript比JScript好,而是二者都有自己的特点。第一次在CSDN上写文章,谢谢大家支持。写这边文章有两个目的:一、锻炼自己;二、希望大家遇到问题时,要学会分析问题,做到有的放矢,知其然也知其所以然。
我给出代码Test.htm,它包括了获取自身代码和获取其他网页代码两种应用,具体脚本如下:

 1<html>
 2<head>
 3<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
 4</head>
 5<script language="VBScript">
 6
 7Function bytes2BSTR(vIn)   
 8strReturn = ""   
 9For i = 1 To LenB(vIn)   
10ThisCharCode = AscB(MidB(vIn,i,1))   
11If ThisCharCode < &H80 Then   
12strReturn = strReturn & Chr(ThisCharCode)   
13Else   
14NextCharCode = AscB(MidB(vIn,i+1,1))   
15strReturn = strReturn & Chr(CLng(ThisCharCode) * &H100 + CInt(NextCharCode))   
16i = i + 1   
17End If   
18Next   
19bytes2BSTR = strReturn   
20End Function 
21
22Function viewSource1()   
23dim XmlHttp   
24set XmlHttp = CreateObject("Microsoft.XMLHTTP")   
25XmlHttp.Open "GET", document.location.href, false   
26XmlHttp.setRequestHeader "Content-Type","text/XML"   
27XmlHttp.Send   
28  
29dim html   
30html = bytes2BSTR(XmlHttp.responseBody)   
31msgbox html   
32End Function 
33
34Function viewSource2()   
35dim XmlHttp   
36set XmlHttp = CreateObject("Microsoft.XMLHTTP")   
37XmlHttp.Open "GET", " http://www.google.com ", false   
38XmlHttp.setRequestHeader "Content-Type","text/XML"   
39XmlHttp.Send   
40  
41dim html   
42html = bytes2BSTR(XmlHttp.responseBody)   
43msgbox html   
44End Function 
45
46</script>
47<body bgcolor="gainsboro" style="border:1pt solid white">
48<table class="text">
49<tr>
50<td class="text">XMLHTTP Get HTML页面时的中文乱码之完全客户端Script解决方案</td>
51</tr>
52<tr>
53<td class="button"><button onclick="viewSource1()">查看自身的网页代码</button></td>
54</tr>
55<tr>
56<td class="button"><button onclick="viewSource2()">查看google主页代码</button></td>
57</tr>
58</table>
59</body>
60</html>
Published At
Categories with Web编程
Tagged with
comments powered by Disqus