** C#实现web信息自动抓取 **
NetBug--爬虫 V1.02开发笔记
** 背景 **
随着 Internet的普及,网络信息正以极高的速度增长,在这么多数据中找到自己需要的信息是一件很繁琐的事情,找到需要的信息后如何获取也是件麻烦的事。这就需要Internet信息抓取程序来代替人工的操作。
所谓 Internet信息抓取程序,就是程序会按照用户的关键词或关键网站来收集相应的信息,并提供给用户想要的信息格式。
信息量的增加会带来信息网站发布人员工作量的剧增,为实现信息发布系统实现信息自
动发布、减少工作人员工作量、即时跟踪最新信息,就需要自动信息提供程序,因此 Internet信息抓取程序应运而生。
** 目标 **
实现自定义网站信息分类抓取,存入本地数据库、生成静态页面或其它用户定义的信息结构,并下载与信息相关的多媒体文件。
** 开发 **
l 目标站点结构分析 ** **
本步骤是准确抓取信息个关键。
首先要选择更新频率高的页面做为抓取地址,然后分析要抓取内容页面 url特点。
然后分析要抓取信息页面的元素特性,比如标题位置,内容位置 等,得到定位标记点。
将以上信息写成自己的配置文件或存到数据库中。
每个网站都需要分析,写出单独的配置文件,供抓取程序使用。
l 信息提取 ** **
根据配置文件取得要抓取页面 url,使用 HttpWebRequest类获取内容:
//获取http页面函数
public string Get_Http( string a_strUrl, int timeout)
{
string strResult ;
try
{
HttpWebRequest myReq = (HttpWebRequest)HttpWebRequest.Create(a_strUrl) ;
myReq.Timeout = timeout;
HttpWebResponse HttpWResp = (HttpWebResponse)myReq.GetResponse();
Stream myStream = HttpWResp.GetResponseStream () ;
StreamReader sr = new StreamReader(myStream , Encoding.Default);
StringBuilder strBuilder = new StringBuilder();
while (-1 != sr.Peek())
{
strBuilder.Append(sr.ReadLine()+"\r\n");
}
strResult = strBuilder.ToString();
}
catch (Exception exp)
{
strResult = "错误:" + exp.Message ;
}
return strResult ;
}
获取页面内容后,分析页面中连接地址取到要抓取的 url:
//处理页面标题和链接
public string SniffWebUrl( string urlStr, string blockB, string blockE )
{
string urlch1 = "";
string urlch2 = "";
int end_n1 = 0;
int end_nums = 0;
int end_nums1 = 0;
int end_nums2 = 0;
int end_nums3 = 0;
string reUTStr = "";
string reTitle = "";
string ret = "";
try
{
int pos01 = urlStr.IndexOf( "." );
int pos02 = urlStr.LastIndexOf( "/" );
if ( pos01 < 0 )
{
return "";
}
if ( pos02 < 0 )
{
return "";
}
int pos03 = urlStr.IndexOf( "/",pos01 );
if ( pos03 < 0 )
{
urlch1 = urlStr;
urlch2 = urlStr;
}
else
{
urlch1 = urlStr.Substring( 0,pos03 );
urlch2 = urlStr.Substring( 0,pos02 );
}
string tmpAllStr = new PublicFun().Get_Http( urlStr ,time1);
int pos1 = tmpAllStr.IndexOf( blockB );
int pos2 = tmpAllStr.IndexOf( blockE,pos1 + blockB.Length );
if ( pos1>0 && pos2>0 && pos2>pos1 )
{
ret = tmpAllStr.Substring( pos1 + blockB.Length,pos2 - pos1 - blockB.Length );
ret = ret.Substring( ret.IndexOf( "<" ));
while ( ret.IndexOf( "
1<a" )="">= 0 )
2
3{
4
5ret = ret.Substring( 0,ret.IndexOf( "<a" "<="" "<a"="" (="" )="" );="" +="" 2="" a"="" ret.indexof(="" ret.substring(="" while="" }="">=0 )
6
7{
8
9ret = ret.Substring( 0,ret.IndexOf( "</a">=0 )
10
11{
12
13ret = ret.Substring( 0,ret.IndexOf( "Href=" )) + "href=" + ret.Substring( ret.IndexOf( "Href=" ) + 5 );
14
15}
16
17while ( ret.IndexOf( "HREF=" ) >=0 )
18
19{
20
21ret = ret.Substring( 0,ret.IndexOf( "HREF=" )) + "href=" + ret.Substring( ret.IndexOf( "HREF=" ) + 5 );
22
23}
24
25while ( ret.IndexOf( "href='" ) >=0 )
26
27{
28
29ret = ret.Substring( 0,ret.IndexOf( "href='" )) + "href=\"" + ret.Substring( ret.IndexOf( "href='" ) + 6 );
30
31}
32
33}
34
35tmpAllStr = ret;
36
37int begin_nums = tmpAllStr.IndexOf( "href=" );
38
39while ( begin_nums >= 0 )
40
41{
42
43string tmpStrA = "";
44
45string tmpStrB = tmpAllStr.Substring( begin_nums + 5,1 );
46
47if ( tmpStrB == "\"" )
48
49{
50
51end_n1 = begin_nums + 6;
52
53if ( ( end_n1 + 1 ) > tmpAllStr.Length )
54
55{
56
57return "";
58
59}
60
61tmpStrA = tmpAllStr.Substring( begin_nums+6,1 );
62
63}
64
65else
66
67{
68
69end_n1 = begin_nums + 5;
70
71tmpStrA = tmpStrB;
72
73}
74
75if ( tmpStrA == "#" )
76
77{
78
79tmpAllStr = tmpAllStr.Substring( end_n1 );
80
81begin_nums = tmpAllStr.IndexOf( "href=" );
82
83}
84
85else
86
87{
88
89end_nums1 = tmpAllStr.IndexOf( " ",end_n1 );
90
91end_nums2 = tmpAllStr.IndexOf( ">",end_n1 );
92
93end_nums3 = tmpAllStr.IndexOf( "</a",end_nums2 );
94
95<SPAN lang=EN-US style="FONT-SIZE: 10</a">