搜索引擎的思路??

请问各位大哥,搜索引擎具体怎么实现呢?
举大一点的例子,比如google那么强大的搜索引擎是什么思路呢?
如果,搜索的不是一个数据库,有多个数据库,搜索的内容有可能不仅仅是模糊查询,而有可能是和搜索字段相关内容的,比如我搜就业信息,搜索各个不同数据库出来的结果是所有和就业有关的信息,但也许这个信息中并不显示出现‘就业’两字;
另外,还有一个信息采集问题,可能每隔一段时间,从其他相关站点中采集一些信息,而这中采集方式可能是仅仅从网站的网页中采集(听说有的信息采集就是这中方式),那么以上情况,搜索效率方面从哪几方面考虑呢,还有数据库的设计,组织应该如何考虑呢?
希望各位大哥给点思路,或是给我点搜索代码参考?
---------------------------------------------------------------

在里面去查文档,有一篇是关于google的数据库结构的,不过是E文的。另外,我也想知道你所问的问题,帮忙up一次。
---------------------------------------------------------------

呵呵,这可是关键性的东西了,好像没看到什么介绍资料
---------------------------------------------------------------

The Anatomy of a Large-Scale Hypertextual Web Search Engine (Google)
http://www7.scu.edu.au/programme/fullpapers/1921/com1921.htm

Search engine basics
http://www-106.ibm.com/developerworks/library/searchengine.html
http://www.searchengines.com/searchBasics1.html

Published At
Categories with 数据库类
Tagged with
comments powered by Disqus