** 2003 ** ** 搜索引擎年 **
2003 不愧为互联网的“搜索引擎年”。国内有百度,慧聪, 3721 三大中文搜索引擎的角逐,先是百度的举行的“万人公开评测”活动,得出了 Baidu.com 首次超越 Google 这一皆大欢喜的结果。其后慧聪也举行了“超越 GOOGLE ,体验第三代智能搜索”中文搜索引擎大测评的活动,而 3721 则是更是结盟 Yahoo ,似乎大家都有据 Google 于国门之外的决心。而 Google , Yahoo , MSN 国际三大搜索引擎巨头的竞争更是火药味十足,微软、 Yahoo 和 Google 先后解除同城之约,开始自己的搜索引擎研究。 Yahoo 购买了 Overture 等搜索引擎公司,以加强自己实力,而微软收购 Google 的传言更是闹得沸沸扬扬。
搜索引擎市场 2003 的滨彩纷呈使人们对新的一年有了太多的期待。众多世界级公司的介入,巨额资金的投入,我们不禁要问:搜索引擎 2004 ,究竟谁主沉浮?
** 搜索引擎 ** ** 技术为王 **
暂且不提关于搜索引擎市场的太多预测 , 和搜索引擎市场激烈竞争的场面相比,用户实际体验到的检索性能到底有了多大改观呢 ? 我们依旧是面对几十页的搜索结果茫然不知所措 , 而且还不时冒出一些广告 , 我们似乎也看不出来 Google 、 Yahoo 还有 Baidu 的搜索结果到底有多大的差别。事实上目前搜索引擎的表现与用户的期望值相差依然很大。
1998 年 Google 的出现标志着以“超链接分析 ” 技术为主要特征的第二代搜索引擎代替了以人工目编目为主的第一代搜索引擎 , 而时至今日已经 5 年有余 , 互联网搜索引擎却一直未有任何明显的改进。 CPU 已从 M 级升至 G 级 , 操作系统也从 win98 升级到 win2003 ,而主干网的升级也大有赶超“摩尔定理”之势。但我们依然享受着和 5 年前几乎完全一样的信息检索服务,尽管 Internet 的主要目的就是为了信息检索和信息交换,尽管 IT 技术的更新换代的速度使我们经常有落伍之感。
随着网页资源的急剧扩张,搜索引擎的性能却有逐渐下降的趋势,目前各搜索引擎数据库的平均更新周期已经到达一个月。而从覆盖率来看,目前没有一个搜索引擎可以涵盖 60% 上的互联网网页。用评价信息服务质量的三个标准“全面、准确、及时”来判别当前的搜索引擎,其还应有很大的改进余地。而网页资源仅仅是互联网信息资源的一部分。大量的多媒体信息, PPT 、 Word 、 PDF 等等各类资源依然流落当前搜索引擎检索范围之外。面对瞬息万变而又规模庞大的 Internet ,仅仅做个网页搜索引擎已经力不从心,而作“整个互联网上信息的管理者”或许永远是个梦。
事实上无论是 Google 还是 Baidu ,其基本技术都是完全一样的,大家仅仅是在细节上方面略有差别,很难判定那个是最好那个不好,即使在 Google 的开放型实验室的未来研究项目也看不到“能改变人们观念”的技术革新。 Google 技术最强,而微软和 Yahoo 在用户群和资金上则有较大的优势,但在搜索引擎研究方面还刚刚开始,三大巨头的竞争可能一时还难分胜负。而下一代搜索技术的到来似乎还是遥遥无期,但技术的突破随时都会令这个技术致胜的领域变换格局。
第二代搜索引擎并不完美,可搜索的文件格式单一,结果不准确,应用不符合个性化的趋势,因此整个互联网都在期待下一代搜索技术早日成熟。无论那是什么样的技术,到时候,检索信息的方式和结果都将是一种根本性的变革,但是这场新的变革到底会发生在何处?
最近刚刚召开的 IETF59 届全会为我们带来了一点好消息。在此次全会上 IETF 第一次组织了关于信息问题的专题讨论,主张建立一个 Internet 信息检索基础框架 (Internet information retrieval infrastructure), 并提议成立专门的工作组。 IETF 是指导互联网发展的最重要组织,目前几乎所有的 Internet 技术和协议都是由 IETF 研制或改进的。作为互联网最重要的信息检索服务显然也在 IETF 视线之内,而在 IRTF 这个 IETF 的内部工作组中已有一些相关的讨论。
在 IETF 看来,目前基本上所有的 Internet 技术都是基于公共协议的,从底层的路由传输协议到 E-mail 、 Ftp 等各种应用服务莫不如此。 Internet上不应 有技术机密 , 更不用说专利,而这也是 Internet 作为一项公共事业获得长足发展的基础。但作为互联网上最重要的信息检索服务由于各种原因却成了搜索引擎公司的独有产品,很多核心技术都是公司的最高商业机密,而搜索引擎的基本技术 PageRank 竟然还是一项专利,尽管还没人说要为此专利收钱。现有搜索引擎的一些不足以及相关技术的严格保密性促使IETF寻找一种更好的公共信息检索平台。
而在众多媒体上对商业化搜索引擎的各种指责也屡见不鲜,对 Google 排名不公正的抗议接连不断,但 Google 显然不能把他的排名规则公布于世; 互联网信息作为一种公共资源却在很大程度上被少数搜索引擎公司控制着,而一旦这种绝对的控制权和金钱利益挂钩产生的后果也让大家担忧。所以很多学者也建议将搜索引擎应该成为一种互联网的公共设施。
说归说,做归做,如果说公众媒体对商业搜索引擎的一些微词也只能表达一下不满而已, IETF 则会去实际地改变这种现状。 IETF 事实上起着 Internet 上游戏规则制定者的角色,虽然 实上它的技术文档都称为 RFC(Request For Comments, 请求注解 ) 。这场变革由 IETF 来主导倒也十分合适。而从 IETF此次 提出的解决方案来看,其完全针对当前搜索引擎中的一些主要问题,在个性化、准确率等关键技术指标上都有较大的改进。整个方案的改进和相关协议的制定也只是时间问题,而对新的信息检索解决方案的迫切需求可能使此方案得到迅速实施,要知当前 IPV6 的实施恰恰需要这样一个“杀手级应用”,而此方案的一个重要特征就是要获得 IPV6 的一些底层支持。这对每个互联网用户来说都是一个好消息,但是一个公共的“互联网信息检索基础平台”可能使一些专业搜索引擎公司不得不另谋生路。
值得一提的是这次 IETF 讨论的公共信息检索方案是由华中科技大学数字图书馆研究课题组提出的。搜索引擎之战主战场一直都远在大洋彼岸,但而这次我们不用再隔岸观火。搜索引擎之王 Google 也恰恰起源于斯坦福大学的一个数字图书馆研究项目,如今图书馆建设也在经历着以纸本图书资源为主的传统图书馆向以整个互联网为资源核心的数字图书馆的转变,而 Internet 信息检索问题在这里显得更加突出,一个全新的搜索引擎解决方案由此而生也不足为奇。
** 谁是互联网的上帝 ? **
如今的搜索引擎市场早已是山雨欲来风满楼,但对普通的互联网用户来说硝烟散尽,留下的总是更好的。我们将从新的互联网搜索系统中获得更为准确而详尽的信息。在任何市场经济规律存在的地方,用户都将是永远的上帝。而在任何年代里,只有哪些更能满足人们实际需求的技术才能生存和发展。