还我一片澄清天空—浅析网络内容过滤技术

内容过滤技术虽然还有些难点尚待克服，但人类既然发明了互联网，也有能力驾驭互联网。

内容过滤，正在成为越来越热门的话题。据 IDC 的分析统计预测，作为安全领域的一个重要分支，到 2007 年，内容安全市场的市值将达到 65 亿美元。

内容过滤就是在网络的不同地点部署访问策略，通过一定的技术手段，根据对内容合法性的判断来禁止用户访问不良内容。家长不想让孩子沉溺在网络游戏当中 ; 老板不希望员工在上班时间浏览娱乐新闻 ; 政府不允许任何人传播浏览反动和色情信息，这些需求都在内容过滤的范畴之内。

个人电脑内容过滤 ** **

每个人都或多或少有一些使用 IE 的经验，但是有多少人注意和使用过 IE 的“内容分级审查”功能呢 ? 我们可以通过“工具 \Internet 选项 \ 内容 \ 分级审查 \ 允许”开启这项功能。

内容分级审查是根据互联网内容分级联盟 (ICRA) 提供的内容分级标准，来允许或禁止访问某些不良的网站。内容分级审查功能本来可以让家长很好地控制孩子的上网，但是非常遗憾，并不是所有的网站都遵守 ICRA 规范，也就是说这个分级标准并不是放之四海皆准的，它从一开始就成了 IE 的摆设。

除了 IE 自带的内容过滤功能，市场上还有一些需要安装在上网电脑终端的内容过滤软件，常见的有 SurfControl Cyber Patrol 、国内的蓝眼睛、过滤王等等。这些软件可以在一定程度上控制孩子访问色情、游戏等不良网站，比较适合家庭单机使用。

企业网络内容过滤 ** **

在每一个互联网访问的网络边缘 ( 企业 / 学校网络边缘、网吧网络出口 ) ，都可以部署内容过滤工具。这些工具一般是分析网络数据流中包含的 HTTP 数据包，对数据包头中的 IP 地址、 URL 、文件名、 HTTP methods 进行访问控制。

在网络边缘的内容过滤产品有两种表现方式 : 旁路式 (Passby) 和穿透式 (Passthrough) 。旁路式内容过滤产品是独立的，它监听网络上所有信息，并有选择的对基于 TCP 的连接 ( 如 HTTP/HTTPS/FTP/TELNET/POP3/SMTP 等 ) 进行阻断。旁路式过滤的原理基于 TCP 的连接性 : 跟踪所有 TCP 连接，阻断时以服务器身份向客户端发送 HTTP FIN PUSHACK ，同时以客户端身份向服务器发送 HTTP RST 。一般情况下，旁路式内容过滤产品可以快速部署，对网络运行不存在影响和风险。穿透式内容过滤产品依赖于其他网络边缘处的基础平台，如 Microsoft ISA 、 Cisco Cache Engine 、 Blue Coat ProxySG 、 Netscreen Firewall 等。穿透式内容过滤产品根据这些网络边缘接入基础平台的访问请求，作出允许或禁止的判断，然后由这些平台执行过滤的动作。

还我一片澄清天空—浅析网络内容过滤技术（图一）

那么，内容过滤产品如何作出允许或禁止的判断呢 ? 不同的厂商有着不同的解决方案。从理论上来讲，最理想的产品能够实时对网页内容进行分析，然后判断是否允许用户访问。例如，用户访问一个色情网站，内容过滤产品分析这个网站中页面的内容，发现其中包含了大量的色情词汇和图片信息，从而判断这是一个不良网站，需要进行过滤。这是一个理想的状态。但是，在具体的生产应用环境当中，实时分析网页内容并进行过滤是不现实的，这个问题主要体现在 : 对网页内容实时分析给用户浏览体验带来的延时是不可以接受的。对文字内容进行比较分析需要大量的计算资源，更不用说图片信息。试想一下每一个用户每点击一个链接都要等待数十秒钟，这还是比较好的情况。一般的企业网络内每秒钟都会有数个到数十个 HTTP 连接建立，这对实时的内容分析来说是不可完成的任务。

所以，绝大部分厂商采取了一个折衷的办法。他们事先对访问量较大、名气较大的网站和网页的内容做分类的工作，然后把 URL 、 IP 地址和内容分类对应起来，例如 www.playboy.com 属于成人网站， news.google.com 属于新闻网站， www.google.com 属于搜索引擎， sports.sina.com.cn 属于体育网站。当用户访问这些网站上的页面时，内容过滤产品就可以根据事先的分类进行过滤，达到按内容过滤的目的。

因此，内容分类数据库的数量和质量是评价一个内容过滤产品的重要指标。我们要问的是这个数据库包含了多少网址，如何维护更新，如何保证质量 ? 有些厂商组建了专门的内容分析部门，他们专职监控每天新出现的网站，然后将这些网站分类更新到数据库当中。还有些厂商使用人工智能技术，自动进行分析。内容安全产品的市场爆炸证明，这种办法是可行的，也是经济的。

互 联网骨干内容过滤

内容过滤除了在个人电脑和企业网络中的应用，在互联网骨干上也可以实现相同的功能。互联网骨干的主要任务是在保证可连通性的同时，尽可能快速地提供数据交换通道，这就要求网络结构和配置尽可能简单。属于网络高层应用的内容过滤本来不应该在互联网骨干上部署实施。但是，出于国家安全的需要，对一些网站还是需要进行屏蔽。电信运营商在互联网骨干上使用的内容过滤技术主要是 DNS 过滤和 IP 地址过滤 : 互联网骨干 DNS 服务器拒绝解析指定 URL 列表 ; 通过 ACL 拒绝到指定 IP 地址的连接。这些手段轻微地影响互联网性能，但是技术和现实中也是可以实现和接受的。

另外，现在国内有些地区的宽带运营商还提供“绿色上网”服务，为申请此项服务的用户提供内容过滤的功能，以保护青少年和儿童。这些“绿色上网”服务的原理同以上的内容过滤原理是一样的，不同之处在于每个用户的可定制化功能。还有些运营商采取了“投诉”的方式来维护更新不良内容网址，通过奖励上网费用和时间的方式来鼓励宽带用户投诉不良网站。这也是一个很好的思路和现实的做法。

技术难点和趋势 ** **

从这三种过滤手段来看，它们都受制于内容分类的效率和准确性。如何提高内容分类的效率和准确性，是各个厂商钻研的难题。

实际上，每个月都有超过 100 万个新注册的网站出现在互联网上，也就是说互联网是变化的，这种变化是永不停息的。我们不可能把所有的网站和网页都进行归类并放在数据库当中，这样的话，这个数据库的规模将会远远超过实际应用中硬件平台性能所能承受的最大限制。最好的办法还是挑选一部分网站放在数据库当中，这些网站至少具有两个特征 :1 、访问量比较大 ;2 、包含不良内容。对于那些访问量不大，或者内容“不咸不淡”的网站，大可以忽略不计。

每个企业或者每个人的浏览习惯都是不一样的，也可能有些人特别喜欢浏览一些冷门的网站，这就涉及一个个性化的问题。为了对这些访问进行控制和过滤，内容过滤产品本身还要具有一定的智能，能够自动分析归类这些网站的内容，并对用户的访问进行过滤。这样的分析结果应该保留在访问者的本地内容过滤设备上，而不是上传同步到所有的用户。这样的话，所有用户就有一个集中的公共数据库，包含了绝大部分热门网站 ; 每个用户还有一个分散的私人数据库，包含了自己的浏览分析归类数据。