内容过滤技术虽然还有些难点尚待克服,但人类既然发明了互联网,也有能力驾驭互联网。

  内容过滤,正在成为越来越热门的话题。据IDC的分析统计预测,作为安全领域的一个重要分支,到2007年,内容安全市场的市值将达到65亿美元。

  内容过滤就是在网络的不同地点部署访问策略,通过一定的技术手段,根据对内容合法性的判断来禁止用户访问不良内容。家长不想让孩子沉溺在网络游戏当中;老板不希望员工在上班时间浏览娱乐新闻;政府不允许任何人传播浏览反动和色情信息,这些需求都在内容过滤的范畴之内。

  个人电脑内容过滤

  每个人都或多或少有一些使用IE的经验,但是有多少人注意和使用过IE的“内容分级审查”功能呢?我们可以通过“工具Internet选项内容分级审查允许”开启这项功能。

  内容分级审查是根据互联网内容分级联盟(ICRA)提供的内容分级标准,来允许或禁止访问某些不良的网站。内容分级审查功能本来可以让家长很好地控制孩子的上网,但是非常遗憾,并不是所有的网站都遵守ICRA规范,也就是说这个分级标准并不是放之四海皆准的,它从一开始就成了IE的摆设。

  除了IE自带的内容过滤功能,市场上还有一些需要安装在上网电脑终端的内容过滤软件,常见的有SurfControl Cyber Patrol、国内的蓝眼睛、过滤王等等。这些软件可以在一定程度上控制孩子访问色情、游戏等不良网站,比较适合家庭单机使用。

  企业网络内容过滤

  在每一个互联网访问的网络边缘(企业/学校网络边缘、网吧网络出口),都可以部署内容过滤工具。这些工具一般是分析网络数据流中包含的HTTP数据包,对数据包头中的IP地址、URL、文件名、HTTP methods进行访问控制。

  在网络边缘的内容过滤产品有两种表现方式:旁路式(Passby)和穿透式(Passthrough)。旁路式内容过滤产品是独立的,它监听网络上所有信息,并有选择的对基于TCP 的连接(如HTTP/HTTPS/FTP/TELNET/POP3/SMTP等)进行阻断。旁路式过滤的原理基于TCP的连接性:跟踪所有TCP连接,阻断时以服务器身份向客户端发送HTTP FIN PUSHACK,同时以客户端身份向服务器发送HTTP RST。一般情况下,旁路式内容过滤产品可以快速部署,对网络运行不存在影响和风险。穿透式内容过滤产品依赖于其他网络边缘处的基础平台,如Microsoft ISA、Cisco Cache Engine、Blue Coat ProxySG、Netscreen Firewall等。穿透式内容过滤产品根据这些网络边缘接入基础平台的访问请求,作出允许或禁止的判断,然后由这些平台执行过滤的动作。

[ 相关贴图 ]
430)this.width=430" align="center" border="0" />

那么,内容过滤产品如何作出允许或禁止的判断呢?不同的厂商有着不同的解决方案。从理论上来讲,最理想的产品能够实时对网页内容进行分析,然后判断是否允许用户访问。例如,用户访问一个色情网站,内容过滤产品分析这个网站中页面的内容,发现其中包含了大量的色情词汇和图片信息,从而判断这是一个不良网站,需要进行过滤。这是一个理想的状态。但是,在具体的生产应用环境当中,实时分析网页内容并进行过滤是不现实的,这个问题主要体现在:对网页内容实时分析给用户浏览体验带来的延时是不可以接受的。对文字内容进行比较分析需要大量的计算资源,更不用说图片信息。试想一下每一个用户每点击一个链接都要等待数十秒钟,这还是比较好的情况。一般的企业网络内每秒钟都会有数个到数十个HTTP连接建立,这对实时的内容分析来说是不可完成的任务。

所以,绝大部分厂商采取了一个折衷的办法。他们事先对访问量较大、名气较大的网站和网页的内容做分类的工作,然后把URL、IP地址和内容分类对应起来,例如www.playboy.com属于成人网站,news.google.com属于新闻网站,www.google.com属于搜索引擎,sports.sina.com.cn属于体育网站。当用户访问这些网站上的页面时,内容过滤产品就可以根据事先的分类进行过滤,达到按内容过滤的目的。

  因此,内容分类数据库的数量和质量是评价一个内容过滤产品的重要指标。我们要问的是这个数据库包含了多少网址,如何维护更新,如何保证质量?有些厂商组建了专门的内容分析部门,他们专职监控每天新出现的网站,然后将这些网站分类更新到数据库当中。还有些厂商使用人工智能技术,自动进行分析。内容安全产品的市场爆炸证明,这种办法是可行的,也是经济的。

  互联网骨干内容过滤

  内容过滤除了在个人电脑和企业网络中的应用,在互联网骨干上也可以实现相同的功能。互联网骨干的主要任务是在保证可连通性的同时,尽可能快速地提供数据交换通道,这就要求网络结构和配置尽可能简单。属于网络高层应用的内容过滤本来不应该在互联网骨干上部署实施。但是,出于国家安全的需要,对一些网站还是需要进行屏蔽。电信运营商在互联网骨干上使用的内容过滤技术主要是DNS过滤和IP地址过滤:互联网骨干DNS服务器拒绝解析指定URL列表;通过ACL拒绝到指定IP地址的连接。这些手段轻微地影响互联网性能,但是技术和现实中也是可以实现和接受的。

  另外,现在国内有些地区的宽带运营商还提供“绿色上网”服务,为申请此项服务的用户提供内容过滤的功能,以保护青少年和儿童。这些“绿色上网”服务的原理同以上的内容过滤原理是一样的,不同之处在于每个用户的可定制化功能。还有些运营商采取了“投诉”的方式来维护更新不良内容网址,通过奖励上网费用和时间的方式来鼓励宽带用户投诉不良网站。这也是一个很好的思路和现实的做法。

  技术难点和趋势

  从这三种过滤手段来看,它们都受制于内容分类的效率和准确性。如何提高内容分类的效率和准确性,是各个厂商钻研的难题。

  实际上,每个月都有超过100万个新注册的网站出现在互联网上,也就是说互联网是变化的,这种变化是永不停息的。我们不可能把所有的网站和网页都进行归类并放在数据库当中,这样的话,这个数据库的规模将会远远超过实际应用中硬件平台性能所能承受的最大限制。最好的办法还是挑选一部分网站放在数据库当中,这些网站至少具有两个特征:1、访问量比较大;2、包含不良内容。对于那些访问量不大,或者内容“不咸不淡”的网站,大可以忽略不计。

  每个企业或者每个人的浏览习惯都是不一样的,也可能有些人特别喜欢浏览一些冷门的网站,这就涉及一个个性化的问题。为了对这些访问进行控制和过滤,内容过滤产品本身还要具有一定的智能,能够自动分析归类这些网站的内容,并对用户的访问进行过滤。这样的分析结果应该保留在访问者的本地内容过滤设备上,而不是上传同步到所有的用户。这样的话,所有用户就有一个集中的公共数据库,包含了绝大部分热门网站;每个用户还有一个分散的私人数据库,包含了自己的浏览分析归类数据。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/10294527/viewspace-125059/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/10294527/viewspace-125059/

还我一片澄清天空—浅析网络内容过滤技术(转)相关推荐

  1. 浅析网络可视化分析技术

    [国内外技术研究现状] 基于多层特征的空间信息网络可视化 Luca Rossi 等人最早讨论了多层网络的可视化策略,他们认为虽然有部分学者逐渐集中到多层网络的研究分析上来,但目前还没有针对这一内容提出 ...

  2. 网络内容审计解决方案

    随着我国电子政务系统的实施建设以及企业信息化的飞速发展,网络信息日益重要,内部人员对机密文件.敏感信息的窃取和泄漏,在互联网上发布和访问非法内容,以及在工作时间利用公司网络资源进行与工作无关的活动屡见 ...

  3. 网络推广外包专员浅析网络推广外包中网站转化率的发展意义

    曾几何时,每当企业对同行企业网站充满向往之时,回首浏览自己的网站始终感觉差了不止一点两点,而这些差异就是影响企业网站转化率提升的重要原因.一旦企业网站转化率不佳,自然也无法达到为企业在开拓互联网网络营 ...

  4. 网络营销外包专员浅析网络营销外包推广运营效果究竟如何?

    现如今还未曾进军互联网市场的企业已属少数,大部分企业客户在了解互联网市场的庞大之后,纷纷选择线上.线下营销模式共同促进企业营销利润的获取,这都源于他们对网络营销预期效果的估量.通过企业网站进行网络营销 ...

  5. 网络营销专员浅析网络营销优化对企业来说意味着什么?

    在现阶段下的网络营销环境下,越来越多企业注意到互联网市场的存在意义,许多企业都委托专业网络公司进行网站建设.网站优化与网站运营,通过网络技术的力量为企业将线上营销利润最大化.但是越想要越没有,急功近利 ...

  6. 网络营销专员浅析网络营销过程中如何做好网站权重流量的优化

    在搜索引擎中通过检索关键词后所展示出来的首页网站大多都有着不错的流量和权重,这对于企业网站来说是网站优化运营和网络营销推广专业水准的体现,这也是无数专业人士背后默默运营得出的结果.通常情况下,网站权重 ...

  7. 网络营销外包专员浅析网络营销外包如何防止发布的外链被删除呢?

    众所周知,在网站优化推广前期,网站文章内容的更新对企业网站的优化也是很重要的,尤其是通过网站外链优化网站的情况下,外链发布后被平台删除的例子太多太多了,殊不知,外链发布也是有技巧的,那么怎样才能避免网 ...

  8. 计算机网络符号意思,浅析网络语言中的符号网语_计算机网络论文.doc

    浅析网络语言中的符号网语_计算机网络论文.doc 浅析网络语言中的符号网语_计算机网络论文 浅析网络语言中的符号网语_计算机网络论文 论文关键词:符号网语特征成因规范 论文摘要:随着网络的普及,网络语 ...

  9. 浅析网络推广外包公司如何完成营销型网站建设完成网络推广外包?

    众所周知,企业网站在搜索引擎中若想达到完美良好的网络营销效果,通常企业网站都会通过一些网络推广的作用全面的展示给用户,就拿营销型网站为例,企业网站是在搜索引擎中展示给广大用户的门面,也是展示企业产品或 ...

最新文章

  1. [unreal4入门系列之十一] 在UE4中编写C++代码控制角色
  2. 分布式服务防雪崩熔断器,Hystrix理论+实战
  3. 08-Isolation using virtualization in the Secure World_Whitepaper
  4. String All Methods
  5. SpringBoot_配置-配置文件的加载位置
  6. 为什么NX10帮助功能无法找到HTML,NX10.0 新功能介绍视频教程专辑
  7. 【OpenCV 例程200篇】93. 噪声模型的直方图
  8. 2021中国家居行业洞察白皮书
  9. 在xcode4.2.1项目中加入oreplot0.9
  10. python有哪些软件包用来考察变量之间的相关性_Python语言基础考察点:python语言基础常见考题(一)...
  11. Kotlin 和 Flutter 对于开发者究竟意味着什么?
  12. python连接mysql代码_Python连接MySQL的实例代码
  13. 《0元搭建个人博客史上最详细教程》(域名申请及备案篇)
  14. 大家知道,我的废话很多,所以来凑热闹
  15. Compiere 开源CRM的比较选择
  16. python删除列表第一个,在Python中删除列表的第一个元素
  17. 政府采购和招标投标常见问题:评标的依据是什么?
  18. SNN系列|学习算法篇(1)Tempotron
  19. 小菜鸟学浏览器之感悟
  20. 【云原生 | 44】Docker搭建Registry私有仓库之管理访问权限

热门文章

  1. 基于3DSOM的侧影轮廓方法空间三维模型重建
  2. linux进程监控monit,教你使用monit监控Linux系统
  3. php window.onload,window.onload,body onload和document.onreadystatechange
  4. Vue中组件之间8中通信方式
  5. Root 大师把手机搞死了
  6. [ 注意力机制 ] 经典网络模型1——SENet 详解与复现
  7. java变量是否需要初始化的问题
  8. JavaFX11入门
  9. 机器学习算法系列(十五)-软间隔支持向量机算法(Soft-margin Support Vector Machine)
  10. 注释还是不注释【中英文对照版】