基于视觉信息的网页分块算法(VIPS) - yysdsyl的专栏 - 博客频道 - CSDN.NET

基于视觉信息的网页分块算法(VIPS) - yysdsyl的专栏 - 博客频道 - CSDN.NET

于视觉信息的网页分块算法(VIPS)

2012-07-29 15:22 1233人阅读 评论(1) 收藏 举报
算法webhtml

VIPS: a Vision-based Page Segmentation Algorithm.pdf下载

这篇论文的主要思想:

从人类的角度来看,当一个用户观察web页面的时候,它总是会自然而然的把一个语义块作为一个单一对象来看待,而不会管web页面的内部结构是如何描述的。因此一些视觉因素,比如背景颜色、字体颜色和大小、边框、逻辑块和逻辑块之间的间距等等可用来分辨语义块,充分的利用web页面的视觉提示,并结合DOM树进行页面语义分块,可以达到更加理想的效果。VIPS算法的首先从DOM树中提取出所有的合适的页面块,然后根据这些页面块检测出它们之间的所有的分割条,包括水平和垂直方向。最后基于这些分割条,Web页面的语义结构将被重新构建。对于每一个语义块又可以使用VIPS算法继续分割为更小的语义块。

vips算法流程图

其中,节点分割依据有

1、DOM结点本身的属性。比如当前DOM结点的标签,结点的背景色,当前结点所代表的页面块的大小,形状。

2、当前DOM结点的孩子结点。比如孩子结点的标签,孩子结点所代表的区域的背景色,前景色,区域的大小以及不同类型的孩子的数目等等。

节点的分割原则如下

1、标签提示
           一些标签如<HR>通常用来从视觉上分隔不同主题的内容, 因此如果DOM结点中包含这些标签,该结点允许被继续分割;
           如果inline结点的孩子结点存在line-break结点,那么该结点 将被倾向于被分割;
           2、色彩提示
           如果当前结点的孩子结点中有一个结点的背景色与它的背 景色不同,分割该DOM结点。同时,具有不同背景色的节 点在本次循环中不再被分割。分割由下一次迭代完成
           3、文本提示
           如果当前结点的大部分孩子结点都是文本结点或者是虚拟 文本结点,不再继续分割该结点
           4、尺寸提示
           对不同的结点类型预定义一个门槛尺寸(结点的大小与整个 页面大小的比较),如果结点的相对尺寸小于门槛大小,那 么分割就停止

分割条检测步骤如下:
           1、初始化分隔条列表。最早的分隔条列表中仅仅存在一个分隔条,起始和终止坐标为(Pbe,Pee),分别对应整个Web页面的起始坐标和终止坐标
           2、页面块被包含在分隔条中,此时,该分隔条将从页面块的边缘裂变为多个分隔条
           3、页面块与分隔条发生部分重合,那么根据页面块的边界重新调整分隔条的参数
           4、页面块跨越分隔条,那么此时移除该分隔条
           5、移除页面边缘的分隔条

分割条检测步骤图

语义块重构过程:
           从最小权重的分隔条开始,该分隔条两侧的页面块将合并在一起组成一个新的页面块。该合并过程不停的进行迭代,直到遇到权重最高的分隔条为止。对于每一个新的语义块,相应的DOC也被相应设置,参见下图:

另外,分隔条用于区别不同语义的页面块,因此基于给定分隔条两边的语义块的在视觉上的差异,设置分隔条的权重。如果分隔条的权重越重,该分隔条两侧的页面属于不同语义块的可能性就越大。分割块权重的设置有以下几个原则:

1、分隔条两边的页面块的距离越远,该分隔条的权重 就越高
           2、如果某个分隔条是通过检测HTML标签获取的,比 如<HR>,那么该分隔条的权重就越高
           3、 如果分隔条两侧的页面块的背景色是不相同的,那 么该分隔条的权重将相应增高
           4、 对于水平分隔条而言,如果分隔条两侧的页面块的 字体属性,比如字体大小,字体重量是不同的,那 么该分隔条的权重将增加。而且如果分隔条上侧的 页面块的体小于分隔条下侧的页面块的字体,那 么分隔条的权重将增加
           5、对于水平分隔条而言,当分隔条两侧的页面块的结 构非常相似,比如文本,那么该分隔条的权重将递减

posted on 2014-03-14 11:08 lexus 阅读(...) 评论(...) 编辑 收藏

转载于:https://www.cnblogs.com/lexus/p/3600106.html

基于视觉信息的网页分块算法(VIPS) - yysdsyl的专栏 - 博客频道 - CSDN.NET相关推荐

  1. Redis Primer(1)基于JedisPool的Redis hset并发性能测试 - @钟超 · 技术博客专栏 - 博客频道 - CSDN.NET...

    Redis Primer(1)基于JedisPool的Redis hset并发性能测试 - @钟超 · 技术博客专栏 - 博客频道 - CSDN.NET Redis Primer(1)基于JedisP ...

  2. 常用排序算法的c++实现(冒泡,选择,插入,堆,shell,快速,归并 )与sort()对比 - coder_xia的专栏 - 博客频道 - CSDN.NET...

    常用排序算法的c++实现(冒泡,选择,插入,堆,shell,快速,归并 )与sort()对比 - coder_xia的专栏 - 博客频道 - CSDN.NET 常用排序算法的c++实现(冒泡,选择,插 ...

  3. 基于视觉信息的网页分块算法(VIPS)

    VIPS: a Vision-based Page Segmentation Algorithm.pdf下载 这篇论文的主要思想: 从人类的角度来看,当一个用户观察web页面的时候,它总是会自然而然的 ...

  4. JS获取整个HTML网页代码 - Android 集美软件园 - 博客频道 - CSDN.NET

    JS获取整个HTML网页代码 - Android 集美软件园 - 博客频道 - CSDN.NET JS获取整个HTML网页代码 分类: Android提高 2012-01-12 23:27 1974人 ...

  5. 给你的网页添加看板娘(以给博客园博客添加看板娘为例)(保姆级图文)

    步骤 系列文章 前言 1.下载看板娘资源 2.上传资源到文件 3.在设置中调用资源 4.看看效果 总结 系列文章 提示:转到日常小技巧专栏,观看更多内容! 点我直达–>日常小技巧专栏 前言 给你 ...

  6. 基于hexo框架快速从0到1搭建个人博客----文章写作(四)

    基于hexo框架快速从0到1搭建个人博客----文章写作 一.Github图床(图片存储) 二.PicGo(图片上传) 三.jsDelivr(CDN加速) 四.Typora(写文传图) 五.总结 一. ...

  7. 智能城市dqn算法交通信号灯调度_博客 | 滴滴 KDD 2018 论文详解:基于强化学习技术的智能派单模型...

    原标题:博客 | 滴滴 KDD 2018 论文详解:基于强化学习技术的智能派单模型 国际数据挖掘领域的顶级会议 KDD 2018 在伦敦举行,今年 KDD 吸引了全球范围内共 1480 篇论文投递,共 ...

  8. 一个基于Microsoft Azure、ASP.NET Core和Docker的博客系统

    2008年11月,我在博客园开通了个人帐号,并在博客园发表了自己的第一篇博客.当然,我写博客也不是从2008年才开始的,在更早时候,也在CSDN和系统分析员协会(之后名为"希赛网" ...

  9. 推荐的讲解算法的网站、好博客:

    http://www.csie.ntnu.edu.tw/~u91029/ 讲解.代码格式.图表都很规范,覆盖广 http://www.matrix67.com/informatics.html Mat ...

最新文章

  1. Exchange 2013与OWA13集成
  2. 区块链隐私:交易还是计算?
  3. 8年面试官问到:数据库自增 ID 用完了会咋样?
  4. ASP.NET Core 2.0 : 九.从Windows发布到CentOS的跨平台部署
  5. ESXI中VM迁移或OVF模板导入linux系统常规操作
  6. HtmlParser 简介
  7. 【转载】安卓APP架构
  8. 爬了菊姐的两万条评论,竟发现菊粉都是这样的人!
  9. Qt文档阅读笔记-Broadcast Sender Example与Broadcast Receiver Example解析
  10. android.mk官网介绍,转载:Android.mk语法介绍
  11. tf.train.GradientDescentOptimizer().minimize()细致探索
  12. java yield方法_Java中的yield方法
  13. 【王道计组笔记】总线(3):总线仲裁的基本概念
  14. 如何将自定义消息添加到Mac锁屏
  15. Luogu4366[CodePlus#4] 最短路
  16. 基于USB数据采集卡(DAQ)与IO模块的热电阻温度采集
  17. ubuntu开机桌面不显示
  18. 两台计算机如何打印机共享打印机,多台电脑怎样共享一台打印机?方法就是这么简单!...
  19. less日常容易忘记的知识记录
  20. windows使用Certbot配置nginx的https证书

热门文章

  1. 使用设备树给DM9000网卡_触摸屏指定中断
  2. 房地产术语,住宅类型:公寓、其它、别墅、四合院、平房、排屋、新里洋房、普通住宅、暂无数据、老公房、酒店公寓 写字楼类型:写字楼、创意园区、商业综合体、商业街、商住楼、酒店写字楼...
  3. 何晓理(风过无痕)-从85年开始的学习经历
  4. choose ,when ,otherwise
  5. iBeacon销声匿迹了吗?
  6. 我不太肯定我的方向,但是我希望自己能走的远一点。
  7. 23.模拟拖动登录框效果
  8. 基于Spring boot开发电子宿舍管理系统毕业设计源码132056
  9. iOS开发系列–打造自己的“美图秀秀”(上)
  10. Redis 热点问题产生,解决方案有哪些?