最近研究这块内容头发快掉完,写一些东西来梳理梳理,以后写论文可能用得上。

1.基于模板的方法
依赖html文档内部结构特征来完成数据抽取。常用的一些有正则、xpath、selector css、beautifulsoup等等。
优点:针对特定的网页模式,实现简单(可以自己写或者借助半自动工具Google开发者工具、xpath helper插件等),定位准确。
缺点:对于不同的网页模式或者网页结构需要重写模板,且维护代价很大,健壮性很差。
1.1
另外一种基于模板的方法是将同源页面的相同部分去掉从而获取差异的部分提取出来。通用性很好但是会增加丢失页面正文的可能性,比如两篇文章讨论部分相同部分会被误删,或者是不同的噪声会被保留。类似成熟的算法有des和roadrunner等。

2.基于统计的方法
从网页标签序列中找出相应的文本序列,由于网页正文与非网页正文的长度、标签数量,继而统计出文本密度、链接密度,以统计的方式提取正文。
优点:实现简单,不需要具体网站具体分析,通用性较好。
缺点:识别准确率有限,可能会提取到正文附近文字例如版权声明、备注等。

3.基于深度学习、机器学习、神经网络的方法
(咱也没用过,咱也不敢说,反正牛逼就完事儿了。)
优点:提取准确。
缺点:训练数据庞大,较前面几种更复杂。

4.网页信息提取开源库
使用库里编写好的方法直接调用,提取标题、正文、图片等。我使用过的是Goose-extractor和newspapers两个库,在python3.5环境下。
优点:方便、快速、较准确。
缺点:为什么说较准确,因为我在使用提取某种特殊的网页时候出了错误!这个网页正文之间穿插了一些图片,然鹅goose只提取了正文图片隔开前面的文字,有待改进。

5.基于视觉分块的提取算法
从用户对网页的视觉感受出发,依靠网页中的节点样式对页面进行分块,寻找最低层容器节点的各个文本节点进行合并,计算信息量并比较最低层容器节点与其兄弟节点、父节点的信息量,从而选择出能构成文本块的节点。
优点:准确性较高。
缺点:计算量过大,且一些网页分块过散,视觉特征复杂,布局不规范等都会影响提取。

常用网页正文提取方法总结相关推荐

  1. php 正文提取算法,基于机器学习的网页正文提取方法

    摘  要: 先将网页转换为规范的DOM树,然后计算每行文本的文本密度.与标题相关度等值,并将其作为输入参数利用BP神经网络进行训练,进而形成抽取规则,最后通过实验验证该方法的可行性. 关键词: 信息提 ...

  2. 3d立体相册特效html网页代码_新闻类网页正文通用抽取器

    项目起源 开发这个项目,源自于我在知网发现了一篇关于自动化抽取新闻类网站正文的算法论文--<基于文本及符号密度的网页正文提取方法> 这篇论文中描述的算法看起来简洁清晰,并且符合逻辑.但由于 ...

  3. 常用网页使用js技巧收集(200多个)经典

    常用网页使用js技巧收集(200多个)经典 1.文本框焦点问题 onBlur:当失去输入焦点后产生该事件 onFocus:当输入获得焦点后,产生该文件 Onchange:当文字值改变时,产生该事件 O ...

  4. 《Dreamweaver CS6完美网页制作——基础、实例与技巧从入门到精通》——1.3 常用网页设计软件...

    本节书摘来自异步社区<Dreamweaver CS6完美网页制作--基础.实例与技巧从入门到精通>一书中的第1章,第1.3节,作者:何新起 更多章节内容可以访问云栖社区"异步社区 ...

  5. 无关标签的一般长文本网页正文内容抽取

    无关标签的一般长文本网页正文内容抽取 一般的网页内容抽取需要针对特定的网站进行特定的检查定位正文标签,指定抽取规则.但是如果需要抽取100个不同内容结构的网站正文,需要的就是100个不同的规则. 有没 ...

  6. java 网页正文抽取算法_网页正文抽取算法 ContentExtractor

    软件介绍 简介 ContentExtractor 是一个开源的网页正文抽取工具,用JAVA实现,具有非常高的抽取精度. 算法 ContentExtractor的网页正文抽取算法使用的是CEPR,适用于 ...

  7. php网页正文提取,通用网页正文抓取工具_任意网页正文提取API

    ArticleExtractor 智能提取任意网页正文内容 无需任何规则,输入目标内容面url地址(网站首页.列表页面除外),可轻松实现对任意新闻网页正文智能提取,并去除广告等与正文无关的内容. 提取 ...

  8. java 网页正文抽取算法_GitHub - hfut-dmic/ContentExtractor: 自动抽取网页正文的算法,用JAVA实现...

    ContentExtractor ##简介 ContentExtractor是一个开源的网页正文抽取工具,用JAVA实现,具有非常高的抽取精度. ##算法 ContentExtractor的网页正文抽 ...

  9. 几种常用网页文本编辑器总结

    原文地址: 几种常用网页文本编辑器总结 作者: 浪迹天涯无忧少年 文本编辑器应用总结 一. lhgeditor文本编辑器 lhgeditor组件文件结构: 1. lhgeditor.js: 组件的核心 ...

  10. 一种提取HTML网页正文的方法

    这里所说的正文提取主要是针对新闻页面等网页的主体是文字的HTML页面.在做一些与文本处理相关的实验时往往需要大量的文本,虽然网络上已经存在了一些开放数据集如搜狗语料库,但是有的时候也需要根据具体的需求 ...

最新文章

  1. Java8 Map中新增的方法使用总结
  2. jQuery的概念、用法、常见面试题详解
  3. git tag 功能笔记
  4. Android WebView重定向问题,Android WebView 重定向问题
  5. Html之实例练习(轮播图片、放大镜效果、面板拖动)
  6. C语言丨函数的递归调用和递归函数
  7. Android导入第三方jar包
  8. 圆检测——最小二乘法拟合圆的推导
  9. 计算机组成原理CPUCLK什么,计算机组成原理之CPU原理.pdf
  10. 【STM32开发环境搭建】 - st-link驱动安装和串口驱动安装
  11. qlistview 自定义控件_python – QListView中的自定义项
  12. 跑跑卡丁车rush服务器维护,跑跑卡丁车RUSH
  13. wordpress文章编辑器,wp文章图片排版关键词水印插件
  14. 【云原生 | Kubernetes 系列】---Skywalking部署和监控
  15. 如何快速学会一项新技能?
  16. 解读小米模式:颠覆式创新者的背后
  17. 微信小程序 input 的 type属性 text、number、idcard、digit 区别
  18. 解决Python打包exe控制台无法粘贴问题
  19. java判断垃圾已回收_[译] 现代垃圾回收
  20. 使用PyTorch Geometric构建自己的图数据集

热门文章

  1. Java开发社招面试经验:2021最新Java面试笔试
  2. 曼哈顿距离与切比雪夫距离的亲密♂关系。
  3. Google BBR是什么?以及在 CentOS 7 上如何部署
  4. 实验一 Matlab语音处理基本指令
  5. Android 13运行时权限变更一览
  6. linux date英文日期、星期简写说明(中文对照)
  7. Android跳转第三方App,淘宝,微信,QQ等。
  8. 电路图精简版(web内置画图软件)
  9. android 修改ip的scope的作用,Android Netd分析
  10. 起点中文网乘“盛大”之势打通产业供应链