常用网页正文提取方法总结

最近研究这块内容头发快掉完，写一些东西来梳理梳理，以后写论文可能用得上。

1.基于模板的方法
依赖html文档内部结构特征来完成数据抽取。常用的一些有正则、xpath、selector css、beautifulsoup等等。
优点：针对特定的网页模式，实现简单（可以自己写或者借助半自动工具Google开发者工具、xpath helper插件等），定位准确。
缺点：对于不同的网页模式或者网页结构需要重写模板，且维护代价很大，健壮性很差。
1.1
另外一种基于模板的方法是将同源页面的相同部分去掉从而获取差异的部分提取出来。通用性很好但是会增加丢失页面正文的可能性，比如两篇文章讨论部分相同部分会被误删，或者是不同的噪声会被保留。类似成熟的算法有des和roadrunner等。

2.基于统计的方法
从网页标签序列中找出相应的文本序列，由于网页正文与非网页正文的长度、标签数量，继而统计出文本密度、链接密度，以统计的方式提取正文。
优点：实现简单，不需要具体网站具体分析，通用性较好。
缺点：识别准确率有限，可能会提取到正文附近文字例如版权声明、备注等。

3.基于深度学习、机器学习、神经网络的方法
（咱也没用过，咱也不敢说，反正牛逼就完事儿了。）
优点：提取准确。
缺点：训练数据庞大，较前面几种更复杂。

4.网页信息提取开源库
使用库里编写好的方法直接调用，提取标题、正文、图片等。我使用过的是Goose-extractor和newspapers两个库，在python3.5环境下。
优点：方便、快速、较准确。
缺点：为什么说较准确，因为我在使用提取某种特殊的网页时候出了错误！这个网页正文之间穿插了一些图片，然鹅goose只提取了正文图片隔开前面的文字，有待改进。

5.基于视觉分块的提取算法
从用户对网页的视觉感受出发，依靠网页中的节点样式对页面进行分块，寻找最低层容器节点的各个文本节点进行合并，计算信息量并比较最低层容器节点与其兄弟节点、父节点的信息量，从而选择出能构成文本块的节点。
优点：准确性较高。
缺点：计算量过大，且一些网页分块过散，视觉特征复杂，布局不规范等都会影响提取。

常用网页正文提取方法总结相关推荐

php 正文提取算法,基于机器学习的网页正文提取方法
摘要: 先将网页转换为规范的DOM树,然后计算每行文本的文本密度.与标题相关度等值,并将其作为输入参数利用BP神经网络进行训练,进而形成抽取规则,最后通过实验验证该方法的可行性. 关键词: 信息提 ...
3d立体相册特效html网页代码_新闻类网页正文通用抽取器
项目起源开发这个项目,源自于我在知网发现了一篇关于自动化抽取新闻类网站正文的算法论文--<基于文本及符号密度的网页正文提取方法> 这篇论文中描述的算法看起来简洁清晰,并且符合逻辑.但由于 ...
常用网页使用js技巧收集(200多个)经典
常用网页使用js技巧收集(200多个)经典 1.文本框焦点问题 onBlur:当失去输入焦点后产生该事件 onFocus:当输入获得焦点后,产生该文件 Onchange:当文字值改变时,产生该事件 O ...
《Dreamweaver CS6完美网页制作——基础、实例与技巧从入门到精通》——1.3 常用网页设计软件...
本节书摘来自异步社区<Dreamweaver CS6完美网页制作--基础.实例与技巧从入门到精通>一书中的第1章,第1.3节,作者:何新起更多章节内容可以访问云栖社区"异步社区 ...
无关标签的一般长文本网页正文内容抽取
无关标签的一般长文本网页正文内容抽取一般的网页内容抽取需要针对特定的网站进行特定的检查定位正文标签,指定抽取规则.但是如果需要抽取100个不同内容结构的网站正文,需要的就是100个不同的规则. 有没 ...
java 网页正文抽取算法_网页正文抽取算法 ContentExtractor
软件介绍简介 ContentExtractor 是一个开源的网页正文抽取工具,用JAVA实现,具有非常高的抽取精度. 算法 ContentExtractor的网页正文抽取算法使用的是CEPR,适用于 ...
php网页正文提取,通用网页正文抓取工具_任意网页正文提取API
ArticleExtractor 智能提取任意网页正文内容无需任何规则,输入目标内容面url地址(网站首页.列表页面除外),可轻松实现对任意新闻网页正文智能提取,并去除广告等与正文无关的内容. 提取 ...
java 网页正文抽取算法_GitHub - hfut-dmic/ContentExtractor: 自动抽取网页正文的算法，用JAVA实现...
ContentExtractor ##简介 ContentExtractor是一个开源的网页正文抽取工具,用JAVA实现,具有非常高的抽取精度. ##算法 ContentExtractor的网页正文抽 ...
几种常用网页文本编辑器总结
原文地址: 几种常用网页文本编辑器总结作者: 浪迹天涯无忧少年文本编辑器应用总结一． lhgeditor文本编辑器 lhgeditor组件文件结构: 1. lhgeditor.js: 组件的核心 ...
一种提取HTML网页正文的方法
这里所说的正文提取主要是针对新闻页面等网页的主体是文字的HTML页面.在做一些与文本处理相关的实验时往往需要大量的文本,虽然网络上已经存在了一些开放数据集如搜狗语料库,但是有的时候也需要根据具体的需求 ...

常用网页正文提取方法总结

常用网页正文提取方法总结相关推荐

最新文章

热门文章