在写爬虫进行舆情分析、情感分析等内容时,我们经常爬取博客、新闻等长篇大论的文章,在一个网页上,根据网页布局,人眼可以很明确的确定哪些元素是文章主体。人眼既然能够识别,那么机器必然也是能够识别的。如果给定一片HTML文档,机器学习返回文章主体所在的元素,那样在写爬虫时就可以避免F12打开控制台查看元素名称了。

从网页中提取出主要内容,一直是一个比较有挑战的算法。Readability是其中一个很不错的实现。Readability之前是开源的,后来不再公开了。
Readability通过遍历Dom对象,通过标签和常用文字的加减权,来重新整合出页面的内容。
Readability也是一款chrome插件,可以提取网页正文发送到手机,这样就可以空闲时在移动端详细阅读正文。

python:https://github.com/timbertson/python-readability
java:https://github.com/chimbori/crux
nodejs版本:https://github.com/luin/readability
php 版本:https://github.com/feelinglucky/php-readability
JS版本:https://github.com/mozilla/readability
Swift版本:https://github.com/exyte/ReadabilityKit
Ruby版本:https://github.com/cantino/ruby-readability

参考资料

https://www.biaodianfu.com/about

转载于:https://www.cnblogs.com/weiyinfu/p/8728682.html

Redability相关推荐

  1. Spring MVC集成测试:断言给定的模型属性有全局错误

    为了使用Bean验证报告Spring MVC中的全局错误,我们可以创建一个自定义的类级别约束注释. 全局错误与已验证Bean中的任何特定字段都不相关. 在本文中,我将展示如何使用Spring Test ...

最新文章

  1. linux awk命令
  2. Leetcode 213.大家劫舍II
  3. postman设置Cookie上行参数访问接口
  4. hdu2155 小黑的镇魂曲(dp)
  5. 共享单车开启混战模式,谁能笑到最后?
  6. 二十世纪最伟大的算法,你了解哪个?
  7. MATLAB字符数组和空数组
  8. IE6 position:fixed bug (固定窗口方法)
  9. 复现《Cell》图表:双侧柱状图及坐标轴设置,ComplexHeatmap图例设置
  10. 业务流程管理,你准备好了吗?
  11. 常见十大漏洞总结(原理、危害、防御)
  12. Couldn‘t terminate the existing process for xxx
  13. 信创-东方通和达梦适配
  14. 怎样使用JPQL查询出每个部门员工的平均工资和最高工资
  15. MySQL中的通用查询日志(General Query Log)
  16. html背景图片不完全填充,background-size为100% 100%时背景图填充不完整
  17. 【转】canvas save restore详解(包你懂,绝对不是百度里千篇一律的教程)
  18. 栈的基本操作及其应用
  19. 软件开发者的精力管理(一)
  20. 谍影重重4 伯恩的遗产 720P 8.97G DTS-HD 下载

热门文章

  1. Android,EditText,InuputType
  2. 背起行囊,就是过客;放下包袱,就有归宿。
  3. Laravel Cache 的缓存文件在到期后是否会自动删除
  4. Keil MDK从未有过的详细使用讲解
  5. LA_4670_Dominating_Patterns_(AC自动机+map)
  6. CXF WebService整合SpringMVC的maven项目
  7. 【Spring MVC】学习笔记汇总
  8. 【数据库系统设计】数据库安全性
  9. 【jQuery笔记Part1】05-jQuery解决冲突
  10. win10和ubuntu18双系统时间同步(20190604亲测可行)