软件介绍

简介

ContentExtractor 是一个开源的网页正文抽取工具,用JAVA实现,具有非常高的抽取精度。

算法

ContentExtractor的网页正文抽取算法使用的是CEPR,适用于几乎所有的包含正文的网页。 算法简介:

项目地址转移

项目已和WebCollector合并,当前项目为老版本ContentExtractor,请前往WebCollector项目查看ContentExtractor的最新版本源码和API。

教程(只适用于老版本,新版本请前往WebCollector)

ContentExtractor的接口非常简单,用户可以根据网页的url,或者网页的html,来进行网页正文抽取:

根据url,抽取网页的正文:

public static void main(String[] args) throws Exception {

String content=ContentExtractor.getContentByURL("http://news.

xinhuanet.com/world/2014-11/02/c_127166728.htm");

System.out.println(content);

}

根据html,抽取网页的正文:

public static void main(String[] args) throws Exception {

String html="获取到的html源码";

String content=ContentExtractor.getContentByHtml(html);

System.out.println(content);

}

导入项目(只适用于老版本,新版本请前往WebCollector)

从ContentExtractor的github主页https://github.com/hfut-dmic/ContentExtractor上下载ContentExtractor-{版本号}-bin.zip,将解压后得到的jar包全部放到工程的build path即可。

ContentExtractor由合肥工业大学dmic团队开发

为你推荐:

java 网页正文抽取算法_网页正文抽取算法 ContentExtractor相关推荐

  1. java 哈希一致算法_一致哈希算法Java实现

    一致哈希算法(Consistent Hashing Algorithms)是一个分布式系统中常用的算法.传统的Hash算法当槽位(Slot)增减时,面临所有数据重新部署的问题,而一致哈希算法确可以保证 ...

  2. 网页设计分割线代码_网页设计中的黄金分割

    网页设计分割线代码 数学是美丽的. 这听起来有点奇怪吗? 刚开始设计时,我肯定是这么认为的. 我这么想,数学是如此刻板,常常无聊. 您会惊讶地发现,大多数美学上令人愉悦的设计,艺术品,物体甚至人与人之 ...

  3. java实现子序列最大和_“最大子序列和”算法 java

    maxSubSum各自是最大子序列和的4中java算法实现. 第一种算法执行时间为O(N^3),另外一种算法执行时间为O(N^2),第三种算法执行时间为O(nlogn),第四种算法执行时间为线性N p ...

  4. 文本聚类分析算法_常用的聚类分析算法综述

    聚类分析定义 所谓聚类就是按照事物的某些属性,把事物聚集成类,使类间的相似性尽可能小,类内相似性尽可能大.聚类是一个无监督的学习过程,它同分类的根本区别在于分类是需要事先知道所依据的数据特征,而聚类是 ...

  5. mysql区间算法_「五大常用算法」一文图解分治算法和思想

    前言 分治算法(divide and conquer)是五大常用算法(分治算法.动态规划算法.贪心算法.回溯法.分治界限法)之一,很多人在平时学习中可能只是知道分治算法,但是可能并没有系统的学习分治算 ...

  6. 机器学习算法_机器学习之EM算法和概率图模型

    [晓白]今天我准备更新Machine Learning系列文章希望对机器学习复习和准备面试的同学有帮助!之前更新了感知机和SVM,决策树&代码实战,关注我的专栏可以的文章哦!今天继续更新EM算 ...

  7. hash算法_数据库中间件分片算法之hash

    前言 夜深人静的时候,打开云音乐,点上一曲攀登,带上真无线蓝牙耳机,瞬间燃到爆,键盘打字如飞倦意全无. 分片规则 这几天有人问我,dble和MyCat到底有什么不同.其实dble作为MyCAT的同门, ...

  8. kmeans算法_实战 | KMeans 聚类算法

    1. 写在前面 如果想从事数据挖掘或者机器学习的工作,掌握常用的机器学习算法是非常有必要的,常见的机器学习算法: 监督学习算法:逻辑回归,线性回归,决策树,朴素贝叶斯,K近邻,支持向量机,集成算法Ad ...

  9. 人工智能算法_人工智能的灵魂——算法

    人工智能有三驾马车:数据.算法.算力.本文重点介绍算法相关的知识. 本文将介绍算法在人工智能里的概念,算法的4个特征.6个通用方法.以及在选择算法时需要注意的3个点. 什么是算法? 简单的说,算法就是 ...

最新文章

  1. ubuntu14.04下的NVIDIA Tesla K80显卡驱动的安装教程
  2. HDLBits答案(25)_编写Testbench
  3. C++描述杭电OJ 2016. 数据的交换输出 ||
  4. jni 结构体转对象_JVM系列(一)JVM启动流程和基本结构
  5. 如何真正实现无提示保存Excel文档
  6. input 下面的span 标签 作为下拉框选项的点击
  7. PHP网站安装程序制作的原理、步骤、注意事项和示例代码
  8. Debian分区工具partman
  9. Vue中动态切换组件
  10. 5分钟商学院-个人篇-沟通能力
  11. unity中显示fps
  12. python不解压直接提取文件_不解压直接读取压缩包中的文件
  13. 百度笔记聚合是什么?
  14. 百度地图线路颜色_旅游厕所电子地图:让“方便”更方便
  15. vue的provide的使用
  16. Ofiice 2016 Excel 表中某一列按照另一列的数值进行排序
  17. INH-RFP-BSA-NPs载INH和RFP白蛋白纳米粒/载卡巴他赛的白蛋白纳米粒的制备
  18. 括号中的可选、必选表示
  19. 账号密码外泄检测,看看你已经外泄了哪些网站的账号密码
  20. C4996 ‘scanf‘: This function or variable may be unsafe. Consider using scanf_s instead.

热门文章

  1. LeetCode 127. 单词接龙(图的BFS/双向BFS)
  2. pythonmain是什么意思_Python中if __name__ == __main__详细解释
  3. python中僵尸进程
  4. InfluxDB安装及使用
  5. mac笔记本修改 mysql 的密码
  6. (十四)【RecSys 2016】Personalized Recommendations using Knowledge Graphs: A Probabilistic【看不懂】
  7. LeetCode之最小路径和
  8. 谷歌:一篇论文,让研究者吃我三份安利
  9. EdgeBERT:极限压缩,比ALBERT再轻13倍!树莓派上跑BERT的日子要来了?
  10. 基于 KIF 的 iOS UI 自动化测试和持续集成