1. Goose Extractor

1.1 Python Goose介绍

Goose Extractor是一个Python的开源文章提取库。可以用它提取文章的文本内容、图片、视频、元信息和标签。Goose本来是由Gravity.com编写的Java库,最近转向了scala。

Goose Extractor网站是这么介绍的:

Goose Extractor完全用Python重写了。目标是给定任意资讯文章或者任意文章类的网页,不仅提取出文章的主体,同时提取出所有元信息以及图片等信息。

Goose Extractor基于NLTK和Beautiful Soup,分别是文本处理和HTML解析的领导者。用Python进行文章提取可以使用Python Goose。

Goose目前只支持Python2

1.2 安装Python Goose

pip install goose-extractor

直接使用Url链接抽取示例:

from goose import Goose

url = 'https://www.fireeye.com/blog/executive-perspective/2017/08/fireeye-provides-update-on-allegations-of-breach.html'

g = Goose()

article = g.extract(url=url)

print article.title

print article.meta_description

print article.cleaned_text[:150]

print article.top_image.src

使用Html文档抽取示例:

# -*- coding: utf-8 -*-

import goose,urllib2,sys

reload(sys)

sys.setdefaultencoding("utf-8")

#url = "https://www.fireeye.com/blog/executive-perspective/2017/08/anti-encryption-and-cyber-sovereignty.html"

url = "https://krebsonsecurity.com/2017/09/equifax-hackers-stole-200k-credit-card-accounts-in-one-fell-swoop/"

opener = urllib2.build_opener(urllib2.HTTPCookieProcessor())

response = opener.open(url)

raw_html = response.read()

g = goose.Goose()

article = g.extract(raw_html=raw_html)

print article.title.encode('gbk', 'ignore')

print article.meta_description.encode('gbk', 'ignore')

print article.cleaned_text.encode('gbk', 'ignore')

1.3 urllib2获取的HTML网页乱码问题

网页可能是压缩了,看里面是不是有 Content-Encoding:xxx

如果是压缩了,需要手动解压,urllib是不会帮你解压的

解决代码:

#-*- encoding: utf-8 -*-

import urllib2,gzip,StringIO

url = r'https://krebsonsecurity.com/2017/09/equifax-hackers-stole-200k-credit-card-accounts-in-one-fell-swoop/'

response = urllib2.urlopen(url)

stream = StringIO.StringIO(response.read())

with gzip.GzipFile(fileobj=stream) as f:

data = f.read()

print(data)

附一篇文章谈Python编码:也谈Python的中文编码处理

2. Boilerpipe

Github开源代码:Boilerpipe

在开源系统里Boilerpipe的precision和recall都好过Goose,甚至比收费的Alchemy API还要好。Boilerpipe是Java的,在Python里调用需要用python-boilerpipe这个包装,它底层用的是jpype。也可以用JCC来调。代码如下:

安装:

git clone https://github.com/misja/python-boilerpipe.git

cd python-boilerpipe

pip install -r requirements.txt

python setup.py install

使用:

from boilerpipe.extract import Extractor

url = "https://krebsonsecurity.com/2017/09/equifax-hackers-stole-200k-credit-card-accounts-in-one-fell-swoop/"

extractor = Extractor(extractor='ArticleExtractor', url=url)

print extractor.getText().encode('gbk', 'ignore')

或传入一个HTML文本作为参数:

extractor = Extractor(extractor='ArticleExtractor', html=myWebPage)

用getText() or getHTML() 拿回处理过的纯文本或加亮了正文的HTML

processed_plaintext = extractor.getText()

highlighted_html = extractor.getHTML()

也可以用JCC把Java的包编译成Python可以调用的包

wget http://boilerpipe.googlecode.com/files/boilerpipe-1.2.0-bin.tar.gz

tar xvzf boilerpipe-*.tar.gz

cd boilerpipe-1.2.0

sudo python -m jcc \ --jar boilerpipe-1.2.0.jar \ --classpath lib/nekohtml-1.9.13.jar \ --classpath lib/xerces-2.9.1.jar \ --package java.net \ java.net.URL \ --python boilerpipe --build --install

使用:

import boilerpipe

jars = ':'.join(('lib/nekohtml-1.9.13.jar', 'lib/xerces-2.9.1.jar'))

boilerpipe.initVM(boilerpipe.CLASSPATH+':'+jars)

extractor = boilerpipe.ArticleExtractor.getInstance()

url = boilerpipe.URL('http://readthedocs.org/docs/jcc')

extractor.getText(url)

3. 各种Python正文抽取工具比较

各种Python正文抽取工具比较

python从网页提取文本_使用Python进行网页正文提取相关推荐

  1. python离线语音转文本_使用Python将语音转换为文本的方法

    使用Python将语音转换为文本的方法,语音,转换为,文本,您的,麦克风 使用Python将语音转换为文本的方法 易采站长站,站长之家为您整理了使用Python将语音转换为文本的方法的相关内容. 语音 ...

  2. python从html中提取文本_使用Python从HTML中提取可读文本?

    我知道像html2text,BeautifulSoup等的utils,但问题是他们也提取javascript并将其添加到文本中,因此很难将它们分开. htmlDom = BeautifulSoup(w ...

  3. python把坐标写入文本_使用Python将XY坐标写入CSV文件

    我是python编程新手,我有一个相当简单的项目,但有一些困难.我想(a)提取shapefile(多边形)顶点的XY坐标,(2)将所有坐标写入一个csv文件,其中第一列是X坐标,第二列是Y坐标.到目前 ...

  4. 基于python爬虫技术的应用_基于Python爬虫技术的应用

    办公自动化杂志 一.引言 本文主要是对 Python 爬虫技术进行阐述,基于 python 的爬虫与其他语言相比的有很多优势.通过爬去某个网站的所有新闻这个案例,来进一步阐释 Python 爬虫技术的 ...

  5. HTML5期末大作业:鲜花超市网站设计——鲜花超市(4页) HTML+CSS+JavaScript HTML5网页设计成品_学生DW静态网页设计代做_web课程设计网页制作

    HTML5期末大作业:鲜花超市网站设计--鲜花超市(4页) HTML+CSS+JavaScript HTML5网页设计成品_学生DW静态网页设计代做_web课程设计网页制作 作品介绍 1.网页作品简介 ...

  6. HTML5期末大作业:商城网站设计——仿天猫商城(9页) HTML+CSS大作业_ 网页制作作业_疫情防控网页设计...

    HTML5期末大作业:商城网站设计--仿天猫商城(9页) HTML+CSS大作业: 网页制作作业_疫情防控网页设计- 常见网页设计作业题材有 个人. 美食. 公司. 学校. 旅游. 电商. 宠物. 电 ...

  7. HTML5期末大作业:婚庆网站设计——红色的婚庆(18页) HTML5网页设计成品_学生DW静态网页设计代做_web课程设计网页制作

    HTML5期末大作业:婚庆网站设计--红色的婚庆(18页) HTML5网页设计成品_学生DW静态网页设计代做_web课程设计网页制作 常见网页设计作业题材有 个人. 美食. 公司. 学校. 旅游. 电 ...

  8. HTML+CSS网页设计期末课程大作——XXXXX (X页) HTML5网页设计成品_学生DW静态网页设计_web课程设计网页制作

    HTML+CSS网页设计期末课程大作--XXXXX (X页) HTML5网页设计成品_学生DW静态网页设计_web课程设计网页制作 常见网页设计作业题材有 个人. 美食. 公司. 学校. 旅游. 电商 ...

  9. HTML5期末大作业:甜品奶茶网站设计——甜品奶茶店(19页) HTML5网页设计成品_学生DW静态网页设计_web课程设计网页制作

    HTML5期末大作业:甜品奶茶网站设计--甜品奶茶店(19页) HTML5网页设计成品_学生DW静态网页设计_web课程设计网页制作 常见网页设计作业题材有 个人. 美食. 公司. 学校. 旅游. 电 ...

  10. div+css静态网页设计——迪斯尼公主滚动特效(7页) HTML5网页设计成品_学生DW静态网页设计代做_web课程设计网页制作

    HTML5期末大作业:电影网站设计--迪斯尼公主滚动特效(7页) HTML5网页设计成品_学生DW静态网页设计代做_web课程设计网页制作 常见网页设计作业题材有 个人. 美食. 公司. 学校. 旅游 ...

最新文章

  1. java程序解压/压缩.gz文件
  2. Codeforces 448C Painting Fence:分治
  3. threadlocal内存泄露_ThreadLocal 简介
  4. android binder与handler的简要理解
  5. 07.30《jQuery》——1.1DOM对和jQuery对象的转化
  6. 易写易库(EXEK)玩“花”儿之三:命令有图标支持库,附图
  7. 期待鸿蒙是什么意思,如何看待华为将于 6月2 日举办鸿蒙发布会?你对此有哪些期待?...
  8. 两种查找bapi的方法
  9. 【慢慢学算法】:qsort()与sort的用法(收藏)
  10. iOS·Charts·集成步骤
  11. Hessian的使用与介绍
  12. 语言编出的程序怎么实装_程序员小白:编程语言到底该怎么选?
  13. 项目实战-1读取记事本中的文件,写入到slice切片中。
  14. JS 学习笔记--10---基本包装类型
  15. 扫描工具扫描法查看网内IP使用情况
  16. JAVA链表中的回文链表结构
  17. linux jconsole 监控jvm,JVM监测分析JConsole
  18. mac打开网页速度特别慢
  19. SiebelAdapter--具体干事的类,
  20. Venmo、Bakkt、MoneyGram、Uphold的前高管加入Roxe全球支付网络

热门文章

  1. csm和uefi_uefi是什么意思?uefi和BIOS的区别是什么?
  2. HtmlUnit实现人人网登陆
  3. 思考的力量-总结-脑图
  4. 淘宝客佣金设置多少合适?淘宝客的佣金是怎么算的?
  5. AI周报丨多个国内团队使用人工智能揭示蛋白质相互作用;超参数调优河伯、组合优化器CompBO,华为诺亚开源贝叶斯优化库
  6. PS CC2018替换/修改图片上的文字内容
  7. 失败的过去式英文翻译_过去式用英语怎么说
  8. AR拍照的实现核心代码
  9. html5编辑器(图片编辑器基于canvas)
  10. 策略和投资组合分析-收益分析、风险回报分析和回撤分析