文章目录

  • 前言
  • 一个爬取新闻网页数据的神器
  • 小试牛刀
    • 如何快速安装
      • windows安装
      • Debian / Ubuntu安装
      • OSX安装
  • 体验更多的功能

前言

随着越来的进行自然语言处理相关方面的研究,但是,往往一些文本数据,我们很难去获得,那么如何快速的获取网页数据呢?最常用的方法就是自己写爬虫或者借助别人的爬虫框架来爬取网站,当时这个往往学习成本比较高**,那么我们有没有什么捷径可以很快的的通过别人已经定义好的爬虫库来爬取新闻网页数据呢?**

一个爬取新闻网页数据的神器

介绍python一个文章爬取和管理的神器,当前在Github上fork的人数已经过了7K了,并且还是持续增加

小试牛刀

我现在想爬取一下这个网页的数据:
http://www.aihami.com/a/dangjian/shibada/400787.html

我只需如下几行代码就行了

from newspaper import Articleurl = 'http://www.aihami.com/a/dangjian/shibada/400787.html'
article = Article(url, language='zh') # Chinese
article.download()
article.parse()
print(article.text[:])

然后可以发现我已经得到了网页上的新闻内容

我这里是输出了全部的内容,当然你也可以选择性输出,比如:

  1. 只输出内容:
print(article.text)
  1. 只输出标题
print(article.title)
  1. 输出最上面的图片:
print(article.top_image)

如何快速安装

windows安装

官方建议使用python3,如果没有意外的话,你完全可以通过Anaconda环境下通过以下命令安装(本人win10系统)

pip3 install newspaper3k

Debian / Ubuntu安装

不太确定是否装了Anaconda之后,可以直接:

pip3 install newspaper3k

大家可以试一试

如果不行,官方建议按照如下步骤

sudo apt-get install python3-pip
sudo apt-get install python3-pip
sudo apt-get install libxml2-dev libxslt-dev
sudo apt-get install libjpeg-dev zlib1g-dev libpng12-dev

如果安装libpng12-dev有问题,尝试安装libpng-dev
然后进行

curl https://raw.githubusercontent.com/codelucas/newspaper/master/download_corpora.py | python3
pip3 install newspaper3k

OSX安装

可以直接:

pip3 install newspaper3k

如果不行,官方建议

$ brew install libxml2 libxslt$ brew install libtiff libjpeg webp little-cms2$ pip3 install newspaper3k$ curl https://raw.githubusercontent.com/codelucas/newspaper/master/download_corpora.py | python3

体验更多的功能

这个库还有其他更多的功能,大家可以参考它的官方文档:
https://newspaper.readthedocs.io/en/latest/user_guide/quickstart.html#

也可以查看它的官方源代码:
https://github.com/codelucas/newspaper

如何利用python的newspaper包快速爬取网页数据相关推荐

  1. java爬取网页数据_利用Python做数据分析—对前程无忧数据类岗位进行分析

    引言 随着时代的发展,我国在各行各业都需要大量的人才引进,处于近几年最热门的行业也称"最火行业":大数据.数据分析.数据挖掘.机器学习.人工智能,这五门行业各有不同又互有穿插.近几 ...

  2. 利用Python进行百度文库内容爬取(二)——自动点击预览全文并爬取

    本文是衔接上一篇:<利用Python进行百度文库内容爬取(一)>. 上回说到我们在对百度文库进行爬虫时,需要模拟手机端来进行登录,这样固然可以对文章进行爬取,但是很多时候并不是非常智能的翻 ...

  3. python初学-爬取网页数据

    python初学-爬取网页数据 1,获取网页源代码 import urllib url = 'http://www.163.com'wp = urllib.urlopen(url) file_cont ...

  4. python爬取网页公开数据_如何用Python爬取网页数据

    使用Python爬取网页数据的方法: 一.利用webbrowser.open()打开一个网站:>>> import webbrowser >>> webbrowse ...

  5. 编程python爬取网页数据教程_实例讲解Python爬取网页数据

    一.利用webbrowser.open()打开一个网站: >>> import webbrowser >>> webbrowser.open('http://i.f ...

  6. python爬虫教程:实例讲解Python爬取网页数据

    这篇文章给大家通过实例讲解了Python爬取网页数据的步骤以及操作过程,有兴趣的朋友跟着学习下吧. 一.利用webbrowser.open()打开一个网站: >>> import w ...

  7. Python小姿势 - Python爬取网页数据

    Python爬取网页数据 爬取网页数据是一个比较常见的Python应用场景,有很多第三方库可以帮助我们完成这个任务.这里我们介绍一下urllib库中的一个常用方法:urllib.request.url ...

  8. 如何用python爬取网页数据,python爬取网页详细教程

    大家好,本文将围绕python怎么爬取网站所有网页展开说明,如何用python爬取网页数据是一个很多人都想弄明白的事情,想搞清楚python如何爬取网页数据需要先了解以下几个事情. 1.如何用Pyth ...

  9. python爬虫爬网站数据登录_使用webdriver+urllib爬取网页数据(模拟登陆,过验证码)...

    urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...

最新文章

  1. php mysql 连接不上_PHP: 连接状态 - Manual
  2. The organization of a typical MVC application
  3. 聊聊成为大神路上的过程
  4. 什么叫计算机网络阻塞,计算机网络中的“线端阻塞”释义
  5. MyBatis 源码解读-databaseIdProviderElement()
  6. 国外学校css profile,CSS Print Profile
  7. SQL注入-SQL注入的WAF绕过(十六)
  8. mysql 8.0.22_最新版MySQL 8.0.22下载安装超详细教程(Windows 64位)
  9. jenkins 插件目录_10 个 Jenkins 实战经验,助你轻松上手持续集成
  10. linux 怎么改系统字体,Linux下如何设置中文字体
  11. poi 操作excel的处理
  12. eclipse中无法新建Android工程 出现问题:Plug-in org.eclipse.ajdt.ui was unable to load
  13. 流程图函数’怎么画_程序员必备画图技能之——流程图
  14. WORD的一个BUG
  15. Swift中的Array数组遍历
  16. mysql mm keeplive_mysql +keeplive
  17. python 批处理合并表格_高效办公4——Python批量合并Excel指定列相同内容单元格...
  18. fastlane:构建、测试和发布 React Native 应用程序
  19. SDH与SONET(整理)
  20. 柔性上肢康复机器人研究中的VR技术

热门文章

  1. 分割数组(将数组三等分)
  2. 伍六七带你学算法 入门篇-最小的k个数
  3. Go 知识点(05)— 类型别名与类型定义
  4. MLIR中间表示和编译器框架
  5. 快手推荐系统及 Redis 升级存储
  6. CUDA 11功能展示
  7. 2021年大数据Flink(二十九):Flink 容错机制 Savepoint
  8. 2021年大数据Flink(七):​​​​​​​参数总结
  9. setTimeout、setInterval、promise、async/await的顺序详解(多种情况,非常详细~)
  10. Android SurfaceView 黑背景的处理方法