python爬虫及数据可视化分析

  • 1.前言
  • 2.数据爬取
    • 2.1定位到爬取数据
    • 2.2爬虫实现方法
  • 3.数据可视化分析
    • 3.1将短文学网的各类文章做一个统计
    • 3.2对某一类文章进行分析

1.前言

本篇文章主要介绍python爬虫及对爬取的数据进行可视化分析,本次介绍所用的网站是(https://www.duanwenxue.com/jingdian/zheli/)

2.数据爬取

2.1定位到爬取数据

打开我们要爬取的网页,右键选择检查,在窗口中单击左上角箭头,即可查看我们需要爬取的内容:

2.2爬虫实现方法

我们要爬取一个网页,首先我们需要向网页发送一个请求,然后用get方法抓取数据(例如我要爬取https://www.duanwenxue.com/jingdian/zheli/的内容)

import requests
url = 'https://www.duanwenxue.com/article/5034441.html'
doc = requests.get(url)
print(doc.text)

通过这个方法获得数据是整个网页的源码,接下来我们,接下来要从源码中找到并提取数据。Beautiful Soup 是 python 的一个库,其最主要的功能是从网页中抓取数据。(例如我要获得https://www.duanwenxue.com/article/5035160.html的散文)

import requests
from bs4 import BeautifulSoup
url='https://www.duanwenxue.com/article/5034441.html'
html=requests.get(url)
html.encoding='gbk'
doc=BeautifulSoup(html.text,'lxml')
a=doc.find('span',{'id':'audio-span'})
c=doc.find('div',{'id':'shangDiv'})
a.decompose() # 删除无用信息
c.decompose()
cont=doc.find('div',{'class':'article-content'}).findAll('p')
content=''
for i in cont:print(i.text)

输出结果:

人生实在当下,生活唯有形态在奋斗。——余昌开
当下就是人生实现梦想奋斗时。——余昌开
人务必从今开始,努力奋斗,实现人生的理想。——余昌开
人活着最务实的形态,是现在正在奋斗人生美好的进行中。——余昌开
版权作品,未经《短文学》书面授权,严禁转载,违者将被追究法律责任。

3.数据可视化分析

数据可视化是数据分析很重要的一部分,将数据进行可视化,更直观的呈现使数据更加客观、更具说服力。
matplotlib是用来创建图表的工具包之一,是一个Python 2D绘图库,它可以在各种平台上以各种硬拷贝格式和交互式环境生成出具有出版品质的图形。

3.1将短文学网的各类文章做一个统计

柱形图:

plt.rcParams['font.sans-serif']=['SimHei']
plt.figure(figsize=(10,10))
plt.xticks(rotation=45)
plt.title("各类文章数目")# 标题
plt.xlabel("文章类型")#横坐标名字
plt.ylabel("数量")#纵坐标名字
plt.bar(x, y)
for x,y in zip(x,y):plt.text(x,y,"{f}".format(f=y),ha="center",va='bottom')
plt.show()

结果:

饼状图:

plt.figure(figsize=(30, 30))  #设置大小
plt.pie(y,labels = x,  autopct='%1.1f%%')
plt.axis('equal')
plt.show()

结果:

通过对柱形图和饼状图的观察,可以发现在短文学中,“散文随笔”,“心情随笔”,“散文诗”,“散文文字”,“经典语录”类的文学作品占大部分(82%),而其他类型的作品占小部分(18%)。

3.2对某一类文章进行分析

我们选择对励志文章的标题进行分析,通过标题的重点词汇生成词云,反映出这类文章的大致内容趋向于哪一方面。
代码如下:

stopwords={'你','我','的','自己'}# 去掉无用的词
word_cut=jieba.cut(word_content)
word_cut_join=" ".join(word_cut)#把分词用空格连起来
#生成词云
wc=WordCloud(font_path='simsun.ttc',#设置字体max_words=100,#词云显示的最大词数# mask=mask_img,#设置背景图片stopwords=stopwords,background_color='white'#背景颜色).generate(word_cut_join)plt.imshow(wc)
plt.axis('off')#去掉坐标轴
plt.savefig('title.jpg')
plt.show()

结果:

可以看到,多次出现的大学有 “河南”,“科技”,“大学”,“农学院”。

以上便是本文全部内容,代码只包含主要部分,关于数据可视化还有其他几种方法,具体可查看python使用Matplotlib画图。

python爬虫及数据可视化分析相关推荐

  1. Python爬虫以及数据可视化分析

    Python爬虫以及数据可视化分析之Bilibili动漫排行榜信息爬取分析 简书地址:https://www.jianshu.com/u/40ac87350697 简单几步,通过Python对B站番剧 ...

  2. Python爬虫以及数据可视化分析!

    简单几步,通过Python对B站番剧排行数据进行爬取,并进行可视化分析 源码文件可以参考Github上传的项目:https://github.com/Lemon-Sheep/Py/tree/maste ...

  3. Python爬虫以及数据可视化分析!这才是零基础入门案例!

    简单几步,通过Python对B站番剧排行数据进行爬取,并进行可视化分析 下面,我们开始吧! PS: 作为Python爬虫初学者,如有不正确的地方,望各路大神不吝赐教[抱拳] 本项目将会对B站番剧排行的 ...

  4. Python爬虫以及数据可视化分析之某站热搜排行榜信息爬取分析

    目录 前言 一,确定目标 二,发送请求 三, 解析数据 四, 保存数据 pyecharts进行可视化 "某站"数据排名前10视频类型 "某站"标题标签可视化 & ...

  5. Python爬虫以及数据可视化分析(最新B站番剧排行榜数据)

    本博客将会对B站番剧排行榜的数据进行信息爬取以及数据可视化分析,适应最新的B站网页结构 参考大佬:https://blog.csdn.net/Jacompol/article/details/1116 ...

  6. python爬虫可视化excel_Python爬虫以及数据可视化分析!

    简单几步,通过Python对B站番剧排行数据进行爬取,并进行可视化分析 下面,我们开始吧! PS: 作为Python爬虫初学者,如有不正确的地方,望各路大神不吝赐教[抱拳] 本项目将会对B站番剧排行的 ...

  7. Python爬虫+数据分析+数据可视化(分析《雪中悍刀行》弹幕)

    Python爬虫+数据分析+数据可视化(分析<雪中悍刀行>弹幕) 哔哔一下 爬虫部分 代码部分 效果展示 数据可视化 代码展示 效果展示 视频讲解 福利环节 哔哔一下 雪中悍刀行兄弟们都看 ...

  8. 【计算机专业毕设之基于python猫咪网爬虫大数据可视化分析系统-哔哩哔哩】 https://b23.tv/jRN6MVh

    [计算机专业毕设之基于python猫咪网爬虫大数据可视化分析系统-哔哩哔哩] https://b23.tv/jRN6MVh https://b23.tv/jRN6MVh

  9. python 爬虫及数据可视化展示

    python 爬虫及数据可视化展示 学了有关python爬虫及数据可视化的知识,想着做一些总结,加强自己的学习成果,也能给各位小伙伴一些小小的启发. 1.做任何事情都要明确自己的目的,想要做什么,打算 ...

最新文章

  1. Python 学习之二: module, import 与 import as
  2. 数据库弱一致性四个隔离级别
  3. LCS最大公共子序列【转载】
  4. Linux的chmod与chgrp
  5. java web 项目打成war包部署到服务器上
  6. java client和servers_“java -server”和“java -client”之间的真正区别?
  7. 关于挽救爱情的一次求学尝试
  8. aboutsqlserver.com:mvp
  9. linux文件目录类命令|--history指令
  10. 矩阵拼接_numpy 矩阵拼接
  11. efucms搭建教程_EFUCMS E16小说漫画系统源码 最新完美UI设计漫画/听书直播源码程序...
  12. spring 注解方式动态代理
  13. 般若波多密心经读书心得(一)
  14. Java后端技术栈,到底如何深入学习?
  15. 千年古都西安 一座城市的辉煌与梦想
  16. PTA 2-1 旅游规划(最短路径问题)简单floyd算法
  17. 计算机c盘变大,关于C盘可用空间忽大忽小的问题 变化很快 幅度很大~~~
  18. iphone换android手机铃声,iphone12如何设置铃声?iphone12更换铃声方式分享[多图]
  19. echarts实现中国地图数据展示
  20. 查找算法之元二分搜索|单边二分搜索

热门文章

  1. 2016大数据企业排行榜揭示中国数据发展
  2. 旅游网站推广经验的个人心得和看法!
  3. Linux 7配置Proxy Server
  4. 【Cocos开发者大会】触控科技CEO陈昊芝群访实录
  5. ERP项目部员工年度工作总结(2006年度)
  6. 笔记本调用自身摄像头问题大汇总(video0找不到,进程杀死,资源锁问题,响应延迟等等)
  7. Java简单实现滑动窗口
  8. SEO外链对网站排名提升的帮助
  9. 神经网络 mse一直不变_MATLAB中的神经网络工具箱(2)函数命令及模型搭建
  10. python入门之文件的读写