Python爬虫实战(三) 免登录爬取东野圭吾超话——看看你喜欢的书上榜没?
微博爬虫可以不借助selenium,直接用Chrome下的手机端模式打开,找到其封装的json数据,即可爬取,具体步骤如下。
分析过程
以东野圭吾超话为例,网址为微博超话。进入页面后,使用Chrome浏览器的检查功能,打开手机端模式如下:
刷新界面,进行抓包,可发现数据的封装地址。
接下来,我们分析一下翻页原理,向下滑动界面,对比两者的URL
不难发现,只有since_id不一样。那就找到第一条url的json数据,看看有没有第二条url的since_id。经过分析发现,第二条的url的since_id在第一条url的PageInfo下!这样,我们就可以翻页啦!
爬取代码:
微博反爬还是有点厉害的!一开始,我只用了一个用户代理,没爬到几条数据后就被检测出来了。然后,换了随机用户代理后,IP地址又被封了。所以,还是老老实实构建代理池弄吧。(IP都是网上找的免费可用的,自己可以先用代码检测一下活性)
import requests
import json
import re
import os
import time,random
os.chdir('C:/Users/dell/Desktop')
import pandas as pd
from w3lib.html import remove_tags
base_url='''
https://m.weibo.cn/api/container/getIndex?containerid=1008082daf12cb79491a80017ae2546cc6f49f_-_feed&luicode=10000011
&lfid=100103type%3D533%26t%3D10%26q%3D%E4%B8%9C%E9%87%8E%E5%9C%AD%E5%90%BE&since_id=4487749686029266
'''
head_list=["Opera/9.80 (X11; Linux i686; Ubuntu/14.10) Presto/2.12.388 Version/12.16","Opera/9.80 (Windows NT 6.0) Presto/2.12.388 Version/12.14","Mozilla/5.0 (Windows NT 6.0; rv:2.0) Gecko/20100101 Firefox/4.0 Opera 12.14","Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.0) Opera 12.14","Opera/12.80 (Windows NT 5.1; U; en) Presto/2.10.289 Version/12.02",]
ip=['114.101.42.16:65309','220.179.255.7:8118','103.44.145.182:8080','115.223.7.110:80']
proxy={'http':random.choice(ip)}
header={'user-agent':random.choice(head_list)}
pat='since_id=(.*)'
inf=[]
for page in range(1,300):try:r=requests.get(base_url,headers=header,proxies=proxy)df=json.loads(r.text)since_id=df.get('data').get('pageInfo').get('since_id')data=df.get('data').get('cards')[0].get('card_group')for item in data:send_time=item.get('mblog').get('created_at')content=remove_tags(item.get('mblog').get('text'))inf.append([send_time,content])base_url=re.sub(pat,'since_id='+str(since_id),base_url)print('第{}页写入完毕'.format(page))time.sleep(random.randint(3,5))except:print('未爬到数据')
inf1=pd.DataFrame(inf,columns=['发布时间','内容'])
inf1.to_csv('daily_comment.csv',index=False,encoding='gb18030')
数据可视化
时间范围:2019年3月——2020年3月
计数方式:单条微博提到书籍名则计数一次,重复则按一条来算
1. 统计各类书籍总讨论次数
《白夜行》一骑绝尘,在一年中书友们讨论了181次;紧跟其后的则是《恶意》,共讨论了140次;第三名则是《信》,共讨论了90次。由此可见,这三本在书迷中的人气较高哦,安利给大家~
2. 按月份统计书籍讨论次数
从上图来看,《白夜行》依旧是东野粉的至爱呀,一年中有半年的时间占讨论次数榜首;《恶意》也紧跟其后,分别在1月和8月占据榜首;《信》在2月和9月占据榜首;《祈祷落幕时》在4月讨论次数最多,《沉默的巡游》是最近才出的新书,故占据了3月的榜首。
3. 统计书中人物的讨论次数
亮司和雪穗是《白夜行》的男女主角,石神是《嫌疑人X的献身》的男主角。而加贺和汤川则是东野圭吾笔下两个十分有特色的人物。加贺是一名警官,既有缜密的推理能力,心中又有一份温柔,正因为如此,所以深受大家喜爱。而汤川是一名物理学家,时常帮助警方处理案件。相对加贺而言,看待事物更加理性、客观,也深受书迷们的追捧。
4. 讨论词云图
从词语图来看,“嫌疑人”、“杀人”、“系列”、"凶手"等词语出现频率较高,毕竟东叔是推理小说家嘛!
5.书籍关联图
对微博文字内容进行分词,并构建共现字典,查看哪些书最容易一起被提到。使用Gephi进行可视化,得到下图:
上图的线条越粗,说明两本书的关联程度越高!即微博里的用户经常一起提到这两本书。《白夜行》和《恶意》是经常一起被提到!此外,《白夜行》还和《幻夜》一起被提到的(也难怪《幻夜》是《白夜行》的姊妹篇!)
Python爬虫实战(三) 免登录爬取东野圭吾超话——看看你喜欢的书上榜没?相关推荐
- Python 爬虫实战,模拟登陆爬取数据
Python 爬虫实战,模拟登陆爬取数据 从0记录爬取某网站上的资源连接: 模拟登陆 爬取数据 保存到本地 结果演示: 源网站展示: 爬到的本地文件展示: 环境准备: python环境安装 略 安装r ...
- Python爬虫实战系列(一)-request爬取网站资源
Python爬虫实战系列(一)-request爬取网站资源 python爬虫实战系列第一期 文章目录 Python爬虫实战系列(一)-request爬取网站资源 前言 一.request库是什么? 二 ...
- python爬虫实战(一)--爬取知乎话题图片
原文链接python爬虫实战(一)–爬取知乎话题图片 前言 在学习了python基础之后,该尝试用python做一些有趣的事情了–爬虫. 知识准备: 1.python基础知识 2.urllib库使用 ...
- Python爬虫实战之一 - 基于Requests爬取拉勾网招聘信息,并保存至本地csv文件
Python爬虫实战之二 - 基于Requests抓取拉勾网招聘信息 ---------------readme--------------- 简介:本人产品汪一枚,Python自学数月,对于小白,本 ...
- Python爬虫实战案例一:爬取猫眼电影
背景 笔者上一篇文章<基于猫眼票房数据的可视化分析>中爬取了猫眼实时票房数据,用于展示近三年电影票房概况.由于数据中缺少导演/演员/编剧阵容等信息,所以爬取猫眼电影数据进行补充.关于爬虫的 ...
- 【Python爬虫实战】使用Selenium爬取QQ音乐歌曲及评论信息
本文对使用到的技术仅做简单的介绍,若想了解更多,请前往相应的官网网站进行学习. 本文适合对爬虫相关知识接触不多的新手,主要是普及Selenium如何做爬虫,大佬请跳过. 1.Selenium简单介绍 ...
- Python爬虫实战,QQ音乐爬取全部歌曲
前景介绍 最近小伙伴们听歌的兴趣大涨,网抑云综合症已经遍布各地. 咱们再来抬高一波QQ音乐的热度吧. 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里 ...
- python爬虫实战之百度新闻爬取
百度新闻信息爬取 目录 百度新闻信息爬取 序言 获取在百度新闻中搜索"阿里巴巴"的网页源代码 编写正则表达式提取新闻信息 数据清洗并打印输出 实战完整代码 序言 通过对百度新闻标 ...
- Python爬虫实战案例:一键爬取,多种网页模板任你选!
文章目录 一.网页查看 二.网页爬取数据分析 三.代码分析 四.图片辅助分析 五.运行结果 CSDN独家福利降临!!! 更多博主开源爬虫教程目录索引 一.网页查看 进入网页模板 多页爬取 二.网页爬取 ...
最新文章
- 介绍Python中的__future__模块
- 网站更新的文章如何被百度快速收录?
- smooth_L1_loss_layer.cu解读 caffe源码初认识
- boost::units模块实现用常量测试所有运算符的组合的测试程序
- SQL SERVER 2008的GEOMETRY类型
- redis 分布式中间件设计分析
- 机器学习的分类与主要算法
- tf.app.flags
- 图像处理实践 | 水果图像的识别与分类
- Pimple Containter 容器使用实例代码
- MySQL 规范数据库设计
- 帆软内置数据集实现决策报表联动
- android监听耳机,Android监听耳机按键事件
- python 的StringIO
- 以太坊:Web3.js 0.20 使用说明
- 11gRAC权限问题导致的集群及数据库无法启动
- 三皇时期的远古帝王---地皇
- OpenCv图像处理之resize(缩放)、transpose、rotate(旋转)、flip(翻转)介绍
- 苹果vs剪辑下载_苹果自带APP到底有多好用?这六款你真的要用起来
- 5G全国覆盖还需6-7年时间?来看看各地5G最新进展与规划